Investigación sobre cuentas semilla y sus redes de interacción en X
Esta investigación documenta que las cuentas semilla (puntos de partida seleccionados) presentan patrones de interacción automatizada dentro de sus redes en X. No se busca clasificar cuentas individuales como bots, sino evidenciar que los patrones de red y comportamiento observados en sus interacciones son consistentes con actividad coordinada y no orgánica.
Los datos se encuentran en fase de recolección activa. Las cifras presentadas corresponden a un corte en el tiempo y se actualizan periódicamente a medida que avanza el análisis.
Cuenta semilla: Usuario seleccionado como punto de partida. A partir de su perfil se extraen sus contactos (a quienes sigue y quiénes lo siguen).
Candidato: Cuenta que aparece en la red de una semilla. Se analiza su perfil, sus publicaciones y sus patrones de actividad.
Salto (hop): hop=0 son las semillas originales; hop=1 son los contactos directos descubiertos a partir de ellas.
Fase 1 — Heurísticas (37+ señales): Se evalúa el perfil (biografía, foto, antigüedad), la actividad temporal (frecuencia, horarios, intervalos) y el contenido (original vs. amplificado). Las cuentas que superan un umbral mínimo pasan a la Fase 2.
Fase 2 — Análisis LLM: Un modelo de lenguaje (Llama 3.1 8B) ejecuta 6 consultas que analizan la cuenta desde 4 dimensiones independientes, más una validación cruzada:
| Dimensión | Qué busca | Ejemplo de señal |
|---|---|---|
| C Contenido |
Si el texto suena a IA o a persona real. Frases formulaicas, estructura repetitiva, paráfrasis del mismo punto una y otra vez, amplificación sin aporte propio. | "Es importante destacar que..." |
| B Comportamiento |
Cómo interactúa: solo responde o también inicia, si sus argumentos son circulares, si muestra rango emocional (ironía, humor, enojo genuino) o es plano. | Siempre responde, nunca inicia |
| N Red |
Si sus interacciones son con un grupo variado de personas o siempre con las mismas cuentas formando un clúster cerrado. Patrones de amplificación mutua. | Interactúa solo con 3 cuentas fijas |
| T Monotema |
Si la cuenta habla de múltiples temas o gira siempre alrededor de una única narrativa. Vocabulario variado o repetitivo. | 90% de tweets sobre el mismo tema |
Validación cruzada: Un quinto análisis compara las 4 dimensiones anteriores buscando contradicciones. Si una persona "suena real" en el análisis de contenido pero su red es un clúster cerrado, se ajusta la puntuación final. Esto evita tanto falsos positivos como cuentas que se esconden siendo convincentes en una sola dimensión.
Cada dimensión produce un puntaje de 0 a 100. Si al menos 2 dimensiones superan 50/100, la cuenta acumula evidencia adicional de comportamiento no orgánico.
Las 25 cuentas semilla monitoreadas. La columna «Candidatos generados» indica cuántas cuentas de su red fueron descubiertas y analizadas. Un número alto de candidatos sugiere una red de interacción más densa.
| Usuario | Score anomalía | Veces analizada | Candidatos generados |
|---|
Señales observadas en las cuentas analizadas que son consistentes con actividad automatizada o coordinada.
Cuentas con períodos de silencio de semanas o meses, seguidas de ráfagas de actividad intensa. Este patrón sugiere cuentas que se activan bajo demanda.
longSilence burstActivity sporadicActivityMúltiples publicaciones en ventanas de pocos minutos, con intervalos sospechosamente regulares. Inconsistente con el comportamiento humano orgánico.
burstActivity intervalConsistency temporalClusterCuentas sin biografía, sin foto de perfil personalizada o con nombres genéricos. La ausencia de personalización es una característica recurrente en cuentas automatizadas.
bioEmpty hasDefaultPhoto usernameDigits ghostAccountPorcentajes elevados de publicaciones entre las 2:00 y 5:00 AM, horario atípico para actividad humana orgánica sostenida.
nightActivity flatHourDistributionCuentas que amplifican contenido ajeno sin generar material propio, o que producen variaciones sintácticas del mismo mensaje central.
rtPercentHigh amplificationRatio lowOriginalPercentCuando 3 o más señales temporales se activan simultáneamente, la evidencia de automatización se fortalece significativamente. Este patrón compuesto es la señal más fuerte observada.
temporalClusterLas 15 cuentas con score más alto. Las puntuaciones LLM (0-100) indican qué tan fuerte el modelo detectó patrones de automatización en contenido (C), comportamiento (B), red (N) y monotema (T).
| Usuario | Score global | LLM Contenido | LLM Comportamiento | LLM Red | LLM Monotema | Pases (≥50) |
|---|
Cuántos candidatos generó cada semilla (top 10). Muestra qué semillas tienen redes de interacción más densas.
Distribución de puntuaciones de detección en todas las cuentas analizadas.
Fase actual: Exploración de grafo — analizando candidatos hop=1. Una vez completado, se procederá a re-análisis de cuentas pendientes y nuevo ciclo de exploración.
25 de 25 cuentas semilla han pasado por al menos un ciclo de análisis.
536 de 536 candidatos descubiertos han sido procesados en este ciclo.
90% evaluados solo con heurísticas. 10% pasaron al análisis profundo LLM.
Los datos presentados en este documento corresponden a un corte en el tiempo. La investigación se encuentra en curso y los resultados se actualizan periódicamente a medida que se completan nuevos ciclos de análisis.
Esta investigación no busca clasificar cuentas individuales, sino documentar patrones de interacción observados en las redes de las cuentas semilla.
Esta investigación se cimenta en trabajos académicos sobre detección de comportamiento automatizado en redes sociales, metodologías de análisis heurístico y clasificación mediante modelos de lenguaje.
El análisis se estructura en dos fases complementarias. La Fase 1 aplica 37+ señales heurísticas en cuatro categorías: perfil (biografía, foto, antigüedad, ratio seguidores), temporal (frecuencia, horarios, intervalos, bursts, entropía), contenido (original vs. amplificado, diversidad de vocabulario, fijación temática) y red (mutuales, interacciones con bots conocidos, grado de aislamiento). Estas señales se calibraron con base en la literatura académica citada.
La Fase 2 emplea el modelo Llama 3.1 8B vía Groq API para clasificar cuentas que superan el umbral heurístico. Cada cuenta es evaluada en 4 dimensiones (contenido, comportamiento, red, monotema) más una validación cruzada que detecta contradicciones entre dimensiones. Este enfoque multi-dimensional reduce tanto falsos positivos como cuentas que evaden detección siendo convincentes en una sola dimensión.
La propagación desde las cuentas semilla utiliza un recorrido BFS (búsqueda en anchura) de profundidad 1: hop=0 son las semillas, hop=1 son los contactos directos (following/followers) extraídos de cada semilla. El puntaje final de detección incorpora un decay por distancia para evitar que cuentas lejanas a la semilla generen falsos positivos.