Análisis de Patrones de Interacción Automatizada

Resumen

Esta investigación documenta que las cuentas semilla (puntos de partida seleccionados) presentan patrones de interacción automatizada dentro de sus redes en X. No se busca clasificar cuentas individuales como bots, sino evidenciar que los patrones de red y comportamiento observados en sus interacciones son consistentes con actividad coordinada y no orgánica.

Los datos se encuentran en fase de recolección activa. Las cifras presentadas corresponden a un corte en el tiempo y se actualizan periódicamente a medida que avanza el análisis.

561

Cuentas analizadas

Cuentas semilla

536

Candidatos en su red

Análisis profundos (LLM)

Metodología

Conceptos básicos

Cuenta semilla: Usuario seleccionado como punto de partida. A partir de su perfil se extraen sus contactos (a quienes sigue y quiénes lo siguen).

Candidato: Cuenta que aparece en la red de una semilla. Se analiza su perfil, sus publicaciones y sus patrones de actividad.

Salto (hop): hop=0 son las semillas originales; hop=1 son los contactos directos descubiertos a partir de ellas.

Fases de análisis

Fase 1 — Heurísticas (37+ señales): Se evalúa el perfil (biografía, foto, antigüedad), la actividad temporal (frecuencia, horarios, intervalos) y el contenido (original vs. amplificado). Las cuentas que superan un umbral mínimo pasan a la Fase 2.

Fase 2 — Análisis LLM: Un modelo de lenguaje (Llama 3.1 8B) ejecuta 6 consultas que analizan la cuenta desde 4 dimensiones independientes, más una validación cruzada:

Dimensión	Qué busca	Ejemplo de señal
C Contenido	Si el texto suena a IA o a persona real. Frases formulaicas, estructura repetitiva, paráfrasis del mismo punto una y otra vez, amplificación sin aporte propio.	"Es importante destacar que..."
B Comportamiento	Cómo interactúa: solo responde o también inicia, si sus argumentos son circulares, si muestra rango emocional (ironía, humor, enojo genuino) o es plano.	Siempre responde, nunca inicia
N Red	Si sus interacciones son con un grupo variado de personas o siempre con las mismas cuentas formando un clúster cerrado. Patrones de amplificación mutua.	Interactúa solo con 3 cuentas fijas
T Monotema	Si la cuenta habla de múltiples temas o gira siempre alrededor de una única narrativa. Vocabulario variado o repetitivo.	90% de tweets sobre el mismo tema

Validación cruzada: Un quinto análisis compara las 4 dimensiones anteriores buscando contradicciones. Si una persona "suena real" en el análisis de contenido pero su red es un clúster cerrado, se ajusta la puntuación final. Esto evita tanto falsos positivos como cuentas que se esconden siendo convincentes en una sola dimensión.

Cada dimensión produce un puntaje de 0 a 100. Si al menos 2 dimensiones superan 50/100, la cuenta acumula evidencia adicional de comportamiento no orgánico.

Cuentas semilla

Las 25 cuentas semilla monitoreadas. La columna «Candidatos generados» indica cuántas cuentas de su red fueron descubiertas y analizadas. Un número alto de candidatos sugiere una red de interacción más densa.

Usuario	Score anomalía	Veces analizada	Candidatos generados

Patrones de comportamiento detectados

Señales observadas en las cuentas analizadas que son consistentes con actividad automatizada o coordinada.

Inactividad prolongada + actividad súbita

Cuentas con períodos de silencio de semanas o meses, seguidas de ráfagas de actividad intensa. Este patrón sugiere cuentas que se activan bajo demanda.

longSilence burstActivity sporadicActivity

Actividad en ráfaga

Múltiples publicaciones en ventanas de pocos minutos, con intervalos sospechosamente regulares. Inconsistente con el comportamiento humano orgánico.

burstActivity intervalConsistency temporalCluster

Perfiles mínimos

Cuentas sin biografía, sin foto de perfil personalizada o con nombres genéricos. La ausencia de personalización es una característica recurrente en cuentas automatizadas.

bioEmpty hasDefaultPhoto usernameDigits ghostAccount

Actividad nocturna anómala

Porcentajes elevados de publicaciones entre las 2:00 y 5:00 AM, horario atípico para actividad humana orgánica sostenida.

nightActivity flatHourDistribution

Contenido genérico sin aporte original

Cuentas que amplifican contenido ajeno sin generar material propio, o que producen variaciones sintácticas del mismo mensaje central.

rtPercentHigh amplificationRatio lowOriginalPercent

Cluster temporal de señales

Cuando 3 o más señales temporales se activan simultáneamente, la evidencia de automatización se fortalece significativamente. Este patrón compuesto es la señal más fuerte observada.

temporalCluster

Cuentas con mayor puntuación de anomalía

Las 15 cuentas con score más alto. Las puntuaciones LLM (0-100) indican qué tan fuerte el modelo detectó patrones de automatización en contenido (C), comportamiento (B), red (N) y monotema (T).

Usuario	Score global	LLM Contenido	LLM Comportamiento	LLM Red	LLM Monotema	Pases (≥50)

Visualizaciones

Candidatos por cuenta semilla

Cuántos candidatos generó cada semilla (top 10). Muestra qué semillas tienen redes de interacción más densas.

Distribución por nivel de anomalía

Distribución de puntuaciones de detección en todas las cuentas analizadas.

Composición de la muestra

Cuentas semilla (4.5%) Candidatos (95.5%)

Estado del análisis

25 seeds

536/536 cand.

Re-check

Próximo ciclo

Completado En curso Pendiente

Fase actual: Exploración de grafo — analizando candidatos hop=1. Una vez completado, se procederá a re-análisis de cuentas pendientes y nuevo ciclo de exploración.

Estado del análisis

Semillas procesadas

25 de 25 cuentas semilla han pasado por al menos un ciclo de análisis.

100%

Candidatos analizados

536 de 536 candidatos descubiertos han sido procesados en este ciclo.

90% heurísticas

10% LLM

90% evaluados solo con heurísticas. 10% pasaron al análisis profundo LLM.

Próximos pasos

Re-análisis de cuentas con análisis pendiente (rate-limited)
Re-check de cuentas en seguimiento activo (58 cuentas)
Nuevo ciclo de exploración desde semillas
Actualización de este informe con datos frescos

Nota importante

Los datos presentados en este documento corresponden a un corte en el tiempo. La investigación se encuentra en curso y los resultados se actualizan periódicamente a medida que se completan nuevos ciclos de análisis.

Esta investigación no busca clasificar cuentas individuales, sino documentar patrones de interacción observados en las redes de las cuentas semilla.

Fuentes

Esta investigación se cimenta en trabajos académicos sobre detección de comportamiento automatizado en redes sociales, metodologías de análisis heurístico y clasificación mediante modelos de lenguaje.

Investigación académica

Varol, Ferrara, Davis, Menczer, Flammini (2017) — Online Human-Bot Interactions: Detection, Estimation, and Characterization. ICWSM. Base del sistema Botometer con más de 1000 features. Estimación: 9-15% de cuentas activas en X son bots.
Pozzana & Ferrara (2018) — Measuring bot and human behavioral dynamics. Demuestra que los bots carecen de los patrones cognitivos de corto plazo que sí presentan los humanos en sesiones de actividad.
Mazza, Cresci, Avvenuti, Quattrociocchi, Tesconi (2019) — RTbust: Exploiting Temporal Patterns for Botnet Detection on Twitter. WebSci. Los patrones temporales de retweet son la señal más discriminativa (F1=0.87). Inspira el sistema de clusters temporales.
Ferrara, Varol, Davis, Menczer, Flammini (2016) — The Rise of Social Bots. Communications of the ACM. Establece los criterios clásicos de detección: patrones temporales, sentimiento, ratio follows/followers, variabilidad de mensajes.
Gambini, Tardelli, Tesconi (2023) — The Anatomy of Conspirators. Computer Communications. Los metadatos de perfil NO diferencian entre cuentas reales y automatizadas; el comportamiento y la actividad SÍ.
Cho & Yoon (2026) — Amplification to Synthesis: A Comparative Analysis of Cognitive Operations Before and After Generative AI. arXiv:2605.13785. Paradoja de variedad sintética: los bots impulsados por IA generativa usan vocabulario variado pero repiten el mismo mensaje central.
Qiao, Li, Zhou, Li, Lu, Hu (2024) — BotSim: LLM-Powered Malicious Social Botnet Simulation. arXiv:2412.13420. Los bots con LLM evaden la detección tradicional. Se necesitan nuevas estrategias basadas en patrones de red y comportamiento.
Zhou, Jin, Wu, Chen, Wang (2023) — Do fake followers mitigate influencers' perceived influencing power?. Journal of Business Research. Las cuentas fantasma usadas para inflar métricas son uno de los tipos de automatización más comunes.
Lindquist (2021) — Good Enough Imposters: The Market for Instagram Followers in Indonesia and Beyond. Bristol University Press. Documenta el mercado negro de seguidores falsos y la infraestructura de cuentas automatizadas.

Metodología

El análisis se estructura en dos fases complementarias. La Fase 1 aplica 37+ señales heurísticas en cuatro categorías: perfil (biografía, foto, antigüedad, ratio seguidores), temporal (frecuencia, horarios, intervalos, bursts, entropía), contenido (original vs. amplificado, diversidad de vocabulario, fijación temática) y red (mutuales, interacciones con bots conocidos, grado de aislamiento). Estas señales se calibraron con base en la literatura académica citada.

La Fase 2 emplea el modelo Llama 3.1 8B vía Groq API para clasificar cuentas que superan el umbral heurístico. Cada cuenta es evaluada en 4 dimensiones (contenido, comportamiento, red, monotema) más una validación cruzada que detecta contradicciones entre dimensiones. Este enfoque multi-dimensional reduce tanto falsos positivos como cuentas que evaden detección siendo convincentes en una sola dimensión.

La propagación desde las cuentas semilla utiliza un recorrido BFS (búsqueda en anchura) de profundidad 1: hop=0 son las semillas, hop=1 son los contactos directos (following/followers) extraídos de cada semilla. El puntaje final de detección incorpora un decay por distancia para evitar que cuentas lejanas a la semilla generen falsos positivos.