Detección de perfiles terroristas en Telegram con IA

Ponencia de Pablo Plaza Martínez perteneciente al módulo La deep y la dark web. La web profunda de C1b3rWall Academy 22/23

Detección de perfiles terroristas en Telegram con IA

Tiempo de lectura estimado: 9 minutos


Esta charla pretende mostrar un prototipo de una solución que utiliza inteligencia artificial al análisis de sentimiento en mensajes, aplicable a cualquier red social o fuente de datos. 

Una introducción similar a la definición de deep web y el acceso a la información puede leerse en el resumen de la ponencia "Brechas de datos en la dark web", perteneciente al mismo módulo de C1b3rWall Academy 22/23.

¿Qué información se puede obtener en Telegram y cómo?

La información de un chat no está indexada, por lo que hay que hacer uso de técnicas específicas. El objetivo es extraer conversaciones de los usuarios para aplicar técnicas de minería de datos, obtener patrones de comportamiento y detectar información relevante. Para ello, se debe interactuar con la API proporcionada por el servicio de mensajería. A través de ella se puede obtener información como la lista de usuarios pertenecientes al grupo, listar los mensajes, volcarlos y analizarlos.

El sistema, mediante funcionamiento en tiempo real, va a ir analizando cada nuevo mensaje recopilado a través del proceso de extracción e identificando, en este caso, el "perfil terrorista". 

Recolección de mensajes

Creación y configuración del bot

Para crear un bot se debe abrir una conversación con @BotFather. El comando para crearlo es /newbot, indicando un nombre y una descripción. Automáticamente, se generará un token o código de autorización, necesario para que pueda usar la API. Se debe crear un programa que gestione automáticamente las acciones del bot, en este caso la recopilación de todos los mensajes en conversaciones o grupos.

Infiltración del bot en un grupo con posibles objetivos

Habría que iniciar un proceso de localización de grupos objetivo, ya que suelen tener poca visibilidad. Muchos de estos grupos tienen control de acceso a bots, por lo que habría que introducirlo manualmente. En la práctica, es complicado conseguir una infiltración real y completa de un bot, pero es viable desarrollar un sistema automático de gestión de cuentas para generar bots que no sean los oficiales de Telegram.

Sistema de persistencia

Hace referencia al lugar donde se almacena la información recogida por el bot. Se propone MongoDB, una base de datos basada en documentos que permite almacenar información de forma eficiente y rápida sin que esté estructurada. Además, es escalable y ofrece gran rendimiento en tiempo real. 

Módulo de traducción

Debido a que los mensajes pueden ser recibidos en distintos idiomas, hay que introducir esta herramienta, que permite traducir los mensajes originales a inglés sin perder su significado, para que el resultado sea lo más coherente posible. 

Módulo de análisis de sentimiento, intenciones y violencia

Una vez traducidos los mensajes, se realiza el análisis de sentimiento para estudiar si, en un texto concreto, hay contenido negativo, neutro o positivo. Una vez entrenado el modelo, este es evaluado de cara a probar su comportamiento. Este proceso se realiza ejecutando las predicciones contra el subconjunto de datos separado en un principio para su testeo, obteniendo un porcentaje de acierto superior al 90%. 

Además del sentimiento, hay un enfoque basado en las intenciones, que analiza si en el texto se está opinando sobre cualquier aspecto o afirmando sobre ello y aportando información. Para ello, se atiende a la subjetividad en el texto analizado y se otorga un valor entre 0 y 1.

Por otro lado, el módulo de análisis de violencia pretende detectar mensajes que inciten al odio, así como el lenguaje ofensivo. El modelo está basado en un algoritmo diseñado por Google para el procesamiento del lenguaje natural: Bidirectional Encoder Representations from Transformers (BERT).

Conclusiones

A modo de conclusión se puede afirmar lo siguiente:

  • La aplicación de IA permite realizar análisis que se alejan de la escala humana y su uso va a ir incrementándose con el paso del tiempo.
  • Un grupo de Telegram u otros datos de redes sociales pueden ser considerados fuentes de datos de la deep web, y, en el caso de este servicio de mensajería, para acceder a esta información se debe pertenecer a la conversación.
  • Un bot puede ser utilizado para extraer datos, pero es difícil conseguir una infiltración real mediante el uso de esta técnica, aunque se pueden automatizar los procesos para monitorizar cuentas.
  • Se ha desarrollado una técnica de valoración de mensajes que permite conocer su intención, su actitud y si contienen palabras de odio.
  • Como mejora, habría que incluir un sistema de alerta para que algún experto evalúe de forma manual el mensaje y pueda hacer un seguimiento del perfil. 

¿Todavía no formas parte de C1b3rWall Academy? El contenido es gratuito, únete a otras miles de personas desde este enlace.

Si te interesa este tema, puedes consultar la información y cursar el Máster en Ciberseguridad o ver la oferta de másteres desde aquí.


Ponente: Pablo Plaza Martínez

Pablo es project manager del departamento de ciberseguridad del Grupo de Investigación BISITE, además de profesor del máster en Ciberseguridad de la Universidad de Salamanca. 

¿Cuál es tu reacción?

like

dislike

love

funny

angry

sad

wow

Acción formativa gratuita en ciberseguridad. Web: https://c1b3rwallacademy.usal.es/