Los modelos de IA también se deben auditar (y es importante)
Ponencia de Fran Ramírez perteneciente al módulo Metaverso, IA y tecnologías inmersivas y transformación digital de C1b3rWall Academy 22/23
Tiempo de lectura estimado: 8 minutos
Engañando a inteligencias artificiales
En la ponencia se muestra un ejemplo de uso de FGSM (Fast Gradient Sign Method) aplicado a una imagen para engañar a la IA Google Cloud Vision para que haga una predicción incorrecta. Si a una imagen se le aplica un determinado ruido, dificulta el reconocimiento de la IA y es posible engañar al modelo de machine learning. Grandes compañías invierten y dedican cada vez más esfuerzos a la seguridad de la IA.
Creación de modelos de IA y adversarial attacks
El fichero que contiene el modelo, en función del entrenamiento y de los datos, puede ser más o menos grande. Posterior a la fase de entrenamiento, y ya con un modelo, está la fase operacional. En esta fase se implementa en una aplicación lo que se ha entrenado y el modelo de negocio.
El modelo anteriormente entrenado se incluye en la subfase de predicción, pasando finalmente a una acción que, en este caso, representa la detención del vehículo del ejemplo utilizado.
Ataques basados en el conocimiento del atacante
Si el enfoque está en el conocimiento del atacante, hay tres tipos de ataques:
- Ataques white box: puede acceder a dataset, parámetros e hiperparámetros.
- Ataques black box: puede acceder a inputs y outputs.
- Ataques gray box: es la combinación de los dos anteriores.
Ataques basados en acciones y objetivos
En este caso, los tres tipos de ataques señalados en la ponencia son:
- Ataques de envenenamiento (poisoning): ocurren dentro de la fase de entrenamiento. Se inyectan los datos de entrenamiento (dataset de entrada) o se "envenena" con ellos.
- Ataques de evasión: es muy parecido al anterior, pero ocurre en la fase operacional.
- Ataques de exploración: ocurre en la fase de entrenamiento y en la de operaciones. Su objetivo final es encontrar los datos que se han utilizado para el entrenamiento.
Ataques FGSM
Estos ataques, de los que se hablaba al inicio, normalmente se aplican a imágenes o aplicaciones de visión artificial, y lo que buiscan es maximizar la pérdida del modelo. Los modelos afectados son los lineales, los no lineales y las redes neuronales. La defensa en este caso consiste en reentrenar el algoritmo, aumentar el número de capas de la red neuronal y regularizar los hiperparámetros de la red.
Ataques de escalado (scaling attacks)
Estos ataques consisten en modificar la imagen de entrada a una red neuronal, de modo que se detecte que es una imagen distinta a la que realmente es. Esto se hace utilizando una técnica de insertado de imágenes pequeñas dentro de la original. Muchos modelos de machine learning utilizan este tipo de escalado. Bibliotecas como TensorFlow, OpenCV o Pillow son vulnerables a los ataques de escalamiento.
En el mundo real y en el día a día, se podrían utilizar estas herramientas y ataques, por ejemplo, con cámaras de seguridad, ya que se podrían entrenar modelos para que no detectasen determinadas caras, engañándola mediante el ataque para que pensara que es otra cara o, directamente, que no hay nadie. También se pueden atacar modelos antispam o de traducción, así como diagnósticos médicos y procesos de imágenes clínicas, lo que supondría impactos y problemas graves en entornos clínicos.
Conclusiones
- Es fundamental incluir la seguridad de los modelos y arquitecturas de inteligencia artificial en el pentesting.
- La única forma de hacer lo anterior es crear aplicaciones operativas que realicen este tipo de tareas de pentesting de forma sencilla y explicativa.
- Si trabajas en ciberseguridad, tarde o temprano tendrás que enfrentarte a este tipo de amenazas.
- El impacto de estos modelos comprometidos en la sociedad y el mundo real es muy severo.
¿Todavía no formas parte de C1b3rWall Academy? El contenido es gratuito, únete a otras miles de personas desde este enlace.
Si te interesa este tema, puedes consultar la información y cursar el Máster en Ciberseguridad o ver la oferta de másteres desde aquí.
Ponente: Fran Ramírez
Fran es ingeniero en Informática de Sistemas, técnico superior en Electrónica Digital y máster universitario en Seguridad Informática. Acumula más de 15 años de experiencia como administrador de sistemas y desde 2017 trabaja como investigador de Ciberseguridad en Telefónica, realizando proyectos relacionados con la ciberseguridad y el machine learning. Contacto: @cybercaronte y www.linkedin.com/in/fjramirezv.
¿Cuál es tu reacción?