Securización de la exposición de datos bajo Open Data
Ponencia de Juan Antonio González perteneciente al módulo Bases de datos y desarrollo de software seguro de C1b3rWall Academy 22/23
Tiempo de lectura estimado: 7 minutos
¿Qué son los datos abiertos y por qué se utilizan?
Los datos abiertos son datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, y que se encuentran sujetos, cuando más, al requerimiento de atribución y de compartirse de la misma manera en que aparecen.
Tal y como define Agustí Cerillo, catedrático de Derecho Administrativo, la apertura de los datos públicos persigue facilitar la reutilización de la información del sector público a través del uso intensivo de las tecnologías de la información y la comunicación.
Características de los datos abiertos
- En primer lugar, los datos abiertos son información disponible y accesible, generalmente por nodos de internet.
- Esa información es reutilizable y redistribuible. Sus términos legales de uso deben permitir reutilizarlos e integrarlos con otros conjuntos de datos.
- Los datos abiertos son también enlazables, es decir, integran información que puede ser enlazada con otro tipo de información procedente de diferentes fuentes.
Marco normativo: Europa
El "aviso legal"
Existe una amplia pluralidad normativa (europea, estatal, local...). Al ofertar los datos se debe simplificar esa normativa manteniendo el rigor y la seguridad de los mismos, así como las garantías y derechos de los ciudadanos. La solución es añadir a los datos un aviso legal o normas de uso, es decir, la recopilación a título informativo de normativas aplicables y la información del tipo de licencia aplicada al uso de los datos abiertos.
Reutilización de los datos
Hay varios modos de reutilizar los datos:
- Sin sujeción a condiciones específicas (por defecto).
- Con sujeción a ciertas condiciones, por ejemplo, las licencias Creative Commons, que implica que se debe tener el reconocimiento de aquel que proporciona los datos.
- Previa solicitud (caso más restrictivo): la Administración decide en qué modalidad deja reutilizar los datos.
Reducción de datos
Todos los conjuntos de datos pueden ser ofrecidos para su reutilización siempre y cuando no exista una normativa que diga lo contrario. Se descartan ciertos conjuntos de datos como los de carácter personal si no se hace una previa disociación de datos, así como los que contengan información confidencial.
Datos personales y recomendaciones
Para realizar la correcta disociación de los datos personales hay una serie de recomendaciones. En primer lugar, los datos personales son cualquier información relativa a una persona física viva identificada o identificable. Las distintas informaciones, que recopiladas pueden llevar a la identificación de una determinada persona, también constituyen datos de carácter personal. Las recomendaciones son las siguientes:
- Revisar los procesos automatizados, ya que, al ser tareas automatizadas, pueden incluirse datos que no deberían haberse incluido en ciertos campos o áreas de información.
- Tener cuidado con los formatos oficiales, ya que ciertos campos de carácter personal forman parte de otros.
- Pseudonimizar para la disociación de datos personales, por ejemplo, reemplazar un atributo por otro ficticio o colocar asteriscos en el DNI, siendo lo más recomendable la anonimización total del individuo.
Agrupaciones para anonimizar
Las agrupaciones de rangos permiten agrupar valores pequeños en conjuntos denominados como "otros", "varios" o "resto. Estas agrupaciones se producen en base a diversas fórmulas, aunque existen problemas añadidos, y es que, al agrupar, la información ya no es completa, ya que ciertos datos se pierden.
Conclusiones
- Los datos generados automáticamente tienen mayor calidad: la automatización provoca menos errores, pero hay que revisarlos periódicamente.
- Los datos enlazados aportan mayor información.
- Revisión de permisos y licencias de los datos: revisar normas de uso.
- Comprobación de la anonimización de los datos: agrupaciones, si es posible, evitando la pérdida de información.
¿Todavía no formas parte de C1b3rWall Academy? El contenido es gratuito, únete a otras miles de personas desde este enlace.
Si te interesa este tema, puedes consultar la información y cursar el Máster en Ciberseguridad o ver la oferta de másteres desde aquí.
Ponente: Juan Antonio González Ramos
Juan Antonio es ingeniero informático y analista de los Servicios Informáticos de la Universidad de Salamanca desde 1996. Colabora en diversos másteres y ponencias sobre Seguridad Informática.
- Redes sociales: LinkedIn.
¿Cuál es tu reacción?