Anonimización de datos en Amnesia: un caso práctico en investigación biomédica

Incluido en la revista Ocronos. Vol. III. Nº 2 – Junio 2020. Pág. Inicial: Vol. III;nº2:186

Autora principal (primer firmante): Arántzazu Quiroga Alonso

Fecha recepción: 1 de junio, 2020

Fecha aceptación: 21 de junio, 2020

Ref.: Ocronos. 2020;3(2):186

Autora: Arántzazu Quiroga Alonso

Palabras Clave

Software de anonimización de datos, investigación biomédica, datos personales

publica-TFG-libro-ISBN

Resumen

En la actualidad, los datos referidos a la salud tienen carácter especialmente protegido, lo que conlleva que si queremos trabajar con ellos tengamos bien que obtener un consentimiento informado de aquellas personas a las que se refieren dichos datos, bien que conocer y manejar las técnicas de anonimización de datos. Aquí nos decantaremos por la segunda opción, para lo que utilizaremos la versión online de Amnesia, una herramienta que permite llevar a cabo tanto k-anonimato como km anonimato, y que utiliza algoritmos basados en la supresión y en la generalización.

Introducción

La Ley 17/2007, de 3 de julio, de Investigación Biomédica deja claro en su artículo 4 que:

“Se respetará la libre autonomía de las personas que puedan participar en una investigación biomédica o que puedan aportar a ella sus muestras biológicas, para lo que será preciso que hayan prestado previamente su consentimiento expreso y escrito una vez recibida la información adecuada.

La información se proporcionará por escrito y comprenderá la naturaleza, importancia, implicaciones y riesgos de la investigación, en los términos que establece esta Ley”

De igual forma, el artículo 51 de la Ley 14/2007, de 3 de julio, de Investigación Biomédica nos advierte de que:

“Si no es posible publicar los resultados de una investigación sin identificar a los sujetos fuente, tales resultados solo podrán ser publicados con su consentimiento”.

Y es aquí donde se nos plantea la anonimización de datos como posible alternativa para la publicación de trabajos en investigación biomédica, para lo que nosotros propondremos la herramienta Amnesia, que analizaremos en profundidad seguidamente.

Metodología

Llevaremos a cabo la anonimización de datos personales propuesta sobre una muestra ficticia de 42 individuos, de ambos géneros, con edades comprendidas entre los 20 y los 60 años, a los que se les ha realizado un cribado.

Para anonimizar los datos biomédicos se empleará la versión online 1.1.1 beta de Amnesia (*)1, desarrollada por el Centro de Investigación Athena.

Antes de nada, comentar que para llevar a cabo la anonimización de nuestra muestra lo primero que tendremos que hacer será diferenciar entre los identificadores -o datos que identifican por sí mismos a un individuo- y los cuasiidentificadores -o datos que al combinarlos entre sí pueden identificar a un individuo-, resultando de esta forma que:

(*) Amnesia online versión, https://amnesia.openaire.eu/amnesia/

  • Los campos DNI, nombre y apellidos, número de la seguridad social y dirección son los identificadores.
  • Los campos edad, género, profesión y código postal son los cuasiidentificadores.
  • El campo diagnóstico es la información sensible, es decir aquella información que se considera especialmente protegida.

Bien, una vez que hemos procedido a clasificar los campos que conforman la tabla de datos, se procederá a cargarla en Amnesia. El paso siguiente será eliminar todos aquellos campos que previamente se clasificaron como identificadores, entrando aquí en funcionamiento el algoritmo de supresión de Amnesia.

1-anonimizacion-datos-amnesia

Fig. 1 Amnesia online versión 1.1.1 Beta, “Source”, “Load from Local” https ://amnesia.openaire.eu/amnesia/mydataset.html

En este punto, Amnesia ofrece dos posibles alternativas:

  • Comprobar si nuestros datos están ya anonimizados, indicando en todo caso un valor numérico para k.
  • Proceder a establecer las jerarquías que nos permitirán anonimizar nuestros datos.

En este caso, se procederá directamente a establecer las pertinentes jerarquías, mediante la opción más sencilla, la de “autogenerate hierarchy”.

Amnesia permite seleccionar para cada atributo uno de los siguientes tipos: “distinct” y “range”, según queramos simplemente distinguir los datos o agruparlos por intervalos, veamos un ejemplo de cada tipo:

 Tipo “distinct”

Se aplicará este tipo concreto al atributo profesión.

En este punto, señalar que podemos hacer que todos nuestros datos aparezcan agrupados en la jerarquía correspondiente bien de modo alfabético, bien de modo aleatorio.

Respecto al campo “fanout”, indicar a modo general que cuando más bajo sea el valor numérico de este menor número de datos originales de la tabla en cuestión se agruparán bajo cada nodo, lo cual hará que inevitablemente aumente el número de nodos. Veamos a continuación varios ejemplos al respecto:

Jerarquía creada para el atributo profesión, con un fanout de 4

El fanout 4 equivale a decir que por cada nodo que se cree en el nivel 1, donde hay representados 4 nodos, se harán corresponder en principio 4 de los datos originales pertenecientes al atributo profesión.

2-anonimizacion-datos-amnesia-fanout

Fig. 2, Amnesia online versión 1.1.1 Beta, “Hierarchy”, “Autogenerate Hierarchy” https: //amnesia.openaire.eu/amnesia/myhier.html

Jerarquía creada para el atributo profesión, con un fanout de 6

El fanout 6 equivale a decir que por cada nodo que se cree en el nivel 1, donde hay representados 3 nodos, se harán corresponder en principio 6 de los datos originales pertenecientes al atributo profesión.

3-anonimizacion-datos-amnesia-hierarchy

Fig. 3, Amnesia online versión 1.1.1 Beta, “Hierarchy”, “Autogenerate Hierarchy” https://amnesia.openaire.eu/ amnesia/myhier.html

Tras observar estas dos pruebas se deduce que la mejor opción es la del fanout4, que es la que ofrece mayor número de nodos, o lo que es lo mismo de alternativas para anonimizar los datos.

Tipo “range”

Se aplicará este tipo concreto al atributo edad.

Como apunte, señalar el hecho de que se debe prestar especial atención al campo “step” o amplitud de intervalo.

Destacar también que las jerarquías creadas pueden ser modificadas en Amnesia, permitiéndose:

  • Añadir nodos
  • Conectar nodos
  • Editar el nombre de los nodos o de los datos
  • Borrar bien nodos, bien alguno de los datos, de este modo se pueden eliminar fácilmente valores aislados o no significativos.

A continuación, una vez se ha procedido a crear las jerarquías correspondientes, se procederá a establecer los algoritmos necesarios para finalmente llevar a cabo la anonimización de los datos; este paso consiste básicamente en asociar cada jerarquía al atributo o atributos correspondientes.

4-anonimizacion-datos-amnesia-algorithms

Fig. 4, Amnesia online version 1.1.1 Beta, “Algorithms” https://amnesia.openaire.eu /amnesia/ myalgorithms.html

Respecto al algoritmo que aparece, tipo flash, indicar que “es un algoritmo exhaustivo que encuentra la mejor solución k-anónima para relaciones de datos, bajo el modelo de generalización de dominio completo” (*)

(*) OpenAire2020. D9.6 Data anonymization services. 11/2016, pp. 272.

Por otra parte, “es habitual que el número de cuasi identificadores sea a menudo muy grande, siendo difícil proporcionar anonimato k y al mismo tiempo preservar cualquier información útil en los datos anonimizados. Pues bien, para abordar este problema de los datos de alta dimensión, Amnesia admite otra garantía de privacidad más flexible: el anonimato km, que requiere que cada combinación de hasta m cuasi identificadores deba aparecer al menos k veces en los datos publicados” (*)

(*) Amnesia, https://amnesia.openaire.eu/ amnesiaInfo.html 3.

Dicho lo cual, y dado que la muestra empleada es muy pequeña y no tiene gran cantidad de cuasi identificadores, se optará por el k- anonimato.

5-anonimizacion-datos-amnesia-solutions-graph

Fig. 5, Amnesia online versión 1.1.1 Beta, “Solutions Graph” https://amnesia.openaire.eu/ amnesia/mysolutiongraph.html

Al ejecutar el algoritmo correspondiente, se mostrará la representación gráfica de las posibles opciones -por niveles- para llevar a cabo la anonimización; en este caso, se optará por la generalización a nivel 1 para todos y cada uno de los atributos identificados como cuasi identificadores, por tanto se explorará la opción [1, 1, 1] pinchando sobre ella.

6-anonimizacion-datos-amnesia-results-1.1.1.1

Fig. 6, Amnesia online versión 1.1.1 1 Beta, “Results” https://amnesia.openaire.eu/ amnesia/myresults.html

Conclusiones

Para comenzar, destacar el hecho de poder trabajar con Amnesia de un modo online, con la rapidez y facilidad que ello conlleva al no tener que prestar atención alguna a ningún requerimiento técnico por ejemplo.

Además, resaltar especialmente los siguientes aspectos:

  • Facilidad de uso, sobre todo si se tiene en cuenta el hecho de que se pueden crear jerarquías de un modo automático, mediante la opción “autogenerate”. Por otra parte, se permiten cargar jerarquías propias para una mayor personalización y complejidad.
  • Permite tanto cargar la base de datos original, como guardar la versión anonimizada, pero no solo en local, sino también en Zenodo, que es un repositorio multidisciplinar de la Unión Europea que pretende que los investigadores compartan a través de él sus trabajos.
  • Exploración de las diferentes soluciones para la anonimización de los datos a través de su representación gráfica, de un modo muy sencillo e intuitivo. Así mismo, se indica que: “los nodos azules muestran soluciones seguras, mientras que los rojos muestran soluciones inseguras, que podrán así mismo transformarse en seguras mediante la supresión” (*)

(*) Amnesia online versión, Solution Graph, https://amnesia.openaire.eu/amnesia/ mysolutiongraph.html

  • La inclusión de km anonimato permite poder trabajar con tablas que tengan gran cantidad de cuasi identificadores.
  • Por todo lo expuesto se considera que Amnesia es una aplicación bastante flexible, permitiendo su adaptación a los diferentes casos y necesidades.

Otra ventaja añadida, pero solo si se utiliza Amnesia en combinación con Zenodo es la de que “se ayuda al usuario a detectar si hay otra anonimización del mismo archivo ya publicada, y es que lo lógico es que los usuarios eviten publicar diferentes versiones anonimizadas del mismo conjunto de datos, ya que esto podría conllevar violaciones de la privacidad” (*)

(*) OpenAire2020. D9.6 Data anonymization services. 11/2016, pp. 13

Respecto a los aspectos que se observan en Amnesia que podrían mejorarse, destacar:

  • No se puede trabajar con rangos muy amplios, ya que como máximo admite centenas, por lo que no nos fue posible crear bajo el tipo “range” la jerarquía de nuestro campo código postal, como era nuestro deseo para agrupar estos por números equivalentes a zonas geográficas.
  • Añadir más información en los mensajes de error para su mejor comprensión y ayuda contextualizada.

Referencias Bibliográficas

AEPD (Agencia Española de Protección de Datos), Unidad de Evaluación y Estudios Tecnológicos. La k-anonimidad como medida de la privacidad. [Citado 7 de febrero de 2020]. Disponible en: https://www.aepd.es/ sites/default/ files/ 2019-09/nota-tecnica- kanonimidad.pdf

AEPD (Agencia Española de Protección de Datos). Procedimientos de anonimización de datos personales. 2016. [Citado 20 de febrero de 202]. Disponible en: https://www.aepd.es/ sites/default/files/ 2019- 09/guia-orientaciones-procedimientos-anonimizacion.pdf

Amnesia [Internet]. [citado 24 de Enero de 2020]. Disponible en: https: //amnesia.openaire.eu/

Calvo, Rafael. La importancia de anonimizar datos. En DS: Derecho y Salud, nº 131, Octubre 2018, pp. 61-64. [Citado 14 de febrero de 2020]. Disponible en: https://seis.es/ is-131-octubre-2018/

Gómez Piqueras, Cristina. Disociación/anonimización de los datos de salud. En DS: Derecho y Salud, Vol. 18, Nº 1, Enero-Junio 2009. [Citado 10 de febrero de 2020]. Disponible en: https://www.ajs.es/revista-derecho-y-salud/volumen-18-num-1-2009

Grupo de Trabajo sobre Protección de Datos del artículo 29. Dictamen 05/2014 sobre técnicas de anonimización. [Citado 22 de febrero de 2020]. Disponible en: https://www.aepd.es/ sites/default/ files/2019- 12/wp216-es.pdf

Ley 14/2007, de 3 de julio, de Investigación Biomédica. Boletín Oficial del Estado, de 4 de julio de 2007, núm. 159, pp. 28826 a 28848.

Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de carácter personal. Boletín Oficial del Estado, de 14 de diciembre de 1999, núm. 298, pp. 43088 a 43099.

Miralles López, Ramón. Desvinculando datos personales: seudonimización, desidentificación y anonimización. En: I + S: Revista de la Sociedad Española de Informática y Salud, núm. 122, Abril 2017, pp. 7-9. [Citado 7 de febrero de 2020]. Disponible en: https://seis.es/revista-n-122/

Naji Jaffar, Shahad y Manjón Corrales, Beatriz. Anonimización de bases de datos médicas. 6 de junio de 2016. [Citado 10 de Febrero de 2020]. Disponible en: https://eprints.ucm.es/ 45266/1/Memoria% 20TFG%20Anonimizaci %C 3%B3n%20 de%20Bases %20de%20 Datos%20M%C3% A9dicas.pdf

Real Decreto 1720/2007, de 21 de diciembre, por el que se aprueba el Reglamento de desarrollo de la Ley Orgánica 15/1999, de 13 de diciembre de Protección de Datos de carácter Personal. Boletín Oficial del Estado, de 19 de enero de 2008, núm. 17, pp. 4103 a 4136.

Terrovitis, Manolis. Amnesia: data anonymization made easy. 14 de Abril de 2018. [Citado 17 de febrero de 2020]; Disponible en: https://es.slideshare.net /OpenAIRE_eu/amnesia- data-anonymization- made-easy

Unión Europea. Directiva (UE) 95/46/CE del Parlamento Europeo y del Consejo, de 24 de octubre de 1995, relativa a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos. Diario Oficial de la Unión Europea L 281, 23 de noviembre de 1995, pp. 31-50.

Unión Europea. Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016, relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos, y por el que se deroga la Directiva 95/46/CE (Reglamento General de Protección de Datos). Diario Oficial de la Unión Europea L 119, 4 de mayo de 2016, pp. 1-88.

close

BOLETÍN DE NOVEDADES

Datos opcionales:

(En ocasiones enviamos información específica para una zona o categoría concreta)

He leído y acepto la Política de Privacidad *

Ver Política de Privacidad y Aviso legal

Su dirección de e-mail solo se utilizará para enviarle nuestra newsletter, así como información sobre las novedades de la revista y Editorial Ocronos. Puede utilizar el enlace integrado en la newsletter para cancelar la suscripción en cualquier momento.