Dos métodos para desidentificar grandes conjuntos de datos de pacientes redujeron en gran medida el riesgo de reidentificación

FILADELFIA. Dos métodos de desidentificación, la anonimización k y la adición de un “factor borroso”, redujeron significativamente el riesgo de reidentificación de pacientes en un conjunto de datos de 5 millones de registros de pacientes de un gran programa de detección de cáncer de cuello uterino en Noruega, según los  resultados  . publicado en  Cancer Epidemiology, Biomarkers & Prevention , una revista de la American Association for Cancer Research.

“Los investigadores generalmente obtienen acceso a datos no identificados, es decir, datos sin ninguna información de identificación personal, como nombres, direcciones y números de Seguro Social. Sin embargo, esto puede no ser suficiente para proteger la privacidad de las personas que participan en un estudio de investigación”, dijo Giske Ursin, MD, PhD, directora del Registro de Cáncer de Noruega, Instituto de Investigación Basada en la Población.

Los conjuntos de datos de pacientes a menudo tienen datos confidenciales, como información sobre la salud y el diagnóstico de enfermedades de una persona que tal vez no quiera compartir públicamente, y los custodios de datos son responsables de salvaguardar dicha información, agregó Ursin. “Las personas que tienen permiso para acceder a dichos conjuntos de datos deben cumplir con las leyes y las pautas éticas, pero siempre existe la preocupación de que los datos puedan caer en las manos equivocadas y ser mal utilizados”, agregó. “Como custodio de datos, esa es mi peor pesadilla”.

Para probar la fuerza de su técnica de desidentificación, Ursin y sus colegas utilizaron datos de detección que contenían 5.693.582 registros de 911.510 mujeres en el Programa de detección de cáncer de cuello uterino de Noruega. Los datos incluían las fechas de nacimiento de los pacientes y las fechas de detección del cuello uterino, los resultados, los nombres de los laboratorios que realizaron las pruebas, los diagnósticos de cáncer posteriores, si los hubo, y la fecha de la muerte, si falleció.

Lee mas  La investigación con láser revoluciona el diagnóstico y el tratamiento de la demencia y el cáncer

Los investigadores utilizaron una herramienta llamada ARX para evaluar el riesgo de reidentificación al acercarse al conjunto de datos utilizando un “escenario del fiscal”, en el que la herramienta asume que el atacante sabe que algunos datos sobre un individuo están en el conjunto de datos. Un ataque se considera exitoso si una gran parte de las personas en el conjunto de datos pudo ser reidentificada por alguien que tuvo acceso a parte de la información sobre estas personas.

El equipo evaluó el riesgo de reidentificación de tres maneras diferentes: primero, utilizaron los datos originales para crear un conjunto de datos realista que contenía toda la información del paciente mencionada anteriormente (D1). Luego, “anonimizaron” los datos cambiando todas las fechas en los registros al día 15 del mes (D2). En tercer lugar, difuminaron los datos agregando un factor aleatorio entre -4 y +4 meses (excepto cero) a cada mes en el conjunto de datos (D3).

Al agregar un factor borroso a los registros de cada paciente, se cambian los meses de nacimiento, detección y otros eventos; sin embargo, los intervalos entre los procedimientos y la secuencia de los procedimientos se conservan, lo que garantiza que el conjunto de datos aún se pueda utilizar con fines de investigación.

“Descubrimos que cambiar las fechas utilizando el procedimiento estándar de anonimización k redujo drásticamente las posibilidades de volver a identificar a la mayoría de las personas en el conjunto de datos”, señaló Ursin.

En D1, el riesgo promedio de que un fiscal identifique a una persona fue del 97,1 por ciento. Más del 94 por ciento de los registros de pacientes eran únicos y, por lo tanto, esos pacientes corrían el riesgo de ser reidentificados. En D2, el riesgo promedio de que un fiscal identifique a una persona se redujo al 9,7 por ciento; sin embargo, el 6 por ciento de los registros aún eran únicos y corrían el riesgo de ser reidentificados. Agregar un factor borroso, en D3, no redujo aún más el riesgo de reidentificación: el riesgo promedio de que un fiscal identificara a una persona era del 9,8 por ciento, y el 6 por ciento de los registros corría el riesgo de ser reidentificado.

Lee mas  13 verduras de color verde oscuro

Esto significaba que había tantos registros únicos en D3 como en D2. Sin embargo, codificar los meses de todos los registros en un conjunto de datos agregando un factor borroso hace que sea más difícil para un fiscal vincular un registro de este conjunto de datos con los registros en otros conjuntos de datos y volver a identificar a una persona, explicó Ursin.

“Cada vez que un grupo de investigación solicita permiso para acceder a un conjunto de datos, los custodios de los datos deben preguntarse: ‘¿Qué información necesitan realmente y cuáles son los detalles que no se requieren para responder a su pregunta de investigación?’ y hacer todo lo posible por colapsar y difumine los datos para garantizar la protección de la privacidad de los pacientes”, dijo Ursin.

En general, los datos de los pacientes están muy bien protegidos y la reidentificación aún no es una amenaza importante, agregó Ursin. “Sin embargo, dada la tendencia reciente de compartir datos y combinar conjuntos de datos para análisis de big data, lo cual es un buen desarrollo, siempre existe la posibilidad de que la información caiga en manos de alguien con intenciones maliciosas. Por lo tanto, los custodios de datos están preocupados con razón por los posibles desafíos futuros y continúan probando medidas preventivas”.

Según Ursin, la principal limitación del estudio es que los enfoques para anonimizar los datos en este estudio son específicos del conjunto de datos utilizado; dichos enfoques son únicos para cada conjunto de datos y deben diseñarse en función de la naturaleza de los datos.

Ursin no declara ningún conflicto de intereses.

Artículos Relacionados:

  • Gundry MD 24 Strain Probiotic Review 2022 – Probiótico para apoyo digestivo
  • Reseñas de Kiierr – Gorro láser 2022 para el crecimiento del cabello
  • Gundry MD Power Blues – Reseñas de suplementos de 2022 y guía de compra
  • Reseñas de Noxitril 2022: ¿funciona para el realce masculino o es una estafa?
  • Los mejores terapeutas holísticos cerca de mí 2022: 5 asesoramiento espiritual
  • Los mejores estetoscopios de 2022: reseñas de las 10 mejores marcas
Lee mas  Las pegatinas simples pueden salvar vidas de pacientes cardíacos, atletas y reducir los costos médicos para las familias.

Related Posts

Leave a Reply

Your email address will not be published.