La red neuronal que encuentra drogas potenciales de forma segura podría fomentar la recopilación a gran escala de datos confidenciales.
Rob Matheson | Oficina de noticias del MIT
Los investigadores del MIT han desarrollado un sistema criptográfico que podría ayudar a las redes neuronales a identificar candidatos a fármacos prometedores en conjuntos de datos farmacológicos masivos, manteniendo la privacidad de los datos. El cálculo seguro realizado a una escala tan masiva podría permitir una amplia combinación de datos farmacológicos sensibles para el descubrimiento predictivo de fármacos.
Los conjuntos de datos de interacciones fármaco-objetivo (DTI), que muestran si los compuestos candidatos actúan sobre las proteínas objetivo, son fundamentales para ayudar a los investigadores a desarrollar nuevos medicamentos. Los modelos se pueden entrenar para analizar conjuntos de datos de DTI conocidos y luego, utilizando esa información, encontrar nuevos candidatos a fármacos.
En los últimos años, las empresas farmacéuticas, universidades y otras entidades se han abierto a agrupar datos farmacológicos en bases de datos más grandes que pueden mejorar en gran medida la formación de estos modelos. Sin embargo, debido a cuestiones de propiedad intelectual y otras cuestiones de privacidad, estos conjuntos de datos siguen teniendo un alcance limitado. Los métodos de criptografía para asegurar los datos son tan computacionalmente intensivos que no se adaptan bien a conjuntos de datos más allá de, digamos, decenas de miles de DTI, que es relativamente pequeño.
En un artículo publicado hoy en Science , investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT describen una red neuronal entrenada y probada de forma segura en un conjunto de datos de más de un millón de DTI. La red aprovecha las herramientas criptográficas modernas y las técnicas de optimización para mantener la privacidad de los datos de entrada, mientras se ejecuta de manera rápida y eficiente a escala.
Los experimentos del equipo muestran que la red funciona más rápido y con mayor precisión que los enfoques existentes; puede procesar conjuntos de datos masivos en días, mientras que otros marcos criptográficos tardarían meses. Además, la red identificó varias interacciones novedosas, incluida una entre el medicamento contra la leucemia imatinib y una enzima ErbB4, cuyas mutaciones se han asociado con el cáncer, que podría tener importancia clínica.
“La gente se da cuenta de que necesita agrupar sus datos para acelerar en gran medida el proceso de descubrimiento de fármacos y permitirnos, juntos, hacer avances científicos para resolver importantes enfermedades humanas, como el cáncer o la diabetes. Pero no tienen buenas maneras de hacerlo”, dice la autora correspondiente Bonnie Berger, profesora de matemáticas de Simons e investigadora principal de CSAIL. “Con este trabajo, proporcionamos una forma para que estas entidades agrupen y analicen de manera eficiente sus datos a gran escala”.
Junto a Berger en el artículo están los coautores Brian Hie y Hyunghoon Cho, ambos estudiantes graduados en ingeniería eléctrica y ciencias de la computación e investigadores del grupo de Computación y Biología de CSAIL.
Datos de “intercambio secreto”
El nuevo documento se basa en el trabajo previo de los investigadores sobre la protección de la confidencialidad del paciente en los estudios genómicos, que encuentran vínculos entre variantes genéticas particulares y la incidencia de la enfermedad. Esos datos genómicos podrían potencialmente revelar información personal, por lo que los pacientes pueden ser reacios a inscribirse en los estudios. En ese trabajo, Berger, Cho y un exestudiante de doctorado de la Universidad de Stanford desarrollaron un protocolo basado en un marco de criptografía llamado “intercambio secreto”, que analiza de manera segura y eficiente conjuntos de datos de un millón de genomas. Por el contrario, las propuestas existentes solo podían manejar unos pocos miles de genomas.
El uso compartido de secretos se utiliza en el cálculo multipartito, donde los datos confidenciales se dividen en “participaciones” separadas entre varios servidores. A lo largo del cálculo, cada parte siempre tendrá solo su parte de los datos, que aparecen completamente al azar. Sin embargo, en conjunto, los servidores aún pueden comunicarse y realizar operaciones útiles en los datos privados subyacentes. Al final del cómputo, cuando se necesita un resultado, las partes combinan sus acciones para revelar el resultado.
“Utilizamos nuestro trabajo anterior como base para aplicar el intercambio de secretos al problema de la colaboración farmacológica, pero no funcionó de inmediato”, dice Berger.
Una innovación clave fue la reducción de la computación necesaria en el entrenamiento y las pruebas. Los modelos predictivos de descubrimiento de fármacos existentes representan las estructuras químicas y proteicas de los DTI como gráficos o matrices. Estos enfoques, sin embargo, escalan cuadráticamente, o al cuadrado, con la cantidad de DTI en el conjunto de datos. Básicamente, el procesamiento de estas representaciones se vuelve extremadamente intensivo desde el punto de vista computacional a medida que crece el tamaño del conjunto de datos. “Si bien eso puede estar bien para trabajar con los datos sin procesar, si lo intenta en computación segura, es inviable”, dice Hie.
En cambio, los investigadores entrenaron una red neuronal que se basa en cálculos lineales, que escalan de manera mucho más eficiente con los datos. “Necesitábamos absolutamente escalabilidad, porque estamos tratando de proporcionar una forma de agrupar datos [en] conjuntos de datos mucho más grandes”, dice Cho.
Los investigadores entrenaron una red neuronal en el conjunto de datos STITCH, que tiene 1,5 millones de DTI, lo que lo convierte en el conjunto de datos disponible públicamente más grande de su tipo. En el entrenamiento, la red codifica cada compuesto farmacológico y estructura proteica como una representación vectorial simple. Esto esencialmente condensa las estructuras complicadas como 1 y 0 que una computadora puede procesar fácilmente. A partir de esos vectores, la red aprende los patrones de interacciones y no interacciones. Alimentada con nuevos pares de compuestos y estructuras de proteínas, la red predice si interactuarán.
La red también tiene una arquitectura optimizada para la eficiencia y la seguridad. Cada capa de una red neuronal requiere alguna función de activación que determina cómo enviar la información a la siguiente capa. En su red, los investigadores utilizaron una función de activación eficiente llamada unidad lineal rectificada (ReLU). Esta función requiere solo una única comparación numérica segura de una interacción para determinar si enviar (1) o no enviar (0) los datos a la siguiente capa, sin revelar nunca nada sobre los datos reales. Esta operación puede ser más eficiente en el cómputo seguro en comparación con funciones más complejas, por lo que reduce la carga de cómputo y garantiza la privacidad de los datos.
“La razón por la que es importante es que queremos hacer esto dentro del marco de intercambio de secretos… y no queremos aumentar la sobrecarga computacional”, dice Berger. Al final, “no se revela ningún parámetro del modelo y todos los datos de entrada (los medicamentos, los objetivos y las interacciones) se mantienen privados”.
Encontrar interacciones
Los investigadores compararon su red con varios modelos de texto sin formato (sin cifrar) de última generación en una parte de los DTI conocidos de DrugBank, un conjunto de datos popular que contiene alrededor de 2000 DTI. Además de mantener la privacidad de los datos, la red de investigadores superó a todos los modelos en precisión de predicción. Solo dos modelos de referencia podían escalar razonablemente al conjunto de datos STITCH, y el modelo de los investigadores logró casi el doble de precisión que esos modelos.
Los investigadores también probaron pares de fármacos-objetivo sin interacciones enumeradas en STITCH y encontraron varias interacciones farmacológicas establecidas clínicamente que no estaban incluidas en la base de datos pero deberían estarlo. En el artículo, los investigadores enumeran las principales predicciones más sólidas, que incluyen: droloxifeno y un receptor de estrógeno, que llegó a los ensayos clínicos de fase III como tratamiento para el cáncer de mama; y seocalcitol y un receptor de vitamina D para tratar otros tipos de cáncer. Cho y Hie validaron de forma independiente las interacciones novedosas con la puntuación más alta a través de organizaciones de investigación por contrato.
A continuación, los investigadores están trabajando con socios para establecer su canal de colaboración en un entorno del mundo real. “Estamos interesados en crear un entorno para la computación segura, de modo que podamos ejecutar nuestro protocolo seguro con datos reales”, dice Cho.
Artículos Relacionados:
- Reseñas de Kiierr – Gorro láser 2022 para el crecimiento del cabello
- Golden Monk Kratom Vendor 2022: Reseñas de clientes, cepas, cupones
- Gundry MD Power Blues – Reseñas de suplementos de 2022 y guía de compra
- Los mejores terapeutas holísticos cerca de mí 2022: 5 asesoramiento espiritual
- Los mejores estetoscopios de 2022: reseñas de las 10 mejores marcas
- Reseñas de aceite de oliva Gundry MD – Producto de polifenol 2022
Dr. Martin Passen, a dedicated nutrition educator with a master’s in nutrition education and nearing completion of a clinical nutrition and dietetics master’s. Passionate about sharing valuable information effectively.