Con el lanzamiento de plataformas como DALL-E 2 y Midjourney, los modelos de transmisión generativa han ganado popularidad debido a su capacidad para generar una serie de imágenes absurdas, impresionantes y, a menudo, memorables a partir de mensajes de texto como «oso de peluche trabajando en una nueva investigación de inteligencia artificial en la luna en la década de 1980.” Pero un equipo de investigadores de la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud (Clínica Jameel) del MIT cree que los modelos generativos de difusión podrían ser más que solo crear imágenes surrealistas: podrían acelerar el desarrollo de nuevos medicamentos y reducir la probabilidad de efectos adversos. . efectos
A papel la introducción de este nuevo modelo de acoplamiento molecular, llamado diffdock, será presentado en la 11ª Conferencia Internacional sobre Representaciones del Aprendizaje. El enfoque único del modelo para el diseño computacional de fármacos es un cambio de paradigma de las herramientas de última generación utilizadas por la mayoría de las compañías farmacéuticas, lo que presenta una gran oportunidad para una revisión de la tubería tradicional de desarrollo de fármacos.
Los medicamentos generalmente funcionan al interactuar con las proteínas que componen nuestros cuerpos, o las proteínas de bacterias y virus. El acoplamiento molecular se desarrolló para comprender mejor estas interacciones mediante la predicción de las coordenadas 3D atómicas con las que se podrían unir un ligando (es decir, una molécula de fármaco) y una proteína.
Si bien el acoplamiento molecular ha llevado a la identificación exitosa de medicamentos que ahora tratan el VIH y el cáncer, y cada medicamento requiere un promedio de una década de tiempo de desarrollo y 90 por ciento de los candidatos a fármacos fracasan en costosos ensayos clínicos (la mayoría de los estudios estiman los costes medios de desarrollo de fármacos en aproximadamente $ 1 mil millones a más de $ 2 mil millones por medicamento), no es de extrañar que los investigadores estén buscando formas más rápidas y eficientes de cribar posibles moléculas de fármacos.
Actualmente, la mayoría de las herramientas de acoplamiento molecular que se utilizan para el diseño de fármacos in silico adoptan un enfoque de «muestra y puntuación», en busca de una «pose» de ligando que mejor se adapte al bolsillo de la proteína. Este proceso, que requiere mucho tiempo, evalúa una gran cantidad de poses diferentes y luego las puntúa en función de qué tan bien se une el ligando a la proteína.
En soluciones anteriores de aprendizaje profundo, el acoplamiento molecular se trata como un problema de regresión. En otras palabras, «se supone que tiene un solo objetivo para el que está tratando de optimizar y solo hay una respuesta correcta», dice Gabriele Corso, coautora y estudiante de doctorado de segundo año en el MIT en Ingeniería Eléctrica e Informática que está afiliado al Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL). “Con el modelado generativo, asumes que hay una distribución de posibles respuestas; esto es esencial en presencia de incertidumbre”.
«En lugar de una sola predicción como antes, ahora se pueden predecir múltiples poses, y cada una con una probabilidad diferente», agrega Hannes Stärk, coautor y estudiante de doctorado de primer año en ingeniería eléctrica e informática del MIT, afiliado a Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT. Como resultado, el modelo no necesita comprometerse en un intento de llegar a una única conclusión, lo que puede ser una receta para el fracaso.
Para comprender cómo funcionan los modelos de difusión generativa, es útil explicarlos en función de los modelos de difusión generadores de imágenes. Aquí, los patrones de difusión agregan gradualmente ruido aleatorio a una imagen 2D a través de una serie de pasos, destruyendo los datos de la imagen hasta que se convierte en nada más que un desorden granulado. A continuación, se entrena una red neuronal para recuperar la imagen original invirtiendo este proceso de ruido. Luego, el modelo puede generar nuevos datos a partir de una configuración aleatoria y eliminando el ruido de forma iterativa.
En el caso de DiffDock, después de ser entrenado en una variedad de poses de ligandos y proteínas, el modelo puede identificar con éxito varios sitios de unión en proteínas que nunca antes había encontrado. En lugar de generar nuevos datos de imagen, genera nuevas coordenadas 3D que ayudan al ligando a encontrar ángulos potenciales que le permitirían encajar en el bolsillo de la proteína.
Este enfoque de «acoplamiento ciego» crea nuevas oportunidades para aprovechar AlphaFold 2 (2020), el famoso modelo de IA de plegamiento de proteínas de DeepMind. Desde el lanzamiento inicial de AlphaFold 1 en 2018, ha habido un gran entusiasmo en la comunidad de investigación sobre el potencial de las estructuras de proteínas plegadas por computadora de AlphaFold para ayudar a identificar nuevos mecanismos de acción de los fármacos. Pero las herramientas de acoplamiento molecular de última generación aún tienen que demostrar que su rendimiento en la unión de ligandos a estructuras predichas por computadora es mejor que el azar.
DiffDock no solo es significativamente más preciso que los enfoques anteriores de los puntos de referencia de acoplamiento tradicionales, gracias a su capacidad de razonar a una escala mayor y modelar implícitamente parte de la flexibilidad de las proteínas, DiffDock mantiene un alto rendimiento incluso cuando otros modelos de acoplamiento están comenzando a fallar. . En el escenario más realista que involucra el uso de estructuras de proteínas no unidas generadas por computadora, DiffDock coloca el 22% de sus predicciones dentro de 2 angstroms (ampliamente considerado el umbral para una pose precisa, 1 Å corresponde a uno en 10 mil millones de metros), más del doble otros modelos de amarre rondan justo por encima del 10 % para algunos y caen hasta un 1,7 %.
Estas mejoras crean un nuevo panorama de oportunidades para la investigación biológica y el descubrimiento de fármacos. Por ejemplo, muchos medicamentos se encuentran a través de un proceso conocido como evaluación fenotípica, en el que los investigadores observan los efectos de un medicamento determinado sobre una enfermedad sin saber sobre qué proteínas actúa el medicamento. Entonces, descubrir el mecanismo de acción del fármaco es clave para comprender cómo se puede mejorar el fármaco y sus posibles efectos secundarios. Este proceso, conocido como «detección inversa», puede ser extremadamente difícil y costoso, pero una combinación de técnicas de plegamiento de proteínas y DiffDock puede permitir que gran parte del proceso se realice in silico, lo que hace posible identificar el potencial lado «fuera del objetivo». efectos antes de que se lleven a cabo los ensayos clínicos.
«DiffDock hace mucho más posible la identificación de objetivos farmacológicos. Antes, tenía que realizar experimentos laboriosos y costosos (de meses a años) con cada proteína para definir el acoplamiento de fármacos. Pero ahora puede detectar muchas proteínas y completar el triaje prácticamente en un día, » dice Tim Peterson, profesor asistente en la Facultad de Medicina de la Universidad de Washington, St. Louis. Peterson usó DiffDock para caracterizar el mecanismo de acción de un nuevo candidato a fármaco que trata enfermedades relacionadas con el envejecimiento en un artículo reciente. «Hay un ‘destino ama’ muy ironía de que la ley de Eroom, que el descubrimiento de fármacos lleva más tiempo y cuesta más dinero cada año, se resuelve con la ley de Moore, que lleva su mismo nombre, que las computadoras se vuelven más rápidas y más baratas cada año, usando herramientas como DiffDock”.
Este trabajo fue dirigido por los estudiantes de doctorado del MIT Gabriele Corso, Hannes Stärk y Bowen Jing, y sus asesores, la profesora Regina Barzilay y el profesor Tommi Jaakkola, y contó con el apoyo del consorcio Machine Learning for Pharmaceutical Discovery and Synthesis, la Clínica Jameel, la DTRA Discovery Program for Medical Countermeasures Against New and Emerging Threats, el Programa de Descubrimiento Molecular Acelerado de DARPA, la Beca de Diseño de Anticuerpos Computacionales de Sanofi y una Beca de Posgrado en Ciencias Computacionales del Departamento de Energía.