La enorme base de datos de proteínas que dio origen a AlphaFold y la revolución de la IA en biología

La enorme base de datos de proteínas que dio origen a AlphaFold y la revolución de la IA en biología

Retrato de Hélène Berman.

La cristalógrafa Helen Berman cofundó el Protein Data Bank en la década de 1960.

Crédito: Universidad de Rutgers

Los Premios Nobel de 2024 estuvieron dedicados a la inteligencia artificial (IA). Los pioneros de las redes neuronales informáticas que sustentan la IA ganaron el premio de física, y el de química fue para dos científicos que desarrollaron la revolucionaria herramienta de predicción de la estructura de las proteínas AlphaFold y otro que fue pionero en el diseño de proteínas, una búsqueda que ha sido impulsada por la IA.

Es fácil maravillarse con la magia técnica detrás de avances como AlphaFold. Pero gran parte de ese éxito se debe a una base de datos de estructuras de proteínas ideada en la década de 1960 por Helen Berman, cristalógrafa de la Universidad del Sur de California en Los Ángeles, y científicos con ideas afines.

El Banco de Datos de Proteínas (PDB) contiene ahora las estructuras de más de 200.000 proteínas, disponibles gratuitamente para todos. Estos datos ayudan a AlphaFold a predecir estructuras de proteínas a partir de su secuencia y permiten a otras IA imaginar nuevas proteínas con solo presionar un botón.

Berman cuenta

Naturaleza
por qué está satisfecha con el reconocimiento (los premios Nobel de química David Baker de la Universidad de Washington en Seattle y John Jumper de Google DeepMind en Londres dieron crédito al PDB) y cómo otras áreas de la ciencia pueden abrir el camino hacia avances en IA con buenos datos. .

¿Cómo compartían los científicos las estructuras de las proteínas antes del PDB?

El PDB se creó cuando inicialmente sólo existían un puñado de estructuras. Se compartían mediante tarjetas perforadas (cada átomo tenía su propia tarjeta perforada) o mediante cinta magnética. El investigador individual tendría que enviar estos documentos a través del océano si fueran de Inglaterra a Estados Unidos.

¿Qué desencadenó la creación del AP?

Yo era estudiante de cristalografía en la década de 1960 y las estructuras de las proteínas apenas comenzaban a emerger. No era cristalógrafo de proteínas, pero me llamó la atención la importancia de estas estructuras.

Trabajé con algunos otros jóvenes que también estaban interesados ​​en la estructura. Un pequeño grupo de nosotros comenzamos a mantener correspondencia sobre cómo podríamos crear un banco de datos de proteínas. No sé si lo llamamos así, pero eso es lo que queríamos: algún tipo de lugar donde pudieran estar todas estas estructuras.

¿Hacer que estos datos fueran abiertos era un principio clave?

En los primeros días del PDB, el objetivo era simplemente obtener las coordenadas de la estructura de las proteínas y asegurarnos de no perderlas. En la década de 1980, un movimiento comenzó a argumentar que estas estructuras son esenciales para la salud pública. Son esenciales para la buena ciencia. Hay que incluirlos en el PDB, porque en ese momento no había requisitos. Esto requirió cierto estímulo por parte de las agencias de financiación. Y a las revistas les llevó un tiempo aceptar la idea de exigir que los datos estuvieran en el PDB. Ahora no puedes publicar una estructura sin tenerla en el PDB.

¿Crees que hubiéramos tenido Alpha Fold sin el PDB?

Sabiendo lo que creo saber sobre cómo funciona AlphaFold, esto habría sido extremadamente difícil. Dos cosas eran importantes acerca de los datos del PDB: están verificados y validados por curadores expertos. La otra cosa es que los datos son completamente legibles por máquina.

¿Cómo ha observado esta revolución en la IA biológica, con herramientas como AlphaFold, RoseTTAFold y software de diseño de proteínas? Todos están capacitados en el PDB.

Para mí es emocionante. La idea que tenía en ese momento era que podríamos comprender mejor las relaciones secuencia-estructura de las proteínas. Estoy muy contento con los resultados con AlphaFold y con todo el trabajo que David Baker ha realizado en el diseño de proteínas.

¿Demuestra esto la importancia de los datos experimentales para impulsar los avances científicos de la IA?

Sí, 100%. La gente dirá: “Oh, bueno, los datos del PDB son realmente especiales. » Pero en realidad sabemos por qué son especiales. Llevó mucho tiempo entender cómo gestionar los datos, cómo representarlos, cómo recopilarlos. Como comunidad, la comunidad del PDB, sabemos cómo hacerlo.

Creo que otras comunidades pueden, deberían y deben hacer esto. Porque de lo contrario no lograremos grandes avances. Metodologías que permiten hacer predicción y diseño de proteínas; lo mismo podría suceder en química. Esto podría suceder en geología. Esto podría suceder en física.

Esta entrevista ha sido editada para mayor extensión y claridad.