Crédito:CC0 Public Domain
La tenacidad es algo natural para un tipo que proviene de la "capital mundial de las mulas". Ese rasgo se ha mantenido en Columbia, Tennesse, Elliot Perryman nativo en buena posición como pasante en el Laboratorio Nacional Lawrence Berkeley (Berkeley Lab). El otoño pasado, comenzó a trabajar con el científico Peter Zwart en el Centro de Matemáticas Avanzadas para Aplicaciones de Investigación de Energía (CAMERA) a través del programa de Investigación de Pregrado de Berkeley Lab.
CAMERA tiene como objetivo identificar áreas en la ciencia experimental que pueden ser ayudadas por nuevos conocimientos matemáticos aplicados. Estos investigadores interdisciplinarios desarrollan las herramientas algorítmicas necesarias y las entregan como software fácil de usar. Zwart puso a Perryman, una especialización en ciencias de la computación y física en la Universidad de Tennessee, en un proyecto que comparó con "andar por una habitación oscura tratando de encontrar un gato".
El escurridizo felino en este caso fue un problema matemático que ha atormentado a la comunidad de cristalografía experimental durante algún tiempo:cómo modelar la presencia de ruido en los datos de una manera más realista.
La cristalografía es una herramienta indispensable para determinar las estructuras atómicas de las moléculas, lo que a su vez da a los investigadores información sobre su comportamiento y función. Cuando un rayo de luz enfocado se dirige a un purificado, muestra cristalina, la luz se difracta fuera de los átomos y un detector registra la luz difractada. A medida que se gira la muestra, Las imágenes bidimensionales de los patrones de difracción se capturan en varias orientaciones. Luego, se aplican algoritmos a los datos de difracción para reconstruir un mapa tridimensional de la disposición de los átomos en la muestra.
Cuando usted determina, o resolver una estructura a partir de datos de difracción, necesitas relacionar el modelo con tus observaciones, explicó Zwart, quien es parte de la División de Biofísica Molecular e Integración de Bioimagen de Berkeley Lab. Las funciones objetivo que se utilizan para hacer esto se denominan funciones de máxima verosimilitud. Funcionan muy bien si sus datos son buenos, él nota, pero cuando aumenta la cantidad de ruido en los datos, lo que ocurre con resoluciones más altas, los métodos actuales no pueden proporcionar la mejor respuesta posible.
La razón por la que las funciones de destino se quedan cortas en tales casos es que hay un paso en el cálculo, una integración, que no se puede hacer analíticamente, es decir, con matemáticas de lápiz y papel que le dan una expresión que puede convertir en código. Los intentos anteriores de abordar este problema simplemente han ignorado el paso de integración, o proponer aproximaciones que solo funcionen en escenarios específicos de experimentos o técnicas. Entonces Zwart y Perryman volvieron a lo básico, probando una multitud de diferentes enfoques de aprendizaje automático para derivar numéricamente una aproximación tan exacta como sea posible de la manera más eficiente.
Tres cuartas partes del camino a través de la pasantía de 16 semanas de Perryman, los dos llegaron a la conclusión de que la mayoría de los caminos que parecían prometedores al principio eran en realidad callejones sin salida. "Intentaba cosas y me tomaba un tiempo averiguar si algo era un éxito o un fracaso porque, con un problema totalmente nuevo, simplemente no lo sabes ", dijo Perryman. Las cosas finalmente encajaron cuando se dieron cuenta de que una suposición común que la gente ha estado haciendo durante 30 años podría mejorarse.
Univ. de Tennessee, Elliot Perryman (a la derecha) trabajó con el científico del personal de Biosciences Peter Zwart durante su pasantía de otoño de 2019 en Berkeley Lab Undergraduate Research (BLUR). Crédito:Thor Swift / Berkeley Lab
La suposición tiene que ver con la forma del ruido en los datos. La opinión ampliamente aceptada ha sido que los errores experimentales caen en una distribución normal clásica, como la curva de campana de Gauss, donde casi el 100 por ciento de las observaciones caen dentro de 3,5 desviaciones estándar. Pero una curva más realista tiene "colas" más gruesas debido a eventos raros pero predecibles. "Incluir estos modelos de error un poco más realistas en las funciones de destino cristalográficas nos permite modelar la presencia de lo que normalmente se podrían llamar valores atípicos de una manera más realista, "Dijo Zwart.
Su método, que publicaron en la revista Acta Crystallographica Sección D:Biología estructural , es ampliamente aplicable en el campo de la cristalografía experimental y permitirá a los investigadores hacer un mejor uso de los datos de difracción marginales o de baja calidad. Esta investigación fue apoyada por los Institutos Nacionales de Salud y CAMERA está financiada por la Oficina de Ciencias del Departamento de Energía de EE. UU.
Un investigador postdoctoral en el laboratorio de Zwart ahora está trabajando para convertir el marco conceptual matemático en una aplicación que eventualmente se pueda implementar en el paquete de software Phenix. Paul Adams, director de MBIB, lidera el desarrollo de Phenix, una colección de herramientas para la solución de estructuras automatizadas que es ampliamente utilizada por la comunidad de cristalografía.
"Elliot dedicó mucho tiempo y energía a enfoques que finalmente no dieron resultado, pero fueron cruciales para el esfuerzo total porque pudo aprender mucho por sí mismo y educarme al mismo tiempo, ", Agregó Zwart. Y la experiencia que adquirió Perryman lo ayudó a conseguir una pasantía de seguimiento trabajando con Tess Smidt, un postdoctorado en la División de Investigación Computacional, y finalmente un puesto de asistente de estudiante trabajando con el postdoctorado de CAMERA, Marcus Noack, en la toma de decisiones asistida por máquina para ciencias experimentales.
El proyecto en el que han estado trabajando Perryman y Noack tiene como objetivo dar la vuelta a los métodos tradicionales de muestreo automático de imágenes. Proponen usar un enfoque aleatorio que es órdenes de magnitud más eficiente y dará una predicción de cómo podría verse la imagen en algún lugar. así como una indicación de la incertidumbre de esa predicción. Perryman ha estado trabajando en un enfoque de optimización distribuida, llamado HGDL (Hybrid Global Deflated Local), para mejorar una función de optimización crítica.
Hay muchos problemas computacionales desafiantes en las biociencias que se pueden abordar con enfoques que ya han sido desarrollados por matemáticos aplicados, Señaló Zwart. "Ciertas ideas tardan más en filtrarse a otras áreas, ", dijo." Es por eso que trabajar dentro de CAMERA es tan bueno:los matemáticos tienen una visión diferente del mundo, un conjunto diferente de habilidades, y leer diferentes artículos. Pero no conocen los campos experimentales como los biólogos estructurales. Es importante unir a estas personas para que podamos identificar problemas dentro de las biociencias y encontrar soluciones dentro de las matemáticas y la informática ".
"Ese ha sido uno de los grandes beneficios de esta pasantía, ", dijo Perryman." Comencé en física nuclear, así que estaba familiarizado con los tipos de problemas en ese campo. Pero después de trabajar con Peter, o trabajando con Tess la primavera pasada, o Marcus, Me doy cuenta de que hay tantos problemas análogos. Igual que, si tienes el mismo problema, Marcus lo enmarcaría en términos de algún tipo de cosa geofísica, y Tess diría que es un problema de geometría, pero probablemente también sea un problema de biología ".
En el final, Perryman no ha sido disuadido por ninguno de estos obstinados desafíos:"Hay tantos proyectos interesantes, es difícil no emocionarse con ellos ".