Los autores combinaron conjuntos de datos patentados (GSK) y publicados (CCDC) para entrenar mejor los modelos de aprendizaje automático (ML) para el descubrimiento de fármacos. Crédito:Alex Moldovan.
Los polimorfos son moléculas que tienen diferentes arreglos de empaquetamiento molecular a pesar de idénticas composiciones químicas. En un artículo reciente, Los investigadores de GlaxoSmithKline (GSK) y el Cambridge Crystallographic Data Center (CCDC) combinaron sus conjuntos de datos patentados (GSK) y publicados (CCDC) para entrenar mejor los modelos de aprendizaje automático (ML) para predecir polimorfos estables para usar en nuevos candidatos a fármacos.
¿Cuáles son las diferencias clave entre los conjuntos de datos CCDC y GSK?
CCDC cura y mantiene la base de datos estructural de Cambridge (CSD). Durante el siglo pasado, científicos de todo el mundo han contribuido a publicar, estructuras cristalinas experimentales para el CSD, que ahora tiene más de 1,1 millones de estructuras. Los autores del artículo utilizaron un subconjunto de fármacos del CSD combinado con estructuras de GSK. Las estructuras de GSK se recolectaron en diferentes etapas del proceso farmacéutico y no se limitan a los productos comercializados. Coautor Dr. Jason Cole, investigador senior del equipo de investigación y desarrollo de la CCDC, explicó por qué las estructuras reunidas en diferentes etapas del proceso de descubrimiento de fármacos son tan importantes.
"En el descubrimiento de fármacos en etapa inicial, una estructura cristalina puede ayudar a racionalizar los efectos conformacionales, por ejemplo, o caracterizar la química de una nueva entidad química donde otras técnicas han llevado a la ambigüedad, "Dijo Cole." Más adelante en el proceso, cuando se estudia una nueva entidad química como molécula candidata, las estructuras cristalinas son fundamentales, ya que informan la selección de formas y pueden ayudar posteriormente a superar los problemas de formulación y formación de comprimidos ".
Esta información puede ayudar a los investigadores a priorizar sus esfuerzos, ahorrando tiempo y potencialmente vidas en el futuro.
"Al comprender una variedad de estructuras cristalinas, Los científicos también pueden evaluar el riesgo de que una forma determinada sea inestable a largo plazo, ", Dijo Cole." Una caracterización completa del paisaje estructural conduce a la confianza en tomar una forma hacia adelante ".
¿Cómo se benefician los modelos de AA en la ciencia farmacéutica de múltiples conjuntos de datos?
Los conjuntos de datos industriales reflejan más que ciencia; reflejan elecciones culturales dentro de una organización determinada.
"Solo encontrarás cocristales si buscas cocristales, "Cole dijo, como ejemplo. "La mayoría de las empresas prefieren formular un o sin atar, droga. Se puede suponer que los tipos de estructuras en un conjunto industrial reflejan decisiones conscientes de buscar formas de tipos dados, mientras que se imponen menos límites a los investigadores que contribuyen al CSD ".
Los modelos de AA se benefician de dos cosas clave:el volumen de datos y la especificidad de los datos. Por eso es tan útil acoplar el volumen y la variedad de datos en el CSD con conjuntos de datos patentados.
"Grandes cantidades de datos conducen a predicciones más seguras, ", Dijo Cole." Los datos que son más directamente relevantes para el problema conducen a predicciones más precisas. En las predicciones que utilizan el software CCDC, seleccionamos un subconjunto de las entradas más relevantes que sea lo suficientemente grande como para dar confianza. El conjunto de GSK seguramente tendrá compuestos de gran relevancia para otros compuestos en su cartera comercial. De modo que el software de creación de modelos puede utilizarlos ".
Los investigadores industriales que trabajan con datos muy relevantes pueden tener problemas cuando no tienen suficiente para generar modelos confiables.
"Tenga en cuenta que el software CSD normalmente selecciona alrededor de dos mil estructuras de los 1,1 millones en el CSD, ", Dijo Cole." El conjunto industrial es pequeño en comparación, pero puedes elegir decir, 40 o 50 estructuras de gran relevancia. No tendrías datos suficientes para construir un buen modelo solo con eso, pero los compuestos agregados del CSD complementan el conjunto de datos. En esencia, al incluir los conjuntos GSK y CSD obtenemos lo mejor de ambos mundos:todas las estructuras industriales de gran relevancia y un conjunto de estructuras CSD bastante relevantes juntas para construir un modelo de alta calidad ".
¿Por qué los polimorfos presentan un riesgo para la industria farmacéutica?
Los diferentes arreglos de empaque significan que un polimorfo podría ser más adecuado para la administración terapéutica, mientras que otra forma del mismo compuesto podría no hacerlo. Los investigadores utilizan bases de datos de estructura cristalina para hacer predicciones basadas en el conocimiento sobre si un nuevo fármaco potencial se compone de un bien, forma estable que los fabricantes pueden hacer, Tienda, y administrar de forma terapéutica. Los autores de GSK y CCDC completaron un análisis sólido de las estructuras cristalinas de moléculas pequeñas que contienen resultados de difracción de rayos X de GSK y sus compañías patrimoniales durante los últimos 40 años. Luego combinaron esos resultados con un subconjunto de estructuras de fármacos del CSD de CCDC, que contiene más de 1,1 millones de estructuras cristalinas orgánicas y metalorgánicas de moléculas pequeñas de investigadores de todo el mundo.