Bioteque es un recurso de descriptores para diferentes entidades biológicas. Al atravesar este gráfico de conocimiento a través de entidades y relaciones específicas, exploramos más de 1000 caminos (también conocidos como metacaminos) que se codificaron en vectores numéricos y se pusieron a disposición de la comunidad. Crédito:IRB Barcelona
El rápido desarrollo de las diferentes disciplinas en los campos de la investigación biológica y biomédica (como la genómica, la proteómica y la transcriptómica) en las últimas décadas ha provocado un crecimiento exponencial de la cantidad de datos biológicos disponibles. Por ejemplo, en el Instituto Europeo de Bioinformática (EMBL-EBI) han pasado de gestionar un volumen de 40 petabytes a trabajar con 250 petabytes en tan solo 6 años.
Los científicos liderados por el Dr. Patrick Aloy, investigador ICREA y jefe del laboratorio de Bioinformática Estructural y Biología de Redes del IRB Barcelona, han desarrollado una herramienta computacional para armonizar, integrar y simplificar estos datos. El resultado es un gráfico de conocimiento que proporciona información sobre cómo se relacionan entre sí diferentes entidades biológicas, incluidas más de 30 millones de interacciones funcionales.
La Bioteca funciona integrando diferentes niveles de complejidad biológica y así puede informar, por ejemplo, sobre dos genes que están relacionados, si interactúan físicamente, si están activos en el mismo tipo de células y si están relacionados con la misma enfermedad. . También puede predecir la sensibilidad o resistencia de un tipo de célula a un fármaco específico.
“Este recurso computacional que hemos desarrollado es uno de los primeros destinados a unificar la información biológica y es el único que aborda tal diversidad y cantidad de datos. Permite acceder, de forma fácil y armonizada, a prácticamente todo el conocimiento biológico disponible en la actualidad, y tiene un enorme potencial para acelerar la investigación biomédica", explica Aloy.
Ilustrando 4 descriptores diferentes para 4 tipos de entidades biológicas. Crédito:IRB Barcelona
Casi 1000 descriptores para 12 entidades biológicas
La información contenida en la Bioteque está estructurada en 12 tipos de entidades biológicas, tales como gen, enfermedad, tejido, célula, etc. Para cada una de estas entidades, la herramienta considera una serie de descriptores o características, por ejemplo, el patrón de mutaciones de un gen, el perfil de interacciones físicas de las proteínas resultantes, la expresión de dicho gen en distintos tipos celulares, o su relación con distintas enfermedades. Entre las 12 entidades biológicas, el sistema cubre alrededor de 1000 tipos de descriptores.
“Hemos trabajado con información de 150 bases de datos diferentes, entonces primero tuvimos que integrarlas, es decir, ponerlas todas en el mismo 'lenguaje'. Y luego convertimos ese conocimiento en descriptores numéricos que pudieran ser interpretados por algoritmos, y eso forma en que podríamos explotar computacionalmente estas redes y conexiones”, concluye Adrià Fernández, primer autor del artículo y estudiante de doctorado en el mismo laboratorio.
Se destacan tres grupos donde se asocian las enfermedades y sus tratamientos. Crédito:IRB Barcelona
La Bioteque se irá ampliando periódicamente con nuevas bases de datos, a medida que se hagan públicas. Tanto la herramienta como las bases de datos y los algoritmos son de acceso abierto y están disponibles en línea.
La investigación fue publicada en Nature Communications . El aprendizaje automático profundo completa la información sobre un millón de moléculas bioactivas