Paradigm4 permite a los usuarios integrar datos de fuentes como secuenciación genómica, medidas biométricas, factores medioambientales, y más en sus investigaciones para permitir nuevos descubrimientos en una variedad de campos de las ciencias de la vida. Crédito:Instituto de Tecnología de Massachusetts
Como tecnologías como la secuenciación genómica unicelular, imágenes biomédicas mejoradas, y proliferan los dispositivos médicos de "Internet de las cosas", Los descubrimientos clave sobre la salud humana se encuentran cada vez más en vastos tesoros de datos complejos de ciencias de la vida y salud.
Pero sacar conclusiones significativas de esos datos es un problema difícil que puede implicar juntar diferentes tipos de datos y manipular enormes conjuntos de datos en respuesta a diversas investigaciones científicas. El problema tiene tanto que ver con la informática como con otras áreas de la ciencia. Ahí es donde entra Paradigm4.
La empresa, fundada por Marilyn Matz SM '80 y ganador del premio Turing y profesor del MIT Michael Stonebraker, ayuda a las empresas farmacéuticas, institutos de investigación, y las empresas de biotecnología convierten los datos en conocimientos.
Lo logra con un sistema de administración de base de datos computacional que está construido desde cero para albergar a los diversos, datos multifacéticos en las fronteras de la investigación en ciencias de la vida. Eso incluye datos de fuentes como biobancos nacionales, ensayos clínicos, el internet médico de las cosas, atlas de células humanas, imagenes medicas, factores medioambientales, y multi-ómicas, un campo que incluye el estudio de genomas, microbiomas, metabolomas, y más.
Además de la arquitectura única del sistema, la empresa también ha construido la preparación de datos, gestión de metadatos, y herramientas de análisis para ayudar a los usuarios a encontrar los patrones y correlaciones importantes que acechan dentro de todos esos números.
En muchas instancias, los clientes están explorando conjuntos de datos que, según los fundadores, son demasiado grandes y complejos para ser representados de manera efectiva por los sistemas tradicionales de administración de bases de datos.
"Estamos interesados en permitir que los científicos y los científicos de datos hagan cosas que antes no podían hacer al facilitarles el manejo de la computación a gran escala y el aprendizaje automático en diversos datos". ", Dice Matz." Estamos ayudando a los científicos y bioinformáticos a colaborar, investigación reproducible para hacer y responder preguntas difíciles con mayor rapidez ".
Un nuevo paradigma
Stonebraker ha sido pionero en el campo de los sistemas de gestión de bases de datos durante décadas. Ha puesto en marcha nueve empresas, y sus innovaciones han establecido estándares para la forma en que los sistemas modernos permiten a las personas organizarse y acceder a grandes conjuntos de datos.
Gran parte de la carrera de Stonebraker se ha centrado en bases de datos relacionales, que organizan los datos en columnas y filas. Pero a mediados de la década de 2000, Stonebraker se dio cuenta de que muchos de los datos que se generan se almacenarían mejor no en filas o columnas, sino en matrices multidimensionales.
Por ejemplo, los satélites rompen la superficie de la Tierra en grandes cuadrados, y los sistemas GPS rastrean el movimiento de una persona a través de esos cuadrados a lo largo del tiempo. Esa operación implica vertical, horizontal, y mediciones de tiempo que no se agrupan o manipulan fácilmente para su análisis en sistemas de bases de datos relacionales.
Stonebraker recuerda que sus colegas científicos se quejaron de que los sistemas de gestión de bases de datos disponibles eran demasiado lentos para trabajar con conjuntos de datos científicos complejos en campos como la genómica, donde los investigadores estudian las relaciones entre los datos multiómicos a escala poblacional, datos fenotípicos, y registros médicos.
"[Los sistemas de bases de datos relacionales] escanean horizontal o verticalmente, pero no ambos, "Stonebraker explica." Por lo tanto, necesita un sistema que haga ambas cosas, y eso requiere un administrador de almacenamiento en la parte inferior del sistema que sea capaz de moverse tanto horizontal como verticalmente a través de una matriz muy grande. Eso es lo que hace Paradigm4 ".
En 2008, Stonebraker comenzó a desarrollar un sistema de administración de bases de datos en el MIT que almacenaba datos en arreglos multidimensionales. Confirmó que el enfoque ofrecía importantes ventajas de eficiencia. permitiendo herramientas analíticas basadas en álgebra lineal, incluidas muchas formas de aprendizaje automático y procesamiento de datos estadísticos, para ser aplicado a grandes conjuntos de datos de nuevas formas.
Stonebraker decidió convertir el proyecto en una empresa en 2010, cuando se asoció con Matz, un emprendedor exitoso que cofundó Cognex Corporation, una gran empresa industrial de visión artificial que salió a bolsa en 1989. Los fundadores y su equipo se pusieron a trabajar para desarrollar las características clave del sistema, incluyendo su arquitectura distribuida que permite que el sistema se ejecute en servidores de bajo costo, y su capacidad para limpiar y organizar datos automáticamente de formas útiles para los usuarios.
Los fundadores describen su sistema de gestión de bases de datos como un motor computacional para datos científicos, y lo han llamado SciDB. Además de SciDB, desarrollaron una plataforma de análisis, llamado el motor de descubrimiento REVEAL, basado en las actividades y aspiraciones de investigación diarias de los usuarios.
"Si eres un científico o un científico de datos, Los productos REVEAL y SciDB de Paradigm se encargan de toda la disputa de datos y la plomería y cableado computacional, "para que no tenga que preocuparse por acceder a los datos, mover datos, o configurando computación distribuida en paralelo, "Dice Matz." Sus datos están preparados para la ciencia. Simplemente haga su pregunta científica y la plataforma orquestará toda la gestión de datos y la computación para usted ".
SciDB está diseñado para ser utilizado tanto por científicos como por desarrolladores, para que los usuarios puedan interactuar con el sistema a través de interfaces gráficas de usuario o aprovechando lenguajes estadísticos y de programación como R y Python.
"Ha sido muy importante vender soluciones, no bloques de construcción, "Dice Matz." Una gran parte de nuestro éxito en las ciencias de la vida con los mejores institutos de investigación, biotecnología y farmacia es brindarles nuestro paquete REVEAL de soluciones específicas de aplicación para problemas. No les estamos entregando una plataforma analítica que es un conjunto de bloques LEGO; les brindamos soluciones que manejan los datos que manejan a diario, y soluciones que utilizan su vocabulario y responden a las preguntas en las que quieren trabajar ".
Acelerar el descubrimiento
En la actualidad, los clientes de Paradigm4 incluyen algunas de las empresas farmacéuticas y de biotecnología más grandes del mundo, así como laboratorios de investigación de los Institutos Nacionales de Salud. Universidad Stanford, y en otros lugares.
Los clientes pueden integrar datos de secuenciación genómica, medidas biométricas, data on environmental factors, and more into their inquiries to enable new discoveries across a range of life science fields.
Matz says SciDB did 1 billion linear regressions in less than an hour in a recent benchmark, and that it can scale well beyond that, which could speed up discoveries and lower costs for researchers who have traditionally had to extract their data from files and then rely on less efficient cloud-computing-based methods to apply algorithms at scale.
"If researchers can run complex analytics in minutes and that used to take days, that dramatically changes the number of hard questions you can ask and answer, " Matz says. "That is a force-multiplier that will transform research daily."
Beyond life sciences, Paradigm4's system holds promise for any industry dealing with multifaceted data, including earth sciences, where Matz says a NASA climatologist is already using the system, and industrial IoT, where data scientists consider large amounts of diverse data to understand complex manufacturing systems. Matz says the company will focus more on those industries next year.
In the life sciences, sin embargo, the founders believe they already have a revolutionary product that's enabling a new world of discoveries. Down the line, they see SciDB and REVEAL contributing to national and worldwide health research that will allow doctors to provide the most informed, personalized care imaginable.
"The query that every doctor wants to run is, when you come into his or her office and display a set of symptoms, the doctor asks, "Who in this national database has genetics that look like mine, symptoms that look like mine, lifestyle exposures that look like mine? And what was their diagnosis? What was their treatment? And what was their morbidity?" Stonebraker explains. "This is cross correlating you with everybody else to do very personalized medicine, and I think this is within our grasp."
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.