• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • ¿Qué tan bien pueden las computadoras conectar los síntomas con las enfermedades?

    Crédito:CC0 Public Domain

    Un nuevo estudio del MIT encuentra "gráficos de conocimientos de salud, "que muestran relaciones entre síntomas y enfermedades y están destinados a ayudar con el diagnóstico clínico, puede quedarse corto para ciertas condiciones y poblaciones de pacientes. Los resultados también sugieren formas de mejorar su rendimiento.

    Los gráficos de conocimientos sobre salud normalmente han sido compilados manualmente por médicos expertos, pero eso puede ser un proceso laborioso. Recientemente, Los investigadores han experimentado con la generación automática de estos gráficos de conocimiento a partir de los datos de los pacientes. El equipo del MIT ha estado estudiando qué tan bien se mantienen estos gráficos en diferentes enfermedades y poblaciones de pacientes.

    En un artículo presentado en el Pacific Symposium on Biocomputing 2020, los investigadores evaluaron gráficos de conocimiento de salud generados automáticamente basados ​​en conjuntos de datos reales que comprenden más de 270, 000 pacientes con cerca de 200 enfermedades y más de 770 síntomas.

    El equipo analizó cómo varios modelos utilizaban datos de registros médicos electrónicos (HCE), que contenga historiales médicos y de tratamiento de los pacientes, para "aprender" automáticamente los patrones de correlación entre síntomas y enfermedades. Descubrieron que los modelos funcionaron particularmente mal para enfermedades que tienen un alto porcentaje de pacientes muy viejos o jóvenes, o altos porcentajes de pacientes masculinos o femeninos, pero que elegir los datos correctos para el modelo correcto, y hacer otras modificaciones, puede mejorar el rendimiento.

    La idea es brindar orientación a los investigadores sobre la relación entre el tamaño del conjunto de datos, especificación del modelo, y rendimiento cuando se utilizan registros médicos electrónicos para crear gráficos de conocimientos de salud. Eso podría conducir a mejores herramientas para ayudar a los médicos y pacientes con la toma de decisiones médicas o para buscar nuevas relaciones entre enfermedades y síntomas.

    "En los últimos 10 años, El uso de EHR se ha disparado en los hospitales, así que hay una enorme cantidad de datos que esperamos extraer para conocer estos gráficos de las relaciones entre la enfermedad y los síntomas, "dice la primera autora Irene Y. Chen, estudiante de posgrado en el Departamento de Ingeniería Eléctrica e Informática (EECS). "Es fundamental que examinemos de cerca estos gráficos, para que puedan utilizarse como los primeros pasos de una herramienta de diagnóstico ".

    Junto a Chen en el papel están Monica Agrawal, estudiante de posgrado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL); Steven Horng del Centro Médico Beth Israel Deaconess (BIDMC); y el profesor de EECS David Sontag, que es miembro de CSAIL y del Instituto de Ingeniería y Ciencia Médicas, y jefe del Grupo de Aprendizaje Automático Clínico.

    Pacientes y enfermedades

    En los gráficos de conocimientos de salud, hay cientos de nodos, cada uno representa una enfermedad y un síntoma diferente. Los bordes (líneas) conectan los nodos de la enfermedad, como "diabetes, "con los nodos de síntomas correlacionados, como "sed excesiva". Google lanzó su propia versión en 2015, que fue curada manualmente por varios médicos durante cientos de horas y se considera el estándar de oro. Cuando buscas en Google una enfermedad ahora, el sistema muestra los síntomas asociados.

    En un artículo de Nature Scientific Reports de 2017, Sontag, Horng, y otros investigadores aprovecharon los datos de los mismos 270, 00 pacientes en su estudio actual, que provino del departamento de emergencias en BIDMC entre 2008 y 2013, para construir gráficos de conocimiento de salud. Utilizaron tres estructuras modelo para generar los gráficos, llamada regresión logística, ingenuo bayes, y ruidoso OR. Utilizando datos proporcionados por Google, los investigadores compararon su gráfico de conocimiento de salud generado automáticamente con el Gráfico de conocimiento de salud de Google (GHKG). El gráfico de los investigadores funcionó muy bien.

    En su nuevo trabajo, los investigadores realizaron un riguroso análisis de errores para determinar en qué pacientes y enfermedades específicos los modelos tenían un desempeño deficiente. Adicionalmente, experimentaron con aumentar los modelos con más datos, desde más allá de la sala de emergencias.

    En una prueba, dividieron los datos en subpoblaciones de enfermedades y síntomas. Para cada modelo, analizaron las líneas de conexión entre las enfermedades y todos los síntomas posibles, y lo comparó con el GHKG. En el papel, clasifican los resultados en 50 enfermedades de menor rendimiento y 50 de mayor rendimiento. Ejemplos de bajo rendimiento son el síndrome de ovario poliquístico (que afecta a las mujeres), asma alérgica (muy rara), y cáncer de próstata (que afecta predominantemente a hombres mayores). Los de alto rendimiento son las enfermedades y afecciones más comunes, como arritmia cardíaca y fascitis plantar, que es la hinchazón del tejido a lo largo de los pies.

    Descubrieron que el modelo de quirófano ruidoso era el más robusto contra el error en general para casi todas las enfermedades y pacientes. Pero la precisión disminuyó entre todos los modelos para pacientes que tienen muchas enfermedades concurrentes y síntomas concurrentes, así como pacientes muy jóvenes o mayores de 85 años. El rendimiento también se vio afectado por poblaciones de pacientes con porcentajes muy altos o bajos de cualquier sexo.

    Esencialmente, los investigadores plantean la hipótesis, El bajo rendimiento es causado por pacientes y enfermedades que tienen un rendimiento predictivo atípico. así como posibles factores de confusión no medidos. Pacientes de edad avanzada, por ejemplo, tienden a ingresar a los hospitales con más enfermedades y síntomas relacionados que los pacientes más jóvenes. Eso significa que es difícil para los modelos correlacionar enfermedades específicas con síntomas específicos, Chen dice. "Similar, " ella agrega, "los pacientes jóvenes no tienen muchas enfermedades ni tantos síntomas, y si tienen una enfermedad o síntoma raro, no se presenta de la manera normal que entienden los modelos ".

    División de datos

    Los investigadores también recopilaron muchos más datos de pacientes y crearon tres conjuntos de datos distintos de diferente granularidad para ver si eso podría mejorar el rendimiento. Para el 270, 000 visitas utilizadas en el análisis original, los investigadores extrajeron el historial completo de EHR de los 140, 804 pacientes únicos, rastreando una década, con alrededor de 7,4 millones de anotaciones en total de diversas fuentes, como las notas del médico.

    Las elecciones en el proceso de creación del conjunto de datos también afectaron el rendimiento del modelo. Uno de los conjuntos de datos agrega cada uno de los 140, 400 historiales de pacientes como un punto de datos cada uno. Otro conjunto de datos trata cada uno de los 7,4 millones de anotaciones como un punto de datos independiente. Una última crea "episodios" para cada paciente, definida como una serie continua de visitas sin interrupción de más de 30 días, produciendo un total de alrededor de 1,4 millones de episodios.

    Intuitivamente, un conjunto de datos en el que se agrega el historial completo del paciente en un solo punto de datos debería conducir a una mayor precisión, ya que se considera el historial completo del paciente. Contraintuitivamente, sin embargo, también provocó que el modelo ingenuo de Bayes tuviera un peor rendimiento para algunas enfermedades. "Usted asume que la información más intrapaciente, el mejor, con modelos de aprendizaje automático. Pero estos modelos dependen de la granularidad de los datos que les proporcionas, ", Dice Chen." El tipo de modelo que usa puede abrumarse ".

    Como se esperaba, alimentar el modelo con información demográfica también puede ser eficaz. Por ejemplo, Los modelos pueden usar esa información para excluir a todos los pacientes masculinos por, decir, predecir el cáncer de cuello uterino. Y ciertas enfermedades mucho más comunes en pacientes de edad avanzada pueden eliminarse en pacientes más jóvenes.

    Pero, en otra sorpresa, la información demográfica no impulsó el rendimiento del modelo más exitoso, por lo que recopilar esos datos puede ser innecesario. Eso es importante, Chen dice, porque la compilación de datos y modelos de entrenamiento sobre los datos puede resultar costosa y llevar mucho tiempo. Todavía, dependiendo del modelo, Es posible que el uso de una gran cantidad de datos no mejore el rendimiento.

    Próximo, los investigadores esperan utilizar sus hallazgos para construir un modelo robusto para implementar en entornos clínicos. En la actualidad, el gráfico de conocimientos de salud aprende las relaciones entre las enfermedades y los síntomas, pero no ofrece una predicción directa de la enfermedad a partir de los síntomas. "Esperamos que cualquier modelo predictivo y cualquier gráfico de conocimiento médico se someta a una prueba de esfuerzo para que los médicos y los investigadores de aprendizaje automático puedan decir con confianza:"Confiamos en esto como una herramienta de diagnóstico útil, '", Dice Chen.

    Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.




    © Ciencia https://es.scienceaq.com