Waheeda Saib. Crédito:IBM
Los registros de cáncer contienen conjuntos de datos vitales, mantenido estrictamente encriptado, que contiene información demográfica, historial médico, diagnóstico y terapia. Los oncólogos y los funcionarios de salud acceden a los datos para comprender los casos de cáncer diagnosticados y las tasas de incidencia a nivel nacional. El objetivo final es utilizar estos datos para informar los programas de intervención y planificación de salud pública. Si bien las actualizaciones en tiempo real no son prácticas, Las demoras de varios años dificultan que los funcionarios comprendan el impacto del cáncer en el país y asignen los recursos en consecuencia.
Los informes de patología no estructurados contienen datos específicos de tumores y son la principal fuente de información recopilada por los registros de cáncer. Los expertos humanos etiquetan los informes de patología utilizando códigos de la Clasificación Internacional de Enfermedades para Oncología (ICD-O) que abarcan 42 tipos diferentes de cáncer. La combinación de procesos manuales y la magnitud de los informes recibidos anualmente lleva a un rezago de cuatro años para el país. En comparación, hay un retraso de casi dos años en los Estados Unidos.
En 2016, cuando inauguramos nuestro nuevo laboratorio de investigación de IBM en Johannesburgo, Asumimos este desafío y estamos informando nuestros primeros resultados prometedores en el Día de la Salud en la Conferencia de Ciencia de Datos de KDD en Londres este mes.
Nuestro objetivo desde el principio fue aplicar el aprendizaje profundo para automatizar el etiquetado de los informes de patología del cáncer para acelerar el proceso de presentación de informes. Trabajando con el Registro Nacional de Cáncer en Sudáfrica, usamos 2, 201 desidentificado, informes de patología de texto libre y me enorgullece informar que nuestro documento demuestra una precisión del 74 por ciento, una mejora con respecto a los modelos de referencia actuales. Creemos que podemos llegar al 95 por ciento de precisión con más datos.
Empleamos una clasificación jerárquica con redes neuronales convolucionales, aunque esta no fue nuestra primera opción. Inicialmente comenzamos a explorar modelos de redes neuronales convolucionales binarias y multiclase, pero los resultados no fueron prometedores y casi renuncio por la frustración. Finalmente, con el asesoramiento y apoyo de mis compañeros, limpiamos el texto, refinó el proceso de ingeniería de funciones y lo mejoró al 60 por ciento. Este resultado fue una mejora, pero sabíamos que necesitábamos del 90 al 95 por ciento para que fuera lo suficientemente confiable para el mundo real.
Después de más investigación y exploración, pensamos en reducir la complejidad del problema multiclase, lo que nos llevó a crear un método de clasificación de aprendizaje profundo jerárquico de última generación basado en la estructura jerárquica del sistema de codificación de oncología ICD-O. Por lo tanto, utilizamos un enfoque combinado para identificar la jerarquía de clases y validarla utilizando el conocimiento de expertos para lograr un mejor rendimiento que un modelo multiclase plano para la clasificación de informes patológicos de texto libre.
Nuestro trabajo, por supuesto, aún no ha terminado; necesitamos alcanzar una precisión superior al 95 por ciento, y creemos que esto es posible con más datos, que será proporcionado por nuestros socios en el Registro Nacional de Cáncer. Una vez que tengamos esto, creemos que Sudáfrica puede ser la mejor del mundo en términos de notificación de cáncer, lo cual es significativo particularmente porque se ha informado que mi país verá un aumento del 78 por ciento en el cáncer para 2030.
Esta historia se vuelve a publicar por cortesía de IBM Research. Lea la historia original aquí.