El diagrama de flujo si MLF. Crédito:Zhao et al.
Investigadores de la Universidad de Chongqing en China han desarrollado recientemente un clasificador de metaaprendizaje sensible a los costos que se puede usar cuando los datos de capacitación disponibles son de gran dimensión o limitados. Su clasificador, llamado SPFCNN-Miner, fue presentado en un artículo publicado en Elsevier's Sistemas informáticos de la generación futura .
Aunque los clasificadores de aprendizaje automático han demostrado ser eficaces en una variedad de tareas, para lograr resultados óptimos, a menudo requieren una gran cantidad de datos de entrenamiento. Cuando los datos son de alta dimensión, limitado o desequilibrado, la mayoría de los métodos de clasificación no pueden lograr un desempeño satisfactorio. En su estudio, El equipo de investigadores de la Universidad de Chongqing se propuso comprender mejor estos desafíos relacionados con los datos y desarrollar un clasificador que pueda superarlos.
"Usamos redes siamesas que son adecuadas para el aprendizaje de pocas oportunidades donde hay pocos datos disponibles para aprender datos limitados y de alta dimensión, y aplicar la idea de combinar enfoques 'superficiales' y 'profundos' para diseñar redes siamesas paralelas que puedan extraer mejor características simples o complejas de una variedad de conjuntos de datos, "Linchang Zhao, uno de los investigadores que realizó el estudio, dijo a TechXplore. "Los principales objetivos de nuestro estudio fueron resolver el problema del desequilibrio de clases de datos y obtener los mejores resultados de clasificación posibles en dichos conjuntos de datos".
Zhao y sus colegas desarrollaron una red neuronal totalmente conectada en paralelo siamés (SPFCNN) y la aplicaron a problemas con distribuciones de datos no balanceadas de clases. Para transformar su SPFCNN insensible a los costos en un enfoque sensible a los costos, utilizaron una técnica llamada "aprendizaje sensible a los costos".
Primero, los investigadores dividieron al grupo mayoritario en un conjunto de datos basado en características transformadas del producto interno. Esto aseguró que el tamaño de cada subgrupo en un grupo mayoritario fuera cercano al del grupo minoritario. Además, estructuraron algunos subconjuntos utilizando el grupo minoritario frente a cada partición obtenida.
"Próximo, aplicamos n Mineros SPFCNN a todos los subconjuntos, cada punto de muestra X j puede expresarse mediante sus correspondientes medidas (d j1 , …, D jn ), cada subclasificador se puede transformar en una medida de función de pérdida contrastiva ajustando el SPFCNN, "Zhao explicó." Finalmente, n Los mineros SPFCNN se integraron como clasificador final de acuerdo con los valores de la función contrastiva ".
El enfoque ideado por Zhao y sus colegas tiene numerosas ventajas que lo diferencian de otros clasificadores. Primero, su función de metaaprendizaje (MLF) se puede utilizar para dividir el grupo mayoritario en un conjunto de datos basado en las características transformadas del producto interno, lo que da como resultado que los datos transformados contengan información relacionada con las distancias y los ángulos entre los elementos de los grupos minoritario y mayoritario.
"Los ángulos entre el grupo mayoritario y el grupo minoritario pueden verse como la expresión de ubicaciones relacionadas y luego representar la dirección relacionada del grupo mayoritario con el grupo minoritario, "Explicó Zhao.
Otra ventaja del nuevo clasificador SPFCNN-Miner es que, como otras redes siamesas, Puede extraer de forma eficaz las funciones de más alto nivel de una pequeña cantidad de muestras para un aprendizaje de pocas tomas. Es más, Las redes siamesas paralelas están diseñadas para aprender de forma adaptativa características simples o complejas de diferentes dimensiones de atributos de datos.
Zhao y sus colegas evaluaron su enfoque en una serie de pruebas computacionales, utilizando versiones sensibles y sensibles al costo del clasificador SPFCNN. Descubrieron que el enfoque sensible a los costos superó a todos los clasificadores con los que lo compararon.
"Los resultados experimentales muestran que nuestro SPFCNN es un enfoque competitivo y es capaz de mejorar el rendimiento de clasificación de manera más significativa en comparación con los enfoques comparados, ", Dijo Zhao." Descubrimos que el rendimiento de nuestro modelo no mejoró a medida que aumentaba el tamaño de la muestra, pero se vio muy afectado por la tasa de desequilibrio. El rendimiento obtenido al incorporar el aprendizaje sensible al costo en nuestro modelo es más estable ".
El estudio llevado a cabo por Zhao y sus colegas introduce un nuevo método que los investigadores podrían utilizar para mejorar el rendimiento de los clasificadores cuando los datos son limitados o desequilibrados. Además, sus hallazgos sugieren que equilibrar el número de muestras positivas y negativas puede ser más eficaz que generar un mayor número de muestras artificiales. Por ejemplo, su enfoque puede integrar diferentes costos de clasificación errónea a medida que completa una tarea de clasificación, lo que lo hace más robusto que otras técnicas utilizadas para abordar problemas relacionados con los datos desequilibrados.
"En el futuro, planeamos utilizar técnicas como matrices de caminata aleatorias, distribución de peso circulante y codificación Huffman para comprimir nuestro modelo, y la tecnología débilmente conectada o el método de poda-cuantificación en paralelo se utilizará para aligerar el modelo SPFCNN propuesto, "Dijo Zhao.
© 2019 Science X Network