Interfaz del estudio de crowdsourcing. Crédito:Fan et al.
Las técnicas de aprendizaje profundo están demostrando ser de gran utilidad para analizar todo tipo de datos, desde imágenes hasta texto, publicaciones en línea y grabaciones de audio. Estas técnicas están diseñadas para identificar patrones en grandes conjuntos de datos, separe los elementos en diferentes categorías y haga predicciones mucho más rápido que los humanos.
En un estudio reciente, investigadores de la Universidad Simon Fraser, Academia Sinica y Dartmouth College han aplicado técnicas de aprendizaje profundo para identificar similitudes y diferencias entre la música clásica china y occidental. Su papel prepublicado en arXiv, presenta un análisis comparativo de grabaciones de música utilizando modelos de detección de eventos de sonido (SED) y reconocimiento de emociones de paisajes sonoros (SER).
"Hemos escuchado música clásica china y occidental, "Jianyu Fan, uno de los investigadores que realizó el estudio, dijo a TechXplore. "Creemos que varios factores distinguen a la música china de la occidental, incluyendo su cultura subyacente, filosofía y forma de pensar. Por eso estamos muy interesados en estudios que comparen la música china y occidental ".
Los modelos de aprendizaje profundo para el análisis de grabaciones de música a veces pueden funcionar mal, mientras luchan por aprender patrones en información de alto nivel, como la melodía de una canción, armonía, etc. Para superar las limitaciones encontradas en estudios anteriores, Fan y sus colegas aplicaron modelos de paisajes sonoros al análisis de la música clásica china y occidental, para evaluar su efectividad en la identificación de similitudes y diferencias entre los dos subgéneros.
La distribución de anotaciones emocionales de la música clásica occidental. Crédito:Fan et al.
Inicialmente, los investigadores compilaron dos conjuntos de datos anotados que contienen grabaciones de música china y occidental, apodado WCMED y CCMED. Después, entrenaron un modelo SED previamente entrenado y un modelo SER previamente entrenado en estos conjuntos de datos por separado, combinando ambos con un modelo de regresión de vectores de soporte (RVS). Los modelos SED están diseñados para detectar eventos de sonido en señales de audio, mientras que los modelos SER están entrenados para reconocer la emoción que transmiten las grabaciones de paisajes sonoros.
"Si bien los estudios musicales anteriores utilizan principalmente modelos basados en la música, teníamos curiosidad por saber si un modelo entrenado en el paisaje sonoro general se puede utilizar para analizar la música y en qué se diferencian de la música clásica china y occidental, "Fan explicó." Por lo tanto, intentamos utilizar dos modelos basados en el sonido general:un modelo de detección de eventos de sonido y un modelo de reconocimiento de emociones del paisaje sonoro ".
Los investigadores utilizaron técnicas de aprendizaje por transferencia para extraer representaciones de sonido de alto nivel. Luego utilizaron estas representaciones para entrenar su modelo de reconocimiento de emociones musicales para detectar emociones transmitidas por grabaciones musicales. Como su modelo fue entrenado previamente para generalizar las características del sonido, encontraron que estas representaciones funcionaban mejor cuando se combinaban con un modelo más simple, especialmente para el análisis de la música clásica china. Los investigadores también capacitaron a un clasificador de aprendizaje profundo sobre los conjuntos de datos que crearon y realizaron análisis adicionales que se centraron en características específicas de las canciones chinas y occidentales.
"Como nuestro objetivo es utilizar modelos de paisajes sonoros previamente entrenados para analizar y comparar la música clásica china y occidental, no esperábamos que el modelo funcionara perfectamente para diferentes tipos de audio y diferentes tipos de tareas, "Fan dijo." Sin embargo, nuestros resultados sugieren que es eficaz para predecir la excitación de la música clásica china y occidental utilizando modelos de paisajes sonoros ".
La distribución de anotaciones emocionales de la música clásica china. Crédito:Fan et al.
Los hallazgos recopilados por Fan y sus colegas sugieren que los modelos SED y SER son herramientas prometedoras para el análisis de grabaciones musicales. Curiosamente, el análisis comparativo de la música clásica china y occidental utilizando estas técnicas condujo a resultados que están alineados con las ideas presentadas por los teóricos de la música en China.
Los investigadores también observaron que su clasificador de aprendizaje profundo reconoció las grabaciones de paisajes sonoros como música clásica china. Esto sugiere que las grabaciones de paisajes sonoros suelen compartir más similitudes con la música clásica china que con la música clásica occidental.
"Nuestro estudio destacó que existen ciertas similitudes entre la música clásica china y las grabaciones de paisajes sonoros, Fan dijo. "Estos resultados están alineados con los reportados por musicólogos chinos y filósofos de la música clásica chinos".
En el futuro, el estudio realizado por este equipo de investigadores podría inspirar otros estudios que comparen diferentes géneros de música basados en el análisis de modelos de paisajes sonoros. Mientras tanto, Fan y sus colegas planean continuar investigando las similitudes y diferencias entre la música china y occidental utilizando métodos de aprendizaje profundo. al mismo tiempo que intenta construir modelos que puedan componer automáticamente nueva música clásica.
© 2020 Science X Network