• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Aprender la codificación específica del chino para la similitud fonética

    Visualización que representa la codificación fonética de las iniciales Pinyin. Crédito:IBM

    Realizar la gimnasia mental de hacer la distinción fenética entre palabras y frases como "Escuché" a "Estoy aquí" o "No puedo hacer mucho" a "No puedo coser botones, "es familiar para cualquiera que haya encontrado mensajes de texto autocorregidos, publicaciones punny en redes sociales y similares. Aunque a primera vista pueda parecer que la similitud fonética solo se puede cuantificar para palabras audibles, este problema suele estar presente en espacios puramente textuales.

    Los enfoques de IA para analizar y comprender el texto requieren una entrada limpia, lo que a su vez implica una cantidad necesaria de preprocesamiento de datos brutos. Homófonos y sinófonos incorrectos, ya sea que se use en error o en broma, debe corregirse como cualquier otra forma de error ortográfico o gramatical. En el ejemplo anterior, Transformar con precisión las palabras "escuchar" y "así" en sus contrapartes correctas fonéticamente similares requiere una representación sólida de la similitud fonética entre pares de palabras.

    La mayoría de los algoritmos de similitud fonética están motivados por casos de uso en inglés, y diseñado para idiomas indoeuropeos. Sin embargo, muchos lenguajes, como el chino, tienen una estructura fonética diferente. El sonido del habla de un carácter chino está representado por una sola sílaba en pinyin, el sistema oficial de romanización del chino. Una sílaba Pinyin consta de:una inicial (opcional) (como 'b', 'Z h', o 'x'), una final (como 'a', 'UNED', 'wai', o 'yuan') y tono (de los cuales hay cinco). La asignación de estos sonidos del habla a los fonemas del inglés da como resultado una representación bastante inexacta, y el uso de algoritmos de similitud fonética indoeuropea agrava aún más el problema. Por ejemplo, dos algoritmos bien conocidos, Soundex y Double Metaphone, indexar consonantes ignorando vocales (y no tener concepto de tonos).

    Pinyin

    Como una sílaba Pinyin representa un promedio de siete caracteres chinos diferentes, la preponderancia de homófonos es incluso mayor que en inglés. Mientras tanto, el uso de Pinyin para la creación de texto es extremadamente frecuente en aplicaciones móviles y de chat, tanto al utilizar la conversión de voz a texto como al escribir directamente, ya que es más práctico ingresar una sílaba Pinyin y seleccionar el carácter deseado. Como resultado, Los errores de entrada basados ​​en fonética son extremadamente comunes, destacando la necesidad de un algoritmo de similitud fonética muy preciso en el que se pueda confiar para corregir errores.

    Motivado por este caso de uso, que se generaliza a muchos otros idiomas que no se ajustan fácilmente al molde fonético del inglés, Desarrollamos un enfoque para aprender una codificación fonética n-dimensional para chino, Una característica importante de Pinyin es que los tres componentes de una sílaba (inicial, final y tono) deben considerarse y compararse de forma independiente. Por ejemplo, la similitud fonética de los finales "ie" y "ue" es idéntica en los pares de Pinyin {"xie2, "" xue2 "} y {" lie2, "" lue2 "}, a pesar de las diferentes iniciales. Por lo tanto, la similitud de un par de sílabas Pinyin es una agregación de las similitudes entre sus iniciales, finales y tonos.

    Sin embargo, restringir artificialmente el espacio de codificación a una dimensión baja (por ejemplo, indexando cada inicial a una única categórica, o incluso valor numérico) limita la precisión de la captura de las variaciones fonéticas. Lo correcto, El enfoque basado en datos es, por lo tanto, aprender orgánicamente una codificación de dimensionalidad adecuada. El modelo de aprendizaje deriva codificaciones precisas al considerar conjuntamente las características lingüísticas del Pinyin, como el lugar de los métodos de articulación y pronunciación, así como conjuntos de datos de entrenamiento anotados de alta calidad.

    Demostrar una mejora de 7.5X sobre los enfoques de similitud fonética existentes

    Por lo tanto, las codificaciones aprendidas se pueden utilizar para, por ejemplo, aceptar una palabra como entrada y devolver una lista clasificada de palabras fonéticamente similares (clasificadas por similitud fonética decreciente). La clasificación es importante porque las aplicaciones posteriores no se escalarán para considerar una gran cantidad de candidatos sustitutos para cada palabra, especialmente cuando se ejecuta en tiempo real. Como ejemplo del mundo real, Evaluamos nuestro enfoque para generar una lista clasificada de candidatos para cada una de las 350 palabras chinas tomadas de un conjunto de datos de redes sociales. y demostró una mejora de 7.5X sobre los enfoques de similitud fonética existentes.

    Esperamos que las mejoras producidas por este trabajo para representar la similitud fonética específica del lenguaje contribuyan a la calidad de numerosas aplicaciones de procesamiento del lenguaje natural multilingüe. Este trabajo, parte del proyecto IBM Research SystemT, fue presentado recientemente en la Conferencia SIGNLL de 2018 sobre el aprendizaje del lenguaje natural computacional, y el modelo chino previamente entrenado está disponible para que los investigadores lo utilicen como recurso en la creación de chatbots, aplicaciones de mensajería, correctores ortográficos y cualquier otra aplicación relevante.


    © Ciencia https://es.scienceaq.com