• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • El reconocimiento de voz automatizado es menos preciso para los negros:estudio

    Crédito:CC0 Public Domain

    La tecnología que impulsa los principales sistemas de reconocimiento de voz automatizados del país comete el doble de errores al interpretar las palabras pronunciadas por los afroamericanos que al interpretar las mismas palabras dichas por los blancos. según un nuevo estudio realizado por investigadores de Stanford Engineering.

    Si bien el estudio se centró exclusivamente en las disparidades entre estadounidenses blancos y negros, problemas similares podrían afectar a las personas que hablan con acentos regionales y no nativos del inglés, concluyeron los investigadores.

    Si no se aborda, este desequilibrio traslacional podría tener graves consecuencias para la carrera e incluso la vida de las personas. Muchas empresas ahora seleccionan a los solicitantes de empleo con entrevistas en línea automatizadas que emplean el reconocimiento de voz. Los tribunales utilizan la tecnología para ayudar a transcribir audiencias. Para las personas que no pueden usar las manos es más, el reconocimiento de voz es crucial para acceder a las computadoras.

    Los resultados, publicado el 23 de marzo en la revista procedimientos de la Academia Nacional de Ciencias , se basaron en pruebas de sistemas desarrollados por Amazon, IBM, Google, Microsoft y Apple. Las primeras cuatro empresas brindan servicios de reconocimiento de voz en línea por una tarifa, y los investigadores realizaron sus pruebas utilizando esos servicios. Para el quinto, los investigadores crearon una aplicación iOS personalizada que ejecutaba pruebas utilizando la tecnología de reconocimiento de voz libre de Apple. Las pruebas se realizaron la primavera pasada, y es posible que las tecnologías de voz se hayan actualizado desde entonces.

    Los investigadores no pudieron determinar si las tecnologías de reconocimiento de voz de las empresas también fueron utilizadas por sus asistentes virtuales. como Siri en el caso de Apple y Alexa en el caso de Amazon, porque las empresas no revelan si utilizan diferentes versiones de sus tecnologías en diferentes ofertas de productos.

    "Pero uno debería esperar que las empresas con sede en EE. UU. Construyan productos que sirvan a todos los estadounidenses, "dijo la autora principal del estudio, Allison Koenecke, un candidato a doctorado en ingeniería computacional y matemática que se asoció con lingüistas e informáticos en el trabajo. "Ahora, parece que no lo están haciendo para todo un segmento de la población ".

    Tasas de error desiguales

    Koenecke y sus colegas probaron los sistemas de reconocimiento de voz de cada empresa con más de 2, 000 muestras de habla de entrevistas grabadas con afroamericanos y blancos. Las muestras de habla negra provienen del Corpus of Regional African American Language, y las muestras blancas provienen de entrevistas realizadas por Voices of California, que presenta entrevistas grabadas de residentes de diferentes comunidades de California.

    Las cinco tecnologías de reconocimiento de voz tenían tasas de error que eran casi dos veces más altas para los negros que para los blancos, incluso cuando los hablantes eran emparejados por género y edad y cuando hablaban las mismas palabras. De media, los sistemas malinterpretaron el 35 por ciento de las palabras pronunciadas por los negros, pero solo el 19 por ciento de las habladas por los blancos.

    Las tasas de error fueron más altas para los hombres afroamericanos, y la disparidad fue mayor entre los hablantes que hicieron un mayor uso del inglés vernáculo afroamericano.

    Los investigadores también realizaron pruebas adicionales para determinar con qué frecuencia las cinco tecnologías de reconocimiento de voz malinterpretaron las palabras de manera tan drástica que las transcripciones fueron prácticamente inútiles. Probaron miles de muestras de voz, con un promedio de 15 segundos de duración, contar la frecuencia con la que las tecnologías superaron el umbral de estropear al menos la mitad de las palabras de cada muestra. Esta tasa de error inaceptablemente alta ocurrió en más del 20 por ciento de las muestras habladas por negros, frente a menos del 2 por ciento de las muestras habladas por blancos.

    Sesgo oculto

    Los investigadores especulan que las disparidades comunes a las cinco tecnologías provienen de un defecto común:los sistemas de aprendizaje automático utilizados para entrenar los sistemas de reconocimiento de voz probablemente dependen en gran medida de las bases de datos del inglés que hablan los estadounidenses blancos. Un enfoque más equitativo sería incluir bases de datos que reflejen una mayor diversidad de acentos y dialectos de otros angloparlantes.

    A diferencia de otros fabricantes, que a menudo son requeridos por la ley o la costumbre para explicar qué contienen sus productos y cómo se supone que funcionan, las empresas que ofrecen sistemas de reconocimiento de voz no tienen tales obligaciones.

    Sharad Goel, un profesor de ingeniería computacional en Stanford que supervisó el trabajo, dijo que el estudio destaca la necesidad de auditar las nuevas tecnologías, como el reconocimiento de voz, en busca de sesgos ocultos que puedan excluir a las personas que ya están marginadas. Dichas auditorías deberían ser realizadas por expertos externos independientes, y requeriría mucho tiempo y trabajo, pero son importantes para asegurarse de que esta tecnología sea inclusiva.

    "No podemos contar con que las empresas se regulen a sí mismas, "Dijo Goel." Eso no es para lo que están configurados. Me imagino que algunos podrían comprometerse voluntariamente a realizar auditorías independientes si hay suficiente presión pública. Pero también puede ser necesario que las agencias gubernamentales impongan más supervisión. Las personas tienen derecho a saber qué tan bien funciona realmente la tecnología que afecta sus vidas ".


    © Ciencia https://es.scienceaq.com