Presentamos el servicio Cloud Text-to-Speech para desarrolladores

Crédito:CC0 Public Domain

El blog de Google Cloud Platform emitió un anuncio el martes, presentamos Cloud Text-to-Speech.

Dan Aharon, Gerente de producto, IA en la nube, dijo, "Los desarrolladores nos han dicho que les gustaría agregar texto a voz a sus propias aplicaciones, por eso, hoy traemos esta tecnología a Google Cloud Platform con Cloud Text-to-Speech ".

Cloud Text-to-Speech tiene que ver con la conversión de texto a voz impulsada por el aprendizaje automático.

Como API, dijo el sitio web de Cloud Text-to-Speech, puede crear interacciones con los usuarios, en aplicaciones y dispositivos. Cloud Text-to-Speech admite aplicaciones o dispositivos que pueden enviar una solicitud REST o gRPC. Eso incluye teléfonos, PC tabletas y dispositivos IoT (p. ej., carros, Televisores Altavoces).

¿Qué aplicaciones de palabras reales se aplicarían? Los casos de uso incluyen la automatización del centro de llamadas y las respuestas interactivas de los dispositivos de IoT.

Dijo que Cloud Text-to-Speech ya está ayudando a los clientes a ofrecer una mejor experiencia a sus usuarios finales.

(Robert Hof de SiliconANGLE dijo que "varias docenas de usuarios alfa lo han estado probando desde noviembre").

Los clientes incluyen Cisco y Dolphin ONE. Este último integró Cloud Text-to-Speech en sus productos; sus usuarios pueden crear "experiencias naturales de centro de llamadas".

¿Qué es Google Cloud Platform? Este es un conjunto de servicios de computación en la nube que se ejecutan en la misma infraestructura que Google usa internamente para productos como la Búsqueda de Google y YouTube. Ahora, dijo Frederic Lardinois en TechCrunch , "Los desarrolladores obtendrán acceso al mismo motor de conversión de texto a voz desarrollado por DeepMind que la propia empresa utiliza actualmente para su Asistente y para la dirección de Google Maps".

Ingrese a la arquitectura de red neuronal WaveNet, que genera directamente una forma de onda de audio sin procesar.

Aharon escribió en su blog, "Cloud Text-to-Speech también incluye una selección de voces de alta fidelidad creadas con WaveNet, un modelo generativo para audio en bruto creado por DeepMind. WaveNet sintetiza un habla con un sonido más natural y, de media, produce audio de voz que la gente prefiere sobre otras tecnologías de conversión de texto a voz ".

Cloud Text-to-Speech incluye tecnología de voz avanzada; La investigación de Deep Mind en modelos de aprendizaje automático para generar un habla que imita las voces humanas ha tenido éxito. El habla suena natural y su equipo afirmó que redujo la brecha con el desempeño humano en más del 50%.

Lardinois señaló lo que hace que la contribución de WaveNet al discurso sea especial:

"A diferencia de los esfuerzos anteriores, WaveNet no realiza síntesis de voz basada en una colección de fragmentos de voz cortos, que tiende a crear el tipo de voces robóticas con las que seguramente estás familiarizado. En lugar de, WaveNet modela audio en bruto utilizando un modelo de aprendizaje automático para crear un discurso con un sonido mucho más natural ".

Lardinois también proporcionó una breve historia de WaveNet y cómo abordó la velocidad de respuesta tan importante.

"Google habló por primera vez sobre WaveNet hace aproximadamente un año. Desde entonces, trasladó estas herramientas a una nueva infraestructura que se encuentra en la parte superior de las propias Unidades de procesamiento de tensores de la empresa. Esto le permite generar estas formas de onda de audio 1, 000 veces más rápido que antes, por lo que generar un segundo de audio ahora solo toma 50 milisegundos ".

Permite a los desarrolladores sintetizar un discurso con un sonido natural con 30 voces. Es más, está disponible en varios idiomas y variantes. El sitio dijo que admite 32 voces en 12 idiomas y variantes.

(Este escritor lo probó en dos idiomas. Pareció excelente en ambos intentos).

Frederic Lardinois en TechCrunch señaló que los desarrolladores podrán personalizar el tono, velocidad de habla y ganancia de volumen de los archivos MP3 o WAV que generará el servicio.

Aharon en el blog proporcionó un enlace para obtener información sobre precios y documentación.

El software genera automáticamente instrucciones de tejido para formas tridimensionales

Un puente hasta ahora:controvertido megaproyecto de China

Electrónica