Trevor Henderson en la biblioteca de registros de WMBR, La estación de radio de estudiantes del MIT. Crédito:Melanie Gonick, MIT
En musica, "portamento" es un término que se ha utilizado durante cientos de años, refiriéndose al efecto de deslizar una nota en un tono en una nota de un tono más bajo o más alto. Pero solo los instrumentos que pueden variar continuamente de tono, como la voz humana, instrumentos de cuerda, y trombones — pueden lograr el efecto.
Ahora, un estudiante del MIT ha inventado un algoritmo novedoso que produce un efecto de portamento entre dos señales de audio en tiempo real. En experimentos, el algoritmo fusionó a la perfección varios clips de audio, como una nota de piano deslizándose hacia una voz humana, y una canción mezclándose con otra. Su artículo que describe el algoritmo ganó el premio al "mejor artículo de estudiante" en la reciente Conferencia Internacional sobre Efectos de Audio Digitales.
El algoritmo se basa en "transporte óptimo, "un marco basado en geometría que determina las formas más eficientes de mover objetos, o puntos de datos, entre múltiples configuraciones de origen y destino. Formulado en el siglo XVIII, el marco se ha aplicado a las cadenas de suministro, dinámica de fluidos, alineación de la imagen, modelado 3D, gráficos de computadora, y más.
En el trabajo que se originó en un proyecto de clase, Trevor Henderson, ahora estudiante de posgrado en ciencias de la computación, aplicó un transporte óptimo para interpolar señales de audio o mezclar una señal con otra. El algoritmo primero divide las señales de audio en breves segmentos. Luego, encuentra la forma óptima de mover los tonos de cada segmento a los tonos de la otra señal, para producir el suave deslizamiento del efecto portamento. El algoritmo también incluye técnicas especializadas para mantener la fidelidad de la señal de audio a medida que pasa.
"El transporte óptimo se utiliza aquí para determinar cómo asignar los tonos de un sonido a los tonos del otro, "dice Henderson, un organista de formación clásica que interpreta música electrónica y ha sido DJ en WMBR 88.1, La estación de radio del MIT. "Si está transformando un acorde en un acorde con una armonía diferente, o con más notas, por ejemplo, las notas se dividirán desde el primer acorde y encontrarán una posición para deslizarse sin problemas en el otro acorde ".
Según Henderson, esta es una de las primeras técnicas para aplicar un transporte óptimo a la transformación de señales de audio. Ya ha utilizado el algoritmo para construir equipos que cambian sin problemas entre las canciones de su programa de radio. Los DJs también pueden usar el equipo para hacer la transición entre pistas durante las presentaciones en vivo. Otros músicos pueden usarlo para combinar instrumentos y voz en el escenario o en el estudio.
El coautor de Henderson en el artículo es Justin Solomon, un profesor asistente de desarrollo de carrera de X-Consortium en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación. Solomon, que también toca el violonchelo y el piano, dirige el Grupo de Procesamiento de Datos Geométricos en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y es miembro del Centro de Ingeniería Computacional.
Henderson tomó la clase de Salomón, 6.838 (Análisis de forma), que asigna a los estudiantes la tarea de aplicar herramientas geométricas como el transporte óptimo a aplicaciones del mundo real. Los proyectos de los estudiantes generalmente se enfocan en formas tridimensionales de realidad virtual o gráficos por computadora. Así que el proyecto de Henderson fue una sorpresa para Solomon. "Trevor vio una conexión abstracta entre la geometría y las frecuencias en movimiento en las señales de audio para crear un efecto de portamento, "Dice Solomon." Estuvo entrando y saliendo de mi oficina todo el semestre con equipo de DJ. No era lo que esperaba ver pero fue bastante entretenido ".
Para Henderson, no fue demasiado exagerado. "Cuando veo una idea nueva, Pregunto, "¿Es esto aplicable a la música?", Dice. "Entonces, cuando hablamos de transporte óptimo, Me preguntaba qué pasaría si lo conectara a los espectros de audio ".
Una buena forma de pensar en un transporte óptimo, Henderson dice:es encontrar "una forma perezosa de construir un castillo de arena". En esa analogía, el marco se utiliza para calcular la forma de mover cada grano de arena desde su posición en una pila informe a una posición correspondiente en un castillo de arena, utilizando la menor cantidad de trabajo posible. En gráficos por computadora, por ejemplo, El transporte óptimo se puede utilizar para transformar o transformar formas encontrando el movimiento óptimo de cada punto de una forma a la otra.
La aplicación de esta teoría a los clips de audio implica algunas ideas adicionales del procesamiento de señales. Los instrumentos musicales producen sonido a través de vibraciones de componentes, dependiendo del instrumento. Los violines usan cuerdas, los instrumentos de viento usan aire dentro de cuerpos huecos, y los humanos usan cuerdas vocales. Estas vibraciones se pueden capturar como señales de audio, donde la frecuencia y la amplitud (altura de pico) representan diferentes tonos.
Convencionalmente la transición entre dos señales de audio se realiza con un fundido, donde una señal se reduce en volumen mientras que la otra aumenta. Algoritmo de Henderson, por otra parte, desliza suavemente segmentos de frecuencia de un clip a otro, sin pérdida de volumen.
Para hacerlo el algoritmo divide dos clips de audio cualesquiera en ventanas de aproximadamente 50 milisegundos. Luego, ejecuta una transformada de Fourier, que convierte cada ventana en sus componentes de frecuencia. Los componentes de frecuencia dentro de una ventana se agrupan en "notas" sintetizadas individuales. El transporte óptimo luego mapea cómo las notas en la ventana de una señal se moverán a las notas en la otra.
Luego, un "parámetro de interpolación" se hace cargo. Ese es básicamente un valor que determina dónde estará cada nota en el camino desde su tono inicial en una señal hasta su tono final en la otra. Cambiar manualmente el valor del parámetro barrerá los tonos entre las dos posiciones, produciendo el efecto portamento. Ese único parámetro también se puede programar y controlar mediante, decir, un cross-fader, un componente deslizante en la mesa de mezclas de un DJ que se desvanece suavemente entre las canciones. Mientras el cross-fader se desliza, el parámetro de interpolación cambia para producir el efecto.
Detrás de escena hay dos innovaciones que garantizan una señal sin distorsiones. Primero, Henderson utilizó una nueva aplicación de una técnica de procesamiento de señales, llamado "reasignación de frecuencia, "que agrupa los contenedores de frecuencia para formar notas únicas que pueden hacer una transición fácil entre las señales. En segundo lugar, inventó una forma de sintetizar nuevas fases para cada señal de audio mientras unía las ventanas de 50 milisegundos, para que las ventanas vecinas no interfieran entre sí.
Próximo, Henderson quiere experimentar con la retroalimentación de la salida del efecto en su entrada. Esta, él piensa, podría crear automáticamente otro efecto de música clásica, "ligado, ", que es una transición suave entre notas distintas. A diferencia de un portamento, que reproduce todas las notas entre una nota inicial y una final, un legato hace una transición perfecta entre dos notas distintas, sin capturar ninguna nota en el medio.
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.