La ventana de análisis en sistemas de audio profesional (Analysis Window) – 1ª parte

ventana de análisis en sistemas de audio profesional

Instalia presenta el artículo sobre la Ventana de Análisis en sistemas de audio profesional por Pepe Ferrer, ingeniero de sistemas audiovisuales: ¿cuáles son las virtudes y defectos de estas ventanas de análisis?

La ventana de análisis en sistemas de audio profesional (Parte Iª)

Las funciones de ventana realizan un papel fundamental en el análisis discreto, existen infinidad de ellas, probablemente una para casi cualquier situación. En este artículo nos centraremos en las más utilizadas en el mundo del audio, estudiando sus respuestas y limitaciones. Sin el uso de ventanas no podríamos analizar, cada ventana tiene sus características propias y entenderlas significa aprovecharlas.

Short-Time Fourier Transform (STFT)

La ecuación de la STFT es básicamente una versión modificada de la Discrete Fourier Transform (DFT) pero con algunas diferencias:

ventana de análisis en sistemas de audio profesional 1

Cada fragmento de la señal de entrada se ve multiplicada por una ventana de análisis (w), donde (l) es el índice del fragmento de la señal analizada. A diferencia del anterior artículo donde analizábamos un único fragmento de la señal, en esta ocasión, la señal de entrada varía en el tiempo. Es decir, para producir el análisis debemos iterar sobre los fragmentos de la señal de entrada. El tamaño del Hopsize determina cuantas muestras de cada fragmento están presentes en la siguiente iteración del análisis.

El tamaño de cada fragmento viene determinado por el tamaño de la ventana. Cada fragmento es multiplicado, como veremos más adelante, por una función de ventana que nos permite minimizar el error en la medición. Podríamos definir la STFT como el cómputo de varias DFT en cascada y el resultado de la STFT como una secuencia de respuestas espectrales.

Si en el anterior articulo podíamos relacionar la DFT de un trozo de la señal como una fotografía, es decir, como una imagen fija, la STFT la podemos relacionar con un video, es decir, como una imagen en movimiento. En el siguiente gráfico podemos observar como enventanando trozos de la señal, nos movemos a través de ella y captamos trozos finitos para su análisis.

ventana de análisis en sistemas de audio profesional 2
Windows iteration

En el gráfico observamos en color negro la señal de entrada y en diferentes colores las diferentes ventanas, es decir, obtenemos la señal de entrada como la suma de todos los fragmentos:

ventana de análisis en sistemas de audio profesional 3
Signal & windowed signal

Transform Analysis Window

En el anterior artículo vimos como a través de la DFT únicamente éramos capaces de obtener la respuesta espectral de una señal si ésta era una de las sinusoides base de la DFT; Para cualquier otra señal el analizador nos mostraba su respuesta con un elevado margen de error:

ventana de análisis en sistemas de audio profesional 4
Spectrum of 2 sine waves
ventana de análisis en sistemas de audio profesional 5
Spectrum of 2 sine waves in RiTA

La señal de entrada que estamos analizando está formada por la suma de dos sinusoides, una que coincide con una función de base y otra que no. Podemos observar en el gráfico cómo la respuesta espectral nos muestra las dos frecuencias contenidas en la señal, pero una de ellas con un alto grado de error. Recordemos que visualizamos solamente la parte positiva del espectro ya que la parte negativa es simétrica.

¿Cómo podemos solucionar el error en la medición? Para solucionar el error debemos enventanar la señal. Sin entrar en el desarrollo matemático se comprueba que cuando una sinusoide de entrada es multiplicada por una ventana de análisis su respuesta espectral es básicamente la respuesta espectral de la ventana. Veamos un ejemplo:

ventana de análisis en sistemas de audio profesional 6
Hann window

Claramente se observa como el espectro de una sinusoide enventada se corresponde al espectro de la ventana. Para este ejemplo y para mejorar la visualización hemos usado la técnica de zero-Padding, (hablaremos de este asunto en otro artículo) y por eso la gráfica de la señal temporal tiene 64 muestras (tamaño de la ventana) y la representación espectral tiene 1024 muestras (tamaño de la FFT).

Analysis window

Estudiemos en el siguiente apartado el comportamiento de las diferentes ventanas más usadas en el análisis de sistemas de audio.

La ventana rectangular, en la mayoría de analizadores denominada “no window”, es básicamente un truncamiento de la señal, donde todos los valores que no están contenidos dentro de la ventana son cero y uno para todos los demás:

ventana de análisis en sistemas de audio profesional 7
Rectangular window

Los dos parámetros más importantes para cada tipo de ventana son: la anchura del lóbulo principal (el pico central) y la amplitud de sus lóbulos secundarios, básicamente la amplitud del lóbulo secundario de mayor nivel. La ventana rectangular muestra una anchura muy estrecha en su lóbulo principal, pero la amplitud de sus lóbulos secundarios es muy elevada, es por ese motivo que el analizador muestra un elevado grado de error cuando no se utiliza ningún tipo de ventana.

La anchura del lóbulo principal de una ventana rectangular es de 2 bins (2 muestras en frecuencia) y la amplitud máxima de los lóbulos secundarios es de -13.3 dB. Hemos de tener en cuenta que para mejorar la visualización de los gráficos estamos usando zero-padding y en estos casos el número de bins de amplitud es mayor, pero si usamos el mismo tamaño de FFT que de ventana la amplitud del lóbulo principal será de 2 bins.

Posiblemente una de las ventanas más usadas en el análisis de audio es la ventana Hann, RiTA utiliza Hann por defecto siempre que realicemos algún tipo de promedio o resolución.

ventana de análisis en sistemas de audio profesional 8
Hann window

Podemos observar como la ventana Hann muestra una anchura mayor que la ventana rectangular (4 bins) en su lóbulo principal, pero a cambio una amplitud menor en sus lóbulos secundarios (-31.5 dB).

La ventana Hamming es muy similar a la ventana Hann pero con un pequeño escalón en sus laterales:

ventana de análisis en sistemas de audio profesional 9
Hamming window

La anchura del lóbulo principal es el mismo que el de la ventana Hann, 4 bins. Pero la amplitud de sus lóbulos laterales es menor -42.7 dB. También podemos observar como que a pesar de que la amplitud del lóbulo secundario es menor que el de la ventana Hann sus lóbulos secundarios no decrecen tan rápidamente.

La ventana Blackman es la suma de dos sinusoides: / The Blackman window is the sum of two sinusoids:

ventana de análisis en sistemas de audio profesional 10
Blackman window

La ventana Blackman genera una gran mejora en términos de la amplitud de los lóbulos secundarios (-58 dB), pero como sabemos, en audio nada es gratis, el precio a pagar es una mayor anchura del lóbulo principal, en este caso 6 bins.

Finalmente, posiblemente la mejor ventana en términos de la amplitud de sus lóbulos secundarios, la ventana Blackman-Harris:

ventana de análisis en sistemas de audio profesional 11
Blackman-Harris window

La amplitud de su lóbulo secundario es -92 dB, prácticamente podríamos decir que no tiene lóbulos secundarios, ya que en audio digital -92dB estaría por debajo del ruido de fondo para una cuantizacion de 16 bits. Pero la anchura de su lóbulo principal es de 8 bins, y esto tiene su efecto algorítmicamente, ya que debemos procesar más datos. Veremos esto más adelante.

En todos los ejemplos anteriores hemos visualizado la respuesta espectral utilizando un tamaño mayor de FFT que de ventana. Pero es habitual en la mayoría de los analizadores utilizar el mismo tamaño para ambas funciones.

ventana de análisis en sistemas de audio profesional 12
windows in Matlab

Claramente podemos observar las diferentes anchuras de sus lóbulos principales.

Para finalizar esta primera parte sobre las ventanas de análisis comparemos una señal de audio armónica utilizando diferentes tipos de ventana:

ventana de análisis en sistemas de audio profesional 13
Spectrum off different windows

Seguiremos desarrollando las virtudes y defectos de las ventanas de análisis en el próximo artículo.

Bibliography:

Coursera, Audio signal processing for music applications, Chapter 4, Standford & UPF University, https://class.coursera.org

Más artículos de Pepe Ferrer aquí

¿Qué te ha parecido el artículo sobre la Ventana de Análisis en sistemas de audio profesional? Lee más REPORTAJES DE OPINIÓN