La transformada discreta de Fourier (DFT) es el equivalente de la transformada convencional de Fourier en el dominio de las señales temporales discretas y es, por tanto, ampliamente utilizada en el procesado de la señal digital.

En una señal discreta (vamos a suponer que de manera uniforme y procedente del muestreo de una señal analógica), el número de muestras sería el equivalente a la longitud de la señal temporal.

La TDF es una transformación lineal de la señal temporal al dominio de la frecuencia, y de ella podemos obtener una cantidad de información asombrosa. En este pequeño artículo, naturalmente, no vamos a centrarnos en todas las aplicaciones prácticas de la transformada de Fourier, sino en aquellos aspectos que resultan relevantes en el análisis de la señal musical; concretamente en la detección de la frecuencia de una nota y de sus armónicos, así como de la potencia asociada a cada uno de ellos.

Habitualmente utilizaremos la densidad espectral de potencia, que es la transformada discreta de Fourier de la autocorrelación de la señal, y cuya expresión es la siguiente:

S left square bracket k right square bracket space equal space sum from n space equal space 0 to N minus 1 of R subscript x x end subscript left square bracket n right square bracket e to the power of minus j left parenthesis fraction numerator 2 italic pi over denominator N end fraction right parenthesis k n end exponent comma space k equal space 0 comma 1 comma..... N minus 1

siendo N el número de muestras de la señal a tratar

El problema de la detección de la frecuencia de una nota y sus armónicos:

En primer lugar, podemos preguntarnos por el concepto de frecuencia o "pitch" de una nota. Como concepto general, resulta claro: Es una frecuencia exacta (definida para la escala temperada en nuestro caso) y que está tabulada. Parece razonable pensar que si analizamos el espectro del sonido de un instrumento cuando genera una nota, habríamos de obtener una función discontinua en frecuencia en la que sólo existieran valores en la frecuencia correspondiente a la nota y, en cualquier caso, en cada uno de sus armónicos.

En realidad, lo que obtenemos se parece a esto, pero no es exacto: 

En primer lugar, podemos observar que la forma del espectro en los alrededores de la frecuencia de la nota no es una función delta de Dirac (función que sólo existe en un punto de su espacio y que es cero en el resto); por el contrario, podemos apreciar que la forma, en general, es la de un triángulo algo irregular. La explicación de este fenómeno es doble:

  • La duración temporal de la nota no es infinita por lo que su espectro, de forma inexorable, no puede ser un punto. El tiempo y la frecuencia son magnitudes complementarias, exactamente igual que ocurre en la mecánica cuántica con los conceptos de espacio y momento (si fijamos la posición de una partícula subatómica, es imposible fijar su momento, y a la inversa). Esto no es una limitación de nuestros equipos de medida, es sencillamente una ley matemática: Una señal limitada en el tiempo tienen un espectro "difuso"; del mismo modo, una señal limitada en su espectro (un punto), forzosamente ha de ser de duración infinita.
  • Las "irregularidades" tales como masa no homogénea en la cuerda de un instrumento, variación de la presión al pasar el arco o pulsar la cuerda con el dedo, tamaño finito de los agujeros (o chimeneas) en los instrumentos de viento que provocan difracciones del sonido en los bordes, etc, etc. hacen que el instrumento, aunque toque una nota simple, no produzca un espectro de un sólo punto. Esto es bueno, porque en caso contrario, todos los instrumentos sonarían igual.

También podemos observar que el cociente entre la frecuencia de los armónicos sucesivos no es un número entero (aunque se le aproxima), lo que se denomina inarmonicidad y es más notable en los instrumentos de cuerda que en los de viento, por ejemplo. Este fenómeno se produce debido a las no linealidades del instrumento y gracias a que existe, podemos distinguir un instrumento de otro.

Con todo lo anterior, podríamos responder que la frecuencia de la nota fundamental de un instrumento se correspondería con el máximo del espectro en los alrededores de la nota.

Esto nos plantea otro problema: En ocasiones, el pico del espectro puede encontrarse "emborronado" y no existe un máximo claro. Esto es debido sencillamente a que hemos tomado más muestras de las necesarias y durante ese tiempo, la frecuencia de la nota ha sufrido pequeñas oscilaciones alrededor de su centro debido al movimiento algo errático del arco (para instrumentos de cuerda frotada), oscilaciones en la presión del aire en la boquilla de instrumentos de viento metal o en la caña para viento madera, etc.

La explicación es sencilla: Estamos tratando de medir una frecuencia, por lo tanto, el tiempo de medida debe de ceñirse como máximo a la duración temporal de la nota; no puede ser demasiado corto porque entonces perdemos resolución ni demasiado largo porque mediremos inestabilidades. 

El efecto es más acusado en las notas más agudas, por tanto, tendremos que usar una ventana de muestreo menor en frecuencias agudas que en las más graves. Además, la transformada de Fourier pierde resolución frecuencia a baja frecuencia, efecto que podemos compensar en parte si ampliamos el número de muestras.

Conclusión:

En frecuencias bajas (por debajo de 500 Hz) conviene utilizar entre 4*2.048 y 6*2.048 muestras para la ventana temporal, mientras que para frecuencias superiores, conviene utilizar una ventana más pequeña 1*2.048 Hz. En cualquier caso, esto depende del instrumento (no todos presentan las mismas oscilaciones) y los márgenes de frecuencia para cambiar el número de muestras también dependen del instrumento en concreto.

Un sencillo algoritmo para resolver este problema consiste en tomar el máximo número de muestras para la ventana, hacer un cálculo aproximado de la frecuencia de la nota y descartar muestras en función del rango de frecuencia en que nos encontremos.