La síntesis de notas musicales de manera artificial es algo que lleva realizándose desde hace bastantes décadas, siendo diversas las técnicas empleadas: Desde las técnicas de sampling y secuenciación que, basándose en muestras de la señal a imitar modifican algunos de los parámetros de la señal tales como el pitch para crear toda la tesitura del instrumento hasta la simulación matemática completa de la señal para cada una de las notas, habitualmente mediante la resolución numérica de las ecuaciones diferenciales del campo acústico en el instrumento.

 Cada uno de estos métodos tiene sus ventajas e inconvenientes y ofrecen una fidelidad más o menos adecuada para un uso profesional, en función del tipo de instrumento que deseamos sintetizar. Sin embargo, todas estas técnicas adolecen de ciertos problemas:

  • El sonido no es demasiado natural y nuestro oído nota que el sonido es sintetizado.
  • La concatenación de notas en una ejecución con un instrumento físico puede ser de muy distinto tipo, sobre todo en instrumentos de viento o de cuerda frotada.
  • El ataque, mantenimiento y decaimiento de una nota no se suele sintetizar muy bien. De nuevo el sonido no parece natural.

Para que nos hagamos una idea de a qué tipo de tarea nos enfrentamos cuando deseamos sintetizar notas, no tenemos más que echarle un vistazo a las siguientes figuras:

Figura 1: Gráfica tridimensional de evolución de los armónicos

 

 

Figura 2: Amplitud de los principales armónicos impares 

 

Figura 3: Amplitud de los principales armónicos pares

 En la Figura 2 tenemos representada la evolución temporal de algunos de los armónicos pares correspondientes a la ejecución de la nota Do4 en un oboe, mientras que en la Figura 3 tenemos la representación de la evolución temporal de los armónicos pares para la misma ejecución. La Figura 1 es una gráfica tridimensional de la evolución temporal de todos los armónicos. Nótese que el quinto armónico tiene mucha más amplitud (y energía, claro) que los demás, siendo su frecuencia de 1.308Hz y su longitud de onda de 0,26 metros. Esta longitud de onda es mucho menor que las dimensiones del oboe y a estas frecuencias el instrumento no puede ser modelado como un circuito eléctrico, de ahí el comportamiento "extraño" en las oscilaciones de amplitud de los armónicos quinto y superiores.

 En tono azul se ha representado en la segunda gráfica la nota fundamental y en la tercera gráfica, en el mismo tono, el primer armónico. Como bien podemos ver, el patrón de evolución temporal es distinto para los armónicos pares que para los impares y esto tiene su lógica desde el punto de vista de la acústica instrumental: Efectivamente, un oboe es un instrumento en teoría, con tubo sonoro de sección longitudinal cónica, lo que da lugar a que el instrumento genere toda la gama de armónicos, sin embargo, en la práctica no es tan sencillo: La embocadura o caña del instrumento conforma un pequeño tramo de sección cilíndrica, por lo que el instrumento, en su conjunto, combina ambas geometrías (el caso contrario de un clarinete). Podemos decir, como aproximación, que la caña modifica los armónicos impares generados por el tubo sonoro y es por eso que la evolución temporal de unos y otros es notoriamente distinta. A la hora de sintetizar el sonido, mediante un modelo matemático, por ejemplo, hemos de tener en cuenta este hecho.

 Por otro lado, vemos que la amplitud en un caso como en otro, presenta ondulaciones. Dichas ondulaciones son el reflejo del comportamiento del tubo sonoro con agujeros al ser excitado por una señal transitoria (ataque y decaimiento de una nota). Si la longitud de onda es del orden de diez veces o más la longitud del instrumento, los agujeros pueden ser representados mediante impedancias y el sistema podemos analizarlo como si de un circuito eléctrico se tratase, y de ahí que dichas ondulaciones podamos asimilarlas a las diferentes frecuencias naturales de oscilación del instrumento; desgraciadamente este modelo no es ni de lejos válido ya que conforme la frecuencia del armónico es mayor, este modelo no es válido y debemos de representar al instrumento como una línea de transmisión.

 Si nos molestamos en realizar las mismas investigaciones sobre otras notas, notaremos que la distribución de la amplitud máxima de los armónicos varía; no podemos, por tanto, utilizar el mismo modelo para todas las notas.

 Para complicar aun más las cosas, resulta que la frecuencia y fase de cada armónico varían también con el tiempo; esto tiene sentido porque es evidente que las frecuencias naturales necesitan de un tiempo para estabilizarse cuando el instrumento es excitado y necesitan también de un tiempo para desvanecerse cuando cesa la excitación. Aparece, por tanto, una modulación angular en cada uno de los armónicos que también es característico de cada uno de ellos y de cada nota, aunque si nos molestamos en calcularlo, veremos que las variaciones no son, ni de lejos, tan acusadas como en el caso de las amplitudes; se aprecia claramente la fase de ataque, mantenimiento y caída de la nota, aunque durante la fase de mantenimiento también se observan pequeñas variaciones de más o menos dos herzios.

 En definitiva, modelar matemáticamente el sonido de una nota para que resulte absolutamente natural es una tarea muy compleja, ya que cada uno de los armónicos contiene modulación angular y de amplitud y el modelo matemático de dichas modulaciones no es trivial.

 Por último, hemos de decir algo sobre el modelado de la presión media (envolvente del tono fundamental) en el instrumento: Cuando el instrumentista aplica una excitación (comienza a tocar una nota), la presión sonora en el instrumento no alcanza de manera instantánea su valor de mantenimiento, sino que crece de modo exponencial hasta el máximo, como es lógico debido a la resistencia a la compresión de la columna de aire del tubo, se mantiene más o menos y decae al final de manera también exponencial. Podremos modelar el enlace entre notas, o los picados o vibratos mediante la adecuada selección de la función matemática que represente a la excitación. Tampoco hemos de olvidar el ruido que se produce debido a los efectos no lineales en la presión sonora a la salida de la caña. Dado que el diámetro de la misma es bastante pequeño y que la presión sonora es considerable, se producirá un régimen turbulento, muy difícil de tratar, pero que en definitiva se traducirá como ruido en nuestra señal. Este ruido ha de ser añadido también en nuestro modelo si deseamos que el sonido sintetizado sea natural e indistinguible de un instrumento real.

Sonido sintetizado Do(4)

Sonido original Do(4)

 

 El sonido sintetizado vemos que es prácticamente indistinguible del original. Para realizarlo se han utilizado las envolventes de veinte armónicos para modular la amplitud de tonos senoidales puros. Extraer la envolvente no es un procedimiento nada sencillo, ya que es necesario realizar el seguimiento continuo de la trayectoria de los picos del espectro, correspondientes a cada armónico, utilizando la Transformada Discreta de Fourier Dependiente del Tiempo. Para obtener la máxima precisión posible, se utilizan ventanas temporales con solape de todas las muestras de la ventana menos una. No hemos empleado en esta fase, por simplicidad, modulación angular adicional.

El siguiente paso consiste en encontrar un modelo matemático que nos permita variar la duración y el modo en que es interpretada cada nota.