Tokenización de voz con reconocimiento de modelo de lenguaje (LAST)

La tokenización del habla es un proceso fundamental que sustenta el funcionamiento de los modelos de habla y lenguaje, lo que permite que estos modelos realicen una variedad de tareas, incluidas la conversión de texto a voz (TTS), la conversión de voz a texto (STT) y el modelado del lenguaje hablado.
Ver el artículo completo
LAST: Language Model Aware Speech Tokenization
Arnon Turetzky, Yossi Adi, Universidad Hebrea de Jerusalem

La tokenización ofrece la estructura que estos modelos necesitan para analizar, procesar y crear habla de manera eficiente al convertir las señales de voz sin procesar en tokens discretos. Sin embargo, en muchos métodos convencionales, la tokenización se entrena por separado del propio modelo de lenguaje. Esta división puede generar una discrepancia entre la generación de los tokens y su posterior aplicación en actividades como la síntesis o el reconocimiento de voz.

Los modelos convencionales de tokenizadores de voz se basan en representaciones discretas de señales de voz continuas creadas mediante técnicas de cuantificación y modelos acústicos independientes.
Con frecuencia, el desarrollo de estos tokenizadores se produce independientemente de los modelos de lenguaje que admiten que se están entrenando. En consecuencia, existe la posibilidad de que la forma en que el modelo de lenguaje interpreta y utiliza los tokens de voz producidos durante la fase de tokenización no coincida.
Debido a este desajuste, el rendimiento del modelo de lenguaje-voz puede verse limitado. Esto se debe a que el proceso de tokenización puede no coincidir exactamente con los objetivos de aprendizaje del modelo de lenguaje.

Para superar algunos de estos problemas, un equipo de investigadores de la Universidad Hebrea de Jerusalem ha presentado el método LAST (Language Model Aware Speech Tokenisation). Con este enfoque, el procedimiento de tokenización del habla incorpora un modelo de lenguaje (LM) de texto previamente entrenado. El método LAST consta de tres partes principales, que son las siguientes:

  1. Se extrae una representación de voz contextualizada a través de un modelo SSL de voz congelada y entrenada previamente.

  2. Estas representaciones se transforman en tokens discretos mediante un módulo de cuantificación del adaptador.

  3. Un modelo de aprendizaje de texto congelado ya entrenado que dirige el proceso de tokenización, lo que lo hace más apropiado para el modelado secuencial.

Esta técnica busca proporcionar representaciones de voz discretas que sean más apropiadas para el modelado del lenguaje hablado y la conversión de voz a texto al incorporar los objetivos de estos modelos basados ​​en texto en el proceso de tokenización. Este método crea un nuevo espacio de características que es más apropiado para la agrupación y representación del modelo de lenguaje del habla al transformar las características adquiridas a partir de un modelo de habla entrenado previamente.

Esta alineación de los modelos de habla y de texto tiene varias ventajas. En primer lugar, permite que el proceso de tokenización de voz esté más influenciado por la estructura fundamental del lenguaje, lo que permite que los tokens representen elementos lingüísticos pertinentes a la comunicación escrita y hablada. La alineación de la tokenización con los objetivos del modelo de lenguaje reduce la posibilidad de desajustes, lo que conduce a un rendimiento más preciso y eficiente en múltiples tareas de habla.

El trabajo que presenta este enfoque también incluye los efectos de decisiones de diseño importantes, como el tamaño del modelo de lenguaje basado en texto y el vocabulario de voz. Al experimentar con varias configuraciones, los investigadores pudieron determinar cómo estas variables afectan el rendimiento general del modelo de lenguaje y la eficiencia del proceso de tokenización. Según su investigación, la estrategia de tokenización integrada funciona mejor que las técnicas convencionales en tareas de modelado de lenguaje hablado y de conversión de voz a texto.

Uno de los resultados más importantes de este enfoque es la capacidad de interpretar entradas de voz y texto con un único modelo de lenguaje previamente entrenado. Esto supone una diferencia significativa con respecto a los enfoques tradicionales, que suelen requerir modelos distintos para estas diversas modalidades. El método de tokenización sugerido mejora la eficiencia y el rendimiento al agilizar el proceso con un único modelo que puede manejar tanto el habla como el texto.

En conclusión, este enfoque de tokenización de voz representa una mejora importante con respecto a los métodos convencionales al garantizar una mayor alineación entre el proceso de tokenización y los objetivos del modelo de lenguaje. Las características del habla se convierten en un nuevo espacio que permite una agrupación y representación más eficientes al incorporar objetivos del modelo de texto-lenguaje previamente entrenados. Como resultado, se puede utilizar un solo modelo tanto para entradas de voz como de texto, lo que da como resultado un modelo de habla-lenguaje más confiable y adaptable que funciona mejor en una variedad de tareas, incluido el modelado de voz a texto y lenguaje hablado.

Fuente: MarkTechPost