Transcripción de audio a texto en Sesiones Municipales de Planeta Rica

Jaime Andrés Ruiz-Melendres; Jorge Eliecer Gómez-Gómez

Autores/as

Jaime Andrés Ruiz-Melendres Universidad de Córdoba https://orcid.org/0009-0000-7511-4131
Jorge Eliecer Gómez-Gómez Universidad de Córdoba https://orcid.org/0000-0001-8746-9386

Palabras clave:

IA, inteligencia artificial, audio a texto, transcripción, sesiones, whisper, spleeter

Resumen

El documento aborda el tema de la transcripción manual de sesiones municipales en Planeta Rica. Se investiga el uso de herramientas de código abierto para automatizar la transcripción de audio a texto en estas sesiones con el objetivo de mejorar la eficiencia y precisión en este proceso. Se enfatiza la importancia de integrar modelos en el sistema para abordar diferentes aspectos y mejorar la calidad de la transcripción. En este sentido, se mencionan dos modelos de inteligencia artificial: Whisper de OpenAI y Spleeter de Deezer. Whisper es un modelo de reconocimiento de voz de propósito general. Por otro lado, Spleeter es una herramienta de separación de pistas de audio que utiliza modelos previamente entrenados para separar voces de cualquier pista de audio. Además, se desarrolla una arquitectura que permite la integración automática de estos modelos. Esta arquitectura se basa en el uso de Python para la gestión de los modelos de inteligencia artificial, mientras que el backend de la aplicación se desarrolla utilizando Go y el frontend con Next.js/React. Esto permitió automatizar las transcripciones de las sesiones de los concejos municipales de Planeta Rica, mejorando tanto la eficiencia como la precisión del proceso.

Descargas

Referencias

Departamento Administrativo de la Función Pública (2020, marzo 20) - Concept 97471 of 2020.Disponoble en: https://www.funcionpublica.gov.co/eva/gestornormativo/norma.php?i=127682

Shelley (2023, September 19). How much will AI cost in 2022? Developers.

A. Samsukha, (2023, June 1) The rise of Speech AI: a Game-Changer in the Tech world (n.d.). Nasscom | the Official Community of Indian IT Industry.

I. Manco, E. Benetos, E. Quinton, y G. Fazekas,“Papers with Code - Contrastive Audio-Language Learning for Music” Agosto 2022.

P. Flach,“Machine Learning: The Art and Science of Algorithms that Make Sense of Data” 2012.

MultiComp Lab (2017, October 4). Multimodal Machine Learning | MultiComp. MultiComp | MultiComp Lab's Mission Is to Build the Algorithms and Computational Foundation to Understand the Interdependence Between Human Verbal, Visual, and Vocal Behaviors Expressed During Social Communicative Interactions.

C. Chen, D. Han, and J. Wang, "Multimodal EncoderDecoder Attention Networks for Visual Question Answering," IEEE Access, pp. 1-1, 2 2020.

Papers with Code - VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text (2021, April 22).

R. Merritt, (2022, April 19). What is a Transformer Model? [9] NVIDIA Blog. Official NVIDIA Latin America Blog.

What are convolutional neural networks? IBM (n.d.).

Chan, W. (2015, August 5). Listen, attend and spell. arXiv.org.

D. Amodei, (2015, December 8). Deep Speech 2: End-to-End speech recognition in English and Mandarin. arXiv.org.

J. Llisterri, (n.d.). The synthesis units.

Olivier M. Emorine and Pierre M. Martin. 1988. The MULTIVOC text-to-speech conversion system. In Proceedings of the second conference on applied natural language processing (ANLC '88). Association for Computational Linguistics, USA, 115-120.

MHTTS: Fast Multi-head Text-to-speech For Spontaneous Speech With Imperfect Transcription (2022, October 1). IEEE Conference Publication | IEEE Xplore.

Van Den Oord, A. (2016, September 12). WaveNet: a generative model for raw audio. arXiv.org.

R. Hennequin, A. Khlif, F. Voituret, M. Moussallam, “Spleeter: a fast and efficient music source separation tool with pre-trained models. Journal of Open-Source Software, 5(50), 2154,2020.

C.A. Louis, C. A. Ancy, “Research on DNN Methods in Music Source Separation Tools with emphasis to Spleeter. International Research Journal on Advanced Science Hub, 3(Special Issue 6S), 24-28, 2021.

O. Ronneberger, “U-NET: Convolutional Networks for Biomedical Image Segmentation”. Computer Vision and Pattern Recognition, 2015.

A. Radford, J. Wook Kim, T. Xu, G. Brockman, C. McLeavey, y I. Sutskever, “Robust speech recognition via Large-Scale Weak Supervision”.2022.

OpenAi About (n.d.).

Python documentation (n.d.).

Maldeadora (2018). What is Frontend and Backend: characteristics, differences and examples. Platzi.

Documentation - The Go Programming Language (n.d.).

Docs (n.d.). Next.js.

Transcripción de audio a texto en Sesiones Municipales de Planeta Rica

Autores/as

Palabras clave:

Resumen

Descargas

Referencias

Descargas

Publicado

Número

Sección

Cómo citar

Idioma

Información

Palabras clave