Mediante la extracción automática del contenido de las señales de audio y Machine learning se tienen aplicaciones de predicción, clasificación y Agrupamiento, como: Detección de emociones en la voz (Speech Emotion), Reconocimiento de Voz (Speech-to-Text), Detección y segmentación de personas hablando(Speaker Diarization), Music Information Retrieval (Extracción Automática de información Musical), entre otros.