javiabellan / audio

🔊 Deep Learning for audio

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Audio

Audio recognition 🎤

  • Frecuencia de muestreo: 16khz (16000 muestras por segundo) es suficiente
  • Audio classification with fast.ai (CNN)
  • Speech recognition
    • CTC
    • RNN-T: RNN-Transducer, 2012 paper
    • LAS: Listen, Attend and Spell. Attention-based, sequence-to-sequence model. 2015 paper

Audio generation 🔊


Packages


CTC speech recognition

uno puede "samplear" la entrada en trozos de longitud fija, pero la salida esperada, una serie de fonemas o de letras, lleva un ritmo distinto. CTC lo que hace es que la salida de la red (típicamente LTSM) sea "si hay cambio de fonema, y con qué probabilidad para cada posible opción", y luego esa señal se procesa, con o sin ayuda de un modelo del idioma del que se trate, para generar la secuencia más probable de fonemas o de palabras (el truco esta en como entrenar la red para que la salida sea esa). Antes de CTC lo tradicional era poner un HMM a la salida de la red para hacer básicamente lo mismo, pero bastante más complicado de entrenar, y sin salida probabilística.

LAS speech recognition

LAS (listen, attend, spell) es otro mecanismo para hacer lo mismo, combinando un lstm, un modelo de atención y un diccionario del idioma en cuestión en una sola entidad que se entrena end to end. De hecho creo que hay más evoluciones de la misma idea.

About

🔊 Deep Learning for audio