Tengo alrededor de 3000+ archivos de audio de la misma autora. Necesito transcribir esas charlas, donde el autor ha dicho acerca de una palabra en particular.

Así que necesitan una solución de software, que se encuentra automáticamente todos los archivos donde la palabra específica que se dice. Puede haber alguna variación cómo la palabra se ha hablado , porque los archivos de audio se habla de más de 15 años.

Gratis/solución de código Abierto es de agradecer.

He intentado buscar , y llegó a conocer acerca de la Esfinge. Pero soy incapaz de configurarlo para usarlo para mi proyecto. Cualquier ayuda es muy apreciada. Por favor

hey fueron capaces de lograr esto? si es así por favor, comparta cómo? repo de github sería genial!

OriginalEl autor amol_beast | 2014-06-18

1 Comentario

  1. 16

    Puede utilizar CMUSphinx, de código abierto motor de reconocimiento de voz que cuenta con el apoyo de la palabra clave manchado.

    1) convertir el audio a formato requerido – 16 khz mono de 16 bits de los archivos:

     ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
    

    2) construir e instalar la versión más reciente pocketsphinx y sphinxbase de http://github.com/cmusphinx

    3) Descargar en-us genérico modelo acústico

    4) ejecutar la detección:

      pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes
    

    Se va a imprimir se detecta palabras clave y sus tiempos. Para la mejor precisión en la detección se puede ajustar kws_threshold.

    Gracias Nikolay por tu respuesta. Desde este acústica modelo será genérica, ¿cómo puedo hacer una acústica modelo basado en el altavoz ya los archivos de audio grabados?
    Para la palabra clave manchado, NO necesita altavoz dependiente de la modelo, no va a mejorar las cosas considerablemente. En caso de que desea adaptarlo hay un modelo acústico de adaptación tutorial cmusphinx.sourceforge.net/wiki/tutorialadapt
    Será la palabra clave manchado todavía funcionan , si la palabra clave que estoy buscando no está en la norma diccionario de inglés?
    También hay un problema, que el orador no puede hablar normalmente como antes debido a la parálisis, y por lo tanto orador no puede hablar de la formación de textos para la acústica del modelo. Es allí cualquier manera , por lo que el modelo puede ser entrenada mediante el ya transcrito archivos de audio? Gracias
    Sí, usted puede utilizar ya transcrito archivos de audio para el modelo de adaptación. El modelo de adaptación no es diferente, en lugar de grabar nuevo audio que está utilizando los ya existentes. Usted necesidad justa de corte en las sentencias.

    OriginalEl autor Nikolay Shmyrev

Dejar respuesta

Please enter your comment!
Please enter your name here