Aculeasis / pocketsphinx-rest

STT PocketSphinx REST API

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

pocketsphinx-rest

Docker Pulls

Простой веб-сервис распознавания речи с помощью PocketSphinx

Установка

Быстрый старт

Запуск\обновление из хаба: ./pocketsphinx_rest.py --upgrade

Полное описание тут

Готовый докер

  • aarch64 docker run -d -p 8085:8085 aculeasis/pocketsphinx-rest:arm64v8
  • armv7ldocker run -d -p 8085:8085 aculeasis/pocketsphinx-rest:arm32v7
  • x86_64 docker run -d -p 8085:8085 aculeasis/pocketsphinx-rest:amd64

Сборка и запуск докера

git clone https://github.com/Aculeasis/pocketsphinx-rest
cd pocketsphinx-rest
# Указать Dockerfile под целевую архитектуру
docker build -t pocketsphinx-rest -f Dockerfile.arm64v8 .
docker run -d -p 8085:8085 pocketsphinx-rest

API

Просто отправить файл через POST

POST /stt
Host: SERVER
Content-Type: audio/x-wav 
(wav file)

Требования к файлу:

  • Формат - wav
  • Число каналов - 1 (моно)
  • Частота дискретизации - 16 000 Гц
  • Квантование - 16 бит.

Если нужно, перекодируйте файл перед отправкой.

Сервер пришлет ответ в json, где:

  • code - код ошибки или 0
  • text - распознанный текст если code равен 0 иначе сообщение об ошибке

Работа с API

examples

Для проверки сервера можно использовать pocketsphinx_rest_file.py FILE [URL]

Примечания

  • Из-за большого словаря для запуска нужно минимум 1 GB RAM.
  • Распознование происходит в однопоточном режиме, что накладывает высокие требования на производительность CPU core. На OPI Prime распознование фраз занимает от 10 до 40 секунд.
  • Веб-сервер также запущен в однопоточном режиме.
  • Качество распознования оставляет желать лучшего ужасно.
  • Поддерживается только русский язык.

Ссылки

About

STT PocketSphinx REST API

License:MIT License


Languages

Language:Python 98.9%Language:Shell 1.1%