omeh2003 / VoiceToText_WhisperModel

SoundFileProcessor! 🐍 Π­Ρ‚ΠΎ ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π·Π²ΡƒΠΊΠΎΠ²Ρ‹Ρ… Ρ„Π°ΠΉΠ»ΠΎΠ², Π²ΠΊΠ»ΡŽΡ‡Π°Ρ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π½Π° части, ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ частоты дискрСтизации ΠΈ Ρ‚Ρ€Π°Π½ΡΠΊΡ€ΠΈΠ±Π°Ρ†ΠΈΡŽ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ #OpenAIWhisper. πŸŽ§πŸ”€πŸ—£οΈ

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

README

Π­Ρ‚ΠΎ руководство ΠΏΠΎ использованию класса SoundFileProcessor. Он ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½ для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π·Π²ΡƒΠΊΠΎΠ²Ρ‹Ρ… Ρ„Π°ΠΉΠ»ΠΎΠ², Π²ΠΊΠ»ΡŽΡ‡Π°Ρ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π·Π²ΡƒΠΊΠΎΠ²Ρ‹Ρ… Ρ„Π°ΠΉΠ»ΠΎΠ² Π½Π° части, ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ частоты дискрСтизации ΠΈ Ρ‚Ρ€Π°Π½ΡΠΊΡ€ΠΈΠ±Π°Ρ†ΠΈΡŽ с использованиСм ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Whisper ΠΎΡ‚ OpenAI.

Установка

ΠŸΡ€Π΅ΠΆΠ΄Π΅ всСго, Π²Π°ΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡƒΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚ΡŒ всС зависимости. Π’Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ это двумя способами: с использованиСм pip (Python package manager) ΠΈΠ»ΠΈ conda (Anaconda package manager).

Установка зависимостСй с использованиСм pip

  1. ΠžΡ‚ΠΊΡ€ΠΎΠΉΡ‚Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°Π»

  2. УстановитС Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Π΅ ΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹, Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΠ² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ:

    pip install soundfile resampy pydub transformers

Установка зависимостСй с использованиСм conda

  1. ΠžΡ‚ΠΊΡ€ΠΎΠΉΡ‚Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°Π»

  2. Π‘ΠΎΠ·Π΄Π°ΠΉΡ‚Π΅ Π½ΠΎΠ²ΡƒΡŽ срСду conda, Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΠ² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ:

    conda create -n myenv
  3. АктивируйтС срСду, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ:

    conda activate myenv
  4. УстановитС Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Π΅ ΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹, Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΠ² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ:

    conda install -c conda-forge soundfile resampy pydub transformers

Установка PyTorch

Как ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, ΠΌΠΎΠ΄Π΅Π»ΠΈ transformers Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ PyTorch. Π’ΠΎΡ‚ ΠΊΠ°ΠΊ Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΡƒΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚ΡŒ PyTorch.

Установка с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ pip

Π’Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚Π΅ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ Π² Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°Π»Π΅:

pip install torch

Установка с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ conda

Π’Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚Π΅ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ Π² Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°Π»Π΅:

conda install pytorch torchvision torchaudio -c pytorch

ИспользованиС класса SoundFileProcessor

Π’ΠΎΡ‚ Π±Π°Π·ΠΎΠ²Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ использования SoundFileProcessor:

from sfProccessor import SoundFileProcessor
processor = SoundFileProcessor()
processor.process_file("path_to_your_audio_file.wav")

Π’ этом ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ "path_to_your_audio_file.wav" - это ΠΏΡƒΡ‚ΡŒ ΠΊ Π°ΡƒΠ΄ΠΈΠΎΡ„Π°ΠΉΠ»Ρƒ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ. Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Π΅Π³ΠΎ выполнСния Π² Π΄ΠΈΡ€Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠΈ с исходным Ρ„Π°ΠΉΠ»ΠΎΠΌ Π±ΡƒΠ΄Π΅Ρ‚ создана поддирСктория "wave", Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π±ΡƒΠ΄ΡƒΡ‚ Ρ…Ρ€Π°Π½ΠΈΡ‚ΡŒΡΡ части исходного Ρ„Π°ΠΉΠ»Π°, Π° Ρ‚Π°ΠΊΠΆΠ΅ Ρ„Π°ΠΉΠ» "output.txt", содСрТащий Ρ‚Ρ€Π°Π½ΡΠΊΡ€ΠΈΠ±Π°Ρ†ΠΈΡŽ Π°ΡƒΠ΄ΠΈΠΎΡ„Π°ΠΉΠ»Π°.

Π˜Π·Π²Π΅ΡΡ‚Π½Ρ‹Π΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹

ΠŸΠ΅Ρ€Π΅ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ памяти ΠΏΡ€ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ Π°ΡƒΠ΄ΠΈΠΎΡ„Π°ΠΉΠ»ΠΎΠ² с высоким Π±ΠΈΡ‚Ρ€Π΅ΠΉΡ‚ΠΎΠΌ

Π’ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… случаях, Ссли Π±ΠΈΡ‚Ρ€Π΅ΠΉΡ‚ исходного Π°ΡƒΠ΄ΠΈΠΎΡ„Π°ΠΉΠ»Π° слишком высок, ΠΌΠΎΠΆΠ΅Ρ‚ Π²ΠΎΠ·Π½ΠΈΠΊΠ½ΡƒΡ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° пСрСполнСния памяти. Π­Ρ‚ΠΎ происходит ΠΈΠ·-Π·Π° Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ Π°ΡƒΠ΄ΠΈΠΎΡ„Π°ΠΉΠ»Ρ‹ с высоким Π±ΠΈΡ‚Ρ€Π΅ΠΉΡ‚ΠΎΠΌ ΠΌΠΎΠ³ΡƒΡ‚ Π·Π°Π½ΠΈΠΌΠ°Ρ‚ΡŒ сущСствСнноС количСство памяти ΠΏΡ€ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅.

РСшСниС ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹

Если Π²Ρ‹ ΡΡ‚ΠΎΠ»ΠΊΠ½ΡƒΠ»ΠΈΡΡŒ с этой ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ, рСкомСндуСтся ΡΠ½ΠΈΠ·ΠΈΡ‚ΡŒ Π±ΠΈΡ‚Ρ€Π΅ΠΉΡ‚ исходного Π°ΡƒΠ΄ΠΈΠΎΡ„Π°ΠΉΠ»Π°. Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π°ΡƒΠ΄ΠΈΠΎΡ€Π΅Π΄Π°ΠΊΡ‚ΠΎΡ€Π°, Ρ‚Π°ΠΊΠΎΠ³ΠΎ ΠΊΠ°ΠΊ Audacity ΠΈΠ»ΠΈ Adobe Audition. ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π°Ρ‚ΡŒΡΡ Π² зависимости ΠΎΡ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠΎΠ³ΠΎ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠ³ΠΎ обСспСчСния, Π½ΠΎ Π² ΠΎΠ±Ρ‰Π΅ΠΌ случаС ΠΎΠ½ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π² сСбя ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ шаги:

  1. ΠžΡ‚ΠΊΡ€ΠΎΠΉΡ‚Π΅ исходный Π°ΡƒΠ΄ΠΈΠΎΡ„Π°ΠΉΠ» Π² вашСм Π°ΡƒΠ΄ΠΈΠΎΡ€Π΅Π΄Π°ΠΊΡ‚ΠΎΡ€Π΅.
  2. НайдитС ΠΎΠΏΡ†ΠΈΡŽ для измСнСния Π±ΠΈΡ‚Ρ€Π΅ΠΉΡ‚Π° Π°ΡƒΠ΄ΠΈΠΎ. Π’ Audacity это ΠΌΠΎΠΆΠ½ΠΎ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ, Π²Ρ‹Π±Ρ€Π°Π² "Tracks" > "Resample" Π² Π²Π΅Ρ€Ρ…Π½Π΅ΠΌ мСню.
  3. Π’Π²Π΅Π΄ΠΈΡ‚Π΅ Π½ΠΎΠ²ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π±ΠΈΡ‚Ρ€Π΅ΠΉΡ‚Π° (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, 16000 Π“Ρ† - это стандартная частота дискрСтизации для ΠΌΠ½ΠΎΠ³ΠΈΡ… Π·Π°Π΄Π°Ρ‡ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π°ΡƒΠ΄ΠΈΠΎ).
  4. Π‘ΠΎΡ…Ρ€Π°Π½ΠΈΡ‚Π΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½Π½Ρ‹ΠΉ Π°ΡƒΠ΄ΠΈΠΎΡ„Π°ΠΉΠ» ΠΈ ΠΏΠΎΠΏΡ€ΠΎΠ±ΡƒΠΉΡ‚Π΅ снова Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ SoundFileProcessor.

About

SoundFileProcessor! 🐍 Π­Ρ‚ΠΎ ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π·Π²ΡƒΠΊΠΎΠ²Ρ‹Ρ… Ρ„Π°ΠΉΠ»ΠΎΠ², Π²ΠΊΠ»ΡŽΡ‡Π°Ρ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π½Π° части, ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ частоты дискрСтизации ΠΈ Ρ‚Ρ€Π°Π½ΡΠΊΡ€ΠΈΠ±Π°Ρ†ΠΈΡŽ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ #OpenAIWhisper. πŸŽ§πŸ”€πŸ—£οΈ

License:MIT License


Languages

Language:Python 100.0%