jianchang512 / stt

Voice Recognition to Text Tool / 一个离线运行的本地语音识别转文字服务,输出json、srt字幕带时间戳、纯文字格式

Home Page:https://pyvideotrans.com

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

配置怎么算的,比如长视频用large的模型,多长时间的视频要用的大概什么样的配置【内存、GPU】

lwstudy opened this issue · comments

有试过的么?比如半小时算长视频要识别的话32G内存+8G显存能用么【看了下faster-whisper Large-v2 模型的13分钟测试数据,4G左右的GPU+4G内存一分钟内完成识别】,不知道这里的faster-whisper Large-v3模型不知道是不是上个月huggingface发的faster-distil-whisper-large-v3,不然在github才v2。

; after update set , please restart the app
; ip:port
web_address=127.0.0.1:9977
;en or zh
lang=zh
; cpu or cuda
devtype=cuda
; int8 or float32 only gpu
cuda_com_type=int8
;Reducing these two numbers will use less graphics memory
beam_size=2
best_of=4
;vad set to false,use litter GPU memory,true is more
vad=true
;0 is use litter GPU,other is more
temperature=6
;false is litter GPU,ture is more
condition_on_previous_text=false
initial_prompt_zh=以下是普通话内容,请转录为中文简体。

【large-v3】
无论怎么配gpu都在2.2的样子。19分钟的视频70s的样子,结果三十分钟的就要到240-300s了