在隔壁小眾軟件看到了一款有意思的工具-“Const-me/Whisper”。
原版Whisper是OpenAI做的一個(gè)神經(jīng)網(wǎng)絡(luò)模型,它可以在本地實(shí)時(shí)語(yǔ)音轉(zhuǎn)文字,用來(lái)翻譯和做字幕等等,而Const-me的版本將Whisper做成了Windows的版本,還添加了GPU加速。
在官方的GitHub頁(yè)面上,可以看到這個(gè)工具還有不少特點(diǎn),比如說(shuō)項(xiàng)目采用純C++實(shí)現(xiàn),除了系統(tǒng)基本組件沒(méi)有運(yùn)行依賴、內(nèi)存占用低、支持大多數(shù)音頻和視頻格式、支持大多數(shù)音頻捕獲設(shè)備、比OpenAI的實(shí)現(xiàn)還快。
主要的使用限制是系統(tǒng)版本,Windows 8.1以下和32位的系統(tǒng)是用不了的。
軟件的使用很簡(jiǎn)單,一個(gè)用于啟動(dòng)的界面環(huán)境,解壓出來(lái)1MB不到,一個(gè)用于識(shí)別的語(yǔ)言模型,模型有多個(gè)版本,想要正常使用得用1G以上的模型,下載文件之后,直接運(yùn)行啟動(dòng)器即可。
打開(kāi)之后就能看見(jiàn)這樸實(shí)無(wú)華的界面,軟件沒(méi)有幾個(gè)按鈕,雖然是英文的,但是模型路徑和高級(jí)設(shè)置一看就明白。
在高級(jí)設(shè)置里面可以設(shè)置要調(diào)用的GPU,這個(gè)保持默認(rèn)就行。
之后就能看到軟件的主界面了,點(diǎn)開(kāi)選擇語(yǔ)言,可以看到支持的語(yǔ)言還是挺多的,這里就先來(lái)試試中文。
在測(cè)試的時(shí)候發(fā)現(xiàn)用1.42GB的模型,默認(rèn)出來(lái)的是繁體,用2.88GB模型出來(lái)的是簡(jiǎn)體,這個(gè)也可能是系統(tǒng)環(huán)境的原因,大家可以自己測(cè)試一下。
測(cè)試用的顯卡是GTX1660,轉(zhuǎn)換速度在可接受范圍之內(nèi),上面這種簡(jiǎn)短的句子,用大的識(shí)別模型,在某些簡(jiǎn)單的語(yǔ)境條件下,以及加上最重要的因素——運(yùn)氣好的話,竟然有100%的準(zhǔn)確度。
除了音頻文件,直接放視頻也是可以的,但是只要涉及的內(nèi)容一廣,這個(gè)在本地運(yùn)行的缺點(diǎn)就暴露出來(lái)了,生成的文本一言難盡,在有數(shù)字的時(shí)候會(huì)自己轉(zhuǎn)換成阿拉伯?dāng)?shù)字,有英文混雜的時(shí)候也會(huì)自己嘗試首字母大寫(xiě),但是在轉(zhuǎn)換效果上,一眼望過(guò)去有不少同音字錯(cuò)誤,對(duì)于中文的前后文聯(lián)想能力比較差。
支持實(shí)時(shí)錄制音頻。
這個(gè)比Windows自帶的語(yǔ)言輸入效果要好一點(diǎn),同樣的音頻速度,這個(gè)工具不會(huì)出現(xiàn)丟字的情況。
官方給出的Whisper識(shí)別能力圖如下,主要還是用來(lái)識(shí)別英文。
其他功能上,可以添加時(shí)間標(biāo)記和直接翻譯成英文。
想要控制具體的參數(shù),也可以使用控制臺(tái)的版本,還會(huì)展示對(duì)應(yīng)數(shù)值的置信度。
輸出中文的話會(huì)出現(xiàn)一堆問(wèn)號(hào),這個(gè)不是控制臺(tái)的編碼顯示問(wèn)題,但是在輸入轉(zhuǎn)換指令后,在對(duì)應(yīng)路徑下面的文本生成是沒(méi)有問(wèn)題的。
有了這個(gè),就可以配合像是Quicker一類的快捷工具,做到本地一鍵轉(zhuǎn)換成文本了。
比較遺憾的是,這個(gè)小工具目前只支持將轉(zhuǎn)換的音頻轉(zhuǎn)換為英文,要是未來(lái)可以轉(zhuǎn)換成任意語(yǔ)言的話,那可玩性就很高了。