AI創作大時代:比 Google、剪映中文字幕正確性更高,且中英混雜、專有名詞與錯別字都更少的 OpenAI WhisperDesktop 影片語音轉字幕值得推薦

OpenAI 除了火紅的 ChaptGPT 與 DALL-E 兩項產品外,另一個也是以大型語言模型為基礎的 Whisper 語音辨識,其正確率比起已達八、九成的 Google、剪映等語音辨識更高,不只一般口語化的語音內容,對於中英混雜、專有名詞的辨識率提高許多。

這對於需要幫影片上字幕、訪談記錄,或是進行會議記錄的工作來說,真的又是一大節省時間的利器。


這次要分享的是以 Whisper 語音辨識技術為核心的 WhisperDesktop 開源免費軟體,除了更高準確率的辨識外,更重要的是你的資料完全是在自己的電腦上處理,沒有上傳到 Google 或是剪映的伺服器上,不會有重要資料外洩或資安上的問題!

一、從 Github 下載 WhisperDesktop

您可以從以下 WhisperDesktop 的 Github 查看此專案的內容與目前釋出的版本,現在最新的是 1.11 版。它支援影片與聲音檔案的語音辨識,MP4、MP3 檔案都沒問題喔!



下載壓縮檔後,請將裏面的三個檔案解壓縮,放到一個資料夾中。




二、下載語音識別 AI 模型檔(model)

接著需要前往 Hugging Face 下載 Whisper AI 模型檔,這邊可能要依據您自己電腦的效能,選擇適合的模型檔案,愈大的模型檔案可以取得更好的文字品質,但執行所需要時間就會長一些。

下載完成後,請將檔案放到剛才 WhisperDesktop 資料夾中。





三、第一次執行 WhisperDesktop 的設定

第一次執行 WhisperDesktop 程式時,需要設定 Whisper AI 模型檔的位置,這個動作只需要設定一次即會自動記住。




轉換完成後就可以看到如下圖的訊息:原始媒體時間、轉換時間與轉換速度



※ 如果想要更換 Whisper AI 模型檔怎麼辦

如果您原先使用 ggml-medium.bin 或是 ggml-large.bin 的語言模型檔案測試後,發現取得的結果不滿意或是花費的時間太長,想要更換模型檔時,只要將原來的模型檔案重新命名或是刪除它,重新執行 WhisperDesktop 程式時,就會再次跳出 Load Whisper Model 的對話方塊,讓您重新選擇模型檔。


※ 轉換後的文字檔案有純文字檔 txt 與帶有時間格式的 srt  

您可以依自己的需求選擇適合的文字格式。




四、WhisperDesktop 也能進行即時語音轉錄

1.選按「Audio Capture」切換至即時語音轉錄功能



 2.選擇語系、麥克風,並將辨識後的結果儲存至指定的資料夾與檔案名稱,按下 Capture 就可以開始。



3.完成後就可以按下 Stop,WhisperDesktop 將會自動開啟辨識後的文字檔





五、實測 WhisperDesktop、Google、剪映在教學影片語音轉文字上的差異

以這一段 9:40 的教學影片為例,使用 ggml-medium.bin 中型模型檔案,分別來看看不同的電腦與軟體在語音轉文字上的差異:



電腦設備都為同一台桌上型:Intel(R) Core(TM) i7-8086K CPU @ 4.00GHz 4.01 GHz,16GB,NVIDIA GeForce 1050 Ti



以下是以另一段 16:50 的教學影片為例,使用 ggml-large.bin 大型模型檔案




12th Gen Intel(R) Core(TM) i7-12700H   2.30 GHz,40.0 GB,NVIDIA GeForce 3060 Laptop GPU

 




雖然 WhisperDesktop 它需要有比較高的電腦效能,才能有更快的轉換速度,但是因為它在大型自然語言模型上的優勢,讓整個文句詞語的判斷表現上非常優異,且對於專有名詞與中英混雜情形下,都能有相對優秀的表現!而且,如果辨識過程中出現音樂,或是有其他人發問,甚至是掌聲,都還會用括號表示呢!





六、實測一次線上課程與兩次實體課程錄影影片使用 WhisperDesktop 進行語音轉文字的結果

 
以前在 Google 推出語音轉文字服務後,就曾有約半年至一年的時間,都會將每次上課的錄影影片,在下課後留下來用它轉換成字幕檔案,再把字幕檔上傳到 Google 雲端硬碟或是 Youtube 頻道上,不過,由於在專有名詞或是中英混雜的內容上,正確率都不是很理想,後來就放棄了!

現在有了 WhisperDesktop 的協助,決定再來繼續試看看,所以針對最近的一次線上課程與一次實體課程錄影影片使用 WhisperDesktop 進行語音轉文字,看到轉換後的成果真的好令人振奮:

1120509 中彰投創客基地:用 Google Earth 輕鬆完成地圖動畫(線上課程)

正確率有達到 99% 以上,錯誤的地方非常非常的少!


 

1120510 新北市海山高中:Hiteach CC線上線下混合式教學互動

雖然像 Hiteach CC 這雲端服務還不是那麼有名,但它也能從唸法拼出 Highteach cc,正確率也有達到 98.5% 以上,錯誤的地方非常非常的少!
 
 
 

1120510 亞東科大:Webduino Smart 體驗課程

雖然像 Webduino 它也是比較不認得,但是正確率有達到 98% 以上,錯誤的地方非常非常的少!




七、使用 ChatGPT 或是 Notion AI 將演講逐字稿整理成適合閱讀的文章,並加上適當的標點符號

如果是演講或是開會錄音,取得逐字稿後,可以再使用 ChatGPT 或是 Notion AI 將演講逐字稿整理成適合閱讀的文章,並加上適當的標點符號。

※練習測試檔









八、WhisperDesktop 的線上替代服務:Vocol.ai、Good Tape

如果電腦效能真的無法有效使用 WhisperDesktop,也可以考慮使用 Vocol.ai 或是 Good Tape 只要上傳錄音檔或影片,一樣能快速產生逐字稿,甚至是內容摘要、區分主要發言者與其他與會的內容。



每個使用者都有 200 分鐘的逐字稿點數與 2000 分鐘生成摘要、重點的點數。



Good Tape 不需要註冊帳號即可使用5分鐘,目前完全免費,註冊帳號後每個月有 90 分鐘免費額度可以使用,轉換完成會透過 Email 通知。









九、WhisperDesktop 的線上替代服務:在 Colab 上執行 autotranslate

autotranslate 是一個在 GitHub 上的開源專案,可以藉由 Google Colab 來執行,利用 Whisper 和 ChatGPT 產生影片字幕檔、翻譯字幕,而且支援數百個網站,如 Youtube、Facebook、Google 雲端硬碟上的影音檔…等。

目前實際測試使用 Youtube 影片產生的文字檔結果,確實是跟 WhisperDesktop 一樣,而且解析的速度比自己的電腦更快呢!這樣如果沒有比較強大電腦硬體時,就可以多了另一種不花錢的選擇了!😊






※ 執行 autotranslate 的最後一個步驟 Merge words/segments to sentences 後,原本生成的字幕反而會在每個字與詞之間加入一個半型的空格,雖然還是可以使用,但是反而看字幕時會有點怪怪的!



可以在前面的「Run the model」所取得的生成式字幕上,按滑鼠右鍵/全選,將這個沒有半型空格的正常字幕結果全部選取後,再貼到空白的記事本檔案上,清除前面幾行多餘的文字後,儲存成文字檔。




再開啟Nikse雲端字幕編輯服務,並轉換成SRT字幕或純文字檔案,這樣就能變成適合 Youtube 等一般影片支援的標準 SRT 格式了與會議記錄的檔案了!











※ 教學資料總整理:


※ Youtube 直播與研習記錄:


※ 延伸閱讀:

 

 

 

 

留言