AI創作大時代：比 Google、剪映中文字幕正確性更高，且中英混雜、專有名詞與錯別字都更少的 OpenAI WhisperDesktop 影片語音轉字幕值得推薦

OpenAI 除了火紅的 ChaptGPT 與 DALL-E 兩項產品外，另一個也是以大型語言模型為基礎的 Whisper 語音辨識，其正確率比起已達八、九成的 Google、剪映等語音辨識更高，不只一般口語化的語音內容，對於中英混雜、專有名詞的辨識率提高許多。

這對於需要幫影片上字幕、訪談記錄，或是進行會議記錄的工作來說，真的又是一大節省時間的利器。

OpenAI Whisper 官方網站：https://openai.com/research/whisper

這次要分享的是以 Whisper 語音辨識技術為核心的 WhisperDesktop 開源免費軟體，除了更高準確率的辨識外，更重要的是你的資料完全是在自己的電腦上處理，沒有上傳到 Google 或是剪映的伺服器上，不會有重要資料外洩或資安上的問題！

一、從 Github 下載 WhisperDesktop

您可以從以下 WhisperDesktop 的 Github 查看此專案的內容與目前釋出的版本，現在最新的是 1.11 版。它支援影片與聲音檔案的語音辨識，MP4、MP3 檔案都沒問題喔！

WhisperDesktop 專案：https://github.com/Const-me/Whisper/

WhisperDesktop 版本資訊與下載程式：https://github.com/Const-me/Whisper/releases

下載壓縮檔後，請將裏面的三個檔案解壓縮，放到一個資料夾中。

二、下載語音識別 AI 模型檔(model)

接著需要前往 Hugging Face 下載 Whisper AI 模型檔，這邊可能要依據您自己電腦的效能，選擇適合的模型檔案，愈大的模型檔案可以取得更好的文字品質，但執行所需要時間就會長一些。

下載完成後，請將檔案放到剛才 WhisperDesktop 資料夾中。

Whisper AI 模型下載

三、第一次執行 WhisperDesktop 的設定

第一次執行 WhisperDesktop 程式時，需要設定 Whisper AI 模型檔的位置，這個動作只需要設定一次即會自動記住。

轉換完成後就可以看到如下圖的訊息：原始媒體時間、轉換時間與轉換速度

※ 如果想要更換 Whisper AI 模型檔怎麼辦

如果您原先使用 ggml-medium.bin 或是 ggml-large.bin 的語言模型檔案測試後，發現取得的結果不滿意或是花費的時間太長，想要更換模型檔時，只要將原來的模型檔案重新命名或是刪除它，重新執行 WhisperDesktop 程式時，就會再次跳出 Load Whisper Model 的對話方塊，讓您重新選擇模型檔。

※ 轉換後的文字檔案有純文字檔 txt 與帶有時間格式的 srt

您可以依自己的需求選擇適合的文字格式。

四、WhisperDesktop 也能進行即時語音轉錄

1.選按「Audio Capture」切換至即時語音轉錄功能

2.選擇語系、麥克風，並將辨識後的結果儲存至指定的資料夾與檔案名稱，按下 Capture 就可以開始。

3.完成後就可以按下 Stop，WhisperDesktop 將會自動開啟辨識後的文字檔

五、實測 WhisperDesktop、Google、剪映在教學影片語音轉文字上的差異

以這一段 9:40 的教學影片為例，使用 ggml-medium.bin 中型模型檔案，分別來看看不同的電腦與軟體在語音轉文字上的差異：

電腦設備都為同一台桌上型：Intel(R) Core(TM) i7-8086K CPU @ 4.00GHz 4.01 GHz，16GB，NVIDIA GeForce 1050 Ti

以下是以另一段 16:50 的教學影片為例，使用 ggml-large.bin 大型模型檔案

12th Gen Intel(R) Core(TM) i7-12700H 2.30 GHz，40.0 GB，NVIDIA GeForce 3060 Laptop GPU

雖然 WhisperDesktop 它需要有比較高的電腦效能，才能有更快的轉換速度，但是因為它在大型自然語言模型上的優勢，讓整個文句詞語的判斷表現上非常優異，且對於專有名詞與中英混雜情形下，都能有相對優秀的表現！而且，如果辨識過程中出現音樂，或是有其他人發問，甚至是掌聲，都還會用括號表示呢！

六、實測一次線上課程與兩次實體課程錄影影片使用 WhisperDesktop 進行語音轉文字的結果

以前在 Google 推出語音轉文字服務後，就曾有約半年至一年的時間，都會將每次上課的錄影影片，在下課後留下來用它轉換成字幕檔案，再把字幕檔上傳到 Google 雲端硬碟或是 Youtube 頻道上，不過，由於在專有名詞或是中英混雜的內容上，正確率都不是很理想，後來就放棄了！

現在有了 WhisperDesktop 的協助，決定再來繼續試看看，所以針對最近的一次線上課程與一次實體課程錄影影片使用 WhisperDesktop 進行語音轉文字，看到轉換後的成果真的好令人振奮：

1120509 中彰投創客基地：用 Google Earth 輕鬆完成地圖動畫(線上課程)

https://www.youtube.com/playlist?list=PLGgb8xybFghuBkdu_mjFImL_I3LBfomAY

正確率有達到 99% 以上，錯誤的地方非常非常的少！

1120510 新北市海山高中：Hiteach CC線上線下混合式教學互動

https://www.youtube.com/watch?v=DJr7pY4ub3o&list=PLGgb8xybFghu5DOL5mn2Tz6AEWpIbhJJB&index=7&ab_channel=%E5%BB%96%E8%BF%B0%E6%96%87

雖然像 Hiteach CC 這雲端服務還不是那麼有名，但它也能從唸法拼出 Highteach cc，正確率也有達到 98.5% 以上，錯誤的地方非常非常的少！

1120510 亞東科大：Webduino Smart 體驗課程

https://www.youtube.com/watch?v=DJr7pY4ub3o&list=PLGgb8xybFghu5DOL5mn2Tz6AEWpIbhJJB&index=7&ab_channel=%E5%BB%96%E8%BF%B0%E6%96%87

雖然像 Webduino 它也是比較不認得，但是正確率有達到 98% 以上，錯誤的地方非常非常的少！

七、使用 ChatGPT 或是 Notion AI 將演講逐字稿整理成適合閱讀的文章，並加上適當的標點符號

如果是演講或是開會錄音，取得逐字稿後，可以再使用 ChatGPT 或是 Notion AI 將演講逐字稿整理成適合閱讀的文章，並加上適當的標點符號。

※練習測試檔

教育廣播電台星期講座：2023/05/14「守護山林共享寂靜」演講5分鐘片段

八、WhisperDesktop 的線上替代服務：Vocol.ai、Good Tape

如果電腦效能真的無法有效使用 WhisperDesktop，也可以考慮使用 Vocol.ai 或是 Good Tape 只要上傳錄音檔或影片，一樣能快速產生逐字稿，甚至是內容摘要、區分主要發言者與其他與會的內容。

https://www.vocol.ai/tw/home

每個使用者都有 200 分鐘的逐字稿點數與 2000 分鐘生成摘要、重點的點數。

Good Tape 不需要註冊帳號即可使用5分鐘，目前完全免費，註冊帳號後每個月有 90 分鐘免費額度可以使用，轉換完成會透過 Email 通知。

https://www.mygoodtape.com/

九、WhisperDesktop 的線上替代服務：在 Colab 上執行 autotranslate

autotranslate 是一個在 GitHub 上的開源專案，可以藉由 Google Colab 來執行，利用 Whisper 和 ChatGPT 產生影片字幕檔、翻譯字幕，而且支援數百個網站，如 Youtube、Facebook、Google 雲端硬碟上的影音檔…等。

目前實際測試使用 Youtube 影片產生的文字檔結果，確實是跟 WhisperDesktop 一樣，而且解析的速度比自己的電腦更快呢！這樣如果沒有比較強大電腦硬體時，就可以多了另一種不花錢的選擇了！😊

autotranslate GitHub 開源專案
完整教學文章：https://harmonica80.blogspot.com/2023/08/ai-google-openai-whisperdesktop-ai.html

※ 執行 autotranslate 的最後一個步驟 Merge words/segments to sentences 後，原本生成的字幕反而會在每個字與詞之間加入一個半型的空格，雖然還是可以使用，但是反而看字幕時會有點怪怪的！

可以在前面的「Run the model」所取得的生成式字幕上，按滑鼠右鍵/全選，將這個沒有半型空格的正常字幕結果全部選取後，再貼到空白的記事本檔案上，清除前面幾行多餘的文字後，儲存成文字檔。

再開啟Nikse雲端字幕編輯服務，並轉換成SRT字幕或純文字檔案，這樣就能變成適合 Youtube 等一般影片支援的標準 SRT 格式了與會議記錄的檔案了！

https://www.nikse.dk/subtitleedit/online

※ 教學資料總整理：

※ Youtube 直播與研習記錄：

※ 延伸閱讀：

留言