AI創作大時代:比 Google、剪映中文字幕正確性更高,且中英混雜、專有名詞與錯別字都更少的 OpenAI WhisperDesktop 影片語音轉字幕值得推薦
OpenAI 除了火紅的 ChaptGPT 與 DALL-E 兩項產品外,另一個也是以大型語言模型為基礎的 Whisper 語音辨識,其正確率比起已達八、九成的 Google、剪映等語音辨識更高,不只一般口語化的語音內容,對於中英混雜、專有名詞的辨識率提高許多。
這對於需要幫影片上字幕、訪談記錄,或是進行會議記錄的工作來說,真的又是一大節省時間的利器。
- OpenAI Whisper 官方網站:https://openai.com/research/whisper
這次要分享的是以 Whisper 語音辨識技術為核心的 WhisperDesktop 開源免費軟體,除了更高準確率的辨識外,更重要的是你的資料完全是在自己的電腦上處理,沒有上傳到 Google 或是剪映的伺服器上,不會有重要資料外洩或資安上的問題!
一、從 Github 下載 WhisperDesktop
您可以從以下 WhisperDesktop 的 Github 查看此專案的內容與目前釋出的版本,現在最新的是 1.11 版。它支援影片與聲音檔案的語音辨識,MP4、MP3 檔案都沒問題喔!
- WhisperDesktop 專案:https://github.com/Const-me/Whisper/
- WhisperDesktop 版本資訊與下載程式:https://github.com/Const-me/Whisper/releases
下載壓縮檔後,請將裏面的三個檔案解壓縮,放到一個資料夾中。
二、下載語音識別 AI 模型檔(model)
接著需要前往 Hugging Face 下載 Whisper AI 模型檔,這邊可能要依據您自己電腦的效能,選擇適合的模型檔案,愈大的模型檔案可以取得更好的文字品質,但執行所需要時間就會長一些。
下載完成後,請將檔案放到剛才 WhisperDesktop 資料夾中。
三、第一次執行 WhisperDesktop 的設定
第一次執行 WhisperDesktop 程式時,需要設定 Whisper AI 模型檔的位置,這個動作只需要設定一次即會自動記住。
轉換完成後就可以看到如下圖的訊息:原始媒體時間、轉換時間與轉換速度
※ 如果想要更換 Whisper AI 模型檔怎麼辦
如果您原先使用 ggml-medium.bin 或是 ggml-large.bin 的語言模型檔案測試後,發現取得的結果不滿意或是花費的時間太長,想要更換模型檔時,只要將原來的模型檔案重新命名或是刪除它,重新執行 WhisperDesktop 程式時,就會再次跳出 Load Whisper Model 的對話方塊,讓您重新選擇模型檔。
※ 轉換後的文字檔案有純文字檔 txt 與帶有時間格式的 srt
您可以依自己的需求選擇適合的文字格式。
四、WhisperDesktop 也能進行即時語音轉錄
2.選擇語系、麥克風,並將辨識後的結果儲存至指定的資料夾與檔案名稱,按下 Capture 就可以開始。
3.完成後就可以按下 Stop,WhisperDesktop 將會自動開啟辨識後的文字檔
五、實測 WhisperDesktop、Google、剪映在教學影片語音轉文字上的差異
以這一段 9:40 的教學影片為例,使用 ggml-medium.bin 中型模型檔案,分別來看看不同的電腦與軟體在語音轉文字上的差異:
電腦設備都為同一台桌上型:Intel(R) Core(TM) i7-8086K CPU @ 4.00GHz 4.01 GHz,16GB,NVIDIA GeForce 1050 Ti
六、實測一次線上課程與兩次實體課程錄影影片使用 WhisperDesktop 進行語音轉文字的結果
1120509 中彰投創客基地:用 Google Earth 輕鬆完成地圖動畫(線上課程)
1120510 新北市海山高中:Hiteach CC線上線下混合式教學互動
1120510 亞東科大:Webduino Smart 體驗課程
七、使用 ChatGPT 或是 Notion AI 將演講逐字稿整理成適合閱讀的文章,並加上適當的標點符號
※練習測試檔
八、WhisperDesktop 的線上替代服務:Vocol.ai、Good Tape
每個使用者都有 200 分鐘的逐字稿點數與 2000 分鐘生成摘要、重點的點數。
Good Tape 不需要註冊帳號即可使用5分鐘,目前完全免費,註冊帳號後每個月有 90 分鐘免費額度可以使用,轉換完成會透過 Email 通知。
九、WhisperDesktop 的線上替代服務:在 Colab 上執行 autotranslate
可以在前面的「Run the model」所取得的生成式字幕上,按滑鼠右鍵/全選,將這個沒有半型空格的正常字幕結果全部選取後,再貼到空白的記事本檔案上,清除前面幾行多餘的文字後,儲存成文字檔。
再開啟Nikse雲端字幕編輯服務,並轉換成SRT字幕或純文字檔案,這樣就能變成適合 Youtube 等一般影片支援的標準 SRT 格式了與會議記錄的檔案了!
※ 教學資料總整理:
- 跟著 Webduino 一起 Smart 學習 https://sites.google.com/view/cfp-webduino-smart/
- Sweet Home 3D 教學總整理:https://sites.google.com/view/sweethome3d-tw/
- OBS Studio 虛擬攝影棚教學總整理:https://sites.google.com/view/obs-tw
- 翻轉教學「現形記」教學總整理:https://sites.google.com/view/teachers-tools/
- 啟芳出版:(高職商業與管理群) 數位科技應用下冊
※ Youtube 直播與研習記錄:
- 1111206 TCN南投創客基地:OBS與mmhmm虛擬攝影棚應用線上研習直播影片(111年最後一場線上研習)
- 1111125、1202 銘傳大學:mmhmm 虛擬攝影棚 + Vrew 字幕編輯,讓教材錄影更生動有趣!研習記錄
- 1111129 高雄市立福誠高中:OBS 虛擬攝影棚 + Vrew 字幕編輯,讓教材錄影更生動有趣!研習記錄
- 1111019、1026、1102、1123 修平科技大學:混成教學 快速上手應用研習記錄
- 屏東縣資教中心111年「OBS虛擬攝影棚應用」研習直播影片,六小時介紹完整 OBS 教學情境、如何加入即時字幕與 mmhhmm 另類虛擬攝影棚!
- 1120415 新民高中A2研習:「OHA雲端教室 + 1Know 翻轉學習平台」
- 1110826、0906 跟著「OHA雲端教室」開學去!(您線上線下、混合式教學的好幫手) !線上研習直播影片
- 1110816 屏東縣資訊教育資源中心:Canva 教育版在教材製作與互動簡報的應用!線上研習直播影片
- 1110815 木柵高工「OHA雲端教室 + 1Know 翻轉學習平台」您線上線下、混合(複合)式教學的好幫手!線上研習直播影片
- 1110512 「用1Know任務闖關,進行班級經營與翻轉學習」線上研習直播影片
- 1110527 屏東縣資教中心111年「線上線下混合式教學互動」研習直播影片,內容主要介紹 HiTeach CC免費跨平台雲端服務、Pear Deck投影片互動提問
- 1110624、0625 台中創客基地:Webduino Smart 線上基礎課程!線上研習直播影片
- 1111116 田尾國中:Webduino 智慧植栽應用研習記錄
- 1111015 花蓮高商:Webduino 物聯網實務與應用講座研習記錄
- 1111012、1109 雲林四湖南光國小:Canva 教育版在教材製作與互動簡報的應用研習記錄
- 1110915、0922 臺南高商:Canva 教育版在教材製作與互動簡報的應用研習記錄
- 1110914、 0921 花蓮中正國小:Canva 教育版在主題簡報與畢業微影片的應用研習
- 1110916 臺中市資訊輔導團:Canva 教育版在影片剪輯的應用研習記錄
※ 延伸閱讀:
- AI創作大時代:Vrew 跨足 AI 創作,推出「圖文成片」與「文字轉圖片」功能全攻略
- AI創作大時代:用 ChatGPT 快速搜集關鍵字產生文字雲圖案再配合 Photopea 與 Pexels 免費圖庫進行創作
- AI創作大時代:ChatGPT 已經成為最佳故事、劇本創作助手
- 我們與AI的距離:Canva 正式推出「Text to Image文字轉圖片」、剪映也推出「圖文成片」,AI浪潮一波接一波!
- 我們與AI的距離:Windows 11 將語音輸入帶入 PC、筆電,也支援標點符號,學習輸入法的時代正式終結!
- 我們與AI的距離:Animate your family photos 只要一張人臉照片就能「真的動起來」,並下載成 MP4 影片!
- 我們與AI的距離:AutoSub-AHK 比 pyTranscriber 更有彈性且支援批次轉換的 AutoSub 圖形介面工具,快速產生影片、錄音檔的文字字幕!(Windows)
- 我們與AI的距離:Moises ai 聰明去除人聲、分離音樂、樂器音軌,不再傻傻分不清了!
- 我們與AI的距離:Google 即時語音辨識應用面面觀,標點符號自動輸入也 OK!
- 我們與AI的距離:免費開源 pyTranscriber 透過 Google 雲端語音自動辨識,超快速產生影片、錄音檔的文字字幕!(Windows、MAC、Linux)
- 學習輸入法的時代已經過去,語音輸入當道,Google 文件與 SpeechNotes 語音輸入,讓您「用講的嘛會通」!
- Google 文件與 SpeechNotes 線上語音辨識也能協助產生演講影音字幕、會議記錄的文字建檔工作,省時又省力!
- Remove Image Background 免費雲端 AI 服務,不囉嗦!5 秒鐘自動完成人物去背(摳圖)!
- 善用雲端服務提升工作效率:AI 圖片無失真放大 16 倍,PhotoShop 請退下!
留言