AI創作大時代：在Colab虛擬主機上執行autotranslate語音轉文字專案，不用升級自己的電腦(平板)即可享有Whisper and ChatGPT 近10倍速的效能！

之前曾經介紹過「AI創作大時代：比 Google、剪映中文字幕正確性更高，且中英混雜、專有名詞與錯別字都更少的 OpenAI WhisperDesktop 影片語音轉字幕值得推薦」這個在自己電腦上執行AI語音辨識的應用程式，不過，他必須仰賴你自己電腦有比較強大的顯示卡以及運算效能，才能夠得到比較順暢的辨識結果。

※也可以考慮使用 Vocol.ai (每個使用者都有 200 分鐘的逐字稿點數與 2000 分鐘生成摘要、重點的點數。)或是 Good Tape (不需要註冊帳號即可使用5分鐘，目前完全免費，註冊帳號後每個月有 90 分鐘免費額度可以使用，轉換完成會透過 Email 通知)，只要上傳錄音檔或影片，一樣能快速產生逐字稿，甚至是內容摘要、區分主要發言者與其他與會的內容。

這一次要跟大家介紹的是在Colab虛擬主機上所執行的程式，你可以不用擔心你的電腦效能，在平板上也都可以使用喔！，只要在Google的Colab網站上註冊帳號，即可在免費方案中，取得如下圖的虛擬主機規格。

目前有發現部份學校Google教育帳號，因管理者的限制，無法註冊Colab，請您改用個人Google帳號就可以正常使用囉！

Colab上虛擬主機執行的速度相當快速，目前我自己執行過最長的時間是近三個小時的線上課錄影影片，約20分鐘就能執行完畢。

https://colab.research.google.com/

一、autotranslate 掛載在 GitHub 的開源工具

https://github.com/lewangdev/autotranslate/blob/main/autotranslate.ipynb

autotranslate是一個免費開源工具，支援許多網路上的影片服務，只需要在Colab上將虛擬機器執行，並載入相關的程式後，就可以將影片網址貼上，進行文字轉換，目前支援語言有：en(英文)、zh(中文)、ja(日文)、fr(法文) 和 de(德文) 五個。

此外，如果你的檔案有隱私上的問題，可以放在自己的雲端硬碟上，取得共享網址後，同樣可以進行語音辨識的工作。

二、開啟Colab上的autotranslate.ipynb，執行虛擬主機

https://colab.research.google.com/github/lewangdev/autotranslate/blob/main/autotranslate.ipynb#scrollTo=v9214wd0Nk5J&uniqifier=6

※如果您有需要執行多個影片的語音辨識，以下的步驟1~4只需執行一次，從第二段影片開始，只要把新的影片網址貼上，再執行語音辨識就可以囉！

1.執行Check GPU type

2.執行Install libraries

※ 20231217 補充：

現在多增加一個「Import libraries for Python」的執行步驟

3.執行Optional: Save data in Google Drive

此項目可自行決定是否執行，如果有執行，需要授權它可以存取Google雲端硬碟的權限，它可以直接讀取雲端硬碟上的檔案，也會將轉譯後的字幕檔儲存在Google雲端硬碟上，預設的路徑在Colab Notebooks / Videos Transcription and Translation。

※ 20240620 更新

現在在連線至 Google 雲端硬碟時，只要授與一個權限就可以，不會再出現下面一次這麼多權限的授權畫面

4.執行Model selection

5.執行Video selection

目前autotranslate支援兩種方式，一種是影片的網址，來自Youtube或是雲端硬碟上已設為共享的影片或是聲音檔案，第二種方式，則需要先在前面的第3步驟授權存取您的雲端硬碟，就可以直接指定雲端硬碟上的私人檔案進行語音辨識！

這邊比較建議的是第一種方式，相對比較簡單，只需要貼上網址即可執行。

※ Youtube 網址不能使用播放清單中的共享網址，建議使用如下透過「分享」所取得的短址，才不會出現辨識上的問題喔！

6.執行Run the model，開始進行語音辨識

7.執行Merge words/segments to sentences

由於作者在合併文字和片段時，會自動在每個詞語後面加上一個空格，反而在後續要匯入影片中使用時，格式上會覺得比較冗長，因此不建議在這裏執行它。

※ 20231217 更新

在這次的更新中，已經修正上述合併文字後的問題，執行的結果如下圖，可以減少一些文字段落的數量。

如果您在前面的第3步驟有授權存取您的雲端硬碟，執行完此步驟後，將會自動產生一個 *.srt 的字幕檔，儲存在雲端硬碟的 Colab Notebooks / Videos Transcription and Translation 目錄下。

三、使用Nikse雲端字幕編輯服務轉換成標準字幕格式SRT

※ 如果您已經授權 Colab 存取 Google 雲端硬碟的權限，以下的動作就可以不用執行囉！

1.複製所有辨識的文字，並儲存在一個純文字檔案中

請你先回到剛才步驟6所辨識出來的語音文字，在辨識文字上按右鍵/全選或是Ctrl + A將所有文字選取並複製。

接下來請建立一個空白的文字檔案，將剛才的文字貼入，並按下Ctrl + S儲存。

2.開啟Nikse雲端字幕編輯服務，並轉換成SRT字幕檔案

https://www.nikse.dk/subtitleedit/online

取得SRC字幕檔案後，就可以再拿到Vrew、威力導演、CapCut等影片編輯軟體中使用，因為是經由AI辨識後的內容，不論是在口語化或是中英夾雜、專有名詞的正確率，絕大多數都可以達到90%，甚至是95%以上，真的可以省下非常多校稿整理的時間！😊

3.如果只需要純文字內容，不需時間區間，Nikse雲端字幕編輯也可以下載為TXT純文字檔案

四、請ChatGPT將字幕加上標點符號，以方便轉換成文章閱讀，並整理出重點

ChatGPT 對話共享網址

1.請你將以下的影片字幕加上適當的標點符號，以方便當成文章閱讀

2.請你幫我用300個字以內摘要這篇文章的重點，每個重點加上一個粗體的標題，後面接這個重點的說明

五、如何操作autotranslate虛擬主機、Subtitle轉字幕與ChatGPT整理教學影片

※ 教學資料總整理：

※ Youtube 直播與研習記錄：

※ 延伸閱讀：

留言