AI創作大時代:在Colab虛擬主機上執行autotranslate語音轉文字專案,不用升級自己的電腦(平板)即可享有Whisper and ChatGPT 近10倍速的效能!


之前曾經介紹過「AI創作大時代:比 Google、剪映中文字幕正確性更高,且中英混雜、專有名詞與錯別字都更少的 OpenAI WhisperDesktop 影片語音轉字幕值得推薦」這個在自己電腦上執行AI語音辨識的應用程式,不過,他必須仰賴你自己電腦有比較強大的顯示卡以及運算效能,才能夠得到比較順暢的辨識結果。

※也可以考慮使用 Vocol.ai (每個使用者都有 200 分鐘的逐字稿點數與 2000 分鐘生成摘要、重點的點數。)或是 Good Tape (不需要註冊帳號即可使用5分鐘,目前完全免費,註冊帳號後每個月有 90 分鐘免費額度可以使用,轉換完成會透過 Email 通知),只要上傳錄音檔或影片,一樣能快速產生逐字稿,甚至是內容摘要、區分主要發言者與其他與會的內容。


這一次要跟大家介紹的是在Colab虛擬主機上所執行的程式,你可以不用擔心你的電腦效能,在平板上也都可以使用喔!,只要在Google的Colab網站上註冊帳號,即可在免費方案中,取得如下圖的虛擬主機規格。

目前有發現部份學校Google教育帳號,因管理者的限制,無法註冊Colab,請您改用個人Google帳號就可以正常使用囉!


Colab上虛擬主機執行的速度相當快速,目前我自己執行過最長的時間是近三個小時的線上課錄影影片,約20分鐘就能執行完畢。




一、autotranslate 掛載在 GitHub 的開源工具

autotranslate是一個免費開源工具,支援許多網路上的影片服務,只需要在Colab上將虛擬機器執行,並載入相關的程式後,就可以將影片網址貼上,進行文字轉換,目前支援語言有:en(英文)、zh(中文)、ja(日文)、fr(法文) 和 de(德文) 五個。

此外,如果你的檔案有隱私上的問題,可以放在自己的雲端硬碟上,取得共享網址後,同樣可以進行語音辨識的工作。




二、開啟Colab上的autotranslate.ipynb,執行虛擬主機


※如果您有需要執行多個影片的語音辨識,以下的步驟1~4只需執行一次,從第二段影片開始,只要把新的影片網址貼上,再執行語音辨識就可以囉!



1.執行Check GPU type




2.執行Install libraries



※ 20231217 補充:

現在多增加一個「Import libraries for Python」的執行步驟


3.執行Optional: Save data in Google Drive

此項目可自行決定是否執行,如果有執行,需要授權它可以存取Google雲端硬碟的權限,它可以直接讀取雲端硬碟上的檔案,也會將轉譯後的字幕檔儲存在Google雲端硬碟上,預設的路徑在Colab Notebooks / Videos Transcription and Translation。







※ 20240620 更新

現在在連線至 Google 雲端硬碟時,只要授與一個權限就可以,不會再出現下面一次這麼多權限的授權畫面






4.執行Model selection



5.執行Video selection

目前autotranslate支援兩種方式,一種是影片的網址,來自Youtube或是雲端硬碟上已設為共享的影片或是聲音檔案,第二種方式,則需要先在前面的第3步驟授權存取您的雲端硬碟,就可以直接指定雲端硬碟上的私人檔案進行語音辨識!




這邊比較建議的是第一種方式,相對比較簡單,只需要貼上網址即可執行。


※ Youtube 網址不能使用播放清單中的共享網址,建議使用如下透過「分享」所取得的短址,才不會出現辨識上的問題喔!





6.執行Run the model,開始進行語音辨識






7.執行Merge words/segments to sentences

由於作者在合併文字和片段時,會自動在每個詞語後面加上一個空格,反而在後續要匯入影片中使用時,格式上會覺得比較冗長,因此不建議在這裏執行它。

※ 20231217 更新

在這次的更新中,已經修正上述合併文字後的問題,執行的結果如下圖,可以減少一些文字段落的數量。



如果您在前面的第3步驟有授權存取您的雲端硬碟,執行完此步驟後,將會自動產生一個 *.srt 的字幕檔,儲存在雲端硬碟的 Colab Notebooks / Videos Transcription and Translation 目錄下




三、使用Nikse雲端字幕編輯服務轉換成標準字幕格式SRT

※ 如果您已經授權 Colab 存取 Google 雲端硬碟的權限,以下的動作就可以不用執行囉!


1.複製所有辨識的文字,並儲存在一個純文字檔案中

請你先回到剛才步驟6所辨識出來的語音文字,在辨識文字上按右鍵/全選或是Ctrl + A將所有文字選取並複製。


接下來請建立一個空白的文字檔案,將剛才的文字貼入,並按下Ctrl + S儲存。



2.開啟Nikse雲端字幕編輯服務,並轉換成SRT字幕檔案





取得SRC字幕檔案後,就可以再拿到Vrew、威力導演、CapCut等影片編輯軟體中使用,因為是經由AI辨識後的內容,不論是在口語化或是中英夾雜、專有名詞的正確率,絕大多數都可以達到90%,甚至是95%以上,真的可以省下非常多校稿整理的時間!😊


3.如果只需要純文字內容,不需時間區間,Nikse雲端字幕編輯也可以下載為TXT純文字檔案



四、請ChatGPT將字幕加上標點符號,以方便轉換成文章閱讀,並整理出重點

1.請你將以下的影片字幕加上適當的標點符號,以方便當成文章閱讀





2.請你幫我用300個字以內摘要這篇文章的重點,每個重點加上一個粗體的標題,後面接這個重點的說明




五、如何操作autotranslate虛擬主機、Subtitle轉字幕與ChatGPT整理教學影片






※ 教學資料總整理:


※ Youtube 直播與研習記錄:



※ 延伸閱讀:


留言