AI創作大時代:KTV 影片字幕效果怎麼做?(舊的作法)

近期在 AI 相關研習中,我都會特別介紹以下這兩個使用 AI 聰明去除人聲、分離音樂的免費線上服務應用,很適合拿來做這篇文章中要介紹的 KTV 音樂影片。

※ 20230730更新




加上有同學問到 KTV 影片的字幕效果該如何製作,且印象中也曾經看過 PAPAYA 有部教學影片:「被字幕組認證的字幕神器 AegiSub / 雙語字幕 + 卡拉 OK + 動態特效全攻略」中有提到用 Aegisub 軟體方式進行 KTV 字幕動畫的做法。



因此,這篇文章將配合 AI 處理人聲、語音辨識,並透過 Aegisub 製作 KTV 影片字幕效果,來完成這次的任務!

以下我們以這一個經典兒歌「稻草裡的火雞」影片做為這次的練習,您可以自行將此影片下載。



一、使用 WhisperDesktop 或是剪映取得歌曲影片的歌詞字幕檔

WhisperDesktop 與剪映都具有語音轉文字的功能,我們可以利用它快取得取影片中的歌詞字幕檔,實測後發現 WhisperDesktop 對於用唱的不是用講話的方式,辨識度上真的差蠻多的,而且還出現不少簡體字!

目前推斷可能因為是童歌的關係,導致 WhisperDesktop  成效不好,但之前有試過其他國語歌曲,準確度就很高。



而剪映在「智能字幕」的語音辨識上比 WhisperDesktop 更慘,但是剪映獨有的「識別歌詞」功能就派上用場,改用之後就得到準確度非常高的歌詞字幕了!





經過修正歌詞的部份不正確內容,並轉換為繁體中文後,就可以準備進行下一個階段了!

※ 一般來說歌詞通常不會太長,也可以考慮自行上網找到該首歌曲的歌詞後,再自行透過後續的字幕編輯步驟,自行在相對應的位置加入。



二、使用 Aegisub 製作 KTV 影片字幕效果

Aegisub 是免費開源的字幕編輯軟體,可以從官方下載安裝版,也可以從阿榮福利味下載免安裝中文版。



1.開啟字幕檔與視訊檔案

使用 Aegisub 開啟字幕檔案與視訊檔,在開啟視訊檔的部份速度真的蠻慢的,看起來像當機一樣,請多點耐心,給他一點時間。





2.切換卡拉OK模式,開始切割與對齊每個歌詞字幕

進入卡拉OK模式後,使用滑鼠在兩個字中間點一下,就會如下圖將每個字做切割。



移動滑鼠到上方的音樂音軌,按右鍵聽看看歌聲是否與字幕的內容吻合,若有時間落差,滑鼠移動到虛線上拖曳調整該字幕顯示的範圍,調整完成後按下左下角或中間的綠色勾勾。

※ 中間的綠色勾勾按下後,會自動播放下一句字幕,對於已經熟悉字幕的編輯,想要加快速度,建議可以按這裏。



調整過程中,可以透過「水準縮放」,把檢視的範圍拉大,方便每個字幕的調整。

(「水準縮放」快速鍵:Ctrl + 滑鼠滾輪、「水平捲動」快速鍵:Alt + 滑鼠滾輪)



另一個字幕的調整小技巧是,可以觀察聲音的波型,每一個聲音就是一個高的波,如果有包含兩個以上,就表示這個範圍有唱出兩個字,需要調整。





3.編輯卡拉OK字幕樣式

預設的卡拉OK字幕樣式如果不滿意,可以選按「字幕 / 樣式管理器」,





目前設定的字幕樣式如下,將「陰影」關閉設為 0。



4.更多更專業的卡拉OK字幕範本

使用「aegisub karaoke effect download」關鍵字 Google 一下,就能找到更多專業的字幕範本喔!



三、使用 MyEdit 去除人聲的伴奏 mp3

使用前需要先將影片的聲音取出,可以使用以下的線上音頻轉換器將 MP4 轉換為 MP3

※ Moises https://moises.ai/ 支援 mp4 影片上傳直接擷取音軌,不需要先轉換為 mp3



接下來就可以使用 MyEdit 去人聲的服務,變成伴奏音樂。



四、將自製新的影片與僅有伴奏的音樂檔案合併成新的卡拉OK音樂影片

利用 Vrew 或是剪映等軟體,將新的影片與僅有伴奏的音樂檔案合併成新的卡拉OK音樂影片。

以下這段影片是利用 Vrew 的「透過文字製作影片」功能所自動產生的影片,再透過「插入 / 背景音樂」加入伴奏音樂。



五、使用 ArcTime Pro 合併影片與卡拉OK字幕

ArcTime Pro 免費版即可使用非常多的字幕編輯功能,且它也是少數能使用 Aegisub ASS 字幕格式的軟體。



1.下載軟體



解壓縮後執行 Arctime Pro.exe



2.載入影片與字幕檔案





如果覺得預設字幕的大小、位置…等不符合需求,可以進入字幕樣式編輯修正。





3.匯出影片





以下是新的卡拉OK版「稻草裏的火雞」前半段影片:


※ 20230710 補充:

最近看到「免費資源網路社群」介紹的「Kapwing 幫影片自動加上字幕!上傳影片 AI 辨識產生動態字幕」,除了是用 AI 方式進行語音辨識外,Kapwing 可以套用動態字幕,配合目前影片的聲音來標記出字句位置,類似於 KTV 影片字幕的效果,但似乎有些可以逐字出現,有些則會是兩個字,無法全部都是相同的效果(如果強迫將每個字用一個空格隔開,就可以達到逐字的效果)。





Kapwing 是一個影片剪輯的雲端服務,就像威力導演、剪映的線上版,想要免費使用它的服務,影片必須在 4 分鐘以內,且下載的影片會加上 Kapwing 浮水印的 720P 解析度。





※ 教學資料總整理:


※ Youtube 直播與研習記錄:



※ 延伸閱讀:



留言