Google 文件與 SpeechNotes 線上語音辨識也能協助產生演講影音字幕、會議記錄的文字建檔工作,省時又省力!


在之前彰化縣政府舉辦的「105年資訊課程「Google 郵件、雲端硬碟雙劍合壁,雲端工作超EASY」研習中,介紹到「Google 文件與 SpeechNotes 語音輸入」的應用時,有同仁提出,這樣的語音辨識是否能用在「會議記錄」上,讓這種繁重又枯燥的工作,可以比較輕鬆完成!

※延伸閱讀:
當時的直覺反應是,這樣恐怕有困難,因為會議記錄上每個人的音量大小不一,說話速度也不一致,語音辨識的效果應該不會很好!

最近在協助 1Know 錄製教學影片時,因考量到影片要上傳至 Youtube 頻道,字幕檔需獨立製作,方便日後轉換為不同國家語言或更正字幕內容,因此,就嚐試將麥克風對準喇叭,開始播放自己錄製好的影片,讓 Google 文件與 SpeechNotes 語音輸入服務協助進行語音辨識,自動產生文字字幕內容!



由於 Google 文件與 SpeechNotes 語音輸入服務對於一般口語化的辨識度相當高,因此,雖然辨識過程中一定會有部份內容需要再做修正,但是節省了至少 70%~90% (因為不同的內容,其辨識的正確率會有差異)的文字輸入工作,對於打字輸入不是非常快的人而言,幫助是相當大的!

那麼,是 Google 文件的語音辨識厲害,還是 SpeechNotes 語音輸入辨識比較方便呢?
以下簡單整理幾個比較項目指標,供大家參考:

Google 文件語音辨識
SpeechNotes 語音辨識
是否需要指定辨識語言?
✔(不用)
✖(需要)
是否可以輸入標點符號?
✔(全型)
✔(半型)
語音辨識正確率?
語音連續辨識?


會有「語音連續辨識?」這個指標,是因為「Google 文件語音辨識」會自動判斷語音是否還在播放,若發現已經沒有任何語音輸入或是音量過小時,就會自動停止,但是「SpeechNotes 語音辨識」則完全有使用者自行決定何時開始、何時結束!

在一般狀態下,可能 Google 的自動判斷會勝出,但是以演講影音或是會議錄音的需求來說,反而容易因為過程中的一小段時間音量過小,而造成語音辨識的中斷!

以下,是「Google 文件與 SpeechNotes 語音輸入」實際進行語音辨識的影片!

※其實每次進行語音辨識的結果都不會完全相同,如果覺得辨識的效果不好時,可以嚐試再辨識第二次、第三次,您可能會發現,正確率會愈來愈高喔!

※若是講者的說話速度太快,可以利用播放軟體或是線上影音的「播放速度」,將速度變慢後,也可以提高辨識率!

※一開始辨識,剛看到即時出現的翻譯結果時,請先不要暈倒,急著停止,因為即時顯示的文字,有可能「差很大」,「Google 文件與 SpeechNotes 語音輸入」在一個文字段落時,會自動再進行「整句語意」的調整,通常這樣的正確率會提高不少!

※每次語音辨識的長度,建議以 10~60 秒內較佳,因為「Google 文件與 SpeechNotes 語音輸入」在辨識完每個句子段落後,其實都還會再進行一次「整句語意」判讀,以提高正確率,如果語音辨識長度太長時,有可能為了系統更即時顯示文字內容,後面的「整句語意」的動作就會省略,反而降低了辨識正確率!

Google 語音辨識 1Know 教學影片實際操作 HD:





SpeechNotes 語音辨識 1Know 教學影片實際操作 HD:




※後記:

在這次協助 1Know 進行影片教材的錄製中,主要使用「ActivePresenter」做為主要的螢幕錄影的工具,利用它方便的錄影與類似 PowerPoint 簡報介面,進行初步的影片剪輯與重複錄製影片、修正錄音內容…等工作。



※延伸閱讀:

在字幕的處理上,取得辨識完成的文字檔後,以「威力導演」標準版的「字幕工房」,將字幕逐句加入影片適當時間位置後,就能輸出標準的「SRT 字串檔案」,在 Youtube 頻道中直接匯入。



※延伸閱讀:

留言