YouTube AI 上字幕教學|如何使用免費自動字幕 (逐字稿) 生成軟體 WhisperDesktop|OpenAI Whisper 教學
以往幫 YouTube 影片上字幕真的是痛苦又漫長的工作。
在這篇文章我會一步步教你如何使用免費的自動字幕 / 逐字稿生成軟體「WhisperDesktop」,讓你可以高效地用 AI 上 YouTube 字幕。
如果你正在煩惱製作字幕費時費力,或曾經因為製作字幕花費太多時間、放棄幫你的影片製作字幕。
不用擔心,看完教學之後,你就可以「一鍵輸出」所有影片的完整字幕了!
如果你偏好用影片學習,歡迎觀看下方 YouTube 影片。
如果你喜歡透過圖文學習,請繼續往下閱讀吧 !
圖文版會比較詳細、方便快速瀏覽,還會持續更新與補充內容。
使用 Whisper AI 上字幕
Whisper 是什麼?
Whisper 是 OpenAI 發布的一項開源的自動語音辨識 (ASR) 系統。
備註:自動語音辨識系統是什麼?
自動語音辨識系統(ASR)是一種技術,能將語音訊號轉換為文字,具廣泛應用,如語音助理、語音命令、語音轉錄等領域。
在 OpenAI 的官方數據中,他們讓 Whisper 經過了 68 萬小時的的嚴格訓練,不只從網路蒐集多國語言的語音翻譯,也提高了各國語言的口音辨識功能,和執行處理背景噪音、處理較差的音頻 … 等等任務。
而這 68 萬小時的訓練中,有 11.7 萬小時用於英語以外的 96 種語言的辨識、有 12.5 小時用於轉錄、翻譯這 96 種語言的數據。
所以 Whisper 除了有近乎人類水平的英語辨識、翻譯功能,還擁有這 96 種語言的辨識模型。
其中,就包括了我們需要的中文辨識功能!
因為 Whisper 是一項開源技術,我們只要下載到電腦後,就可以不受開方商限制地使用 Whisper 語音辨識,也不用再擔心這個技術會因為公司倒閉、伺服器當機而無法使用,可以免費、自由地在自己的電腦利用 Whisper 來執行語音辨識、翻譯。
備註:什麼是開源技術?
開源技術指的是公開共享並可自由存取、修改和分發的軟體或技術,促進協作、創新和知識分享,通常使用開放源碼授權,如 GNU 通用公共許可證(GPL)或 MIT 許可證。
經過我們諾特斯團隊的實驗和測試 (測試時間為 2023 年 7 月),Whisper 中文語音的辨識、翻譯正確率是所有工具中最高的,目前團隊的字幕都已經使用 Whisper 來做 AI 語音轉錄,真的非常方便!
備註:
為了方便,Whisper 這個 AI 自動語音辨識系統,我有時會直接簡稱 Whisper AI。
WhisperDesktop 軟體是什麼?
只要搜尋「Whisper」就可以看到許多人的介紹影片,我們團隊研究過 The walking fish 步行魚、零度解說、程式猿 ……等等介紹 Whisper 的頻道。
比較了現有的翻譯工具後,發現有高手利用 Whisper 研發出方便、不用輸入程式碼、可離線轉譯語音的工具:WhisperDesktop。
WhisperDesktop 是利用 Whisper 開源項目研發的工具,下載後就能用滑鼠點擊的方式,使用 AI 技術幫我們辨識語音轉錄、製作 CC 字幕,同時也擁有多國語言可以選擇,真的非常方便!
但要注意的是,WhisperDesktop 目前只支援 Windows 8.1 以上 64 位元版本的系統,如果是 Mac 系統的觀眾可以在下方留言區告訴我,之後有機會我會再做影片跟大家分享。
我們只要下載 WhisperDesktop、和它專用的 ggml 語言模組就可以馬上使用,你可以跟著圖文教學一起點擊連結下載、一起操作!
實際操作 WhisperDesktop
下載 WhisperDesktop
首先我們要下載 WhisperDesktop,你可以點進 WhisperDesktop 的 GitHub 連結下載主程式。
右下角的「Releases」欄位,可以看到目前最新的版本。
像我們錄製的時候,最新的版本就是 1.11,選最新的版本就對了。
然後找到「WhisperDesktop.zip」,點擊它就可以下載壓縮檔了。
下載完畢直接解壓縮。
我們可以看到這裡共有三個檔案,有太陽花圖案的應用程式,就是 WhisperDesktop 主程式,可以直接點開它。
如果跳出 Windows 的提醒視窗,可以點擊「其他資訊」後,按「仍要執行」。
下載 ggml 語言模組
接下來我們要選擇語言模組的路徑,可以點進 WhisperDesktop 的 ggml 語言模組連結下載。
我們可以看到這裡有很多語言模型,大致分成 tiny、base、small、medium 和 large 五種可以選擇,那我們應該選哪一種語言模型呢?
其實製作 WhisperDesktop 的大神有給我們建議。
在 WhisperDesktop 的 GitHub 下載頁面下方,作者有提到他是用「ggml-medium.bin」這個模型製作、測試 WhisperDesktop,準確率會比較高,因此我們我們選擇它。
回到語言模組的下載頁面,我們找到 ggml-medium.bin,然後點旁邊的「下載圖標」。
等下載完語言模型,我們把 ggml-medium.bin 的檔案和 WhisperDesktop 程式放在一起。
WhisperDesktop 轉錄
開啟 WhisperDesktop 程式,點開 Model Path (模型路徑) 旁的「點點圖標」。
選擇剛剛下載的語言模型。
Model Implementation (模型執行) 選項,我們保持預設、使用「GPU」來執行,接著按「OK」。
等 WhisperDesktop 安裝完模型,我們就可以開始轉錄語音檔案了。
Language (語言) 的欄位,我們要點開找到「Chinese」(中文)。
Transcribe File (轉錄文件) 可以選擇要轉錄的語音。
這裡就先使用頻道過去的影片「Bluehost 優惠:省錢小秘訣|如何用最便宜的價格購買 Bluehost 主機的不同方案」來做測試。
Output Format (輸出格式) 點開來,我們可以看到這裡提供四個選項,你可以根據自己的需求選擇。
- 如果需要影片的「逐字稿」,我們可以選擇「Text file」純文字檔案。
- 如果需要影片的「CC 字幕」,我們可以選擇「Subrip subtitles」SRT 檔案。
那因為這部影片我們要示範如何快速製作影片字幕,所以我們選擇 SRT 檔。
下面這一條可以選擇輸出的路徑,這裡有兩種方法可以選擇:
- 方法 1:打勾,輸出在與影片相同的資料夾。
- 方法 2:點「…」,自訂想輸出的資料夾。
通常我會設在與影片相同的位置,所以選擇方法 1 打勾,接著按「Transcribe」開始轉錄。
在轉錄的時候,我們有 2 種方法可以掌握進度:
- 方法 1:綠色進度條。
- 方法 2:「Debug Console」(除錯控制台) 打勾,觀察程式的運作進度。
如果看到控制台視窗內的文字怪怪的不用擔心,這只是顯示問題,轉譯後不會有奇怪的符號。
轉錄需要多久?
這會根據我們選擇的影片長度、電腦性能有所不同,以我們測試影片「Bluehost 優惠:省錢小秘訣」為例:
- 影片類型:MP4。
- 影片長度:14 分 12 秒。
- 使用裝置:筆記型電腦 (Intel Core i7-7700HQ)。
- 顯示卡:NVIDIA GeForce GTX 1050。
因為 Model Implementation (模型執行) 我們選擇 GPU 轉錄,意思就是「我們電腦顯示卡越好、WhisperDesktop 轉錄所花費的時間就越少」!
因此長度約 14 分鐘的影片,我們共花費 6 分 40 秒完成!
通常我會在休息時間、吃飯時間進行字幕的轉錄,只要一鍵就能放著讓 AI 幫我們製作 CC 字幕了!
轉錄後的成品
我們在成品點「右鍵」,再點「開啟檔案」、「選擇其他應用程式」。
選擇用「筆記本」開啟。
再記得把「一律使用此應用程式」打勾,然後按「確定」,這樣我們就可以用記事本的方式來瀏覽了!
備註:
如果沒有看到筆記本的選項,可以點「更多應用程式」來找到它。
點開可以看到,目前的翻譯非常精準:
Whisper 能夠辨認出英文名詞,幫我們補上空格間距,大小寫也正確。
也能辨識出停頓的語氣,替我們補上合適的標點符號,可以說是非常貼心!
不過有一些字會因為「語音清晰度」辨識不出來,像「租用時長」就寫錯了,寫成「住用時長」,我們可以直接在記事本修改錯字。
順順地往下檢查,確定都沒有問題後,就能按「Ctrl+S」儲存這個 SRT 檔案。
這樣就能把這份 SRT 檔上傳到 YouTube 後臺,變成 CC 字幕了喔!
現在,我們介紹完語音轉 CC 字幕的做法了,很厲害吧!14 分鐘的影片只需要 6 分半就完成了中文的 CC 字幕,準確率還非常高!
我們只要再檢查一下有沒有錯字,修改完就能上傳使用了。
接下來我會快速和你分享「諾特斯頻道」的獨門祕訣,看看我們團隊的字幕是如何製作的!
諾特斯團隊字幕製程
ARCTIME PRO:CC 字幕
首先,我們要依照自己的頻道需求來編輯 CC 字幕。
我們要使用一個叫「ARCTIME」的軟體,你可以點擊連結前往下載。
開啟 ARCTIME,把剛剛轉錄的影片「Bluehost 優惠:省錢小秘訣」丟進來。
接著要匯入轉錄完的 SRT 檔案。
我們按「檔案」的「匯入 SRT 字幕」,選取剛剛轉錄的 SRT 檔。
之後按「繼續」再按「確定」。
這樣時間軸上就會出現 Whisper AI 幫我們抓的時間點了!
我們可以直接在時間軸上,依照自己頻道的需求來編輯字幕。
像是你覺得太長的句子,可以用「切割工具」就把它分成兩句話。
或是你覺得字幕太快出現,可以用拖曳的方式來調整範圍。
如果有錯字,我們也可以點兩下來編輯、修改。
在 ARCTIME 可以完全依照你的影片需求編輯 CC 字幕。
修改好之後,我們按「匯出」的「字幕檔案」。
- 字幕格式,選擇 CC 字幕所使用的「SRT」。
- fps (幀數),依照你的影片幀數來選擇。像我們頻道的幀數就是 1 秒 29.97 fps。
修改好之後按「匯出」。
備註:什麼是幀數?
幀數是指在影片或動畫中,每秒顯示的靜止影像幀數量,以 “fps”(每秒幀數)為單位。
高幀數可提供更平滑的運動,會影響視覺品質和動畫流暢度。
這樣我們就做好符合我們頻道需求的 CC 字幕囉!
等影片上傳到 YouTube 頻道後,就可以在後台上傳這份 SRT 檔了!
Adobe Premiere Pro:在影片上壓一層字幕
那如果想在影片上壓一層字幕,該怎麼製作呢?
我們在 ARCTIME 點「匯出」。
這裡有列出 ARCTIME 支援的所有軟體,我就先示範「到 Premiere PRO」的選項,如果你的影片是用其他軟體編輯,記得一律都選「XML + PNG 序列」這個選項。
我們要先設定左下角的「XML 輸出設定」。
- 「幀數」改成你影片使用的幀數。
- 「應用軟體」點開,改成「Premiere」(或你使用的影片編輯軟體)。
之後換設定右邊的「樣式設定」。
我們可以修改字體,像我的頻道都是使用免費的開源字體「Noto Sans TC」,你可以點擊連結,進入 Google Fonts 下載、一起使用。
字體右側可以修改字體的大小、粗度等自訂選項。
下面的選項,你都可以一邊看著上面的即時預覽畫面,一邊調整成自己喜歡的樣式。
最後記得:要把修改後的數值記錄起來,以免下次忘記。
都修改好之後,我們按「匯出」。
我會建議把檔案和影片放在相同位置,比較好找到檔案。
所以我們新增一個資料夾叫「字幕」。
等進度調跑完,我們可以看到資料夾內已經存放很多透明格式的 PNG 了。
之後開啟影片編輯軟體 Premiere,新增一個「字幕」的資料夾。
我們把剛剛輸出的 XML 拖曳到資料夾內。
可以看到全部的透明 PNG 都匯入編輯軟體了!
之後把「XML 序列」拖到影片的時間軸上方,這樣我們就可以看到影片上壓了一層字幕了!
點 2 下進入序列,可以看見這是由剛剛輸出的 PNG 檔組成,就是我們在 ARCTIME 修改好的字幕!
這樣我們就能直接輸出含有字幕的影片,上傳到各個平臺啦!
怎麼樣,很簡單吧?
- 如果你喜歡「CC 字幕」,可以使用 Whisper AI 幫你轉錄影片,再到 ARCTIME 修改錯字。
- 如果你喜歡「在影片上壓上一層字幕」,我們就能再利用 ARCTIME 多輸出一個 XML + PNG 序列。
你想怎麼製作字幕都可以,希望這 2 種製作方法可以幫助到你的影片!
和過去上字幕的方法比較
在 Whisper AI 開源前,諾特斯團隊在字幕的製作上真的花了很多時間!
因為我們影片都是「教學」或「觀念」的分享,希望能用「正確的詞彙」協助觀眾理解內容。
但一個字一個字輸入、編輯、修改,每支影片都要花費 2~4 小時的校對與除錯,真的是讓團隊校對到懷疑人生!
我們研究過剪映、雅婷逐字稿、訊飛聽見 … 等等轉錄工具,直到使用今年讓大家免費使用的 Whisper AI,才終於解決長久以來在「字幕」上的痛點。
Whisper AI 轉錄的中文正確率高達 85% 以上。
我們只要用 ARCTIME 再將冗長的句子分段,就可以變成我們頻道需求的字幕!
從 2~4 小時的製程縮短成 30 分鐘內完成,Whisper AI 無疑是 自媒體創業者最好的工具 之一,連我們團隊使用了 3 個月,到現在還是非常感動呢!
希望這樣的工具可以幫助到你快速製作字幕!
資訊勘誤
原本在實驗時,我們團隊以為轉錄越多次,AI 會記憶與學習,輸出的錯字會越來越少。
實驗中顯示,後面的轉錄錯字確實較少,但這可能只是機率問題。
Whisper 模型是在大量語音資料上訓練而成的,這使它能夠處理各種口音、背景雜音和專業術語。
但這些能力都是「在訓練階段」習得的,而非在執行「轉錄的過程」學習的。
參考資料
- OpenAI Introducing Whisper
- OpenAI 免費開源語音辨識系統 Whisper 原理
- WhisperDesktop AI 影片字幕實測比較
- WhisperDesktop 免安裝版|步行魚
- 文字轉語音、音頻轉文字軟體|零度解說
- OpenAI Whisper API|程式猿
- 如何在 Windows 上使用 Whisper|步行魚
製作團隊
撰稿、文字編輯、圖片編輯:蚊子
總編輯、發佈:諾特斯