YouTube AI 上字幕教學｜如何使用免費自動字幕 (逐字稿) 生成軟體 WhisperDesktop｜OpenAI Whisper 教學

以往幫 YouTube 影片上字幕真的是痛苦又漫長的工作。

在這篇文章我會一步步教你如何使用免費的自動字幕 / 逐字稿生成軟體「WhisperDesktop」，讓你可以高效地上 YouTube 字幕。

如果你正在煩惱製作字幕費時費力，或曾經因為製作字幕花費太多時間、放棄幫你的影片製作字幕。

不用擔心，看完教學之後，你就可以「一鍵輸出」所有影片的完整字幕了！

如果你偏好用影片學習，歡迎觀看下方 YouTube 影片。

如果你喜歡透過圖文學習，請繼續往下閱讀吧！

圖文版會比較詳細、方便快速瀏覽，還會持續更新與補充內容。

使用 Whisper AI 上字幕

Whisper 是什麼？

Whisper 是 OpenAI 發布的一項開源的自動語音辨識 (ASR) 系統。

備註：自動語音辨識系統是什麼？
自動語音辨識系統（ASR）是一種技術，能將語音訊號轉換為文字，具廣泛應用，如語音助理、語音命令、語音轉錄等領域。

在 OpenAI 的官方數據中，他們讓 Whisper 經過了 68 萬小時的的嚴格訓練，不只從網路蒐集多國語言的語音翻譯，也提高了各國語言的口音辨識功能，和執行處理背景噪音、處理較差的音頻 … 等等任務。

而這 68 萬小時的訓練中，有 11.7 萬小時用於英語以外的 96 種語言的辨識、有 12.5 小時用於轉錄、翻譯這 96 種語言的數據。

所以 Whisper 除了有近乎人類水平的英語辨識、翻譯功能，還擁有這 96 種語言的辨識模型。

其中，就包括了我們需要的中文辨識功能！

因為 Whisper 是一項開源技術，我們只要下載到電腦後，就可以不受開方商限制地使用 Whisper 語音辨識，也不用再擔心這個技術會因為公司倒閉、伺服器當機而無法使用，可以免費、自由地在自己的電腦利用 Whisper 來執行語音辨識、翻譯。

備註：什麼是開源技術？
開源技術指的是公開共享並可自由存取、修改和分發的軟體或技術，促進協作、創新和知識分享，通常使用開放源碼授權，如 GNU 通用公共許可證（GPL）或 MIT 許可證。

經過我們諾特斯團隊的實驗和測試 (測試時間為 2023 年 7 月)，Whisper 中文語音的辨識、翻譯正確率是所有工具中最高的，目前團隊的字幕都已經使用 Whisper 來做 AI 語音轉錄，真的非常方便！

備註：
為了方便，Whisper 這個 AI 自動語音辨識系統，我有時會直接簡稱 Whisper AI。

WhisperDesktop 軟體是什麼？

只要搜尋「Whisper」就可以看到許多人的介紹影片，我們團隊研究過 The walking fish 步行魚、零度解說、程式猿 ……等等介紹 Whisper 的頻道。

比較了現有的翻譯工具後，發現有高手利用 Whisper 研發出方便、不用輸入程式碼、可離線轉譯語音的工具：WhisperDesktop。

WhisperDesktop 是利用 Whisper 開源項目研發的工具，下載後就能用滑鼠點擊的方式，使用 AI 技術幫我們辨識語音轉錄、製作 CC 字幕，同時也擁有多國語言可以選擇，真的非常方便！

但要注意的是，WhisperDesktop 目前只支援 Windows 8.1 以上 64 位元版本的系統，如果是 Mac 系統的觀眾可以在下方留言區告訴我，之後有機會我會再做影片跟大家分享。

我們只要下載 WhisperDesktop、和它專用的 ggml 語言模組就可以馬上使用，你可以跟著圖文教學一起點擊連結下載、一起操作！

實際操作 WhisperDesktop

下載 WhisperDesktop

首先我們要下載 WhisperDesktop，你可以點進 WhisperDesktop 的 GitHub 連結下載主程式。

右下角的「Releases」欄位，可以看到目前最新的版本。
像我們錄製的時候，最新的版本就是 1.11，選最新的版本就對了。

然後找到「WhisperDesktop.zip」，點擊它就可以下載壓縮檔了。

下載完畢直接解壓縮。

我們可以看到這裡共有三個檔案，有太陽花圖案的應用程式，就是 WhisperDesktop 主程式，可以直接點開它。

如果跳出 Windows 的提醒視窗，可以點擊「其他資訊」後，按「仍要執行」。

下載 ggml 語言模組

接下來我們要選擇語言模組的路徑，可以點進 WhisperDesktop 的 ggml 語言模組連結下載。

我們可以看到這裡有很多語言模型，大致分成 tiny、base、small、medium 和 large 五種可以選擇，那我們應該選哪一種語言模型呢？

其實製作 WhisperDesktop 的大神有給我們建議。

在 WhisperDesktop 的 GitHub 下載頁面下方，作者有提到他是用「ggml-medium.bin」這個模型製作、測試 WhisperDesktop，準確率會比較高，因此我們我們選擇它。

回到語言模組的下載頁面，我們找到 ggml-medium.bin，然後點旁邊的「下載圖標」。

等下載完語言模型，我們把 ggml-medium.bin 的檔案和 WhisperDesktop 程式放在一起。

把 ggml medium.bin 語言模型和 WhisperDesktop 主程式放一起

WhisperDesktop 轉錄

開啟 WhisperDesktop 程式，點開 Model Path (模型路徑) 旁的「點點圖標」。

選擇剛剛下載的語言模型。

Model Implementation (模型執行) 選項，我們保持預設、使用「GPU」來執行，接著按「OK」。

等 WhisperDesktop 安裝完模型，我們就可以開始轉錄語音檔案了。

Language (語言) 的欄位，我們要點開找到「Chinese」(中文)。

Transcribe File (轉錄文件) 可以選擇要轉錄的語音。

這裡就先使用頻道過去的影片「Bluehost 優惠：省錢小秘訣｜如何用最便宜的價格購買 Bluehost 主機的不同方案」來做測試。

Output Format (輸出格式) 點開來，我們可以看到這裡提供四個選項，你可以根據自己的需求選擇。

如果需要影片的「逐字稿」，我們可以選擇「Text file」純文字檔案。
如果需要影片的「CC 字幕」，我們可以選擇「Subrip subtitles」SRT 檔案。

那因為這部影片我們要示範如何快速製作影片字幕，所以我們選擇 SRT 檔。

下面這一條可以選擇輸出的路徑，這裡有兩種方法可以選擇：

方法 1：打勾，輸出在與影片相同的資料夾。
方法 2：點「…」，自訂想輸出的資料夾。

通常我會設在與影片相同的位置，所以選擇方法 1 打勾，接著按「Transcribe」開始轉錄。

在轉錄的時候，我們有 2 種方法可以掌握進度：

方法 1：綠色進度條。
方法 2：「Debug Console」(除錯控制台) 打勾，觀察程式的運作進度。

如果看到控制台視窗內的文字怪怪的不用擔心，這只是顯示問題，轉譯後不會有奇怪的符號。

轉錄需要多久？

這會根據我們選擇的影片長度、電腦性能有所不同，以我們測試影片「Bluehost 優惠：省錢小秘訣」為例：

影片類型：MP4。
影片長度：14 分 12 秒。
使用裝置：筆記型電腦 (Intel Core i7-7700HQ)。
顯示卡：NVIDIA GeForce GTX 1050。

因為 Model Implementation (模型執行) 我們選擇 GPU 轉錄，意思就是「我們電腦顯示卡越好、WhisperDesktop 轉錄所花費的時間就越少」！

因此長度約 14 分鐘的影片，我們共花費 6 分 40 秒完成！

通常我會在休息時間、吃飯時間進行字幕的轉錄，只要一鍵就能放著讓 AI 幫我們製作 CC 字幕了！

轉錄後的成品

我們在成品點「右鍵」，再點「開啟檔案」、「選擇其他應用程式」。

選擇用「筆記本」開啟。

再記得把「一律使用此應用程式」打勾，然後按「確定」，這樣我們就可以用記事本的方式來瀏覽了！

備註：
如果沒有看到筆記本的選項，可以點「更多應用程式」來找到它。

點開可以看到，目前的翻譯非常精準：

Whisper 能夠辨認出英文名詞，幫我們補上空格間距，大小寫也正確。

也能辨識出停頓的語氣，替我們補上合適的標點符號，可以說是非常貼心！

不過有一些字會因為「語音清晰度」辨識不出來，像「租用時長」就寫錯了，寫成「住用時長」，我們可以直接在記事本修改錯字。

順順地往下檢查，確定都沒有問題後，就能按「Ctrl+S」儲存這個 SRT 檔案。

這樣就能把這份 SRT 檔上傳到 YouTube 後臺，變成 CC 字幕了喔！

現在，我們介紹完語音轉 CC 字幕的做法了，很厲害吧！14 分鐘的影片只需要 6 分半就完成了中文的 CC 字幕，準確率還非常高！

我們只要再檢查一下有沒有錯字，修改完就能上傳使用了。

接下來我會快速和你分享「諾特斯頻道」的獨門祕訣，看看我們團隊的字幕是如何製作的！

諾特斯團隊字幕製程

ARCTIME PRO：CC 字幕

首先，我們要依照自己的頻道需求來編輯 CC 字幕。

我們要使用一個叫「ARCTIME」的軟體，你可以點擊連結前往下載。

開啟 ARCTIME，把剛剛轉錄的影片「Bluehost 優惠：省錢小秘訣」丟進來。

接著要匯入轉錄完的 SRT 檔案。

我們按「檔案」的「匯入 SRT 字幕」，選取剛剛轉錄的 SRT 檔。

之後按「繼續」再按「確定」。

這樣時間軸上就會出現 Whisper AI 幫我們抓的時間點了！

我們可以直接在時間軸上，依照自己頻道的需求來編輯字幕。

像是你覺得太長的句子，可以用「切割工具」就把它分成兩句話。

或是你覺得字幕太快出現，可以用拖曳的方式來調整範圍。

如果有錯字，我們也可以點兩下來編輯、修改。

在 ARCTIME 可以完全依照你的影片需求編輯 CC 字幕。

修改好之後，我們按「匯出」的「字幕檔案」。

字幕格式，選擇 CC 字幕所使用的「SRT」。
fps (幀數)，依照你的影片幀數來選擇。像我們頻道的幀數就是 1 秒 29.97 fps。

修改好之後按「匯出」。

備註：什麼是幀數？
幀數是指在影片或動畫中，每秒顯示的靜止影像幀數量，以 “fps”（每秒幀數）為單位。
高幀數可提供更平滑的運動，會影響視覺品質和動畫流暢度。

這樣我們就做好符合我們頻道需求的 CC 字幕囉！
等影片上傳到 YouTube 頻道後，就可以在後台上傳這份 SRT 檔了！

Adobe Premiere Pro：在影片上壓一層字幕

那如果想在影片上壓一層字幕，該怎麼製作呢？

我們在 ARCTIME 點「匯出」。

這裡有列出 ARCTIME 支援的所有軟體，我就先示範「到 Premiere PRO」的選項，如果你的影片是用其他軟體編輯，記得一律都選「XML + PNG 序列」這個選項。

我們要先設定左下角的「XML 輸出設定」。

「幀數」改成你影片使用的幀數。
「應用軟體」點開，改成「Premiere」(或你使用的影片編輯軟體)。

之後換設定右邊的「樣式設定」。

我們可以修改字體，像我的頻道都是使用免費的開源字體「Noto Sans TC」，你可以點擊連結，進入 Google Fonts 下載、一起使用。

字體右側可以修改字體的大小、粗度等自訂選項。

下面的選項，你都可以一邊看著上面的即時預覽畫面，一邊調整成自己喜歡的樣式。

最後記得：要把修改後的數值記錄起來，以免下次忘記。

都修改好之後，我們按「匯出」。

我會建議把檔案和影片放在相同位置，比較好找到檔案。
所以我們新增一個資料夾叫「字幕」。

等進度調跑完，我們可以看到資料夾內已經存放很多透明格式的 PNG 了。

之後開啟影片編輯軟體 Premiere，新增一個「字幕」的資料夾。

我們把剛剛輸出的 XML 拖曳到資料夾內。

可以看到全部的透明 PNG 都匯入編輯軟體了！

之後把「XML 序列」拖到影片的時間軸上方，這樣我們就可以看到影片上壓了一層字幕了！

點 2 下進入序列，可以看見這是由剛剛輸出的 PNG 檔組成，就是我們在 ARCTIME 修改好的字幕！

這樣我們就能直接輸出含有字幕的影片，上傳到各個平臺啦！

怎麼樣，很簡單吧？

如果你喜歡「CC 字幕」，可以使用 Whisper AI 幫你轉錄影片，再到 ARCTIME 修改錯字。
如果你喜歡「在影片上壓上一層字幕」，我們就能再利用 ARCTIME 多輸出一個 XML + PNG 序列。

你想怎麼製作字幕都可以，希望這 2 種製作方法可以幫助到你的影片！

和過去上字幕的方法比較

在 Whisper AI 開源前，諾特斯團隊在字幕的製作上真的花了很多時間！

因為我們影片都是「教學」或「觀念」的分享，希望能用「正確的詞彙」協助觀眾理解內容。

但一個字一個字輸入、編輯、修改，每支影片都要花費 2~4 小時的校對與除錯，真的是讓團隊校對到懷疑人生！

我們研究過剪映、雅婷逐字稿、訊飛聽見 … 等等轉錄工具，直到使用今年讓大家免費使用的 Whisper AI，才終於解決長久以來在「字幕」上的痛點。

Whisper AI 轉錄的中文正確率高達 85% 以上，轉錄越多次、AI 還會記憶學習。

像這次教學的實測共輸出了 3 次 SRT 檔，精準度從肉眼可見的錯字、到最後變成近乎完美的文本！

我們只要用 ARCTIME 再將冗長的句子分段，就可以變成我們頻道需求的字幕！

從 2~4 小時的製程縮短成 30 分鐘內完成，Whisper AI 無疑是自媒體創業者最好的工具之一，連我們團隊使用了 3 個月，到現在還是非常感動呢！

希望這樣的工具可以幫助到你快速製作字幕！

參考資料

製作團隊
撰稿、圖片編輯：蚊子
總編輯、發佈：諾特斯