20 分鐘內完成一支有字幕的 release 說明影片

August 18, 2023 by minw.

3 min read

最近產品迎來幾個重大更新，為了能順利的跟團隊同步資訊，但又不用一直重複說明 ...... 決定面對多數人都不喜歡看文件的事實 🫠 開始將內部的 Release Note 升級成影片形式。

總之來挑戰 20 分鐘以內完成一支有字幕的 Release 說明影片！

首先，用 @screenstudio 錄製跟剪輯操作畫面。

Screen Studio UX 設計極佳，除了錄製之外，剪輯跟特效操作非常容易上手，能讓影片呈現效果精緻之餘、也不用花上太多處理時間。

例如：我很喜歡他的滑鼠追蹤與畫面放大特效，讓影片更有節奏，避免長時間觀看操作影片，因為沒有動態而看到晃神。

完成剪輯輸出後，考量到不同情境的影片觀看體驗，接下來需要透過 Whisper AI 幫影片上字幕。

以下影片相關的操作段落，都可以找到替代的軟體處理，個人習慣透過指令處理，以下會以 @FFmpeg 作為主要示範工具。

在開始辨識之前，影片需要先轉成 mp3 檔，才有辦法透過 Whisper AI 進行辨識，所以先透過 ffmpeg 將影片轉換成 mp3 檔。

ffmpeg

完成轉檔後，可以透過在電腦上執行 Whisper AI 模型，或透過 Open AI 封裝的 Speech to Text API 帶入自己的 token 後，將 mp3 檔案辨識、轉換成 srt 字幕檔格式。

帶給 API 的 prompt 可以帶上像是：轉換成「繁體中文」或描述主題的需求，讓影片字幕不會跑出簡體、辨識也會更精準，減少事後字幕處理時間。

whisper

最後透過 ffmpeg 將字幕壓製進影片之中，並再調整一次影片速度，讓影片節奏更緊湊、縮短影片時間，就完成了一支 Release 介紹影片！

上面的工作流是目前找到最省事的製作流程，如果錄製順利的話，影片輸出後的處理時間不會超過 5 分鐘，但通常免不了重錄個 2-3 次以及剪輯一些冗言贅字。

ffmpeg

最後，附上完整指令檔內容，可以搭配 Raycast 一鍵完成，如果有更速通的處理方式，也歡迎分享給我 🙏