/ 目錄 / 演練場 / video-podcast-maker
● 社群 Agents365-ai 🔑 需要你的金鑰

video-podcast-maker

作者 Agents365-ai · Agents365-ai/video-podcast-maker

從想法到 Bilibili / YouTube Podcast 影片一氣呵成 — 腳本撰寫、多聲道 TTS、自動組合、多語言支援。

video-podcast-maker 是一個 Claude Code 技能,接受主題或文章並產出影片 Podcast 素材:雙主持人腳本、透過 6 種引擎(Edge / Azure / OpenAI 等)的多聲道 TTS 渲染、B-roll 風格視覺效果,以及適合 Bilibili/YouTube 的影片。原生支援 zh-CN 與 en-US 雙語。

為什麼要用

核心特性

即時演示

實際使用效果

就緒

安裝

選擇你的客戶端

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

開啟 Claude Desktop → Settings → Developer → Edit Config。儲存後重啟應用。

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cursor 使用與 Claude Desktop 相同的 mcpServers 格式。專案級設定優先於全域。

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

點擊 Cline 側欄中的 MCP Servers 圖示,然後選 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

格式與 Claude Desktop 相同。重啟 Windsurf 生效。

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "video-podcast-maker-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ]
    }
  ]
}

Continue 使用伺服器物件陣列,而非映射。

~/.config/zed/settings.json
{
  "context_servers": {
    "video-podcast-maker-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Agents365-ai/video-podcast-maker",
          "~/.claude/skills/video-podcast-maker"
        ]
      }
    }
  }
}

加入 context_servers。Zed 儲存後熱重載。

claude mcp add video-podcast-maker-skill -- git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker

一行命令搞定。用 claude mcp list 驗證,claude mcp remove 移除。

使用場景

實戰用法: video-podcast-maker

將部落格文章轉換為 Podcast 風格影片

👤 重新利用書面作品的內容創作者 ⏱ ~60 min intermediate

何時使用: 您有一篇長文,想要製作 10 分鐘影片推送到 YouTube/B站。

前置條件
  • 已安裝技能 — git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker
  • TTS 引擎憑證 — 設定所選引擎的環境變數(例如 AZURE_TTS_KEY)
步驟
  1. 生成腳本
    Use video-podcast-maker. From post.md, write a two-host script (10 min) in en-US. Hosts: Alice (analytical), Bob (curious).✓ 已複製
    → 包含 Alice/Bob 輪流對話的腳本
  2. 渲染聲音
    Render with Azure TTS — Alice: en-US-JennyNeural, Bob: en-US-GuyNeural.✓ 已複製
    → 兩段 MP3 音軌;對齊元數據
  3. 組合影片
    Assemble video: title card, b-roll keywords from script, host avatars, captions.✓ 已複製
    → MP4 完成,1920×1080
  4. 上傳
    Push to YouTube as unlisted with description + tags from the script.✓ 已複製
    → YouTube 網址

結果: 在一小時內將單篇長文轉為精緻的 Podcast 影片。

注意事項
  • TTS 對技術術語的發音不準確 — 在腳本中預先標記難讀詞彙的發音提示;大多數引擎均支援
搭配使用: humanizer-skill

以固定主持人運行某主題的每週 Podcast

👤 有固定發布節奏的利基主題創作者 ⏱ ~45 min advanced

何時使用: 您想要每週五自動發布 AI/Web3/其他主題的 Podcast。

步驟
  1. 定義人物設定
    Set host personas: Alice (skeptic), Bob (enthusiast). Save as default.✓ 已複製
    → 人物設定檔案已儲存
  2. 抓取每週新聞
    Use video-podcast-maker. Pull this week's top 5 stories on <topic> from RSS feeds. Generate the script.✓ 已複製
    → 包含 5 個段落的腳本
  3. 渲染並發布
    Render and publish to YouTube + Bilibili at Friday 9am.✓ 已複製
    → 兩個平台均有該集內容

結果: 穩定的每週內容;每集的製作工作幾乎為零。

注意事項
  • 幾集後 AI 聲音聽起來千篇一律 — 輪換人物設定;更換引擎;加入真實的片頭音效
搭配使用: duckduckgo-mcp

將英語 Podcast 本地化為中文(或反向)

👤 服務跨語言受眾的創作者 ⏱ ~50 min intermediate

何時使用: 您有英語 Podcast,想要製作適合 B站 的中文版本並配上母語聲音。

步驟
  1. 翻譯腳本
    Use video-podcast-maker. Translate script from en-US to zh-CN preserving the conversational tone.✓ 已複製
    → 保有文化適應性的 zh-CN 腳本,而非逐字翻譯
  2. 以母語聲音渲染
    Render with zh-CN voices (e.g. Azure XiaoxiaoNeural + YunxiNeural).✓ 已複製
    → 母語品質的音頻
  3. 重新組合並上傳至 Bilibili
    Use the same b-roll; new audio; new captions in zh-CN. Upload to B站.✓ 已複製
    → B站 網址

結果: 真實的跨語言版本,而非翻譯錄音帶。

注意事項
  • 直譯會失去慣用語 — 技能已設定為文化適應;笑話和典故請手動審查

組合

與其他 MCP 搭配,撬動十倍槓桿

video-podcast-maker-skill + humanizer-skill

去除生成腳本中的 AI 痕跡

Run humanizer on the script before TTS — sound less generated, more conversational.✓ 已複製
video-podcast-maker-skill + duckduckgo-mcp

為腳本獲取最新新聞

Search latest <topic> stories; feed top 5 into make_script.✓ 已複製

工具

此 MCP 暴露的能力

工具輸入參數何時呼叫成本
make_script source_text, hosts, length_min, language 第 1 步 — 腳本撰寫 LLM tokens
render_tts script, engine, voices 腳本核准後 TTS engine quota / $
assemble_video audio_tracks, b_roll_keywords, theme 最終組合 Local CPU/GPU
publish platform, mp4_path, metadata 推送至 YouTube / Bilibili 0
translate_script script, target_language 本地化步驟 LLM tokens

成本與限制

運行它的成本

API 配額
TTS 引擎有字元數限制;Azure 免費方案約 50 萬字元/月
每次呼叫 Token 數
腳本約 3k–6k 個 token;組合在本地進行
費用
技能免費;按 TTS 引擎 + LLM 付費
提示
草稿使用 Edge TTS(免費);Azure/ElevenLabs 僅用於正式發布

安全

權限、密鑰、影響範圍

最小權限: filesystem-write (output)
憑證儲存: 引擎 API 金鑰透過環境變數;YouTube/Bilibili token 存於密鑰檔案
資料出站: TTS 引擎、LLM 供應商、目標平台
切勿授予: Public OAuth tokens that could post on your channel without confirmation

故障排查

常見錯誤與修復

TTS 截斷長句

大多數引擎限制約 250 字元;技能會自動分割,但請確認長句子

長渲染中音頻漂移

分塊渲染並以 crossfade 拼接 — 超過 5 分鐘時技能預設如此處理

B站 上傳失敗

確認密鑰檔案中的 cookie;B站 有時需要重新登入

字幕不同步

重新執行對齊;部分 TTS 引擎時間戳報告不準確 — 技能有重新同步模式

替代方案

video-podcast-maker 對比其他方案

替代方案何時用它替代權衡
ElevenLabs Studio想要精緻的 SaaS 界面費用較高;聊天中的自動化較少
NotebookLM Audio Overview想從任意來源一次性獲得雙主持人音頻摘要無影片;控制較少;僅限雲端

更多

資源

📖 閱讀 GitHub 上的官方 README

🐙 查看未解決的 issue

🔍 瀏覽全部 400+ MCP 伺服器和 Skills