video-podcast-maker (Claude Skill) — インストール & ライブデモ

なぜ使うのか

主な機能

二人ホストの会話的アーク付き台本執筆
6 つの TTS エンジン: Edge / Azure / OpenAI / ElevenLabs 等 — 品質とコストで選択
多言語: zh-CN と en-US を第一級サポート
自動アセンブリ: 音声トラックとビジュアル＋イントロ/アウトロを同期
Bilibili / YouTube への直接アップロードヘルパー

ライブデモ

実際の動作

準備完了

インストール

クライアントを選択

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Claude Desktop → Settings → Developer → Edit Config を開く。保存後、アプリを再起動。

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cursor は Claude Desktop と同じ mcpServers スキーマを使用。プロジェクト設定はグローバルより優先。

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cline サイドバーの MCP Servers アイコンをクリックし、"Edit Configuration" を選択。

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Claude Desktop と同じ形式。Windsurf を再起動して反映。

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "video-podcast-maker-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ]
    }
  ]
}

Continue はマップではなくサーバーオブジェクトの配列を使用。

~/.config/zed/settings.json

{
  "context_servers": {
    "video-podcast-maker-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Agents365-ai/video-podcast-maker",
          "~/.claude/skills/video-podcast-maker"
        ]
      }
    }
  }
}

context_servers に追加。保存時に Zed がホットリロード。

claude mcp add video-podcast-maker-skill -- git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker

ワンライナー。claude mcp list で確認、claude mcp remove で削除。

ユースケース

実用的な使い方： video-podcast-maker

ブログ記事をポッドキャスト形式の動画に変換する

👤 書いたコンテンツを再活用するコンテンツクリエイター ⏱ ~60 min intermediate

使うタイミング： 長文の記事があり、YouTube/B站にプッシュする 10 分の動画が欲しい場合。

前提条件

スキルのインストール — git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker
TTS エンジンの認証情報 — 選択したエンジンの env var を設定（例: AZURE_TTS_KEY）

フロー

台本を生成する

Use video-podcast-maker. From post.md, write a two-host script (10 min) in en-US. Hosts: Alice (analytical), Bob (curious).✓ コピーしました

→ Alice/Bob のターンごとの台本
音声をレンダリングする

Render with Azure TTS — Alice: en-US-JennyNeural, Bob: en-US-GuyNeural.✓ コピーしました

→ 2 つの MP3 トラック、アライメントメタデータ
アセンブルする

Assemble video: title card, b-roll keywords from script, host avatars, captions.✓ コピーしました

→ MP4 完成、1920×1080
アップロードする

Push to YouTube as unlisted with description + tags from the script.✓ コピーしました

→ YouTube URL

結果： 1 時間以内に一つの長文記事からポリッシュされたポッドキャスト動画。

注意点

技術用語の TTS 発音がずれる — 台本内の難しい単語に発音ヒントをあらかじめ付けておく。多くのエンジンがサポート

組み合わせ： humanizer-skill

一貫したホストで週次ポッドキャストを運営する

👤 配信スケジュールを持つニッチトピックのクリエイター ⏱ ~45 min advanced

使うタイミング： AI/Web3/その他について毎週金曜に自動化されたポッドキャストをやりたい場合。

フロー

ペルソナを定義する

Set host personas: Alice (skeptic), Bob (enthusiast). Save as default.✓ コピーしました

→ ペルソナファイル保存済み
週次ニュースを取得する

Use video-podcast-maker. Pull this week's top 5 stories on <topic> from RSS feeds. Generate the script.✓ コピーしました

→ 5 セグメントの台本
レンダリングして公開する

Render and publish to YouTube + Bilibili at Friday 9am.✓ コピーしました

→ 両プラットフォームにエピソード

結果： 安定した週次コンテンツ。エピソードあたりのほぼゼロ工数。

注意点

数エピソード後に AI の声が単調になる — ペルソナをローテートし、エンジンを変える。実際のイントロ BGM を加える

組み合わせ： duckduckgo-mcp

英語ポッドキャストを中国語（またはその逆）にローカライズする

👤 多言語ユーザーに対応するクリエイター ⏱ ~50 min intermediate

使うタイミング： 英語ポッドキャストがあり、ネイティブボイスで B站向け中国語バージョンを作りたい場合。

フロー

台本を翻訳する

Use video-podcast-maker. Translate script from en-US to zh-CN preserving the conversational tone.✓ コピーしました

→ 文化的適応を含む zh-CN 台本（直訳ではない）
ネイティブボイスでレンダリングする

Render with zh-CN voices (e.g. Azure XiaoxiaoNeural + YunxiNeural).✓ コピーしました

→ ネイティブクオリティの音声
再アセンブルして Bilibili にアップロードする

Use the same b-roll; new audio; new captions in zh-CN. Upload to B站.✓ コピーしました

→ B站 URL

結果： 翻訳テープではなく本物のクロス言語バージョン。

注意点

直訳でイディオムが失われる — スキルは文化的適応で設定済み。ジョークや参照は手動でレビュー

組み合わせ

他のMCPと組み合わせて10倍の力を

video-podcast-maker-skill + humanizer-skill

生成台本から AI っぽさを取り除く

Run humanizer on the script before TTS — sound less generated, more conversational.✓ コピーしました

video-podcast-maker-skill + duckduckgo-mcp

台本用のフレッシュなニュースを取得する

Search latest <topic> stories; feed top 5 into make_script.✓ コピーしました

ツール

このMCPが提供する機能

ツール	入力	呼び出すタイミング	コスト
make_script	source_text, hosts, length_min, language	ステップ 1 — 台本執筆	LLM tokens
render_tts	script, engine, voices	台本承認後	TTS engine quota / $
assemble_video	audio_tracks, b_roll_keywords, theme	最終アセンブリ	Local CPU/GPU
publish	platform, mp4_path, metadata	YouTube / Bilibili へプッシュ	0
translate_script	script, target_language	ローカリゼーションステップ	LLM tokens

コストと制限

運用コスト

APIクォータ: TTS エンジンには文字数制限あり。Azure 無料枠は約 50 万文字/月
呼び出しあたりのトークン: 台本 ~3k–6k トークン；アセンブリはローカル
金額: スキル無料；TTS エンジン + LLM の従量課金
ヒント: ドラフトには Edge TTS（無料）を使い、本番だけ Azure/ElevenLabs を使う

セキュリティ

権限、シークレット、影響範囲

最小スコープ： filesystem-write (output)

認証情報の保管： エンジン API キーは env vars 経由；YouTube/Bilibili トークンはシークレットファイルに

データ送信先： TTS エンジン、LLM プロバイダー、ターゲットプラットフォーム

絶対に付与しない： Public OAuth tokens that could post on your channel without confirmation

ボイスクローニング機能（有効な場合）には同意の問題がある — 明示的な許可がある場合のみクローン

トラブルシューティング

よくあるエラーと対処法

TTS が長い行を切り捨てる

ほとんどのエンジンは ~250 文字で制限あり。スキルが自動分割するが長い文章を確認すること

長いレンダリングで音声ドリフト

チャンクでレンダリングしクロスフェードで結合 — 5 分超はスキルがデフォルトで処理

B站アップロード失敗

シークレットファイルの cookie を確認；B站は再ログインが必要な場合がある

字幕がずれる

アライメントを再実行；一部の TTS エンジンはタイミング報告が不正確 — スキルに再同期モードあり

代替案

video-podcast-maker 他との比較

代替案	代わりに使う場面	トレードオフ
ElevenLabs Studio	洗練された SaaS UI が欲しい場合	コストが高い；チャット内の自動化が少ない
NotebookLM Audio Overview	任意のソースからワンショットで二人ホストの音声サマリーが欲しい場合	動画なし；制御が少ない；クラウドのみ

その他

リソース

📖 GitHub の公式 README を読む

🐙 オープンな issue を見る

🔍 400以上のMCPサーバーとSkillsを見る