video-podcast-maker (Claude Skill) — Installieren & Live-Demo

Warum nutzen

Hauptfunktionen

Skriptschreiben mit Zwei-Moderatoren-Gesprächsbogen
6 TTS-Engines: Edge / Azure / OpenAI / ElevenLabs / etc. — nach Qualität/Kosten wählen
Mehrsprachig: zh-CN und en-US erstklassig
Auto-Assembly: synchronisiert Sprachspuren mit Visuals + Intro/Outro
Direkte Upload-Helfer für Bilibili / YouTube

Live-Demo

In der Praxis

bereit

Installieren

Wählen Sie Ihren Client

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Öffne Claude Desktop → Settings → Developer → Edit Config. Nach dem Speichern neu starten.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cursor nutzt das gleiche mcpServers-Schema wie Claude Desktop. Projektkonfiguration schlägt die globale.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Klicken Sie auf das MCP-Servers-Symbol in der Cline-Seitenleiste, dann "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Gleiche Struktur wie Claude Desktop. Windsurf neu starten zum Übernehmen.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "video-podcast-maker-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ]
    }
  ]
}

Continue nutzt ein Array von Serverobjekten statt einer Map.

~/.config/zed/settings.json

{
  "context_servers": {
    "video-podcast-maker-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Agents365-ai/video-podcast-maker",
          "~/.claude/skills/video-podcast-maker"
        ]
      }
    }
  }
}

In context_servers hinzufügen. Zed lädt beim Speichern neu.

claude mcp add video-podcast-maker-skill -- git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker

Einzeiler. Prüfen mit claude mcp list. Entfernen mit claude mcp remove.

Anwendungsfälle

Praxisnahe Nutzung: video-podcast-maker

Blog-Post in ein Podcast-ähnliches Video umwandeln

👤 Content Creator, die geschriebene Inhalte wiederverwenden ⏱ ~60 min intermediate

Wann einsetzen: Du hast einen Langform-Post und willst ein 10-minütiges Video für YouTube/B站.

Voraussetzungen

Skill installiert — git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker
TTS-Engine-Credentials — Umgebungsvariable für die gewählte Engine setzen (z.B. AZURE_TTS_KEY)

Ablauf

Skript generieren

Use video-podcast-maker. From post.md, write a two-host script (10 min) in en-US. Hosts: Alice (analytical), Bob (curious).✓ Kopiert

→ Turn-by-turn-Skript mit Alice/Bob-Zeilen
Stimmen rendern

Render with Azure TTS — Alice: en-US-JennyNeural, Bob: en-US-GuyNeural.✓ Kopiert

→ Zwei MP3-Spuren; Ausrichtungsmetadaten
Zusammensetzen

Assemble video: title card, b-roll keywords from script, host avatars, captions.✓ Kopiert

→ MP4 fertig, 1920×1080
Hochladen

Push to YouTube as unlisted with description + tags from the script.✓ Kopiert

→ YouTube URL

Ergebnis: Poliertes Podcast-Video aus einem Langform-Post in unter einer Stunde.

Fallstricke

TTS spricht technische Begriffe falsch aus — Schwierige Wörter im Skript mit phonetischen Hinweisen vormarkieren; von den meisten Engines unterstützt

Kombinieren mit: humanizer-skill

Wöchentlichen Podcast zu einem Thema mit konsistenten Moderatoren betreiben

👤 Nischen-Themen-Creator mit Veröffentlichungsrhythmus ⏱ ~45 min advanced

Wann einsetzen: Du willst einen freitäglichen Wochen-Podcast zu KI/Web3/etc. — automatisiert.

Ablauf

Personas definieren

Set host personas: Alice (skeptic), Bob (enthusiast). Save as default.✓ Kopiert

→ Persona-Datei gespeichert
Wochennachrichten abrufen

Use video-podcast-maker. Pull this week's top 5 stories on <topic> from RSS feeds. Generate the script.✓ Kopiert

→ Skript mit 5 Segmenten
Rendern + veröffentlichen

Render and publish to YouTube + Bilibili at Friday 9am.✓ Kopiert

→ Beide Plattformen haben die Episode

Ergebnis: Konsistenter wöchentlicher Content; nahezu null Aufwand pro Episode.

Fallstricke

KI-Stimmen klingen nach einigen Episoden gleich — Personas rotieren; Engine variieren; echte Intro-Stings hinzufügen

Kombinieren mit: duckduckgo-mcp

Englischen Podcast ins Chinesische lokalisieren (oder umgekehrt)

👤 Creator, die mehrsprachige Zielgruppen bedienen ⏱ ~50 min intermediate

Wann einsetzen: Du hast einen englischen Podcast und willst eine chinesische Version für B站 mit nativen Stimmen.

Ablauf

Skript übersetzen

Use video-podcast-maker. Translate script from en-US to zh-CN preserving the conversational tone.✓ Kopiert

→ zh-CN-Skript mit kultureller Anpassung, nicht wörtlich
Mit nativen Stimmen rendern

Render with zh-CN voices (e.g. Azure XiaoxiaoNeural + YunxiNeural).✓ Kopiert

→ Nativ-klingende Audio
Neu zusammensetzen + auf Bilibili hochladen

Use the same b-roll; new audio; new captions in zh-CN. Upload to B站.✓ Kopiert

→ B站 URL

Ergebnis: Authentische sprachübergreifende Version, kein Übersetzungsband.

Fallstricke

Direkte Übersetzung verliert Redewendungen — Skill ist für kulturelle Anpassung konfiguriert; Witze/Referenzen manuell prüfen

Kombinationen

Mit anderen MCPs für 10-fache Wirkung

video-podcast-maker-skill + humanizer-skill

KI-Spuren aus generierten Skripten entfernen

Run humanizer on the script before TTS — sound less generated, more conversational.✓ Kopiert

video-podcast-maker-skill + duckduckgo-mcp

Aktuelle Nachrichten für das Skript abrufen

Search latest <topic> stories; feed top 5 into make_script.✓ Kopiert

Werkzeuge

Was dieses MCP bereitstellt

Werkzeug	Eingaben	Wann aufrufen	Kosten
make_script	source_text, hosts, length_min, language	Schritt 1 — Skriptschreiben	LLM tokens
render_tts	script, engine, voices	Nach Skript-Genehmigung	TTS engine quota / $
assemble_video	audio_tracks, b_roll_keywords, theme	Finale Assembly	Lokale CPU/GPU
publish	platform, mp4_path, metadata	Auf YouTube / Bilibili pushen	0
translate_script	script, target_language	Lokalisierungsschritt	LLM tokens

Kosten & Limits

Was der Betrieb kostet

API-Kontingent: TTS-Engines haben Pro-Zeichen-Limits; Azure Free Tier ~500k Zeichen/Monat
Tokens pro Aufruf: Skript ~3k–6k Tokens; Assembly ist lokal
Kosten in €: Kostenloser Skill; TTS-Engine + LLM bezahlen
Tipp: Edge TTS (kostenlos) für Entwürfe verwenden; Azure/ElevenLabs nur für Produktion

Sicherheit

Rechte, Secrets, Reichweite

Minimale Scopes: filesystem-write (Ausgabe)

Credential-Speicherung: Engine-API-Keys via Umgebungsvariablen; YouTube/Bilibili-Tokens in Secrets-Datei

Datenabfluss: TTS-Engines, LLM-Provider, Zielplattformen

Niemals gewähren: Öffentliche OAuth-Tokens, die ohne Bestätigung auf deinem Kanal posten könnten

Stimm-Kloning-Features (falls aktiviert) werfen Einwilligungsfragen auf — nur mit expliziter Erlaubnis klonen

Fehlerbehebung

Häufige Fehler und Lösungen

TTS schneidet lange Zeilen ab

Die meisten Engines begrenzen Zeilen auf ~250 Zeichen; Skill teilt automatisch aber lange Sätze prüfen

Audio-Drift bei langen Renders

In Chunks rendern, mit Crossfade zusammenführen — Skill macht das standardmäßig für >5 min

B站-Upload schlägt fehl

Cookies in Secrets-Datei prüfen; B站 erfordert manchmal erneutes Login

Untertitel nicht synchron

Ausrichtung neu ausführen; manche TTS-Engines melden Timing ungenau — Skill hat Resync-Modus

Alternativen

video-podcast-maker vs. andere

Alternative	Wann stattdessen	Kompromiss
ElevenLabs Studio	Polierte SaaS-UI gewünscht	Kostet mehr; weniger Chat-Automatisierung
NotebookLM Audio Overview	Einmaliges Zwei-Moderatoren-Audio-Summary aus beliebiger Quelle gewünscht	Kein Video; weniger Kontrolle; nur Cloud

Mehr

Ressourcen

📖 Offizielle README auf GitHub lesen

🐙 Offene Issues ansehen

🔍 Alle 400+ MCP-Server und Skills durchsuchen