/ Verzeichnis / Playground / video-podcast-maker
● Community Agents365-ai 🔑 Eigener Schlüssel nötig

video-podcast-maker

von Agents365-ai · Agents365-ai/video-podcast-maker

Von der Idee zum Bilibili / YouTube Podcast-Video in einem Flow — Skriptschreiben, Multi-Voice-TTS, automatische Assembly, mehrsprachig.

video-podcast-maker ist ein Claude Code Skill, der ein Thema oder einen Artikel nimmt und einen Video-Podcast-Asset produziert: ein Zwei-Moderatoren-Skript, Multi-Voice-TTS-Rendering via 6 Engines (Edge / Azure / OpenAI / etc.), B-Roll-artige Visuals und ein Bilibili/YouTube-fertiges Video. Mehrsprachige Unterstützung für zh-CN und en-US out of the box.

Warum nutzen

Hauptfunktionen

Live-Demo

In der Praxis

bereit

Installieren

Wählen Sie Ihren Client

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Öffne Claude Desktop → Settings → Developer → Edit Config. Nach dem Speichern neu starten.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cursor nutzt das gleiche mcpServers-Schema wie Claude Desktop. Projektkonfiguration schlägt die globale.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Klicken Sie auf das MCP-Servers-Symbol in der Cline-Seitenleiste, dann "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Gleiche Struktur wie Claude Desktop. Windsurf neu starten zum Übernehmen.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "video-podcast-maker-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ]
    }
  ]
}

Continue nutzt ein Array von Serverobjekten statt einer Map.

~/.config/zed/settings.json
{
  "context_servers": {
    "video-podcast-maker-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Agents365-ai/video-podcast-maker",
          "~/.claude/skills/video-podcast-maker"
        ]
      }
    }
  }
}

In context_servers hinzufügen. Zed lädt beim Speichern neu.

claude mcp add video-podcast-maker-skill -- git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker

Einzeiler. Prüfen mit claude mcp list. Entfernen mit claude mcp remove.

Anwendungsfälle

Praxisnahe Nutzung: video-podcast-maker

Blog-Post in ein Podcast-ähnliches Video umwandeln

👤 Content Creator, die geschriebene Inhalte wiederverwenden ⏱ ~60 min intermediate

Wann einsetzen: Du hast einen Langform-Post und willst ein 10-minütiges Video für YouTube/B站.

Voraussetzungen
  • Skill installiert — git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker
  • TTS-Engine-Credentials — Umgebungsvariable für die gewählte Engine setzen (z.B. AZURE_TTS_KEY)
Ablauf
  1. Skript generieren
    Use video-podcast-maker. From post.md, write a two-host script (10 min) in en-US. Hosts: Alice (analytical), Bob (curious).✓ Kopiert
    → Turn-by-turn-Skript mit Alice/Bob-Zeilen
  2. Stimmen rendern
    Render with Azure TTS — Alice: en-US-JennyNeural, Bob: en-US-GuyNeural.✓ Kopiert
    → Zwei MP3-Spuren; Ausrichtungsmetadaten
  3. Zusammensetzen
    Assemble video: title card, b-roll keywords from script, host avatars, captions.✓ Kopiert
    → MP4 fertig, 1920×1080
  4. Hochladen
    Push to YouTube as unlisted with description + tags from the script.✓ Kopiert
    → YouTube URL

Ergebnis: Poliertes Podcast-Video aus einem Langform-Post in unter einer Stunde.

Fallstricke
  • TTS spricht technische Begriffe falsch aus — Schwierige Wörter im Skript mit phonetischen Hinweisen vormarkieren; von den meisten Engines unterstützt
Kombinieren mit: humanizer-skill

Wöchentlichen Podcast zu einem Thema mit konsistenten Moderatoren betreiben

👤 Nischen-Themen-Creator mit Veröffentlichungsrhythmus ⏱ ~45 min advanced

Wann einsetzen: Du willst einen freitäglichen Wochen-Podcast zu KI/Web3/etc. — automatisiert.

Ablauf
  1. Personas definieren
    Set host personas: Alice (skeptic), Bob (enthusiast). Save as default.✓ Kopiert
    → Persona-Datei gespeichert
  2. Wochennachrichten abrufen
    Use video-podcast-maker. Pull this week's top 5 stories on <topic> from RSS feeds. Generate the script.✓ Kopiert
    → Skript mit 5 Segmenten
  3. Rendern + veröffentlichen
    Render and publish to YouTube + Bilibili at Friday 9am.✓ Kopiert
    → Beide Plattformen haben die Episode

Ergebnis: Konsistenter wöchentlicher Content; nahezu null Aufwand pro Episode.

Fallstricke
  • KI-Stimmen klingen nach einigen Episoden gleich — Personas rotieren; Engine variieren; echte Intro-Stings hinzufügen
Kombinieren mit: duckduckgo-mcp

Englischen Podcast ins Chinesische lokalisieren (oder umgekehrt)

👤 Creator, die mehrsprachige Zielgruppen bedienen ⏱ ~50 min intermediate

Wann einsetzen: Du hast einen englischen Podcast und willst eine chinesische Version für B站 mit nativen Stimmen.

Ablauf
  1. Skript übersetzen
    Use video-podcast-maker. Translate script from en-US to zh-CN preserving the conversational tone.✓ Kopiert
    → zh-CN-Skript mit kultureller Anpassung, nicht wörtlich
  2. Mit nativen Stimmen rendern
    Render with zh-CN voices (e.g. Azure XiaoxiaoNeural + YunxiNeural).✓ Kopiert
    → Nativ-klingende Audio
  3. Neu zusammensetzen + auf Bilibili hochladen
    Use the same b-roll; new audio; new captions in zh-CN. Upload to B站.✓ Kopiert
    → B站 URL

Ergebnis: Authentische sprachübergreifende Version, kein Übersetzungsband.

Fallstricke
  • Direkte Übersetzung verliert Redewendungen — Skill ist für kulturelle Anpassung konfiguriert; Witze/Referenzen manuell prüfen

Kombinationen

Mit anderen MCPs für 10-fache Wirkung

video-podcast-maker-skill + humanizer-skill

KI-Spuren aus generierten Skripten entfernen

Run humanizer on the script before TTS — sound less generated, more conversational.✓ Kopiert
video-podcast-maker-skill + duckduckgo-mcp

Aktuelle Nachrichten für das Skript abrufen

Search latest <topic> stories; feed top 5 into make_script.✓ Kopiert

Werkzeuge

Was dieses MCP bereitstellt

WerkzeugEingabenWann aufrufenKosten
make_script source_text, hosts, length_min, language Schritt 1 — Skriptschreiben LLM tokens
render_tts script, engine, voices Nach Skript-Genehmigung TTS engine quota / $
assemble_video audio_tracks, b_roll_keywords, theme Finale Assembly Lokale CPU/GPU
publish platform, mp4_path, metadata Auf YouTube / Bilibili pushen 0
translate_script script, target_language Lokalisierungsschritt LLM tokens

Kosten & Limits

Was der Betrieb kostet

API-Kontingent
TTS-Engines haben Pro-Zeichen-Limits; Azure Free Tier ~500k Zeichen/Monat
Tokens pro Aufruf
Skript ~3k–6k Tokens; Assembly ist lokal
Kosten in €
Kostenloser Skill; TTS-Engine + LLM bezahlen
Tipp
Edge TTS (kostenlos) für Entwürfe verwenden; Azure/ElevenLabs nur für Produktion

Sicherheit

Rechte, Secrets, Reichweite

Minimale Scopes: filesystem-write (Ausgabe)
Credential-Speicherung: Engine-API-Keys via Umgebungsvariablen; YouTube/Bilibili-Tokens in Secrets-Datei
Datenabfluss: TTS-Engines, LLM-Provider, Zielplattformen
Niemals gewähren: Öffentliche OAuth-Tokens, die ohne Bestätigung auf deinem Kanal posten könnten

Fehlerbehebung

Häufige Fehler und Lösungen

TTS schneidet lange Zeilen ab

Die meisten Engines begrenzen Zeilen auf ~250 Zeichen; Skill teilt automatisch aber lange Sätze prüfen

Audio-Drift bei langen Renders

In Chunks rendern, mit Crossfade zusammenführen — Skill macht das standardmäßig für >5 min

B站-Upload schlägt fehl

Cookies in Secrets-Datei prüfen; B站 erfordert manchmal erneutes Login

Untertitel nicht synchron

Ausrichtung neu ausführen; manche TTS-Engines melden Timing ungenau — Skill hat Resync-Modus

Alternativen

video-podcast-maker vs. andere

AlternativeWann stattdessenKompromiss
ElevenLabs StudioPolierte SaaS-UI gewünschtKostet mehr; weniger Chat-Automatisierung
NotebookLM Audio OverviewEinmaliges Zwei-Moderatoren-Audio-Summary aus beliebiger Quelle gewünschtKein Video; weniger Kontrolle; nur Cloud

Mehr

Ressourcen

📖 Offizielle README auf GitHub lesen

🐙 Offene Issues ansehen

🔍 Alle 400+ MCP-Server und Skills durchsuchen