/ Annuaire / Playground / video-podcast-maker
● Communauté Agents365-ai 🔑 Nécessite votre clé

video-podcast-maker

par Agents365-ai · Agents365-ai/video-podcast-maker

De l'idée à une vidéo podcast Bilibili / YouTube en un flux — écriture de script, TTS multi-voix, assemblage automatisé, multi-langue.

video-podcast-maker est un skill Claude Code qui prend un sujet ou un article et produit un asset vidéo-podcast : un script à deux présentateurs, un rendu TTS multi-voix via 6 moteurs (Edge / Azure / OpenAI / etc.), des visuels de type b-roll, et une vidéo prête pour Bilibili/YouTube. Support multi-langue pour zh-CN et en-US en standard.

Pourquoi l'utiliser

Fonctionnalités clés

Démo en direct

Aperçu en pratique

prêt

Installer

Choisissez votre client

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Ouvrez Claude Desktop → Settings → Developer → Edit Config. Redémarrez après avoir enregistré.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cursor utilise le même schéma mcpServers que Claude Desktop. La config projet l'emporte sur la globale.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cliquez sur l'icône MCP Servers dans la barre latérale Cline, puis "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Même format que Claude Desktop. Redémarrez Windsurf pour appliquer.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "video-podcast-maker-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ]
    }
  ]
}

Continue utilise un tableau d'objets serveur plutôt qu'une map.

~/.config/zed/settings.json
{
  "context_servers": {
    "video-podcast-maker-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Agents365-ai/video-podcast-maker",
          "~/.claude/skills/video-podcast-maker"
        ]
      }
    }
  }
}

Ajoutez dans context_servers. Zed recharge à chaud à la sauvegarde.

claude mcp add video-podcast-maker-skill -- git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker

Une seule ligne. Vérifiez avec claude mcp list. Supprimez avec claude mcp remove.

Cas d'usage

Usages concrets : video-podcast-maker

Convertir un article en vidéo style podcast

👤 Créateurs de contenu réutilisant leur travail écrit ⏱ ~60 min intermediate

Quand l'utiliser : Vous avez un article long format et voulez une vidéo de 10 minutes à publier sur YouTube/B站.

Prérequis
  • Skill installé — git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker
  • Credentials du moteur TTS — Définir la variable d'env pour le moteur choisi (ex. AZURE_TTS_KEY)
Déroulement
  1. Générer le script
    Use video-podcast-maker. From post.md, write a two-host script (10 min) in en-US. Hosts: Alice (analytical), Bob (curious).✓ Copié
    → Script tour par tour avec les répliques Alice/Bob
  2. Rendre les voix
    Render with Azure TTS — Alice: en-US-JennyNeural, Bob: en-US-GuyNeural.✓ Copié
    → Deux pistes MP3 ; métadonnées d'alignement
  3. Assembler
    Assemble video: title card, b-roll keywords from script, host avatars, captions.✓ Copié
    → MP4 prêt, 1920×1080
  4. Uploader
    Push to YouTube as unlisted with description + tags from the script.✓ Copié
    → URL YouTube

Résultat : Vidéo podcast soignée depuis un seul article long format en moins d'une heure.

Pièges
  • La prononciation TTS est mauvaise sur les termes techniques — Pré-marquer les mots difficiles dans le script avec des hints phonétiques ; supporté par la plupart des moteurs
Combiner avec : humanizer-skill

Lancer un podcast hebdomadaire sur un sujet avec des présentateurs cohérents

👤 Créateurs de niche avec une cadence de publication ⏱ ~45 min advanced

Quand l'utiliser : Vous voulez un podcast hebdomadaire du vendredi sur IA/Web3/autre — automatisé.

Déroulement
  1. Définir les personas
    Set host personas: Alice (skeptic), Bob (enthusiast). Save as default.✓ Copié
    → Fichier persona sauvegardé
  2. Récupérer les actualités de la semaine
    Use video-podcast-maker. Pull this week's top 5 stories on <topic> from RSS feeds. Generate the script.✓ Copié
    → Script avec 5 segments
  3. Rendre + publier
    Render and publish to YouTube + Bilibili at Friday 9am.✓ Copié
    → Les deux plateformes ont l'épisode

Résultat : Contenu hebdomadaire cohérent ; effort quasi nul par épisode.

Pièges
  • Les voix IA sonnent pareil après quelques épisodes — Faire tourner les personas ; varier le moteur ; ajouter de vrais jingles d'intro
Combiner avec : duckduckgo-mcp

Localiser un podcast anglais en chinois (ou inversement)

👤 Créateurs servant des audiences multi-langues ⏱ ~50 min intermediate

Quand l'utiliser : Vous avez un podcast en anglais et voulez une version chinoise pour B站 avec des voix natives.

Déroulement
  1. Traduire le script
    Use video-podcast-maker. Translate script from en-US to zh-CN preserving the conversational tone.✓ Copié
    → Script zh-CN avec adaptation culturelle, pas littérale
  2. Rendre avec des voix natives
    Render with zh-CN voices (e.g. Azure XiaoxiaoNeural + YunxiNeural).✓ Copié
    → Audio de qualité native
  3. Réassembler + uploader sur Bilibili
    Use the same b-roll; new audio; new captions in zh-CN. Upload to B站.✓ Copié
    → URL B站

Résultat : Version cross-langue authentique, pas une traduction littérale.

Pièges
  • La traduction directe perd les idiomes — Le skill est configuré pour adapter culturellement ; relire manuellement les blagues/références

Combinaisons

Associez-le à d'autres MCPs pour un effet X10

video-podcast-maker-skill + humanizer-skill

Supprimer les marqueurs IA des scripts générés

Run humanizer on the script before TTS — sound less generated, more conversational.✓ Copié
video-podcast-maker-skill + duckduckgo-mcp

Récupérer des actualités fraîches pour le script

Search latest <topic> stories; feed top 5 into make_script.✓ Copié

Outils

Ce que ce MCP expose

OutilEntréesQuand appelerCoût
make_script source_text, hosts, length_min, language Étape 1 — écriture du script Tokens LLM
render_tts script, engine, voices Après approbation du script Quota / coût du moteur TTS
assemble_video audio_tracks, b_roll_keywords, theme Assemblage final CPU/GPU local
publish platform, mp4_path, metadata Publier sur YouTube / Bilibili 0
translate_script script, target_language Étape de localisation Tokens LLM

Coût et limites

Coût d'exécution

Quota d'API
Les moteurs TTS ont des limites par caractère ; le niveau gratuit Azure ~500k chars/mois
Tokens par appel
Script ~3k–6k tokens ; l'assemblage est local
Monétaire
Skill gratuit ; payer par moteur TTS + LLM
Astuce
Utiliser Edge TTS (gratuit) pour les brouillons ; Azure/ElevenLabs uniquement pour la production

Sécurité

Permissions, secrets, portée

Portées minimales : filesystem-write (sortie)
Stockage des identifiants : Clés API des moteurs via variables d'env ; tokens YouTube/Bilibili dans le fichier secrets
Sortie de données : Moteurs TTS, fournisseur LLM, plateformes cibles
Ne jamais accorder : Tokens OAuth publics qui pourraient publier sur votre chaîne sans confirmation

Dépannage

Erreurs courantes et correctifs

Le TTS tronque les longues lignes

La plupart des moteurs limitent les lignes à ~250 caractères ; le skill les divise automatiquement mais vérifier les longues phrases

Dérive audio sur les longs rendus

Rendre par morceaux, concaténer avec fondu enchaîné — le skill fait cela par défaut pour les vidéos de >5 min

L'upload B站 échoue

Vérifier les cookies dans le fichier secrets ; B站 nécessite parfois une reconnexion

Sous-titres désynchronisés

Relancer l'alignement ; certains moteurs TTS sous-rapportent le timing — le skill a un mode de resynchronisation

Alternatives

video-podcast-maker vs autres

AlternativeQuand l'utiliserCompromis
ElevenLabs StudioVous voulez une interface SaaS soignéePlus coûteux ; moins d'automatisation via chat
NotebookLM Audio OverviewVous voulez un résumé audio à deux voix en un clic depuis n'importe quelle sourcePas de vidéo ; moins de contrôle ; cloud uniquement

Plus

Ressources

📖 Lire le README officiel sur GitHub

🐙 Voir les issues ouvertes

🔍 Parcourir les 400+ serveurs MCP et Skills