video-podcast-maker (Claude Skill) — Cas d'usage, Installer & Démo en direct

Pourquoi l'utiliser

Fonctionnalités clés

Écriture de script avec arc de conversation à deux présentateurs
6 moteurs TTS : Edge / Azure / OpenAI / ElevenLabs / etc. — choisir selon qualité/coût
Multi-langue : zh-CN et en-US en premier niveau
Assemblage automatique : aligne les pistes vocales avec les visuels + intro/outro
Assistants d'upload directs pour Bilibili / YouTube

Démo en direct

Aperçu en pratique

prêt

Installer

Choisissez votre client

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Ouvrez Claude Desktop → Settings → Developer → Edit Config. Redémarrez après avoir enregistré.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cursor utilise le même schéma mcpServers que Claude Desktop. La config projet l'emporte sur la globale.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cliquez sur l'icône MCP Servers dans la barre latérale Cline, puis "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Même format que Claude Desktop. Redémarrez Windsurf pour appliquer.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "video-podcast-maker-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ]
    }
  ]
}

Continue utilise un tableau d'objets serveur plutôt qu'une map.

~/.config/zed/settings.json

{
  "context_servers": {
    "video-podcast-maker-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Agents365-ai/video-podcast-maker",
          "~/.claude/skills/video-podcast-maker"
        ]
      }
    }
  }
}

Ajoutez dans context_servers. Zed recharge à chaud à la sauvegarde.

claude mcp add video-podcast-maker-skill -- git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker

Une seule ligne. Vérifiez avec claude mcp list. Supprimez avec claude mcp remove.

Cas d'usage

Usages concrets : video-podcast-maker

Convertir un article en vidéo style podcast

👤 Créateurs de contenu réutilisant leur travail écrit ⏱ ~60 min intermediate

Quand l'utiliser : Vous avez un article long format et voulez une vidéo de 10 minutes à publier sur YouTube/B站.

Prérequis

Skill installé — git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker
Credentials du moteur TTS — Définir la variable d'env pour le moteur choisi (ex. AZURE_TTS_KEY)

Déroulement

Générer le script

Use video-podcast-maker. From post.md, write a two-host script (10 min) in en-US. Hosts: Alice (analytical), Bob (curious).✓ Copié

→ Script tour par tour avec les répliques Alice/Bob
Rendre les voix

Render with Azure TTS — Alice: en-US-JennyNeural, Bob: en-US-GuyNeural.✓ Copié

→ Deux pistes MP3 ; métadonnées d'alignement
Assembler

Assemble video: title card, b-roll keywords from script, host avatars, captions.✓ Copié

→ MP4 prêt, 1920×1080
Uploader

Push to YouTube as unlisted with description + tags from the script.✓ Copié

→ URL YouTube

Résultat : Vidéo podcast soignée depuis un seul article long format en moins d'une heure.

Pièges

La prononciation TTS est mauvaise sur les termes techniques — Pré-marquer les mots difficiles dans le script avec des hints phonétiques ; supporté par la plupart des moteurs

Combiner avec : humanizer-skill

Lancer un podcast hebdomadaire sur un sujet avec des présentateurs cohérents

👤 Créateurs de niche avec une cadence de publication ⏱ ~45 min advanced

Quand l'utiliser : Vous voulez un podcast hebdomadaire du vendredi sur IA/Web3/autre — automatisé.

Déroulement

Définir les personas

Set host personas: Alice (skeptic), Bob (enthusiast). Save as default.✓ Copié

→ Fichier persona sauvegardé
Récupérer les actualités de la semaine

Use video-podcast-maker. Pull this week's top 5 stories on <topic> from RSS feeds. Generate the script.✓ Copié

→ Script avec 5 segments
Rendre + publier

Render and publish to YouTube + Bilibili at Friday 9am.✓ Copié

→ Les deux plateformes ont l'épisode

Résultat : Contenu hebdomadaire cohérent ; effort quasi nul par épisode.

Pièges

Les voix IA sonnent pareil après quelques épisodes — Faire tourner les personas ; varier le moteur ; ajouter de vrais jingles d'intro

Combiner avec : duckduckgo-mcp

Localiser un podcast anglais en chinois (ou inversement)

👤 Créateurs servant des audiences multi-langues ⏱ ~50 min intermediate

Quand l'utiliser : Vous avez un podcast en anglais et voulez une version chinoise pour B站 avec des voix natives.

Déroulement

Traduire le script

Use video-podcast-maker. Translate script from en-US to zh-CN preserving the conversational tone.✓ Copié

→ Script zh-CN avec adaptation culturelle, pas littérale
Rendre avec des voix natives

Render with zh-CN voices (e.g. Azure XiaoxiaoNeural + YunxiNeural).✓ Copié

→ Audio de qualité native
Réassembler + uploader sur Bilibili

Use the same b-roll; new audio; new captions in zh-CN. Upload to B站.✓ Copié

→ URL B站

Résultat : Version cross-langue authentique, pas une traduction littérale.

Pièges

La traduction directe perd les idiomes — Le skill est configuré pour adapter culturellement ; relire manuellement les blagues/références

Combinaisons

Associez-le à d'autres MCPs pour un effet X10

video-podcast-maker-skill + humanizer-skill

Supprimer les marqueurs IA des scripts générés

Run humanizer on the script before TTS — sound less generated, more conversational.✓ Copié

video-podcast-maker-skill + duckduckgo-mcp

Récupérer des actualités fraîches pour le script

Search latest <topic> stories; feed top 5 into make_script.✓ Copié

Outils

Ce que ce MCP expose

Outil	Entrées	Quand appeler	Coût
make_script	source_text, hosts, length_min, language	Étape 1 — écriture du script	Tokens LLM
render_tts	script, engine, voices	Après approbation du script	Quota / coût du moteur TTS
assemble_video	audio_tracks, b_roll_keywords, theme	Assemblage final	CPU/GPU local
publish	platform, mp4_path, metadata	Publier sur YouTube / Bilibili	0
translate_script	script, target_language	Étape de localisation	Tokens LLM

Coût et limites

Coût d'exécution

Quota d'API: Les moteurs TTS ont des limites par caractère ; le niveau gratuit Azure ~500k chars/mois
Tokens par appel: Script ~3k–6k tokens ; l'assemblage est local
Monétaire: Skill gratuit ; payer par moteur TTS + LLM
Astuce: Utiliser Edge TTS (gratuit) pour les brouillons ; Azure/ElevenLabs uniquement pour la production

Sécurité

Permissions, secrets, portée

Portées minimales : filesystem-write (sortie)

Stockage des identifiants : Clés API des moteurs via variables d'env ; tokens YouTube/Bilibili dans le fichier secrets

Sortie de données : Moteurs TTS, fournisseur LLM, plateformes cibles

Ne jamais accorder : Tokens OAuth publics qui pourraient publier sur votre chaîne sans confirmation

Les fonctionnalités de clonage vocal (si activées) soulèvent des questions de consentement — ne cloner qu'avec une permission explicite

Dépannage

Erreurs courantes et correctifs

Le TTS tronque les longues lignes

La plupart des moteurs limitent les lignes à ~250 caractères ; le skill les divise automatiquement mais vérifier les longues phrases

Dérive audio sur les longs rendus

Rendre par morceaux, concaténer avec fondu enchaîné — le skill fait cela par défaut pour les vidéos de >5 min

L'upload B站 échoue

Vérifier les cookies dans le fichier secrets ; B站 nécessite parfois une reconnexion

Sous-titres désynchronisés

Relancer l'alignement ; certains moteurs TTS sous-rapportent le timing — le skill a un mode de resynchronisation

Alternatives

video-podcast-maker vs autres

Alternative	Quand l'utiliser	Compromis
ElevenLabs Studio	Vous voulez une interface SaaS soignée	Plus coûteux ; moins d'automatisation via chat
NotebookLM Audio Overview	Vous voulez un résumé audio à deux voix en un clic depuis n'importe quelle source	Pas de vidéo ; moins de contrôle ; cloud uniquement

Plus

Ressources

📖 Lire le README officiel sur GitHub

🐙 Voir les issues ouvertes

🔍 Parcourir les 400+ serveurs MCP et Skills