video-podcast-maker (Claude Skill) — Instalar & Demo ao vivo

Por que usar

Principais recursos

Escrita de roteiro com arco conversacional de dois apresentadores
6 engines TTS: Edge / Azure / OpenAI / ElevenLabs / etc. — escolha por qualidade/custo
Multilíngue: zh-CN e en-US de primeira classe
Montagem automática: alinha trilhas de voz com visuais + intro/outro
Helpers de upload direto para Bilibili / YouTube

Demo ao vivo

Como fica na prática

pronto

Instalar

Escolha seu cliente

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Abra Claude Desktop → Settings → Developer → Edit Config. Reinicie após salvar.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cursor usa o mesmo esquema mcpServers que o Claude Desktop. Config de projeto vence a global.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Clique no ícone MCP Servers na barra lateral do Cline, depois "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Mesmo formato do Claude Desktop. Reinicie o Windsurf para aplicar.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "video-podcast-maker-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ]
    }
  ]
}

O Continue usa um array de objetos de servidor em vez de um map.

~/.config/zed/settings.json

{
  "context_servers": {
    "video-podcast-maker-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Agents365-ai/video-podcast-maker",
          "~/.claude/skills/video-podcast-maker"
        ]
      }
    }
  }
}

Adicione em context_servers. Zed recarrega automaticamente ao salvar.

claude mcp add video-podcast-maker-skill -- git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker

Uma linha só. Verifique com claude mcp list. Remova com claude mcp remove.

Casos de uso

Usos do mundo real: video-podcast-maker

Converter um blog post em vídeo no estilo podcast

👤 Criadores de conteúdo reutilizando trabalho escrito ⏱ ~60 min intermediate

Quando usar: Você tem um post longo e quer um vídeo de 10 minutos para publicar no YouTube/B站.

Pré-requisitos

Skill instalada — git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker
Credenciais do engine TTS — Defina a variável de ambiente para o engine escolhido (ex. AZURE_TTS_KEY)

Fluxo

Gerar o roteiro

Use video-podcast-maker. From post.md, write a two-host script (10 min) in en-US. Hosts: Alice (analytical), Bob (curious).✓ Copiado

→ Roteiro turno a turno com falas de Alice/Bob
Renderizar as vozes

Render with Azure TTS — Alice: en-US-JennyNeural, Bob: en-US-GuyNeural.✓ Copiado

→ Duas trilhas MP3; metadados de alinhamento
Montar

Assemble video: title card, b-roll keywords from script, host avatars, captions.✓ Copiado

→ MP4 pronto, 1920×1080
Publicar

Push to YouTube as unlisted with description + tags from the script.✓ Copiado

→ URL do YouTube

Resultado: Vídeo-podcast polido a partir de um post longo em menos de uma hora.

Armadilhas

Pronúncia TTS errada em termos técnicos — Marque palavras difíceis no roteiro com dicas fonéticas; suportado pela maioria dos engines

Combine com: humanizer-skill

Produzir um podcast semanal sobre um tópico com apresentadores consistentes

👤 Criadores de nicho com cadência de publicação ⏱ ~45 min advanced

Quando usar: Você quer um podcast semanal de sexta sobre IA/Web3/outro — automatizado.

Fluxo

Definir personas

Set host personas: Alice (skeptic), Bob (enthusiast). Save as default.✓ Copiado

→ Arquivo de persona salvo
Buscar notícias semanais

Use video-podcast-maker. Pull this week's top 5 stories on <topic> from RSS feeds. Generate the script.✓ Copiado

→ Roteiro com 5 segmentos
Renderizar + publicar

Render and publish to YouTube + Bilibili at Friday 9am.✓ Copiado

→ Ambas as plataformas têm o episódio

Resultado: Conteúdo semanal consistente; esforço quase nulo por episódio.

Armadilhas

Vozes de IA soam iguais após alguns episódios — Rotacione personas; varie o engine; adicione vinhetas reais

Combine com: duckduckgo-mcp

Localizar um podcast em inglês para o chinês (ou vice-versa)

👤 Criadores que atendem audiências em múltiplos idiomas ⏱ ~50 min intermediate

Quando usar: Você tem um podcast em inglês e quer uma versão em chinês para o B站 com vozes nativas.

Fluxo

Traduzir o roteiro

Use video-podcast-maker. Translate script from en-US to zh-CN preserving the conversational tone.✓ Copiado

→ Roteiro zh-CN com adaptação cultural, não literal
Renderizar com vozes nativas

Render with zh-CN voices (e.g. Azure XiaoxiaoNeural + YunxiNeural).✓ Copiado

→ Áudio de qualidade nativa
Remontar + publicar no Bilibili

Use the same b-roll; new audio; new captions in zh-CN. Upload to B站.✓ Copiado

→ URL do B站

Resultado: Versão cross-language autêntica, não uma fita de tradução.

Armadilhas

Tradução direta perde expressões idiomáticas — A skill é configurada para adaptar culturalmente; revise piadas/referências manualmente

Combinações

Combine com outros MCPs para 10× de alavancagem

video-podcast-maker-skill + humanizer-skill

Remover traços de IA dos roteiros gerados

Run humanizer on the script before TTS — sound less generated, more conversational.✓ Copiado

video-podcast-maker-skill + duckduckgo-mcp

Buscar notícias frescas para o roteiro

Search latest <topic> stories; feed top 5 into make_script.✓ Copiado

Ferramentas

O que este MCP expõe

Ferramenta	Entradas	Quando chamar	Custo
make_script	source_text, hosts, length_min, language	Passo 1 — escrita do roteiro	Tokens de LLM
render_tts	script, engine, voices	Após roteiro aprovado	Cota / $ do engine TTS
assemble_video	audio_tracks, b_roll_keywords, theme	Montagem final	CPU/GPU local
publish	platform, mp4_path, metadata	Publicar no YouTube / Bilibili	0
translate_script	script, target_language	Passo de localização	Tokens de LLM

Custo e limites

O que custa rodar

Cota de API: Engines TTS têm limites de caracteres; tier gratuito do Azure ~500k chars/mês
Tokens por chamada: Roteiro ~3k–6k tokens; montagem é local
Monetário: Skill gratuita; pague por engine TTS + LLM
Dica: Use Edge TTS (gratuito) para rascunhos; Azure/ElevenLabs apenas para produção

Segurança

Permissões, segredos, alcance

Escopos mínimos: filesystem-write (saída)

Armazenamento de credenciais: Chaves de API dos engines via variáveis de ambiente; tokens do YouTube/Bilibili em arquivo de secrets

Saída de dados: Engines TTS, provedor LLM, plataformas de destino

Nunca conceda: Tokens OAuth públicos que possam postar no seu canal sem confirmação

Recursos de clonagem de voz (se habilitados) levantam questões de consentimento — clone apenas com permissão explícita

Solução de problemas

Erros comuns e correções

TTS trunca linhas longas

A maioria dos engines limita linhas a ~250 chars; a skill divide automaticamente mas verifique frases longas

Deriva de áudio em renders longos

Renderize em chunks, concatene com crossfade — a skill faz isso por padrão para >5 min

Upload para B站 falha

Verifique os cookies no arquivo de secrets; B站 às vezes exige re-login

Legendas fora de sincronia

Re-execute o alinhamento; alguns engines TTS relatam timing incorretamente — a skill tem modo de re-sync

Alternativas

video-podcast-maker vs. outros

Alternativa	Quando usar	Troca
ElevenLabs Studio	Você quer uma UI SaaS polida	Custa mais; menos automação via chat
NotebookLM Audio Overview	Você quer um resumo de áudio com dois apresentadores de uma vez a partir de qualquer fonte	Sem vídeo; menos controle; somente na nuvem

Mais

Recursos

📖 Leia o README oficial no GitHub

🐙 Ver issues abertas

🔍 Ver todos os 400+ servidores MCP e Skills