/ Diretório / Playground / video-podcast-maker
● Comunidade Agents365-ai 🔑 Requer sua chave

video-podcast-maker

por Agents365-ai · Agents365-ai/video-podcast-maker

De ideia a vídeo-podcast no Bilibili / YouTube em um único fluxo — roteiro, TTS multi-voz, montagem automatizada, multilíngue.

video-podcast-maker é uma skill do Claude Code que recebe um tópico ou artigo e produz um ativo de vídeo-podcast: um roteiro com dois apresentadores, renderização TTS multi-voz via 6 engines (Edge / Azure / OpenAI / etc.), visuais estilo b-roll e um vídeo pronto para Bilibili/YouTube. Suporte multilíngue para zh-CN e en-US de primeira classe.

Por que usar

Principais recursos

Demo ao vivo

Como fica na prática

pronto

Instalar

Escolha seu cliente

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Abra Claude Desktop → Settings → Developer → Edit Config. Reinicie após salvar.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cursor usa o mesmo esquema mcpServers que o Claude Desktop. Config de projeto vence a global.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Clique no ícone MCP Servers na barra lateral do Cline, depois "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Mesmo formato do Claude Desktop. Reinicie o Windsurf para aplicar.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "video-podcast-maker-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ]
    }
  ]
}

O Continue usa um array de objetos de servidor em vez de um map.

~/.config/zed/settings.json
{
  "context_servers": {
    "video-podcast-maker-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Agents365-ai/video-podcast-maker",
          "~/.claude/skills/video-podcast-maker"
        ]
      }
    }
  }
}

Adicione em context_servers. Zed recarrega automaticamente ao salvar.

claude mcp add video-podcast-maker-skill -- git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker

Uma linha só. Verifique com claude mcp list. Remova com claude mcp remove.

Casos de uso

Usos do mundo real: video-podcast-maker

Converter um blog post em vídeo no estilo podcast

👤 Criadores de conteúdo reutilizando trabalho escrito ⏱ ~60 min intermediate

Quando usar: Você tem um post longo e quer um vídeo de 10 minutos para publicar no YouTube/B站.

Pré-requisitos
  • Skill instalada — git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker
  • Credenciais do engine TTS — Defina a variável de ambiente para o engine escolhido (ex. AZURE_TTS_KEY)
Fluxo
  1. Gerar o roteiro
    Use video-podcast-maker. From post.md, write a two-host script (10 min) in en-US. Hosts: Alice (analytical), Bob (curious).✓ Copiado
    → Roteiro turno a turno com falas de Alice/Bob
  2. Renderizar as vozes
    Render with Azure TTS — Alice: en-US-JennyNeural, Bob: en-US-GuyNeural.✓ Copiado
    → Duas trilhas MP3; metadados de alinhamento
  3. Montar
    Assemble video: title card, b-roll keywords from script, host avatars, captions.✓ Copiado
    → MP4 pronto, 1920×1080
  4. Publicar
    Push to YouTube as unlisted with description + tags from the script.✓ Copiado
    → URL do YouTube

Resultado: Vídeo-podcast polido a partir de um post longo em menos de uma hora.

Armadilhas
  • Pronúncia TTS errada em termos técnicos — Marque palavras difíceis no roteiro com dicas fonéticas; suportado pela maioria dos engines
Combine com: humanizer-skill

Produzir um podcast semanal sobre um tópico com apresentadores consistentes

👤 Criadores de nicho com cadência de publicação ⏱ ~45 min advanced

Quando usar: Você quer um podcast semanal de sexta sobre IA/Web3/outro — automatizado.

Fluxo
  1. Definir personas
    Set host personas: Alice (skeptic), Bob (enthusiast). Save as default.✓ Copiado
    → Arquivo de persona salvo
  2. Buscar notícias semanais
    Use video-podcast-maker. Pull this week's top 5 stories on <topic> from RSS feeds. Generate the script.✓ Copiado
    → Roteiro com 5 segmentos
  3. Renderizar + publicar
    Render and publish to YouTube + Bilibili at Friday 9am.✓ Copiado
    → Ambas as plataformas têm o episódio

Resultado: Conteúdo semanal consistente; esforço quase nulo por episódio.

Armadilhas
  • Vozes de IA soam iguais após alguns episódios — Rotacione personas; varie o engine; adicione vinhetas reais
Combine com: duckduckgo-mcp

Localizar um podcast em inglês para o chinês (ou vice-versa)

👤 Criadores que atendem audiências em múltiplos idiomas ⏱ ~50 min intermediate

Quando usar: Você tem um podcast em inglês e quer uma versão em chinês para o B站 com vozes nativas.

Fluxo
  1. Traduzir o roteiro
    Use video-podcast-maker. Translate script from en-US to zh-CN preserving the conversational tone.✓ Copiado
    → Roteiro zh-CN com adaptação cultural, não literal
  2. Renderizar com vozes nativas
    Render with zh-CN voices (e.g. Azure XiaoxiaoNeural + YunxiNeural).✓ Copiado
    → Áudio de qualidade nativa
  3. Remontar + publicar no Bilibili
    Use the same b-roll; new audio; new captions in zh-CN. Upload to B站.✓ Copiado
    → URL do B站

Resultado: Versão cross-language autêntica, não uma fita de tradução.

Armadilhas
  • Tradução direta perde expressões idiomáticas — A skill é configurada para adaptar culturalmente; revise piadas/referências manualmente

Combinações

Combine com outros MCPs para 10× de alavancagem

video-podcast-maker-skill + humanizer-skill

Remover traços de IA dos roteiros gerados

Run humanizer on the script before TTS — sound less generated, more conversational.✓ Copiado
video-podcast-maker-skill + duckduckgo-mcp

Buscar notícias frescas para o roteiro

Search latest <topic> stories; feed top 5 into make_script.✓ Copiado

Ferramentas

O que este MCP expõe

FerramentaEntradasQuando chamarCusto
make_script source_text, hosts, length_min, language Passo 1 — escrita do roteiro Tokens de LLM
render_tts script, engine, voices Após roteiro aprovado Cota / $ do engine TTS
assemble_video audio_tracks, b_roll_keywords, theme Montagem final CPU/GPU local
publish platform, mp4_path, metadata Publicar no YouTube / Bilibili 0
translate_script script, target_language Passo de localização Tokens de LLM

Custo e limites

O que custa rodar

Cota de API
Engines TTS têm limites de caracteres; tier gratuito do Azure ~500k chars/mês
Tokens por chamada
Roteiro ~3k–6k tokens; montagem é local
Monetário
Skill gratuita; pague por engine TTS + LLM
Dica
Use Edge TTS (gratuito) para rascunhos; Azure/ElevenLabs apenas para produção

Segurança

Permissões, segredos, alcance

Escopos mínimos: filesystem-write (saída)
Armazenamento de credenciais: Chaves de API dos engines via variáveis de ambiente; tokens do YouTube/Bilibili em arquivo de secrets
Saída de dados: Engines TTS, provedor LLM, plataformas de destino
Nunca conceda: Tokens OAuth públicos que possam postar no seu canal sem confirmação

Solução de problemas

Erros comuns e correções

TTS trunca linhas longas

A maioria dos engines limita linhas a ~250 chars; a skill divide automaticamente mas verifique frases longas

Deriva de áudio em renders longos

Renderize em chunks, concatene com crossfade — a skill faz isso por padrão para >5 min

Upload para B站 falha

Verifique os cookies no arquivo de secrets; B站 às vezes exige re-login

Legendas fora de sincronia

Re-execute o alinhamento; alguns engines TTS relatam timing incorretamente — a skill tem modo de re-sync

Alternativas

video-podcast-maker vs. outros

AlternativaQuando usarTroca
ElevenLabs StudioVocê quer uma UI SaaS polidaCusta mais; menos automação via chat
NotebookLM Audio OverviewVocê quer um resumo de áudio com dois apresentadores de uma vez a partir de qualquer fonteSem vídeo; menos controle; somente na nuvem

Mais

Recursos

📖 Leia o README oficial no GitHub

🐙 Ver issues abertas

🔍 Ver todos os 400+ servidores MCP e Skills