/ Directorio / Playground / video-podcast-maker
● Comunidad Agents365-ai 🔑 Requiere tu clave

video-podcast-maker

por Agents365-ai · Agents365-ai/video-podcast-maker

De idea a video podcast para Bilibili / YouTube en un flujo — redacción del guión, TTS multi-voz, montaje automatizado, multi-idioma.

video-podcast-maker es una skill de Claude Code que toma un tema o artículo y produce un asset de video-podcast: un guión de dos presentadores, renderizado TTS multi-voz mediante 6 motores (Edge / Azure / OpenAI / etc.), visuales al estilo b-roll y un video listo para Bilibili/YouTube. Soporte multi-idioma para zh-CN y en-US de primera clase.

Por qué usarlo

Características clave

Demo en vivo

Cómo se ve en la práctica

listo

Instalar

Elige tu cliente

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Abre Claude Desktop → Settings → Developer → Edit Config. Reinicia después de guardar.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cursor usa el mismo esquema mcpServers que Claude Desktop. La configuración del proyecto prevalece sobre la global.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Haz clic en el icono MCP Servers de la barra lateral de Cline y luego en "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Mismo formato que Claude Desktop. Reinicia Windsurf para aplicar.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "video-podcast-maker-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ]
    }
  ]
}

Continue usa un array de objetos de servidor en lugar de un mapa.

~/.config/zed/settings.json
{
  "context_servers": {
    "video-podcast-maker-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Agents365-ai/video-podcast-maker",
          "~/.claude/skills/video-podcast-maker"
        ]
      }
    }
  }
}

Añádelo a context_servers. Zed recarga en caliente al guardar.

claude mcp add video-podcast-maker-skill -- git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker

Un solo comando. Verifica con claude mcp list. Quita con claude mcp remove.

Casos de uso

Usos del mundo real: video-podcast-maker

Convertir una publicación de blog en un video al estilo podcast

👤 Creadores de contenido que reutilizan trabajo escrito ⏱ ~60 min intermediate

Cuándo usarlo: Tienes un post largo y quieres un video de 10 minutos para subir a YouTube/B站.

Requisitos previos
  • Skill instalada — git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker
  • Credenciales del motor TTS — Define la variable de entorno para el motor que elijas (ej. AZURE_TTS_KEY)
Flujo
  1. Generar el guión
    Use video-podcast-maker. From post.md, write a two-host script (10 min) in en-US. Hosts: Alice (analytical), Bob (curious).✓ Copiado
    → Guión turno a turno con líneas de Alice/Bob
  2. Renderizar las voces
    Render with Azure TTS — Alice: en-US-JennyNeural, Bob: en-US-GuyNeural.✓ Copiado
    → Dos pistas MP3; metadatos de alineación
  3. Montar
    Assemble video: title card, b-roll keywords from script, host avatars, captions.✓ Copiado
    → MP4 listo, 1920×1080
  4. Subir
    Push to YouTube as unlisted with description + tags from the script.✓ Copiado
    → URL de YouTube

Resultado: Video podcast pulido a partir de un post largo en menos de una hora.

Errores comunes
  • La pronunciación del TTS es incorrecta en términos técnicos — Pre-marca las palabras complicadas en el guión con pistas fonéticas; soportado por la mayoría de motores
Combinar con: humanizer-skill

Ejecutar un podcast semanal sobre un tema con presentadores consistentes

👤 Creadores de nicho con cadencia de publicación ⏱ ~45 min advanced

Cuándo usarlo: Quieres un podcast semanal del viernes sobre IA/Web3/lo que sea — automatizado.

Flujo
  1. Definir las personas
    Set host personas: Alice (skeptic), Bob (enthusiast). Save as default.✓ Copiado
    → Archivo de personas guardado
  2. Obtener las noticias de la semana
    Use video-podcast-maker. Pull this week's top 5 stories on <topic> from RSS feeds. Generate the script.✓ Copiado
    → Guión con 5 segmentos
  3. Renderizar y publicar
    Render and publish to YouTube + Bilibili at Friday 9am.✓ Copiado
    → Ambas plataformas tienen el episodio

Resultado: Contenido semanal consistente; esfuerzo casi nulo por episodio.

Errores comunes
  • Las voces de IA suenan igual después de algunos episodios — Rota las personas; varía el motor; añade sintonías de intro reales
Combinar con: duckduckgo-mcp

Localizar un podcast en inglés al chino (o viceversa)

👤 Creadores que atienden audiencias en varios idiomas ⏱ ~50 min intermediate

Cuándo usarlo: Tienes un podcast en inglés y quieres una versión en chino para B站 con voces nativas.

Flujo
  1. Traducir el guión
    Use video-podcast-maker. Translate script from en-US to zh-CN preserving the conversational tone.✓ Copiado
    → Guión en zh-CN con adaptación cultural, no literal
  2. Renderizar con voces nativas
    Render with zh-CN voices (e.g. Azure XiaoxiaoNeural + YunxiNeural).✓ Copiado
    → Audio de calidad nativa
  3. Remontar y subir a Bilibili
    Use the same b-roll; new audio; new captions in zh-CN. Upload to B站.✓ Copiado
    → URL de B站

Resultado: Versión en otro idioma auténtica, no una cinta de traducción.

Errores comunes
  • La traducción directa pierde los modismos — La skill está configurada para adaptar culturalmente; revisa los chistes/referencias manualmente

Combinaciones

Combínalo con otros MCPs para multiplicar por 10

video-podcast-maker-skill + humanizer-skill

Eliminar señales de IA de los guiones generados

Run humanizer on the script before TTS — sound less generated, more conversational.✓ Copiado
video-podcast-maker-skill + duckduckgo-mcp

Obtener noticias frescas para el guión

Search latest <topic> stories; feed top 5 into make_script.✓ Copiado

Herramientas

Lo que expone este MCP

HerramientaEntradasCuándo llamarCoste
make_script source_text, hosts, length_min, language Paso 1 — redacción del guión LLM tokens
render_tts script, engine, voices Después de aprobar el guión TTS engine quota / $
assemble_video audio_tracks, b_roll_keywords, theme Montaje final Local CPU/GPU
publish platform, mp4_path, metadata Subir a YouTube / Bilibili 0
translate_script script, target_language Paso de localización LLM tokens

Coste y límites

Lo que cuesta ejecutarlo

Cuota de API
Los motores TTS tienen límites por carácter; el nivel gratuito de Azure ~500k caracteres/mes
Tokens por llamada
Guión ~3k–6k tokens; el montaje es local
Monetario
Skill gratuita; paga por motor TTS + LLM
Consejo
Usa Edge TTS (gratuito) para borradores; Azure/ElevenLabs solo para producción

Seguridad

Permisos, secretos, alcance

Ámbitos mínimos: filesystem-write (output)
Almacenamiento de credenciales: Claves API de motores mediante variables de entorno; tokens de YouTube/Bilibili en archivo de secretos
Salida de datos: Motores TTS, proveedor LLM, plataformas destino
No conceder nunca: Tokens OAuth públicos que puedan publicar en tu canal sin confirmación

Resolución de problemas

Errores comunes y soluciones

El TTS trunca líneas largas

La mayoría de motores limitan las líneas a ~250 caracteres; la skill divide automáticamente pero verifica las frases largas

Deriva de audio en renderizados largos

Renderiza en fragmentos, concatena con crossfade — la skill hace esto por defecto para más de 5 min

La subida a B站 falla

Verifica las cookies en el archivo de secretos; B站 a veces requiere volver a iniciar sesión

Los subtítulos están desincronizados

Vuelve a ejecutar la alineación; algunos motores TTS informan mal los tiempos — la skill tiene modo resync

Alternativas

video-podcast-maker vs otros

AlternativaCuándo usarlaContrapartida
ElevenLabs StudioQuieres una UI SaaS pulidaCuesta más; menos automatización en el chat
NotebookLM Audio OverviewQuieres un resumen de audio de dos presentadores de una sola pasada desde cualquier fuenteSin video; menos control; solo en la nube

Más

Recursos

📖 Lee el README oficial en GitHub

🐙 Ver issues abiertas

🔍 Ver todos los 400+ servidores MCP y Skills