video-podcast-maker (Claude Skill) — Instalar & Demo en vivo

Por qué usarlo

Características clave

Redacción del guión con arco conversacional de dos presentadores
6 motores TTS: Edge / Azure / OpenAI / ElevenLabs / etc. — elige por calidad/coste
Multi-idioma: zh-CN y en-US de primera clase
Montaje automático: alinea pistas de voz con visuales + intro/outro
Helpers de subida directa para Bilibili / YouTube

Demo en vivo

Cómo se ve en la práctica

listo

Instalar

Elige tu cliente

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Abre Claude Desktop → Settings → Developer → Edit Config. Reinicia después de guardar.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Cursor usa el mismo esquema mcpServers que Claude Desktop. La configuración del proyecto prevalece sobre la global.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Haz clic en el icono MCP Servers de la barra lateral de Cline y luego en "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "video-podcast-maker-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ],
      "_inferred": true
    }
  }
}

Mismo formato que Claude Desktop. Reinicia Windsurf para aplicar.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "video-podcast-maker-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/Agents365-ai/video-podcast-maker",
        "~/.claude/skills/video-podcast-maker"
      ]
    }
  ]
}

Continue usa un array de objetos de servidor en lugar de un mapa.

~/.config/zed/settings.json

{
  "context_servers": {
    "video-podcast-maker-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/Agents365-ai/video-podcast-maker",
          "~/.claude/skills/video-podcast-maker"
        ]
      }
    }
  }
}

Añádelo a context_servers. Zed recarga en caliente al guardar.

claude mcp add video-podcast-maker-skill -- git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker

Un solo comando. Verifica con claude mcp list. Quita con claude mcp remove.

Casos de uso

Usos del mundo real: video-podcast-maker

Convertir una publicación de blog en un video al estilo podcast

👤 Creadores de contenido que reutilizan trabajo escrito ⏱ ~60 min intermediate

Cuándo usarlo: Tienes un post largo y quieres un video de 10 minutos para subir a YouTube/B站.

Requisitos previos

Skill instalada — git clone https://github.com/Agents365-ai/video-podcast-maker ~/.claude/skills/video-podcast-maker
Credenciales del motor TTS — Define la variable de entorno para el motor que elijas (ej. AZURE_TTS_KEY)

Flujo

Generar el guión

Use video-podcast-maker. From post.md, write a two-host script (10 min) in en-US. Hosts: Alice (analytical), Bob (curious).✓ Copiado

→ Guión turno a turno con líneas de Alice/Bob
Renderizar las voces

Render with Azure TTS — Alice: en-US-JennyNeural, Bob: en-US-GuyNeural.✓ Copiado

→ Dos pistas MP3; metadatos de alineación
Montar

Assemble video: title card, b-roll keywords from script, host avatars, captions.✓ Copiado

→ MP4 listo, 1920×1080
Subir

Push to YouTube as unlisted with description + tags from the script.✓ Copiado

→ URL de YouTube

Resultado: Video podcast pulido a partir de un post largo en menos de una hora.

Errores comunes

La pronunciación del TTS es incorrecta en términos técnicos — Pre-marca las palabras complicadas en el guión con pistas fonéticas; soportado por la mayoría de motores

Combinar con: humanizer-skill

Ejecutar un podcast semanal sobre un tema con presentadores consistentes

👤 Creadores de nicho con cadencia de publicación ⏱ ~45 min advanced

Cuándo usarlo: Quieres un podcast semanal del viernes sobre IA/Web3/lo que sea — automatizado.

Flujo

Definir las personas

Set host personas: Alice (skeptic), Bob (enthusiast). Save as default.✓ Copiado

→ Archivo de personas guardado
Obtener las noticias de la semana

Use video-podcast-maker. Pull this week's top 5 stories on <topic> from RSS feeds. Generate the script.✓ Copiado

→ Guión con 5 segmentos
Renderizar y publicar

Render and publish to YouTube + Bilibili at Friday 9am.✓ Copiado

→ Ambas plataformas tienen el episodio

Resultado: Contenido semanal consistente; esfuerzo casi nulo por episodio.

Errores comunes

Las voces de IA suenan igual después de algunos episodios — Rota las personas; varía el motor; añade sintonías de intro reales

Combinar con: duckduckgo-mcp

Localizar un podcast en inglés al chino (o viceversa)

👤 Creadores que atienden audiencias en varios idiomas ⏱ ~50 min intermediate

Cuándo usarlo: Tienes un podcast en inglés y quieres una versión en chino para B站 con voces nativas.

Flujo

Traducir el guión

Use video-podcast-maker. Translate script from en-US to zh-CN preserving the conversational tone.✓ Copiado

→ Guión en zh-CN con adaptación cultural, no literal
Renderizar con voces nativas

Render with zh-CN voices (e.g. Azure XiaoxiaoNeural + YunxiNeural).✓ Copiado

→ Audio de calidad nativa
Remontar y subir a Bilibili

Use the same b-roll; new audio; new captions in zh-CN. Upload to B站.✓ Copiado

→ URL de B站

Resultado: Versión en otro idioma auténtica, no una cinta de traducción.

Errores comunes

La traducción directa pierde los modismos — La skill está configurada para adaptar culturalmente; revisa los chistes/referencias manualmente

Combinaciones

Combínalo con otros MCPs para multiplicar por 10

video-podcast-maker-skill + humanizer-skill

Eliminar señales de IA de los guiones generados

Run humanizer on the script before TTS — sound less generated, more conversational.✓ Copiado

video-podcast-maker-skill + duckduckgo-mcp

Obtener noticias frescas para el guión

Search latest <topic> stories; feed top 5 into make_script.✓ Copiado

Herramientas

Lo que expone este MCP

Herramienta	Entradas	Cuándo llamar	Coste
make_script	source_text, hosts, length_min, language	Paso 1 — redacción del guión	LLM tokens
render_tts	script, engine, voices	Después de aprobar el guión	TTS engine quota / $
assemble_video	audio_tracks, b_roll_keywords, theme	Montaje final	Local CPU/GPU
publish	platform, mp4_path, metadata	Subir a YouTube / Bilibili	0
translate_script	script, target_language	Paso de localización	LLM tokens

Coste y límites

Lo que cuesta ejecutarlo

Cuota de API: Los motores TTS tienen límites por carácter; el nivel gratuito de Azure ~500k caracteres/mes
Tokens por llamada: Guión ~3k–6k tokens; el montaje es local
Monetario: Skill gratuita; paga por motor TTS + LLM
Consejo: Usa Edge TTS (gratuito) para borradores; Azure/ElevenLabs solo para producción

Seguridad

Permisos, secretos, alcance

Ámbitos mínimos: filesystem-write (output)

Almacenamiento de credenciales: Claves API de motores mediante variables de entorno; tokens de YouTube/Bilibili en archivo de secretos

Salida de datos: Motores TTS, proveedor LLM, plataformas destino

No conceder nunca: Tokens OAuth públicos que puedan publicar en tu canal sin confirmación

Las funciones de clonación de voz (si están activadas) plantean problemas de consentimiento — solo clona con permiso explícito

Resolución de problemas

Errores comunes y soluciones

El TTS trunca líneas largas

La mayoría de motores limitan las líneas a ~250 caracteres; la skill divide automáticamente pero verifica las frases largas

Deriva de audio en renderizados largos

Renderiza en fragmentos, concatena con crossfade — la skill hace esto por defecto para más de 5 min

La subida a B站 falla

Verifica las cookies en el archivo de secretos; B站 a veces requiere volver a iniciar sesión

Los subtítulos están desincronizados

Vuelve a ejecutar la alineación; algunos motores TTS informan mal los tiempos — la skill tiene modo resync

Alternativas

video-podcast-maker vs otros

Alternativa	Cuándo usarla	Contrapartida
ElevenLabs Studio	Quieres una UI SaaS pulida	Cuesta más; menos automatización en el chat
NotebookLM Audio Overview	Quieres un resumen de audio de dos presentadores de una sola pasada desde cualquier fuente	Sin video; menos control; solo en la nube

Más

Recursos

📖 Lee el README oficial en GitHub

🐙 Ver issues abiertas

🔍 Ver todos los 400+ servidores MCP y Skills