VoiceMode MCP — Установка & Живое демо

Зачем использовать

Ключевые функции

Локальный Whisper — без отправки аудио в облако
Несколько TTS-бэкендов: OpenAI, ElevenLabs, локальный Coqui
Режимы push-to-talk и активации по голосу
Стримит частичные ответы — вы слышите, как Claude думает
Работает в терминале рядом с Claude Code CLI

Живое демо

Как выглядит на практике

voicemode-mcp.replay ▶ готово

0/0

Установка

Выберите клиент

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Откройте Claude Desktop → Settings → Developer → Edit Config. Перезапустите после сохранения.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor использует ту же схему mcpServers, что и Claude Desktop. Конфиг проекта приоритетнее глобального.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Щёлкните значок MCP Servers на боковой панели Cline, затем "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Тот же формат, что и Claude Desktop. Перезапустите Windsurf для применения.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue использует массив объектов серверов, а не map.

~/.config/zed/settings.json

{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

Добавьте в context_servers. Zed перезагружается автоматически.

claude mcp add voicemode-mcp -- uvx voice-mode

Однострочная команда. Проверить: claude mcp list. Удалить: claude mcp remove.

Сценарии использования

Реальные сценарии: VoiceMode

Вести сессию Claude Code без рук, читая документ на другом экране

👤 Разработчики, читающие доки или дизайн на одном мониторе во время кодинга ⏱ ~30 min intermediate

Когда использовать: Вы читаете дизайн-документ и хотите диктовать изменения без переключения окон.

Предварительные требования

Микрофон + динамики — Настройте системный звук — проверьте командой say "hello" или аналогом
Модель Whisper готова — voice-mode install-whisper скачивает локальную модель

Поток

Запустить голосовой режим

Use voicemode. Listen for prompts and speak responses. Repeat after me: "ready"✓ Скопировано

→ TTS воспроизводит «ready»
Продиктовать изменение

[spoken] Update src/auth.ts — use bcrypt instead of plain SHA256 for passwords.✓ Скопировано

→ Транскрипция корректна; изменение применено; TTS подтверждает
Ревью

[spoken] Read me the diff.✓ Скопировано

→ TTS читает дифф по частям, с паузами

Итог: Рабочая сессия, где ваши руки не отрываются от того, чем занимались.

Подводные камни

TTS перебивает ваши промпты — Включите режим push-to-talk или wake-слово

Сочетать с: filesystem

Кодировать голосом для доступности или восстановления после RSI

👤 Разработчики с RSI, слабым зрением или предпочитающие голосовой ввод ⏱ ~60 min intermediate

Когда использовать: Вы не можете какое-то время печатать, но нужно продолжать работу.

Предварительные требования

Терпимый фоновый шум — Тихое помещение; гарнитурный микрофон лучше встроенного ноутбука

Поток

Базовая проверка

[spoken] Use voicemode. Read the latest git diff out loud, pausing between files.✓ Скопировано

→ Чёткое воспроизведение через TTS
Рабочий флоу

[spoken] Refactor the user model in src/models/user.ts. Move password hashing into a method. Show me the plan first.✓ Скопировано

→ План озвучен; перед изменениями нужно подтверждение

Итог: Полноценная сессия кодирования без ввода с клавиатуры.

Подводные камни

TTS неправильно произносит символы кода — Настройте фонемный словарь TTS для распространённых программных терминов

Комбинации

Сочетайте с другими MCP — эффект x10

voicemode-mcp + filesystem

Продиктованные изменения кода попадают в репозиторий

I'll dictate changes; apply them in files after reading each back.✓ Скопировано

voicemode-mcp + github

Продиктовать описание PR после голосового ревью диффа

Read me the staged changes, then open a PR with a description I'll dictate.✓ Скопировано

Инструменты

Что предоставляет этот MCP

Инструмент	Входные данные	Когда вызывать	Стоимость
start_listening	mode: "ptt"\|"vad"	Начать голосовую сессию	free or OpenAI Whisper API
speak	text: str, voice?: str	Всякий раз, когда Claude хочет сообщить что-то голосом	TTS provider-dependent
transcribe_last	none	Получить транскрипт последней реплики пользователя	Whisper call
stop_listening	none	Завершить голосовую сессию	free

Стоимость и лимиты

Во что обходится

Квота API: Локально: бесплатно. OpenAI Whisper: $0.006/мин. ElevenLabs TTS: ~$0.30/1k символов.
Токенов на вызов: Аудиопайплайны не тарифицируются в токенах напрямую
Деньги: Бесплатно при локальном стеке; с тарификацией при облачных провайдерах
Совет: Локальный Whisper + Coqui TTS полностью бесплатны, но качество ниже — начните с облака, потом перейдите на локальный

Безопасность

Права, секреты, радиус поражения

Минимальные скоупы: microphone speakers

Хранение учётных данных: API-ключи TTS/STT в переменных окружения

Исходящий трафик: Голосовое аудио отправляется TTS/STT-провайдеру, если не локально

Никогда не используйте облачный STT в звонках с конфиденциальным аудио, если не доверяете политике хранения данных провайдера

Устранение неполадок

Частые ошибки и исправления

Микрофон не обнаружен

Разрешение на аудио в системе — дайте доступ к микрофону терминалу/Claude Code

Проверить: `voice-mode test-mic` prints levels

TTS звучит роботообразно

По умолчанию используется локальный Coqui — переключитесь на OpenAI tts-1-hd через VOICE_MODE_TTS=openai

Задержка между речью и ответом

Используйте локальный Whisper-tiny для STT; облако добавляет 500мс+

Альтернативы

VoiceMode в сравнении

Альтернатива	Когда использовать	Компромисс
macOS Dictation + say command	Нужен базовый голосовой ввод уровня ОС	Нет интеграции с выводом Claude — только в одну сторону
Superwhisper / Wispr Flow	Хотите отполированное нативное macOS-приложение для диктовки	Не интегрировано с MCP; нет агентных воркфлоу

Ещё

Ресурсы

📖 Читать официальный README на GitHub

🐙 Открытые задачи

🔍 Все 400+ MCP-серверов и Skills