Как поставить бесплатный голосовой ввод за 15 минут

Диктовать голосом для меня в 3–4 раза быстрее, чем печатать. Платные приложения вроде Wispr Flow и Superwhisper удобные, но берут деньги за интерфейс — а под капотом у них один и тот же бесплатный движок, Whisper от OpenAI. Его можно поставить локально на свой Mac за пару минут одним установщиком: бесплатно, приватно, аудио никуда не уходит — распознавание идёт прямо на чипе. Ниже — как его развернуть, какой Mac подойдёт и что делать, если что-то не встало.

Зачем это, если есть платные приложения

Печатаю я 40–60 слов в минуту, говорю — 130–150. Для длинных промптов с контекстом голос быстрее раза в три: вслух проще накидать «что хочу», чем выверять формулировку пальцами.

Готовые приложения голосового ввода на Mac работают по подписке: одно — около $8.49/мес, другое — около $12/мес. Под капотом у них всё равно крутится Whisper — открытая модель распознавания речи от OpenAI. Её можно поставить себе и не платить никому ежемесячно.

:::note Wispr Flow, Superwhisper, Whisper — в чём разница Я долго путалась в этих названиях, поэтому разложу.

Whisper — это сама модель распознавания речи, открытая, от OpenAI. Бесплатная, ставится локально. Это «движок» — то, что превращает звук в текст.
Wispr Flow / Superwhisper — платные приложения-обёртки. Внутри тот же Whisper (или похожий движок) + красивый интерфейс, горячие клавиши, авто-пунктуация, иногда облачная обработка. Платишь за удобство и упаковку, а не за само распознавание.

Так что если готова чуть настроить руками — берёшь движок напрямую и не платишь ежемесячно ни за что. Этим гайдом я как раз и беру. :::

Как работает локальный Whisper и почему это приватно

Когда я первый раз ставила это себе, у меня был вопрос: а куда вообще уходит мой голос? Разбираюсь.

Как работает. Модель Whisper запускается прямо на моём Mac — на чипе, через Metal (графику чипа), связку mlx. Цепочка простая: я жму хоткей и говорю → запись идёт с микрофона → модель локально превращает звук в текст → текст вставляется в активное окно. Интернет нужен ровно один раз — скачать модель (~1.5 ГБ). После этого всё работает офлайн, хоть в самолёте.

Почему это приватно. Аудио не загружается ни на какие чужие серверы. Нет аккаунта, нет входа, ничего не уходит в облако и не оседает у третьих лиц — звук рождается и умирает на моём ноуте. У облачных платных приложений голос летит на их серверы, чтобы там распознаться; здесь этого шага просто нет. Для меня это решает, когда диктую рабочие штуки или личные заметки, которые не хочется отправлять наружу.

:::tip Что получаете

0₽ после установки, без подписки.
Приватность — аудио обрабатывается локально на чипе Mac, в облако ничего не уходит.
Точность для русского — модель large-v3-turbo разбирает русский очень аккуратно.
Скорость — на Apple Silicon фраза распознаётся за ~0.3–0.5 секунды. :::

Установка через Claude Code

Если вы уже пользуетесь Claude Code, можно вообще не качать архив и не открывать установщик руками. Я даю Claude ссылку на свой репозиторий, и он ставит всё сам — мне остаётся только щёлкнуть те же две галочки разрешений.

Шаг 1. Откройте Claude Code

Прямо в проекте, где вам удобно.

Шаг 2. Дайте ему ссылку на репозиторий

Попросите установить голосовой ввод и киньте ссылку на репозиторий. Скопируйте и вставьте в чат Claude:

:::prompt Поставить голосовой ввод Поставь мне голосовой ввод из этого репозитория: https://github.com/LenaWhynot/mac-voice-input :::

Шаг 3. Подтвердите две галочки

Claude сам склонирует репозиторий и запустит установщик. В конце останутся те же две панели разрешений — Универсальный доступ (Accessibility) и Мониторинг ввода (Input Monitoring) — щёлкаете переключатель в каждой, и готово.

:::note Что вообще делает мой репозиторий Чтобы было понятно, за что вы дёргаете именно мою ссылку. Сам движок распознавания — не мой: это открытый проект Whisper-Skill от Mobiss11 (github.com/Mobiss11/Whisper-Skill). Мой GitHub — это упаковка вокруг него:

тянет движок-первоисточник Mobiss11 и скачивает модель;
накатывает мои доработки — горячую клавишу, вставку без пляски с раскладкой, иконку в меню-баре, автозапуск в фоне;
сам настраивает разрешения и конфиг.

То есть руками собирать ничего не надо: моя сборка берёт чужой движок как фундамент, добавляет мои правки и за вас всё настраивает. Спасибо автору движка — база его. :::

:::tip Готово — как пользоваться Тык правого Option (⌥) → говорите → ещё тык → текст печатается в активное окно (терминал, браузер, заметки, мессенджер). Первый запуск один раз скачает модель (~1.5 ГБ), дальше всё работает офлайн. :::

Установка вручную

Если Claude Code у вас нет — тот же установщик можно скачать архивом и запустить руками. Один файл ставит всё сам: скачивает движок, накатывает мои доработки, ставит модель и сам открывает окна с разрешениями. От вас — три действия.

:::fold Скачать установщик и три шага Скачать установщик

Исходники открыты — можно посмотреть, что внутри, и скачать оттуда же кнопкой Code → Download ZIP: github.com/LenaWhynot/mac-voice-input

Шаг 1. Скачайте установщик. Кнопкой выше (или ZIP из репозитория). Распакуйте архив — внутри папка с файлом install.command.

Шаг 2. Запустите. Двойной клик по install.command. Если macOS ругается «неизвестный разработчик» и не открывает — правый клик по файлу → Открыть → ещё раз Открыть в окошке. Дальше установщик всё делает сам: качает движок, накатывает доработки, ставит модель.

Шаг 3. Поставьте две галочки. В конце установщик сам откроет две панели разрешений и скопирует нужный путь в буфер — вам останется вставить его и щёлкнуть переключатель в каждой:

Универсальный доступ (Accessibility) — чтобы вставлять распознанный текст в активное окно.
Мониторинг ввода (Input Monitoring) — чтобы «слышать» нажатие горячей клавиши. :::

:::note Только Apple Silicon Установщик рассчитан на Mac с чипами Apple (M1 и новее) — связка mlx-whisper заточена под них. Если у вас Intel-Mac, способ выше не подойдёт — нужен другой бэкенд. :::

Как проверить, что работает (и что делать, если нет)

Когда установка прошла, проверка занимает полминуты.

Откройте любое текстовое поле — Заметки, строку браузера, мессенджер.
Тык по правому Option (⌥) — услышите звук, значит запись пошла.
Скажите фразу.
Тык по правому Option ещё раз — текст появился в поле. Работает.

Если текст не появился — пройдитесь по короткому чек-листу:

✓ Обе галочки разрешений стоят — и Accessibility, и Input Monitoring. Не одна, а обе.
✓ Выбран именно правый Option — левый не назначен.
✓ В меню-баре есть иконка 🎤 — из неё можно «Перезапустить», если что-то подвисло.
✓ Первый запуск качает модель (~1.5 ГБ) — если только что поставили, дайте ей докачаться, до этого распознавания не будет.

Что делать, если ничего не встало

Если на каком-то шаге всё застряло — вот частые причины и быстрые решения:

macOS не открывает установщик («неизвестный разработчик») → правый клик по файлу → Открыть → ещё раз Открыть в окошке.
Нет Homebrew → поставьте с brew.sh и запустите установку заново.
Ошибка про wheels / сборку при pip → нужен Python 3.12 или 3.13, не системный 3.14 — под него ещё нет готовых сборок.
Модель не качается → установщик берёт её с ModelScope (без лимитов Hugging Face), но если всё равно не идёт — включите VPN на момент первого запуска, дальше офлайн.
Клавиша не реагирует → почти всегда не выдан Input Monitoring — самая частая причина.
Текст не вставляется → проверьте Accessibility.
Запись «залипла» и не останавливается → тык по правому Option ещё раз, либо 🎤 в меню-баре → Перезапустить.

Кому это зайдёт

Тем, кто много вводит промпты и тексты голосом и не хочет платить за подписку каждый месяц. И тем, для кого важна приватность: аудио не должно уходить в облако.

Если печатаете мало и редко — проще поставить готовое приложение и не возиться. Маршрут выше для тех, кто хочет своё, бесплатно и локально.

А вы уже пробовали вводить голосом вместо печати? Зашло или вернулись к клавиатуре?

Читать в Telegram