Диктовать голосом для меня в 3–4 раза быстрее, чем печатать. Платные приложения вроде Wispr Flow и Superwhisper удобные, но берут деньги за интерфейс — а под капотом у них один и тот же бесплатный движок, Whisper от OpenAI. Его можно поставить локально на свой Mac за пару минут одним установщиком: бесплатно, приватно, аудио никуда не уходит — распознавание идёт прямо на чипе. Ниже — как его развернуть, какой Mac подойдёт и что делать, если что-то не встало.
Зачем это, если есть платные приложения
Печатаю я 40–60 слов в минуту, говорю — 130–150. Для длинных промптов с контекстом голос быстрее раза в три: вслух проще накидать «что хочу», чем выверять формулировку пальцами.
Готовые приложения голосового ввода на Mac работают по подписке: одно — около $8.49/мес, другое — около $12/мес. Под капотом у них всё равно крутится Whisper — открытая модель распознавания речи от OpenAI. Её можно поставить себе и не платить никому ежемесячно.
:::note Wispr Flow, Superwhisper, Whisper — в чём разница Я долго путалась в этих названиях, поэтому разложу.
- Whisper — это сама модель распознавания речи, открытая, от OpenAI. Бесплатная, ставится локально. Это «движок» — то, что превращает звук в текст.
- Wispr Flow / Superwhisper — платные приложения-обёртки. Внутри тот же Whisper (или похожий движок) + красивый интерфейс, горячие клавиши, авто-пунктуация, иногда облачная обработка. Платишь за удобство и упаковку, а не за само распознавание.
Так что если готова чуть настроить руками — берёшь движок напрямую и не платишь ежемесячно ни за что. Этим гайдом я как раз и беру. :::
Как работает локальный Whisper и почему это приватно
Когда я первый раз ставила это себе, у меня был вопрос: а куда вообще уходит мой голос? Разбираюсь.
Как работает. Модель Whisper запускается прямо на моём Mac — на чипе, через Metal (графику чипа), связку mlx. Цепочка простая: я жму хоткей и говорю → запись идёт с микрофона → модель локально превращает звук в текст → текст вставляется в активное окно. Интернет нужен ровно один раз — скачать модель (~1.5 ГБ). После этого всё работает офлайн, хоть в самолёте.
Почему это приватно. Аудио не загружается ни на какие чужие серверы. Нет аккаунта, нет входа, ничего не уходит в облако и не оседает у третьих лиц — звук рождается и умирает на моём ноуте. У облачных платных приложений голос летит на их серверы, чтобы там распознаться; здесь этого шага просто нет. Для меня это решает, когда диктую рабочие штуки или личные заметки, которые не хочется отправлять наружу.
:::tip Что получаете
- 0₽ после установки, без подписки.
- Приватность — аудио обрабатывается локально на чипе Mac, в облако ничего не уходит.
- Точность для русского — модель large-v3-turbo разбирает русский очень аккуратно.
- Скорость — на Apple Silicon фраза распознаётся за ~0.3–0.5 секунды. :::
Установка через Claude Code
Если вы уже пользуетесь Claude Code, можно вообще не качать архив и не открывать установщик руками. Я даю Claude ссылку на свой репозиторий, и он ставит всё сам — мне остаётся только щёлкнуть те же две галочки разрешений.
Шаг 1. Откройте Claude Code
Прямо в проекте, где вам удобно.
Шаг 2. Дайте ему ссылку на репозиторий
Попросите установить голосовой ввод и киньте ссылку на репозиторий. Скопируйте и вставьте в чат Claude:
:::prompt Поставить голосовой ввод Поставь мне голосовой ввод из этого репозитория: https://github.com/LenaWhynot/mac-voice-input :::
Шаг 3. Подтвердите две галочки
Claude сам склонирует репозиторий и запустит установщик. В конце останутся те же две панели разрешений — Универсальный доступ (Accessibility) и Мониторинг ввода (Input Monitoring) — щёлкаете переключатель в каждой, и готово.
:::note Что вообще делает мой репозиторий Чтобы было понятно, за что вы дёргаете именно мою ссылку. Сам движок распознавания — не мой: это открытый проект Whisper-Skill от Mobiss11 (github.com/Mobiss11/Whisper-Skill). Мой GitHub — это упаковка вокруг него:
- тянет движок-первоисточник Mobiss11 и скачивает модель;
- накатывает мои доработки — горячую клавишу, вставку без пляски с раскладкой, иконку в меню-баре, автозапуск в фоне;
- сам настраивает разрешения и конфиг.
То есть руками собирать ничего не надо: моя сборка берёт чужой движок как фундамент, добавляет мои правки и за вас всё настраивает. Спасибо автору движка — база его. :::
:::tip Готово — как пользоваться Тык правого Option (⌥) → говорите → ещё тык → текст печатается в активное окно (терминал, браузер, заметки, мессенджер). Первый запуск один раз скачает модель (~1.5 ГБ), дальше всё работает офлайн. :::
Установка вручную
Если Claude Code у вас нет — тот же установщик можно скачать архивом и запустить руками. Один файл ставит всё сам: скачивает движок, накатывает мои доработки, ставит модель и сам открывает окна с разрешениями. От вас — три действия.
:::fold Скачать установщик и три шага Скачать установщик
Исходники открыты — можно посмотреть, что внутри, и скачать оттуда же кнопкой Code → Download ZIP: github.com/LenaWhynot/mac-voice-input
Шаг 1. Скачайте установщик. Кнопкой выше (или ZIP из репозитория). Распакуйте архив — внутри папка с файлом install.command.
Шаг 2. Запустите. Двойной клик по install.command. Если macOS ругается «неизвестный разработчик» и не открывает — правый клик по файлу → Открыть → ещё раз Открыть в окошке. Дальше установщик всё делает сам: качает движок, накатывает доработки, ставит модель.
Шаг 3. Поставьте две галочки. В конце установщик сам откроет две панели разрешений и скопирует нужный путь в буфер — вам останется вставить его и щёлкнуть переключатель в каждой:
- Универсальный доступ (Accessibility) — чтобы вставлять распознанный текст в активное окно.
- Мониторинг ввода (Input Monitoring) — чтобы «слышать» нажатие горячей клавиши. :::
:::note Только Apple Silicon Установщик рассчитан на Mac с чипами Apple (M1 и новее) — связка mlx-whisper заточена под них. Если у вас Intel-Mac, способ выше не подойдёт — нужен другой бэкенд. :::
Как проверить, что работает (и что делать, если нет)
Когда установка прошла, проверка занимает полминуты.
- Откройте любое текстовое поле — Заметки, строку браузера, мессенджер.
- Тык по правому Option (⌥) — услышите звук, значит запись пошла.
- Скажите фразу.
- Тык по правому Option ещё раз — текст появился в поле. Работает.
Если текст не появился — пройдитесь по короткому чек-листу:
- ✓ Обе галочки разрешений стоят — и Accessibility, и Input Monitoring. Не одна, а обе.
- ✓ Выбран именно правый Option — левый не назначен.
- ✓ В меню-баре есть иконка 🎤 — из неё можно «Перезапустить», если что-то подвисло.
- ✓ Первый запуск качает модель (~1.5 ГБ) — если только что поставили, дайте ей докачаться, до этого распознавания не будет.
Что делать, если ничего не встало
Если на каком-то шаге всё застряло — вот частые причины и быстрые решения:
- macOS не открывает установщик («неизвестный разработчик») → правый клик по файлу → Открыть → ещё раз Открыть в окошке.
- Нет Homebrew → поставьте с brew.sh и запустите установку заново.
- Ошибка про wheels / сборку при
pip→ нужен Python 3.12 или 3.13, не системный 3.14 — под него ещё нет готовых сборок. - Модель не качается → установщик берёт её с ModelScope (без лимитов Hugging Face), но если всё равно не идёт — включите VPN на момент первого запуска, дальше офлайн.
- Клавиша не реагирует → почти всегда не выдан Input Monitoring — самая частая причина.
- Текст не вставляется → проверьте Accessibility.
- Запись «залипла» и не останавливается → тык по правому Option ещё раз, либо 🎤 в меню-баре → Перезапустить.
Кому это зайдёт
Тем, кто много вводит промпты и тексты голосом и не хочет платить за подписку каждый месяц. И тем, для кого важна приватность: аудио не должно уходить в облако.
Если печатаете мало и редко — проще поставить готовое приложение и не возиться. Маршрут выше для тех, кто хочет своё, бесплатно и локально.
А вы уже пробовали вводить голосом вместо печати? Зашло или вернулись к клавиатуре?
