Apple вывела голосовые технологии на новый уровень с выпуском iOS 26 и macOS Tahoe, представив API, которые преобразуют речь в текст быстрее, чем любые другие доступные решения.
Как сообщает обозреватель MacStories Джон Вурхис, обновлённые инструменты показали выдающиеся результаты уже на этапе бета-тестирования.
Новые компоненты системы, SpeechAnalyzer и SpeechTranscriber, интегрированы в приложения, связанные с записью и транскрипцией аудио. Примерно то же самое было реализовано в «Заметках» и «Диктофоне», а также в функции записи телефонных разговоров в iOS 18.1. С их помощью Apple смогла ускорить обработку голосовых данных до ранее недостижимого уровня.
Джон Вурхис отметил, что 34-минутное видео объёмом 7 ГБ было обработано всего за 45 секунд через терминальный интерфейс Yap, написанный его сыном Финном. Для сравнения, одна из последних моделей OpenAI, MacWhisper Large V3 Turbo, затратила на ту же задачу 1 минуту 41 секунду, а более ранние решения вроде VidCap и MacWhisper V2 отставали ещё сильнее.
Главным преимуществом оказался полный отказ от облачных вычислений. Обработка выполняется локально — прямо на устройстве, что исключает задержки, связанные с загрузкой файлов и передачей данных по сети. Именно этот подход даёт iPhone и Mac ощутимое ускорение и экономит время при массовой транскрипции материалов.
Хотя в случае одного файла разница может показаться несущественной, при регулярной работе с лекциями, подкастами или видеоконтентом локальная скорость обработки становится решающим фактором. Новый инструментарий особенно востребован в сфере создания субтитров и автоматизации архивирования звуковых материалов.