Яндекс займётся разработкой единой нейросети для речи и текста

Компания «Яндекс» начала искать сотрудников для разработки мультимодальной модели SpeechGPT. Её основным функционалом станет восприятие текста и звука, а также выдача ответов пользователю с их помощью.

Аналитики отмечают, что имеющиеся у «Яндекс» нейросетевые сервисы уже способны обрабатывать тексты и речь. Однако на данный момент процесс осуществляется с преобразованием данных из одного вида в другой за счёт применения. Мультимодальные сети, по словам экспертов, будут способны улавливать детали, теряющиеся при конвертации, к примеру сарказм и эмоции, сообщает издание «Коммерсант».

Насколько стало известно журналистам, компания «Яндекс» уже занялась разработкой ещё не анонсированной нейросетевой модели SpeechGPT. Сейчас активно идёт найм соответствующих специалистов в команду. Разговор в этом случае ведётся о мультимодальной модели, способной выполнять обработку различных видов вводных данных, умеющей воспринимать текст и звук, отвечать звуком и текстом, а также решать различные задачи на стыке текста и звука. Представитель «Яндекса» рассказал, что на данный момент ведётся работа над мультимодальностью в ассистенте «Алиса» и иных сервисах, но новости про SpeechGPT комментировать не стал.

Кирилл Петров, сооснователь Just AI, рассказал, что между мультимодальным пользовательским опытом и мультимодальностью самой системы есть большая разница. В первой ситуации часто выполняется перевод данных из одного вида в другой. К примеру, если взаимодействовать с голосовым ассистентом, то одна модель сначала преобразовывает речь в текст, затем этот текст анализируется ещё одной моделью, а третья модель уже преобразовывает текст ответа в речь. В результате на каждом шаге такого анализа выполняется упрощение, а сама обработка занимает сравнительно много времени. При этом применение мультимодальных моделей, каковой сейчас является, например, GPT-4 от OpenAI, позволяет учесть весь контент и выдать ответ без задержек.

Кирилл Петров также указал на то, что «Яндексу» сейчас необходимо ввести разработку в этой сфере, потому что в подобных технологиях заключается будущее развитие искусственного интеллекта и ассистентов, в том числе и «Алисы».

Дмитрий Дырмовский, гендиректор группы компаний ЦРТ, заявил, что мультимодальные модели с поддержкой аудио могут распознавать речь на нескольких языках, разделять реплики спикеров, выявлять эмоции и сложные невербальные приёмы.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Яндекс займётся разработкой единой нейросети для речи и текста

Кирилл Поляков

Quake-подобная игра, созданная на JavaScript, занимает всего 13 КБ памяти

iPhone 16 Pro может побить рекорд по тонкости рамки на смартфонах