[Видео] Развитие лингвистических сервисов. Как развивались приложения для перево?

10 мин.
[Видео] Развитие лингвистических сервисов. Как развивались приложения для перево?

Вопросы компьютерной лингвистики в современном сообществе стоят достаточно остро, учитывая огромные мировые информационные потоки, обмен которыми происходит ежедневно между людьми разных стран.

На нашей планете насчитывается более 5 млрд жителей, использующих свыше 3 000 языков. Мощный поток разноязычной информации, растущий в геометрической прогрессии, все сложнее контролировать и отслеживать, особенно когда доходит до поиска определенных сведений. Согласно статистическим данным, иногда поиск нужных сведений о разработке какого-либо химического соединения, и их перевод, требует настолько больших материальных и временных затрат, что дешевле получить синтез нового соединения, чем заниматься поиском его описания на других языках.

Видеоверсия

Профессиональный перевод

Профессиональный переводчик

Интерес к машинному переводу стремительно растет и является одним из центральных направлений по использованию информационных технологий в сфере лингвистики. Это обусловлено постоянно растущей потребностью современного сообщества в переводе огромного потока информации, различной по направленности и функциональному использованию.

В качестве примера можно взять документы международных организаций, нуждающиеся в обязательном переводе на языки всех стран участниц. В Европейском союзе состоит 27 государств, использующих на официальном уровне 24 языка. Мероприятия Евросоюза обеспечивают работой тысячи профессиональных переводчиков, что обходится в миллиарды евро.

Работа профессионального переводчика оценивается достаточно высоко, хотя скорость перевода человеком является очень медленной. Согласно нормативным правилам, указанным в Большом энциклопедическом словаре, на перевод авторского текста научно-технической тематики в 24 машинописные страницы выделяется 10 рабочих дней. С помощью компьютерных программ перевода это можно сделать за несколько секунд.

Несмотря на то, что качество машинного перевода намного уступает сделанному человеком, актуальность его использования очень высока, поскольку даже в таком виде он позволяет хорошо преодолевать языковые барьеры.


Рассмотрим некоторые общие понятия теории перевода

Перевод обычно понимается как деятельность, «в результате которой некоторый текст на одном языке, ставится в соответствие тексту на другом языке, при этом обеспечивается их смысловая эквивалентность». Следует отметить и многозначность понятия перевода: это одновременно, и процесс передачи содержания текста на одном языке средствами другого языка, и результат аналитической деятельности переводчика.

Machine vs Human Translation

В действительности, перевод следует рассматривать не только, как чисто языковую замену слов, а как весьма сложную разновидность интеллектуальной деятельности. Когнитивный феномен ее заключается в том, что в процессе перевода человеку приходится использовать не только лингвистические знания, но и понимать суть текста на исходном языке, чтобы с абсолютной достоверностью представить его на новом языке перевода.

Здесь необходим комплексный подход к процессу, объединяющий лингвистику, литературоведение, когнитивные науки и культурную антропологию. В частности, исследователи отмечают, что при переводе должны анализироваться не столько отдельные слова и последовательность их размещения, но и мыслительные образы, которые возникают в сознании человека при переводе.


Развитие лингвистических сервисов: Первые попытки

Мысль об использовании ЭВМ для перевода текстов не нова и появилась практически сразу с появлением первых компьютеров. Впервые машинный перевод нескольких фраз был продемонстрирован в 1954, и получил название Джорджтаунский эксперимент. Система перевода была предельно примитивна, использовала словарный запас в 250 слов и 6 грамматических правил. Но он положил начало более обширным исследованиям, начавшимся во многих других странах, включая СССР, Китай, Японию, Англию, Италию, Германию (ГДР и ФРГ).

Первые ЭВМ

В США в 1960-х были разработаны две оригинальные системы машинного перевода текстов. Однако созданная для их изучения и оценки комиссия сделала вывод, что качество переводных текстов является слишком низким, а сами системы малорентабельными и нуждающимися в более углубленной разработке. Такие заключения комиссии привели к снижению финансирования компьютерных проектов в сфере лингвистики, из-за чего многие программы пришлось свернуть.

Тем не менее, далеко не все страны отказались от исследований в данной сфере. Прогресс, наблюдавшийся в развитии вычислительной техники, привел, со временем, к появлению персональных компьютеров, в которых использовались более сложные программные задачи, ориентированные на использование языковых и словарных решений. С ростом международных связей усиливался интерес к машинному переводу и его совершенствованию.

Новый подъем в этой сфере наметился в середине 70-х годов, после чего наступила эра активных разработок переводческих систем, создаваемых для практического коммерческого рынка, которые уже на тот период ускоряли работу переводчиков в пять раз.


Машинный перевод

По данным Интернет-ресурсов, к встроенным системам перевода и сетевым онлайновым словарям ежедневно обращается более 1 миллиона пользователей, которых интересуют тексты самых разных форматов.

Система машинного перевода смоделирована по образу работы человека-переводчика, но во всех вышеперечисленных процессах задействован компьютер. Машинный перевод заключается в выполнении компьютером преобразования текста с одного естественного языка, в другой эквивалентный по содержанию текст.  

Машинный перевод

В целом процесс машинного перевода можно разбить на следующие этапы:

  1. ввод текста на исходном языке в компьютер;
  2. морфологический анализ слов и определение частей речи;  
  3. синтаксический анализ предложений в исходном тексте;
  4. семантический анализ, на основе которого создается общее представление о каждом предложении, независимо от языка;
  5. морфологический анализ каждого слова в структуре предложений;
  6. вывод текста на новом языке перевода.

В итоге, для полноценного функционирования систем машинного перевода, требуется идеальный симбиоз лингвистического, программного и информационного обеспечения.

Лингвистические словари

В качестве лингвистического обеспечения выступают словари, морфологические таблицы использования суффиксов и окончаний, базы грамматических правил и другие инструменты. К программному обеспечению можно отнести непосредственно программный код по выполнению перевода, использованию словарей и обширной базы данных. Информационное обеспечение состоит в подключении базы экстралингвистических знаний, исходя из предметной области переводимого текста.

Первыми в России системами машинного перевода были:

  •         Stylus – содержит большую словарную базу в разных информационных областях;
  •         Universal Translator – многоязычный сервис перевода;
  •         Socrat – система, дающая возможность переводить отсканированные документы с проверкой орфографии;
  •         Polyglossum – многоязычный сервис перевода с большим набором словарей;
  •         Promt – многоязычный сервис машинного перевода с большой библиотекой словарей в разных предметных сферах;
  •         WebTranSite – сервис перевода веб-страниц.

Машинный перевод входит в обширную структуру компьютерной лингвистики, занимающейся программным анализом различных языков, используемых в той или иной сфере. Этот раздел науки занимается разработкой программ и специальных приложений, направленных на усовершенствование качества машинного перевода, анализа языка, голосового ввода, поиска справочной информации и ее использования.


Компьютерная лингвистика в сфере переводов

Раздел науки, получивший название компьютерная лингвистика, является симбиозом лингвистики и практической вычислительной техники, где включены все инновационные разработки, связанные с применением компьютерных технологий для автоматического анализа в области языкознания. Другими словами, все наши самые популярные сервисы: OK, Google, VK, новостные поисковики – все является достижением компьютерной лингвистики. На данный период времени она остается наиболее быстро развивающейся наукой в сфере языкознания.

В Интернете на сегодня существует множество реализованных программ:

  •         по языковой обработке и анализу текста;
  •         по автоматической обработке текста;
  •         сервисы по преобразованию текста;
  •         сервисы обработки языков и инструменты машинного перевода;
  •         программы психолингвистики;
  •         поисковые системы.

Использование мультимедийных технологий широко применяется сегодня в системе обучения, что требует особого подхода к быстрому развитию компьютерной лингвистики.


Сервисы перевода

При проведении множества научных разработок без перевода сложно обойтись, при этом требования к нему предъявляются очень высокие. При защите диссертаций и написании работ для научных журналов требуется не только основной текст на родном языке автора, например, русском, но и точный, высококачественный английский перевод.

Онлайн переводчики

 

Использование современными технологиями искусственного интеллекта и нейросетей выводит машинный перевод на совершенно новый уровень. Ежегодно разработчиками создаются новые алгоритмы, все больше отвечающие запросам пользователей в контексте точности перевода.

Не следует ли ожидать, что уже в скором времени онлайн-перевод вытеснит живых специалистов?

В свое время по этому поводу руководитель сервиса Яндекс.Перевод, Алексей Байтин, сказал:

«Статистический машинный перевод нельзя сравнивать с литературным, сделанным профессиональным переводчиком. Но часто бывает, что пользователю нужно просто понять основной смысл текста…»

Каждый из нас прекрасно понимает, что онлайн-перевод может оказать неоценимую помощь, когда хочется узнать новость на каком-то иностранном сайте, прочитать отзыв или рецензию на недавно вышедший фильм или разобраться в инструкции. Большинство сервисов за считанные секунды переведут текст, чтобы пользователь мог понять его основной смысл. Именно для этого они и предназначены.

Для тех, кому нужны более точные и естественные переводы текстов для личного или корпоративного пользования, существуют специальные онлайн сервисы, где работают профессиональные переводчики. В их числе Nitro, Fiverr, Transneed и многие другие, где переводом занимаются носители языка.

Системы машинного перевода

Наивно рассчитывать, что машинный перевод будет абсолютно корректным и точным. Не следует забывать, что многие люди во время общения используют обсценную лексику, сленг, профессиональные термины, некоторые метафоры или неологизмы, которые ставят в тупик не только самые точные и продвинутые программы перевода, но и некоторых профессиональных переводчиков.

Современные системы машинного перевода построены на нескольких принципиально разных алгоритмах, в числе которых:

  •       rule-based – базирующийся на правилах, и использующийся в российской системе PROMT, французской SYSTRAN, немецкой Linguatec, и ряде других;
  •       statistical-based – статистический, используемый в Google Переводчике, Яндекс.Переводчике и ABBYY;
  •       neural machine translation – перевод с использованием нейронных сетей, представлен в DEEPL.

Но за последние годы все больше переводческих сервисов перешли на гибридные системы, сочетающие использование правил, статистики и нейронных сетей.

Рассмотрим наиболее популярные сервисы онлайн-перевода, которыми ежедневно пользуются миллионы людей.


Google Переводчик
[Официальный сайт]

Google TranslateСогласно представленным Википедией данным, к Google Переводчику ежедневно обращается порядка 500 миллионов человек. Большая языковая база делает его наиболее востребованным и универсальным по функциональным возможностям онлайн-переводчиком в сети Интернет. Ранее компания использовала собственное программное обеспечение, построенное на самообучаемом алгоритме машинного перевода, но с марта 2017 года движок сервиса был полностью переведен на нейросети, что повысило качество.

В числе преимуществ следует отметить:

  •       автоматическое определение языка;
  •       аудиоозвучивание текста;
  •       поддержка проверки правописания слов;
  •       предложение альтернативных вариантов перевода;
  •       функция редактирования;
  •       распознавание рукописного ввода;
  •       наличие мобильного приложения.

В числе недостатков можно отметить недостаточную точность перевода, особенно для редко используемых языков, который иногда может выглядеть абсурдно. Кроме того, имеется ограничение на размер вводимого текста, который не должен превышать 5000 символов.


Яндекс.Переводчик
[Официальный сайт]

Яндекс ПереводчикРоссийский аналог Google Переводчика, под названием Яндекс.Переводчик, стал достойным конкурентом американскому сервису. Оба программные решения схожи по используемым инструментам, где российские разработчики также предлагают:

  •       большой выбор языковых пар (97);
  •       автоматическое определение языка;
  •       аудиоозвучивание переводимого текста;
  •       поддержку проверки правописания слов;
  •       мобильное приложение;
  •       опцию определения слов по смысловой нагрузке текста;
  •       лимит вводимого текста составляет 10 000 символов (вдвое больше Google).

Среди недостатков можно выделить отсутствие распознавания рукописного текста и автоматического создания транскрипции текста. Программное обеспечение построено на самообучаемом алгоритме статистического машинного перевода и небольшие недостатки не влияют на возможность использования данного сервиса перевода, что уже успели оценить многие пользователи.


DeepL
[Официальный сайт]

DeepL TranslatorДостаточно новый сервис по переводу текстов DeepL был запущен в 2017 году и предоставляет возможность выполнять переводы текстов на 110 языков.

Бесплатно можно переводить тексты объемом до 5000 символов. Кого интересуют большие объемы, для коммерческих целей имеется платный сервис по подписке «DeepL Pro», не ограничивающий размер переводимого текста. Он был специально создан для профессиональных переводов в марте 2018 года. Кроме того, для IT- компаний и специалистов, занимающихся программными разработками, в нем представлен плагин SDL Trados Studio и инструменты CAT.

В числе преимуществ DeepL:

  •       большой выбор языковых пар;
  •       возможность обрабатывать документы в таких форматах, как .docx, .pptx;
  •       возможность перевода текстов больших объемов.

В числе преимуществ также следует отметить, что для своей работы сервис применяет сверточные нейронные сети, построенные на базе Linguee. Это позволяет получить наиболее качественный перевод последовательных словосочетаний большой длины, в то время, как ближайшие конкуренты предпочитают использовать менее продуктивные рекуррентные нейронные сети или машинный статистический перевод.

К недостаткам можно отнести ограничение на 5000 символов для бесплатного перевода, а базовая ежемесячная плата также включает определенный объем текста. При выходе за лимитные нормы пользователю придется оплачивать по количеству символов.


Bing Microsoft Translator
[Официальный сайт]

Bing Microsoft TranslatorАналогичный выше перечисленным по функциональности ресурсам сервис перевода с простым и интуитивно понятным интерфейсом. Пользователям от Big Translator не стоит ожидать углубленного анализа текста, однако он может предоставить:

  •       перевод текста на 69 языковых пар;
  •       поддержку  голосового ввода;
  •       автоматический режим определения языков;
  •       функцию редактирования.

В числе минусов следует отметить отсутствие работы с отдельными словами, а только с текстами, Кроме того, существует ограничение ввода лимитом в 5 000 символов.


PROMT
[Официальный сайт]

PROMT TrnslatorСервис PROject of Machine Translation – детище российского разработчика систем машинного перевода, сокращенно PROMT. Основным направлением фирмы является разработка технологических решений с помощью искусственного интеллекта для перевода неструктурированных специализированных текстов на разные языки. Но если вы слышали также названия Stylus и Translate.ru – то речь шла о сервисах этой же фирмы.

В качестве плюсов сервиса можно отметить:

  •       наличие 20 языковых пар в базе;
  •       проверку правописания слов;
  •       возможность оценить предлагаемый текст перевода;
  •       возможность указать тематическую направленность текста;
  •       автоматическое определение языка.

Определение тематической направленности позволяет более качественно осуществлять перевод, используя слова из отдельной области знаний.

Среди недостатков можно указать низкий лимит вводимого текста в 3 000 символов и отсутствие режима словаря, поскольку сервис работает только с текстами.  

Следует упомянуть, что в 2019 году руководитель PROMT, Светлана Соколова, была включена журналом «Собака.ру» в число самых выдающихся людей Петербурга.


Голосовые переводчики

Кто из нас не мечтал, оказавшись в другой стране, иметь на своем мобильном телефоне приложение для пользователей, дающее возможность без проблем переводить любой из языков мира. К счастью, на сегодня существует достаточно много мобильных приложений, скачав которые вы получаете персонального переводчика, практически бесплатно. Такие приложения легко распознают вашу речь и переведут ее на любой из указанных языков, на котором вам следует общаться. Сейчас доступно множество различных приложений, выполняющих голосовой перевод, у каждого из которых свои особенности функционирования. Для одних требуется подключение к интернету, для других нет. Рассмотрим наиболее популярные.

Speak & Translate

Приложение Speak & Translate имеет предельно простой интерфейс, рассчитанный на рядового пользователя, слабо разбирающегося в специфике компьютерных технологий и предназначено для работы на iOS-устройствах. Оно быстро определит голос человека и переведет на нужный язык, благодаря использованию фирменной технологии Apple по автоматическому распознаванию речи. Для голосового перевода доступно 54 языка. Имеется бесплатная версия переводчика, с ограниченным числом функций, и полная платная.


iTranslate Translator & Dictionary

Является одним из наиболее популярных сегодня и поддерживает свыше 100 языков. Он доступен, даже когда нет интернета, во время путешествия в разных уголках мира. Для отдельных языков возможно даже переключение между диалектами в процессе перевода. Имеется бесплатная версия приложения с ограниченной функциональностью. Использовать все доступные опции iTranslate можно только в платной версии.


Yandex.Translate

Пока Yandex.Translate несколько отстает по популярности от Google Переводчика, но с голосовым переводом с основных языков и автоопределением языка он справляется достаточно хорошо. К тому же он может работать без подключения к сети, если предварительно скачать его на свой смартфон.


Google Translate

Большинство пользователей сети знакомы с бесплатным голосовым переводчиком Google Translate, который предоставляет перевод текста в голосовом диалоговом формате, а также перевод видео. Это достаточно удобно, когда требуется узнать дорогу в период путешествия по незнакомой стране.


SayHi Translate

Достаточно простой голосовой переводчик, настройки которого дают возможность пользователю выбрать любые функции перевода, включая автоматический. Что удивительно, приложение не содержит рекламу – весьма редкий фактор в наше время.


Voice Translator

Сравнительно новый сервис голосового перевода, причем пользоваться приложением можно совершенно бесплатно. Программа предлагает множество языков и удобный интерфейс, а также может сохранять истории ваших переводов.


Microsoft Translator

Переводчик, предлагаемый компанией Майкрософт, поддерживает 50 языковых пар, предоставляя голосовые переводы исключительно в онлайн-режиме. Для диалога на иностранном языке следует нажать на значок с изображением микрофона, проговорив самому фразу или если требуется перевод слов собеседника.


Подводя итоги

Безусловно, голосовые переводчики дают большие преимущества пользователям, однако очень маленький процент из них может работать без интернет-сети. Поэтому, отправляясь в путешествие, следует позаботиться о загрузке приложения, которое сможет работать офлайн, если в какой-то местности не будет доступа к Wi-Fi.

Современные технологии перевода в разы упростили общение между людьми, позволив легко адаптироваться в любой из стран, даже без знания языка. Это оказалось полезно не только туристам, но и представителям бизнеса, хотя для последних знание языка партнеров будет весьма целесообразно.

Мы в Telegram, на Дзен, в Google News и YouTube