Большая часть текстового контента в интернете – это некачественный машинный перевод

Его доля уже составляет больше 50%

1 мин.
Большая часть текстового контента в интернете – это некачественный машинный перевод
Photo by Romain Vignes / Unsplash

В ходе исследования, которое недавно было проведено лабораторией искусственного интеллекта Amazon Web Services (AWS AI Lab), выяснилось, что большая часть текстового контента в интернете, в особенности на языках, распространённых на африканском континенте и в государствах Глобального Юга, состоит из текстов, которые были предварительно переведены с помощью машинного перевода.

Как заявили аналитики, около 50% предложений в интернете сейчас переведены на два и более языков, зачастую с ошибками из-за того, что для перевода используются различные соответствующие программы. Именно это на данный момент вызывает опасения у экспертов по поводу перспектив обучения больших языковых моделей.

В компании AWS подчеркнули, что интерес к этой проблеме возник после того, как специалисты корпорации Amazon, работающие в сфере машинного перевода и являющиеся носителями различных редких языков, заявили об огромном количестве контента на их родных языках, который явно был создан с использованием программ для машинного перевода.

В процессе проведения исследовательской работы аналитики проанализировали 6,38 млрд предложений, которые были собраны из различных сайтов в интернете. В итоге выяснилось, что 57,1% предложений были переведены машинным способом на три и более языков. В особенности это относится к языкам, которые говорят на американском континенте. В регионах мира со слабо развитым киберпространством наблюдаются сравнительно малые объёмы контента, и это становится причиной использования некачественного перевода с английского и других распространённых языков.

Специалисты также в результатах своего исследования заявили о том, что при машинном переводе пользователи используют короткие предложения для составления низкокачественных статей. Это объясняется желанием недобросовестных владельцев различных интернет-ресурсов получать рекламный доход благодаря массовым переводам на малораспространённые языки. Подобная деятельность ставит вопросы о создании больших языковых моделей на этих малораспространённых языках.

В исследовании Amazon Web Services также указали, что современный искусственный интеллект нуждается в больших объёмах обучающих данных. И наличие подобных проблем с качеством и точностью машинного перевода с высокой долей вероятности приведёт к созданию неграмотных больших языковых моделей, которые будут допускать всевозможные ошибки.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube