Исследователи обучают нейросети на древних текстах, чтобы воскресить мышление викингов и римлян. Однако эксперимент сталкивается с фундаментальной проблемой: история написана победителями, а алгоритмы – предвзятыми современниками.
Историческая наука стоит на пороге странного эксперимента. Исследователи из Университета штата Аризона (ASU) предложили концепцию HLLM (Historical Large Language Models) – исторических больших языковых моделей. Идея звучит как сценарий для научно-фантастического сериала: скормить нейросети все доступные тексты определённой эпохи, чтобы создать цифровых двойников людей прошлого.
Цель амбициозна: не просто чат-бот для развлечения, а инструмент психологической археологии. Учёные, возглавляемые профессором Майклом Э. У. Варнумом, предполагают использовать такие модели для симуляции социальных взаимодействий. Как повели бы себя персы при встрече со средневековыми европейцами? Чем закончились бы экономические переговоры между викингами и римлянами?
Однако статья, опубликованная в престижном журнале PNAS (Proceedings of the National Academy of Sciences), охлаждает пыл энтузиастов. Вместо машины времени мы рискуем получить кривое зеркало.
Ловушка элитарности
Главная проблема HLLM кроется в обучающей выборке. Нейросеть знает о прошлом только то, что сохранилось в документах. Но кто писал эти документы?
Исторические архивы – это, по сути, социальная сеть для избранных своего времени. До нас дошли голоса аристократов, придворных поэтов, монахов и философов. Голоса фермеров, ремесленников, рабов и большинства женщин растворились во времени.
Если вы попросите «исторический ИИ» смоделировать среднестатистического викинга, он выдаст вам образ ярла – знатного вождя, умеющего высекать руны и управлять землями. Он не сможет достоверно воспроизвести психологию крестьянина, который всю жизнь провёл на веслах драккара. Точно так же «средний римлянин» в исполнении нейросети будет рассуждать как Цицерон, а не как раб, чистящий отхожие места на Форуме.
Авторы исследования формулируют это с британской сдержанностью: «Обобщение данных моделей может быть затруднительным». На практике это означает, что мы пытаемся реконструировать мышление целой цивилизации, опираясь на записи 2% привилегированного населения.
ДНК программиста
Вторая проблема лежит не в прошлом, а в настоящем. Исследователи из Гентского университета (Бельгия) доказали неприятный факт: идеология создателей неизбежно просачивается в ответы нейросети.
Это происходит на всех этапах: от отбора данных и очистки корпуса текстов до настройки системных подсказок («промптов»). Когнитивные искажения ИИ – это не баг, а структурная особенность.
Представьте двух «цифровых викингов». Одного создала команда прогрессивных разработчиков из Кремниевой долины 2024 года, другого – консервативная группа из Техаса. Даже если они использовали одни и те же саги для обучения, на выходе получатся два совершенно разных персонажа. Разные фильтры безопасности и этические настройки создадут разные личности.
В итоге мы общаемся не с X веком. Мы взаимодействуем с проекцией XXI века, наряженной в исторический костюм. Это напоминает голопалубу из «Звездного пути»: реалистичная, но всё же иллюзия, созданная компьютером.
Научный инструмент или «алгоритмический гороскоп»?
Варнум и его коллеги признают, что пока HLLM находятся на стадии теоретического концепта . Остаётся открытым вопрос: станут ли эти модели серьёзным подспорьем для историков и психологов или останутся дорогой игрушкой для гиков?
Риск превращения технологии в генератор псевдонаучных мифов велик. Большие языковые модели, как показал опыт ChatGPT, умеют быть невероятно убедительными, даже когда откровенно лгут. Ответы «цифрового Юлия Цезаря» могут звучать правдоподобно, но не иметь ничего общего с реальной исторической психологией.
Тем не менее, эксперимент может оказаться полезным, но с неожиданной стороны. Возможно, «исторический ИИ» поможет нам лучше понять не людей прошлого, а нас самих. Анализируя, как мы моделируем предков, мы увидим, какие стереотипы и проекции накладываем на историю, принимая собственное эхо за голос веков.