Корейские исследователи из KAIST вместе с Microsoft Research предложили способ проверить, насколько крупные языковые модели вообще понимают, что такое «вчера», «год назад» и «сейчас», а не отвечают по старой памяти. Это должно снизить риск опасных ошибок в сферах вроде медицины и права, где устаревший факт может стоить очень дорого.
В чём проблема «временных ошибок»
Один из типичных сбоев современных чат-ботов – ситуации, когда модель даёт формально правдоподобный ответ, но как будто живёт в другом году. В статье этот эффект иллюстрируют вопросом о министре, вступившем в должность «в прошлом месяце»: модель может назвать человека, который занимал пост год назад, и внешне это выглядит вполне убедительно.
Такие «временные галлюцинации» особенно опасны там, где данные быстро устаревают: в протоколах лечения, юридической практике, регуляторных нормах, кадровых назначениях. При этом классические бенчмарки для моделей в основном проверяют, совпадает ли ответ с эталоном, а не то, правильно ли нейросеть оперирует временными связями и обновлением фактов.
Как в игру вошли временные базы данных
Команда под руководством профессора Стивена Хвана решила перенести в оценку ИИ подходы из теории временных баз данных, которые развивают уже около сорока лет. Идея в том, чтобы использовать структуру данных с явным временем действия фактов и автоматически порождать сложные вопросы прямо из этой базы.
Система строит из базы 13 типов задач, связанных со временем: от простых запросов вида «кто занимает пост сейчас» до сценариев с периодами действия, перекрывающимися интервалами и изменением контекста. Человеческое участие в составлении самих вопросов и ответов практически не требуется – всё генерируется и проверяется автоматически на основе зафиксированных во времени записей.
Такой подход радикально сокращает ручную работу: при обновлении информации в базе обновляются и тесты, и эталоны ответов, и критерии проверки. Это позволяет поддерживать актуальность оценки без постоянного участия экспертов, которые раньше вынуждены были переписывать бенчмарки под новые реалии.
Как измеряют «чувство времени» у моделей
Авторы пошли дальше простой проверки «правильно/неправильно» и предложили дополнительный показатель, который оценивает логическую корректность именно временной части ответа. Модель фактически проверяют на то, насколько согласованы упоминаемые даты, периоды и последовательности событий с хронологией в базе.
На этом фоне им удалось заметно лучше выявлять случаи, когда ответ звучит разумно, но опирается на неверный временной контекст. В среднем система стала распознавать «временные галлюцинации» на 21,7% точнее по сравнению с предыдущими методами оценки. Параллельно удалось сократить объём входных данных, необходимых для тестирования, примерно наполовину — в среднем на 51%.
Почему это важно для медицины и права
Авторы считают свою работу примером того, как «классическая» теория баз данных может укрепить доверие к самым современным ИИ-системам. Если сложные, профессиональные наборы данных перевести в формат временных баз и использовать как источник тестов, можно системно проверять, не застревают ли модели в прошлом и корректно ли они отражают недавние изменения.
Такой подход особенно перспективен для медицины и юриспруденции, где правила, стандарты и нормативные акты постоянно обновляются. Исследователи надеются, что их система станет практической основой для оценки ИИ, который будет помогать врачам и юристам, — с меньшим количеством скрытых временных ошибок и более прозрачной логикой работы с меняющейся реальностью.