Знают ли открытые большие языковые модели что, где и когда? Новое исследование от сотрудников ШВСН

 
05.02.2026
 
Школа вычислительных социальных наук
 
Евгений Вячеславович Котельников; Ильяс Васифович Асланов

В специальном выпуске журнала "Supercomputing Frontiers and Innovations", посвященном большим языковым моделям, вышла статья группы авторов, среди которых сотрудники Школы вычислительных социальных наук Европейского Ильяс Асланов и Евгений Котельников. Авторы оценивают, как современные открытые большие языковые модели отвечают на вопросы знаменитой игры «Что? Где? Когда?»

В этом исследовании авторы представили новый датасет из 2600 вопросов «Что? Где? Когда?», собранных за 2018–2025 годы. Используя структурную и тематическую кластеризацию, авторы обеспечили детальный обзор типов вопросов и областей знаний, а также оценили 14 современных открытых LLM с помощью автоматических метрик и подхода LLM-as-a-Judge.

Самые сильные открытые модели, такие как Qwen3-235B-A22B-Thinking и DeepSeek-R1, приближаются к средней эффективности человеческих команд, но не превосходят ее. Лучшая языковая модель набрала всего 32,4 % точности — против 45,8 % у среднестатистической команды знатоков. Архитектуры с возможностями масштабного рассуждения последовательно опережали нерассуждающие аналоги, особенно в категориях «технологии», «древний мир», «психология» и «природа», а вопросы с игрой слов, допущениями и именами нарицательными были сложными для всех языковых моделей.

Эти результаты подчеркивают как прогресс современных открытых LLM, так и их текущие ограничения в интеллектуальных рассуждениях в формате викторин. 

Все выводы и результаты тестирования 14 открытых моделей читайте в статье.