Новый проект Школы вычислительных социальных наук поможет сделать большие нейросети быстрее, умнее и доступнее

 
05.12.2025
 
Школа вычислительных социальных наук
 
Евгений Вячеславович Котельников
 
Исследования

 

Сегодня большие нейросетевые модели лежат в основе популярных технологий — от чат-ботов и систем автоматического перевода до сервисов генерации изображений и мультимодального поиска. Однако их дообучение требует огромных вычислительных ресурсов, что делает развитие подобных технологий дорогим и доступным лишь крупным компаниям. Мы запускаем проект, который сделает обучение больших нейросетевых моделей гораздо более экономичным и эффективным. 

В чем суть проекта

Большие языковые и мультимодальные модели состоят из множества слоев и элементов внимания. Но далеко не все из них одинаково важны для решения конкретной задачи. Проект предлагает умные методы, которые позволяют определить, какие части модели действительно влияют на качество ответа, а какие почти не играют роли.

Исследователи будут анализировать скрытые состояния модели — своеобразные внутренние «следы» того, как она обрабатывает информацию. Сравнивая, как эти состояния выглядят, когда модель дает правильный ответ, и как — когда ошибается, можно понять, какие слои и компоненты важнее всего. В мультимодальных задачах будет изучаться и то, как модель распределяет внимание между текстом и изображениями.

Что дает такой подход

Главный результат — возможность дообучать только действительно значимые части модели. Это позволит:

  • снизить требования к вычислительным ресурсам;
  • ускорить дообучение в несколько раз;
  • улучшить качество работы моделей в генеративных задачах;
  • сделать современные ИИ-технологии доступнее для бизнеса, исследователей и государственных проектов.

Почему это важно

С ростом популярности больших нейросетей потребность в их адаптации под новые задачи только увеличивается. При этом традиционные методы требуют огромных затрат. Проект предлагает инновационный и более точный подход: вместо «дообучать всё» — дообучать только то, что действительно важно.

Что будет дальше

Разработанные методы протестируют на языковых моделях разных семейств и на наборах данных для текстовых и мультимодальных задач. Ожидается, что результаты позволят существенно повысить эффективность генеративных систем, которые используются в образовании, медицине, цифровых сервисах, промышленности и других сферах.

Проект выиграл конкурс проектов фундаментальных научных исследований Российского научного фонда и будет реализован в 2026-2027 годах.