Сегодня большие нейросетевые модели лежат в основе популярных технологий — от чат-ботов и систем автоматического перевода до сервисов генерации изображений и мультимодального поиска. Однако их дообучение требует огромных вычислительных ресурсов, что делает развитие подобных технологий дорогим и доступным лишь крупным компаниям. Мы запускаем проект, который сделает обучение больших нейросетевых моделей гораздо более экономичным и эффективным.
В чем суть проекта
Большие языковые и мультимодальные модели состоят из множества слоев и элементов внимания. Но далеко не все из них одинаково важны для решения конкретной задачи. Проект предлагает умные методы, которые позволяют определить, какие части модели действительно влияют на качество ответа, а какие почти не играют роли.
Исследователи будут анализировать скрытые состояния модели — своеобразные внутренние «следы» того, как она обрабатывает информацию. Сравнивая, как эти состояния выглядят, когда модель дает правильный ответ, и как — когда ошибается, можно понять, какие слои и компоненты важнее всего. В мультимодальных задачах будет изучаться и то, как модель распределяет внимание между текстом и изображениями.
Что дает такой подход
Главный результат — возможность дообучать только действительно значимые части модели. Это позволит:
- снизить требования к вычислительным ресурсам;
- ускорить дообучение в несколько раз;
- улучшить качество работы моделей в генеративных задачах;
- сделать современные ИИ-технологии доступнее для бизнеса, исследователей и государственных проектов.
Почему это важно
С ростом популярности больших нейросетей потребность в их адаптации под новые задачи только увеличивается. При этом традиционные методы требуют огромных затрат. Проект предлагает инновационный и более точный подход: вместо «дообучать всё» — дообучать только то, что действительно важно.
Что будет дальше
Разработанные методы протестируют на языковых моделях разных семейств и на наборах данных для текстовых и мультимодальных задач. Ожидается, что результаты позволят существенно повысить эффективность генеративных систем, которые используются в образовании, медицине, цифровых сервисах, промышленности и других сферах.
Проект выиграл конкурс проектов фундаментальных научных исследований Российского научного фонда и будет реализован в 2026-2027 годах.