Олег Лашманов: «Если данные плохи, даже самый лучший алгоритм не поможет»

19.10.2023

Лаборатория «Искусство и искусственный интеллект»; Школа искусств и культурного наследия

Олег Юрьевич Лашманов

Европейский в медиа

В издании «Системный Блокъ» вышла статья научного руководителя и исполнительного директора Лаборатории «Искусство и искусственный интеллект» Олега Лашманова. Этот материал — первый в серии, посвященной основным понятиям в области искусственного интеллекта.

Приводим отрывок из материала:

Разберем работу машины на Сонях. Предположим, Соня хочет купить автомобиль и считает, сколько денег ей нужно для этого накопить. Она пересмотрела несколько объявлений в интернете и увидела, что новые автомобили стоят около $20 000, годовалые — примерно $19 000, двухлетние — $18 000 и так далее. В уме Соня-аналитик выводит формулу: адекватная цена автомобиля начинается от $20 000 и падает на $1000 каждый год, пока не достигнет $10 000.

Только что Соня сделала то, что в машинном обучении называют регрессией — предсказала цену по известным данным. Люди делают это постоянно, когда считают, почем продать старый макбук или сколько шашлыка взять на дачу (моя формула — 600 грамм на человека в сутки). Было бы очень удобно иметь формулу под каждую проблему на свете. Но взять те же цены на автомобили: кроме пробега, есть десятки комплектаций, разное техническое состояние, сезонность спроса и еще столько неочевидных факторов, которые Соня, даже при всём желании, не удержала бы в голове. Люди тупы и ленивы — надо заставить вкалывать роботов. Давайте заставим машину посмотреть на наши данные (все параметры и стоимости автомобилей), найти в них закономерности и предсказывать для нас ответ. Внезапно оказывается, что в итоге машина стала находить даже такие закономерности, о которых люди не догадывались.

Так родилось машинное обучение.

Три составляющие обучения

Цель машинного обучения — предсказать результат по входным данным. Чем разнообразнее входные данные, тем проще машине найти закономерности и тем точнее результат. Когда создавали автопилотируемые автомобили, все производители боролись за сбор датасета в миллион миль. Однако, быстро оказалось, что проехать миллион миль по солнечной Калифорнии недостаточно, чтобы уверенно ехать в заснеженной Сибири. Именно поэтому мы говорим о вариативности.

Итак, если мы хотим обучить машину, нам нужны три вещи:

Данные

Хотим определять спам — нужны примеры спам-писем; предсказывать курс акций — нужна история цен; узнать интересы пользователя — нужны его лайки или посты. Данных нужно как можно больше (но важна еще и вариативность). Десятки тысяч примеров — это самый злой минимум для отчаянных.

Данные собирают как могут. Кто-то вручную, при помощи анататоров — получается дольше, меньше, зато без ошибок. Кто-то полностью автоматически — просто сливает машине все, что нашлось, и верит в лучшее. Самые хитрые, типа Гугла, используют своих же пользователей для бесплатной разметки. Вспомните ReCaptcha, которая иногда требует «найти на фотографии все дорожные знаки» — это оно и есть.

За хорошими наборами данных (датасетами) идет большая охота. Крупные компании, бывает, раскрывают свои алгоритмы, но дата-сеты — крайне редко. Если никто не знает, на каких данных вы учились, то и правообладателям сложнее предъявить к вам претензии (привет, openAI).

Признаки в данных

Мы называем их фичами (features), так что ненавистникам англицизмов придется страдать. Фичи, свойства, характеристики, признаки — ими могут быть пробег автомобиля, отдельные пиксели изображения, направления мазков на холсте, пол пользователя, цена акций, даже счетчик частоты появления слова в тексте может быть фичей. Машина должна знать, на что ей конкретно смотреть. Хорошо, когда данные просто лежат в табличках — названия их колонок и есть фичи. А если у нас сто гигабайт картинок с котами или яблоками? Когда признаков много, модель работает медленно и неэффективно. Зачастую отбор правильных фич занимает больше времени, чем все остальное обучение. Но бывают и обратные ситуации, когда кожаный мешок сам решает отобрать только «правильные», на его взгляд, признаки и вносит в модель субъективность — она начинает дико врать.

Полная версия

Кстати, в магистерской программе Европейского университета «Музейные исследования и кураторские стратегии» есть трек «Музейные исследования и компьютерные науки», где упор делается именно на инструментах обработки изображений и естественного языка, визуализации и разметки данных.