Прикладной анализ данных для гуманитариев. Рассказывает Алексей Сенюхин

 
07.08.2023
 
Прикладной анализ данных; Факультет социологии

Алексей Сенюхин, редактор текстового корпуса Центра «Прожито», окончил программу ДПО "Прикладной анализ данных" (ПАНДАН) в 2023 году. Мы поговорили с Алексеем о том, зачем гуманитариям стоит учиться программированию и почему на GPT нельзя положиться во всем.

У вас гуманитарный бэкграунд: вы окончили истфак МГУ.  Расскажите, пожалуйста, о сфере научных интересов во время учебы. Приходилось ли вам сталкиваться с задачами, где нужны были навыки компьютерного анализа данных?

Сфера моих научных интересов во время учебы на истфаке была связана с источниковедением. Я занимался изучением записок иностранцев, которые путешествовали по России в начале XX века. Я анализировал сами тексты, а затем понял, что использованные в травелогах фотографии также дают много интересных сведений. Тогда я начал заходить на территорию компьютерных исследований и сделал базу данных с описаниями снимков: где были сделаны, что на них изображено.

Когда собрал небольшую базу данных, смог выяснить, какие паттерны характерны для изображений крупных городов, а какие, например, для провинций. Эту базу данных я делал скорее по наитию: на истфаке МГУ на информатике нас, конечно, учили, как строить такие базы данных и немного их анализировать. В процессе я понял, что этих навыков недостаточно, поэтому пошел на ПАНДАН.  

Сложно ли вам было осваивать программирование на ПАНДАНе? Как вы считаете, стоит ли идти на программу хотя бы с какой-то базой или всему можно научиться с нуля?

Базовые навыки программирования я получил на уроках информатики в школе, но на истфаке я ими не пользовался. Когда пошел в аспирантуру, стал подучивать языки программирования с надеждой, что они мне пригодятся для решения рутинных задач в исследованиях и в работе с «Прожито». Вначале освоил C++ на Coursera, затем перешел к Python. Поэтому когда пришел на ПАНДАН, у меня уже было представление, что такое программирование.

Однако я могу сказать на примере своих одногруппников: многие из них познакомились с программированием уже на ПАНДАНе. Почти все они дошли до конца, сделали свои проекты. Если есть база, конечно, будет проще. При этом и без нее можно получить результат, хотя придется много работать. Фразочки «Work hard» и «No pain, no gain» были у нас, пандановцев, самыми популярными во время учебы.

Получили ли вы на программе абсолютно новые навыки?

Совершенно новым для меня был язык программирования R. Я его никогда не учил, было немного сложно его освоить. Pandas ─ библиотека для анализа табличных баз данных на языке Python ─ также была мне неизвестна. Раньше я с ней не работал и считал, что она мне никогда не пригодится. Интересно, что сейчас я очень многие задачи делаю на Pandas.

Расскажите о вашем итоговом проекте на ПАНДАНе.

Я, как сотрудник «Прожито», вместе с коллегой Вероникой Михайловой работал над проектом по созданию кратких пересказов дневниковых записей. В проект попали дневники в основном 1930-х годов, хотя были и других периодов.  Мы пытались решить задачу, можно ли научить компьютер пересказывать дневники. Вначале пробовали использовать существующие сейчас нейросети, но в процессе поняли, что они не очень хорошо справляются с такой узкоспециализированной задачей, как создание аннотации дневника. Нейросети путаются в фактах, зачастую выдают неполные данные и вообще чушь. 

Поэтому мы искали альтернативные пути: разбирали текст на дневниковые записи и семантические связи,  применяли парсинг для построения словаря локаций, хобби, эмоций, вычленяли фразы с этими словами, строили «графы знаний» на выделенных нами фактах. Сопоставляя полученную аналитику с самим содержанием, мы выясняли, насколько эти слова важны и стоит ли включать их в аннотацию.

Сначала мы думали, что сейчас сделаем супернейросеть на уровне GPT для анализа дневников. Когда поняли, что нейросети не подходят для нашей задачи, конечно, было разочарование. Но когда удалось создать прототип, в команде появилось воодушевление: у нас получилось сделать, может быть, не совершенную, но вполне рабочую программу. Возможно, мы продолжим работать над проектом за пределами ДПО.

В чем, на ваш взгляд, перспективы использования прикладной аналитики данных в гуманитарных науках?

На мой взгляд, современные компьютерные технологии очень важны для историков при анализе текстов и статистических данных. В исторической географии, например, уже довольно успешно используют GIS, а в источниковедении, на мой взгляд, NLP как метод еще не очень распространен. Проблема в том, что историки, когда сталкиваются с такими задачами, часто учатся не программировать, а просто работать в какой-то одной программе: загружают текст и получают результат. Думаю, без базовых навыков программирования гуманитарию будет тяжело в исследованиях: он будет зависим от пусть и хороших, но несовершенных инструментов. Поэтому историкам и другим гуманитариям важно изучать языки программирования, чтобы уметь создавать инструменты под каждую узкую задачу.

Подробнее о проекте по аннотированию дневников можно узнать по ссылке.

Записала Галина Ершова