TEXT-AS-DATA ANALYSIS OF INTERNATIONAL TRADE

 
10.04.2018
 
Факультет экономики; Институт проблем правоприменения
 
Дмитрий Скугаревский

With multilateral negotiations at the World Trade Organization (WTO) in deadlock, rule-making on international economic governance has shifted to preferential trade agreements (PTAs). This seminar builds on a recently digitized and annotated corpus of 450 PTA full texts in English, French, and Spanish. I will show (a) how one can harness text-as-data techniques (pdf) to predict merchandise trade flows in a reduced-form gravity model, (b) the value added of enriching workhorse economic models with information coming from textual sources. The event seeks to introduce students to new frontiers of research at the intersection of international economic law and trade. Working language is English.

Рецензия на выступление Д. Скугаревского с докладом «Text-as-data analysis of international trade».

27 февраля на заседании семинара имени С.Л. Печерского с докладом «Text-as-data analysis of international trade» выступил ведущий научный сотрудник института проблем правоприменения ЕУСПБ Дмитрий Скугаревский.
Выступление Дмитрия можно разбить на две части: первая непосредственно посвящена описанию используемого подхода «text-as-data», а именно, применению коэффициента Жаккара как меры схожести текстов, вторая часть посвящена сравнению существующих модификаций гравитационной модели внешней торговли с гравитационной моделью, в которой присутствует коэффициент Жаккара. Чтобы лучше понять суть представленного Дмитрием исследования стоит подробнее описать обе части выступления.

В первой части выступления Дмитрий объясняет, как можно использовать тексты договоров о льготной торговле (PTA – preferential trade agreement) для изучения их влияния на внешнюю торговлю. В исследовании, о котором рассказывал Дмитрий, использовался набор из 450 договоров о льготной торговле. В последние десятилетия количество таких договоров возросло, также увеличился объем каждого из них — это объясняет главный минус существующих подходов к их анализу. Главный минус заключается в привлечении экспертов, которые подготавливают набор переменных вручную. Эти подходы, помимо временной затратности, также связаны с материальными издержками. Дмитрий в своем выступлении предлагает новый подход, который заключается в формировании корпуса, т.е. обработанного специальным образом текста всех договоров, который позволяет использовать различные метрики для анализа содержания этих текстов. Один из подходов к преобразованию текстов ¬– это мешок слов (bag-of-words), который заключается в подсчете частот слов в тексте, но этот подход не учитывает порядок слов, что достаточно важно в контексте юридических документов, поэтому в исследовании, проведенном Дмитрием использовался подход n-грамм, если быть точным, то 5-грамм, когда весь текст делится на 5-символьные последовательности. Так, например, из «free trade» будет получено 6 компонентов «free_», «ree_t», «ee_tr», «e_tra», «_trad» и «trade» и затем подсчитывается коэффициент Жаккара для двух текстов, который представляет собой отношение числа пересечений 5 символьных последовательностей этих текстов с объединением этих последовательностей для двух текстов. Также, Дмитрием было отмечено, что коэффициент Жаккара является достаточно простой метрикой для оценки схожести текстов, но тем не менее очень информативной. Эта метрика позволяет посмотреть на общую картинуу, где мы можем увидеть, как формируются кластеры из похожих договоров. Помимо этого, формирование корпуса позволяет проанализировать содержание этих договоров, и понять, к каким сферам они относятся (например, инвестиции, торговля и т.п.).

Во второй части выступления Дмитрий продемонстрировал как в рамках существующих моделей можно объяснять влияние договоров о льготной торговле на внешнюю торговлю в рамках гравитационной модели. Главный вывод из этой части выступления состоит в том, что подход «text-as-data» дает, как минимум, такие же результаты, как существующие модели, которые являются намного более трудоемкими и более затратными, плюс ко всему они не масштабируемы, поскольку для обработки новых текстов или изменения набора переменных нам необходимо привлекать экспертов.

На мой взгляд, выступление Дмитрия было очень интересным и познавательным, поскольку продемонстрировало как с помощью современных подходов к обработке текстов можно снизить затраты на обработку текстов экспертами, а также сохранить качество исследуемых моделей.

Автор: Азер Шахвердиев