Магистратура
Направление «Прикладная информатика»

Прикладной анализ данных

Поступить
Срок обучения: 2 года
Мест: 15
Язык: Русский

О программе

Современные программы по анализу данных учат решать задачи, поставленные кем-то другим: аналитики данных не знакомы с задачами, которые стоят в искусстве, культуре, гуманитарной и социальной науке, а искусствоведы, историки, антропологи, социологи редко представляют себе современные технологические возможности, еще реже — применяют их в работе

Программа «Прикладной анализ данных»  преодолевает этот разрыв: академические ученые из ЕУ и программисты из Яндекса вырабатывают новый язык для диалога между исследователями в гуманитарных и общественных науках и техническими специалистами.

Студенты программы при поступлении не обладают техническими навыками и знаниями, но на выпуске работают с методами классической статистики в R, с Python, методами машинного обучения, обработки естественных языков, компьютерного зрения.

Программа длится два года:

  • первый год магистранты учатся вместе со слушателями ДПО ПАНДАН и посещают занятия по английскому языку
  • второй год посвящен более глубокому изучению следующих дисциплин: статистика, алгоритмы и структуры данных, базы данных, методология и проектирование информационных систем. Студенты осваивают язык программирования С/С++ и работают над магистерской диссертацией.  

За время обучения магистранты выполняют два проекта: на первом и втором курсах, а также посещают факультативы (любые из 25 курсов, читаемых на разных факультетах Европейского университета)

Узнать подробную информацию о ходе приемной кампании, а также подать документы вы можете здесь:

Курсы

Иностранный (английский) язык

Курс разработан в русле коммуникативно-ориентированного обучения иностранным языкам. Его ключевым принципом является ориентация на овладение языком как средством общения в рамках жизненных ситуаций, актуальных для студентов. Особый упор в курсе делается на профессиональную коммуникацию: формируются навыки различных видов чтения (поискового, ознакомительного, просмотрового, аналитического), осуществляется обучение семантико-синтаксического и лексико-грамматического анализа текста и основам перевода текстов по специальности с иностранного (английского) языка на русский, развиваются навыки восприятия на слух монологической и диалогической аутентичной речи в профессиональной сфере, а также совершенствование навыков устной и письменной речи в рамках профессионального общения (в частности, умение сформировать основную идею сообщения, кратко изложить содержание текста).

Программирование в R

Курс направлен на освоение основ программирования на языке R с упором на последующую сферу анализа данных.

Слушатели изучают:

  • основные способы манипуляции и обработки данных в R
  • инструменты data.table и dplyr
  • способы визуализации данных в R
  • основные принципы tidy data
  • инструменты статистических методов в программной среде R-Studio
  • создание документов при помощи R Markdown
Введение в статистику

Курс знакомит с базовыми статистическими методами и терминологией, учит практически применять освоенные методы.

Слушатели изучают:

  • базовые статистические концепции и категории: переменная, распределение, статистическая значимость, p-value, гипотеза, регрессия
  • способы формулирования научных задач и гипотез в количественной парадигме
  • области применимости и ограничения статистических методов
  • способы применения освоенных методов в R или Python
Язык программирования Python

Курс направлен на освоение основ алгоритмизации, а также прикладного программирования с упором на последующую сферу анализа данных.

Слушатели приобретают навыки:

  • работы с основными элементами структурного программирования
  • декомпозиции задач и структурирования кода
  • объектно-ориентированного и функционального программирования
  • работы со стандартной библиотекой языка и внешними модулями, формирования своего инструментария для задач автоматизации
  • практического применения основных пакетов обработки данных
Практический минимум

Курс посвящен основным видам серверного ПО и серверных ОС на примере Linux, их архитектуре и основным принципам работы.

Слушатели приобретают навыки:

  • работы с командной оболочкой bash и набором базовых утилит, доступных в ОС
  • написания скриптов автоматизации
  • работы с основными протоколами передачи информации в информационных системах
  • выстраивания взаимодействий клиент-сервер, взаимодействия через API, межпроцессного взаимодействия
  • развертывания ПО как на одиночный сервер, так и на вычислительный кластер
Текстовые данные

Цель курса – изучить подходы к количественному анализу текстов в общественных науках.
На занятиях разбираются общие вопросы корпусных исследований и проблемы вычислительной лингвистики.

Слушатели получают навыки:

  • работы c ключевыми источниками текстовых данных в общественных науках
  • по созданию массивов структурированных текстов из неструктурированных данных
Машинное обучение: введение

Курс посвящён теоретическим основам алгоритмов машинного обучения с фокусом на основные методы и типы задач анализа данных в гуманитарных и социальных науках.

Слушатели учатся:

  • применять алгоритмы машинного обучения в соответствии с поставленной задачей анализа данных
  • решать задачи классификации, кластеризации, регрессии
  • работать с нейронными сетями
  • использовать современные методы и библиотеки машинного обучения для анализа данных в социо-гуманитарных областях

Визуализация данных

Курс знакомит с основным принципам визуализации разных типов данных, а также формирует практические навыки визуализации.

Слушатели изучают:

  • основы визуального восприятия человека
  • способы коммуникации данных
  • типы визуализации в зависимости от используемых данных
  • практические инструменты работы с сервисами визуализации данных
Статистика

Курс знакомит с базовыми статистическими методами и терминологией, учит практически применять освоенные методы.

Слушатели изучают:

  • базовые статистические концепции и категории: переменная, распределение, статистическая значимость, p-value, гипотеза, регрессия
  • способы формулирования научных задач и гипотез в количественной парадигме
  • области применимости и ограничения статистических методов
  • способы применения освоенных методов в R или Python
Причинно-следственные связи из неэкспериментальных данных

Курс знакомит слушателей с фундаментальными положениями и основными методами современной теории статистического причинно-следственного вывода (англ. causal inference).

Слушатели изучают:

  • основные понятия теории контрфактуального вывода и теории каузальных диаграмм
  • прикладные методы статистического причинно-следственного вывода: экспериментальная методология и квазиэкспериментальные методы, инструментальные переменные, разность разностей, разрывный дизайн
  • способы реализации изученных методов в R
Разметка данных

Курс нацелен на формирование навыков работы с краудсорсинговой платформой Я.Толока и встраивания краудсорсинга в проекты с машинным обучением.

Слушатели курса:

  • знакомятся с концепциями краудсорсинга, его роли в бизнес-процессах и исследованиях
  • получают навыки декомпозиции исследовательской задачи и превращение её в задачу разметки
  • учатся составлять инструкции для краудсорсингового задания
  • осваивают основные приемы контроля качества асессоров
  • получают навыки работы с сервисом сервиса «ТОЛОКА»
Введение в обработку естественного языка

Курс знакомит с основными методами и приложениями автоматической обработки естественного языка (NLP).

Слушатели учатся:

  • основным методам и подходам к NLP
  • принципам оценки качества методов NLP
  • практическим навыкам обработки больших коллекций текстов
Введение в анализ изображений и видео

Курс знакомит с основными практическими задачами и методами в области анализа изображений и видео.

Слушатели изучают:

  • библиотеку OpenCV для Python
  • классические алгоритмы пространственной и частотной обработки изображений: сглаживание изображений, повышение резкости, выделение контуров и т.д.
  • нейросетевые алгоритмы и их применение для задач классификации и сегментации
Опросные данные

Курс нацелен не только на разбор основных понятий опросных данных, но и на формирование практических навыков работы с ними.

Слушатели курса:

  •  знакомятся с основными понятиями: выборка, ошибка выборки, генеральная совокупность, валидность, репрезентативность, шкалы, коррекция (взвешивание, эффект интервьюера)
  •  разбирают ограничения и преимущества опросных данных
  •  осваивают основные инструменты работы с опросными данными в R
  •  проводят практическую работу с опросными данными высокого и низкого качества
  •  осуществляют анализ полученных опросных данных
Административные и правовые данные

Курс посвящён специфике производства данных государственными органами РФ. Результат занятий – сформированное представление об аналитическом потенциале административных данных.

Слушатели изучают:

  • существующие государственные системы сбора данных
  • специфику административных (государственных) данных, агрегированную и неаграгированную информации, ГИС и системы ведомственного статистического наблюдения
  • приемы контроля качества государственных данных

Стоимость обучения

ЕУСПб — негосударственный вуз. У нас платное образование, но мы предоставляем скидки на оплату обучения (95 %) и стипендии на основании рейтинга. Рейтинг составляется по результатам вступительных испытаний и пересматривается после каждой сессии.