Data Engineering (НПМ)

Data Engineering

Направление подготовки: Научно-педагогическое
Срок обучения: 2 года
Языки обучения: английский
  • Научно-образовательный департамент «Цифровая инженерия и анализ данных» предлагает уникальную образовательную программу для студентов, кто желает поступить в магистратуру на Data Engineering.
Что такое Data Engineering?

Data Engineering (инжиниринг данных)- это своего рода гибрид дата-аналитика и дата-саентиста. Дата-инженер обычно отвечает за обеспечение надежной инфраструктуры для данных, управление рабочими процессами, конвейерами обработки и ETL-процессами. Ввиду важности этих функций, в настоящее время это популярная профессия, которая активно набирает обороты.
Высокая зарплата и огромный спрос - это лишь малая часть того, что делает эту работу чрезвычайно привлекательной!

Инженерия данных связана с данными, а именно с их доставкой, хранением и обработкой. Если мы посмотрим на иерархию потребностей, инженерия данных занимает первые 2–3 этапа: сбор, перемещение и хранение, подготовка данных.
Чем занимается инженер данных?
С появлением больших данных сфера ответственности резко изменилась. Если раньше эти эксперты писали большие SQL-запросы и перегоняли данные с помощью таких инструментов, как Informatica ETL, Pentaho ETL, Talend, то теперь требования к дата-инженерам повысились.
Таким образом, роль дата-инженера достаточно весома.
Требования на должность Дата-инженера:
Требования на должность Дата-инженера:
  • Опыт работы с большими данными: Hadoop, Spark, Kafka.
  • Знание алгоритмов и структур данных.
  • Отличное знание SQL и Python, Java/Scala.
  • Опыт работы с облачными платформами, в частности Amazon Web Services.
  • Хорошее понимание баз данных SQL и NoSQL (моделирование данных, хранение данных).
  • Понимание основ распределенных систем.
  • Опыт работы с инструментами визуализации данных, такими как Tableau или ElasticSearch.

Дата-инженеры являются специалистами в области разработки программного обеспечения и бекенда. Если компания начинает генерировать большой объем данных из разных источников, задача дата-инженера состоит в том, чтобы организовать сбор информации, ее обработку и хранение.
Дата-продукт – это результат трансформации данных в качественную информацию, которая приносит пользу бизнесу.

Является ли дата-инженер более востребованным, чем дата-саентист?
Без него/нее ценность модели-прототипа, чаще всего состоящей из фрагмента кода ужасного качества в файле Python, полученной от дата-саентиста и каким-то образом дающей результат, стремится к нулю.
Без дата-инженера этот код никогда не станет проектом, и никакая бизнес-проблема не будет эффективно решена.
Изучаемые дисциплины:

· Язык программирования Python (Введение в науку о данных)
· Продвинутая статистика
· Прикладное машинное обучение
· Анализ Больших Данных
· Работа с данными и дизайн
· Глубокое обучение и искусственный интеллект
· Прикладное компьютерное зрение
· Распределенные системы Hadoop
· Масштабируемые решения
· Введение в DevOps
· Модернизация DWH
· Разработка высоконагруженных приложений
· Обнаружение мошенничества и аномалий
· Управление на основе данных
· Проектирование озера данных
· Продвинутое глубокое обучение



Карьерные возможности Дата-инженера
Магистры, получившие подготовку по программе «Data Engineering» находят работу в банках, инвестиционных, страховых, телекоммуникационных, торговых, производственных компаниях; организациях различных форм собственности; индустрии и бизнеса, осуществляющих разработку и использование информационных систем, интеллектуальных продуктов и сервисов, основанных на технологиях, связанных с обработкой больших данных и технологии блокчейн.

  • Data Engineer (собирает и перерабатывает данные, запускает процессы и строит сервисы, чтобы эти данные превратились в дата-продукт)
  • Data Platform Engineer (занимается подготовкой платформ: инфраструктуры, инженерии, безопасности и мониторинга)
  • Data Quality Engineer (сочетает в себе инженерные задачи, анализ данных и элементы тестирования; шире традиционного тестирования QA)
  • Data DevOps Engineer (работает с распределенными системами, параллельно обрабатывает сложные данные в среде с большим количеством движущихся частей, приходится держать в уме очень много связей между компонентами систем, анализировать и устранять проблемы)
  • Data Science Engineer (структурирует и анализирует большие объемы данных, предсказывает события)
  • Search Engineer (определили Search Engineer в дата-экспертизу, потому что современный поиск стал очень умным, сейчас он намного ближе к Data Science и работе с данными, чем к каким-то другим дисциплинам)
  • ML Engineer (Machine Learning – это особый случай Data Platform Engineerring, нужно не только работать с данными, но и обеспечивать прозрачность и управляемость жизненного цикла ML-продукта; из-за сложности этого процесса ML-инженер должен иметь более глубокую экспертизу)