Инфраструктуры сбора и обработки распределенных данных

Входные требования: Базовые навыки работы с базами данных и вычислительными системами, навыки программирования и веб-технологий

Зачетные единицы: 5

Курс: Основной

Язык курса: Русский

Цели

  • Выявление основных причин образования Больших Данных, определение и идентификация Больших Данных
  • Знакомство с технологиями обработки Больших Данных, Grid, WMS, MapReduce
  • Основы MapReduce и технологии Apache Hadoop
  • HDFS, базовая инфраструктура Apache Hadoop
  • Знакомство с технологией Apache Spark и Apache Streaming

Содержание

Технологии «больших данных», безусловно, играют ключевую роль в современных программных решениях больших компаний. На сегодняшний день эффективная обработка и анализ данных являются не только основой успешного развития бизнеса, но и преимуществом, способным сыграть решающую роль в конкурентной борьбе. Именно поэтому данный курс направлен на освоение навыков при работе и анализе «больших данных». В ходе курса будет предложено краткое описание истории формирования, а также даны определения и идентификация направления Больших Данных. Будут даны основы работы с распределенной системой хранения файлов HDFS, а также основы работы с технологией Apache Hadoop и основы функционирования MapReduce. Также будет освоена технология Apache Spark и Spark Streaming. По завершению обучения студент будет обладать навыками работы с основными технологиями Больших Данных, такими как Apache Hadoop и Apache Spark.

Формат

Практические занятия

Оценка

Посещение практических занятий является обязательным. Итоговый контроль по дисциплине осуществляется в форме экзамена. Для успешного завершения курса студентам необходимо своевременно выполнять все практические задания. Итоговая оценка зависит от работы студента на протяжении всего курса.