Технологии и инфраструктуры Big Data

Входные требования: Базовые навыки программирования и веб-технологий, знание SQL и СУБД. Опыт работы с базами данных.

Зачетные единицы: 3

Курс: Основной

Язык курса: Русский

Цели

  • Выявление основных причин образования Больших Данных, определение и идентификация Больших Данных
  • Знакомство с технологиями обработки Больших Данных, Grid, WMS
  • Основы MapReduce и технологии Apache Hadoop
  • HDFS, базовая инфраструктура Apache Hadoop
  • Знакомство с технологией Apache Spark и Apache Streaming
  • Изучение способов извлечения информации и ее свойств посредством обработки данных.
  • Изучение техники сбора данных с применением интеллектуального анализа данных (Data mining).
  • Способность находить открытые данные для исследований
  • Способность собирать специфическую информацию из разнородных источников.
  • Понимание того, как хранить и работать с очень большими объемами данных.

Содержание

Технологии «больших данных», безусловно, играют ключевую роль в современных программных решениях больших компаний. На сегодняшний день эффективная обработка и анализ данных являются не только основой успешного развития бизнеса, но и преимуществом, способным сыграть решающую роль в конкурентной борьбе. Именно поэтому данный курс направлен на освоение навыков при работе и анализе «больших данных». В ходе курса будет предложено краткое описание истории формирования, а также даны определения и идентификация направления Больших Данных. Будут даны основы работы с распределенной системой хранения файлов HDFS, а также основы работы с технологией Apache Hadoop и основы функционирования MapReduce. Также будет освоена технология Apache Spark и Spark Streaming. По завершению обучения студент будет обладать навыками работы с основными технологиями Больших Данных, такими как Apache Hadoop и Apache Spark.

Формат

Лекции и лабораторные занятия

Оценка

Посещение лекционных и лабораторных занятий является обязательным. Для успешного завершения курса студентам необходимо своевременно выполнять все задания на занятиях и защитить курсовые работы. Итоговый контроль по дисциплине осуществляется в форме зачета. Получение зачета зависит от работы студента на протяжении всего курса: 60% курсовая работа (из них: 20% сбор данных, 20% реализация обработки данных на технологии Больших Данных, 20% анализ и написание отчета); 20% работа на семинарах; 20% тест.