Eldar7 / CodeFest2017

Slides and further reading list from CodeFest talk 'Big Data Engineering 101'

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

CodeFest2017

Slides and further reading list from CodeFest talk 'Big Data Engineering 101'

Список книг, статей и презентаций

Отсортирован от вводных материалов к более продвинутым и полным.

  1. Designing Data-Intensive Applications, Martin Kleppmann. Отличная вводная книга. Автор понятно и подробно описывает термины и принципы хранения и обработки данных в распределённых системах. Рассматриваются структуры данных, которые лежат в основе популярных хранилищ. Затронут вопрос форматов представления данных. Хорошо раскрыта тема шардинга и партицирования. Уделено внимание понятию консистентности данных. В последних главах рассматривается принципы и подходы обработки больших объёмов данных.
  2. Hadoop: что, где и зачем, @ffriend. Хороший, короткий обзор экосистемы Hadoop.
  3. Making sense of stream processing Martin Kleppmann. Вводный доклад о поточной обработке.
  4. Kafka @ LinkedIn. Подборка статей об использовании Kafka в LinkedIn, компании, которая давно и плотно работает с этим решением.
  5. Эволюция структур данных в Яндекс.Метрике. История развития Я.Метрики.
  6. Streaming Architecture.New Designs Using Apache Kafka and MapR Streams.. Ted Dunning & Ellen Friedman. Более подробное введение в стримминг на примере Apache Kafka. Книга ещё пишется, зато пока бесплатна.
  7. Hadoop. Подробное руководство.. Том Уайт. Пожалуй самая признанная книга по теме и даже переведена на русский язык, правда не в последнем издании. Совет не разбирайте подробно map/reduce, на нём в чистом виде мало кто считает.
  8. Hadoop Ecosystem. Список компонентов экосистемы Hadoop с кратким описанием и ссылками по теме.

About

Slides and further reading list from CodeFest talk 'Big Data Engineering 101'


Languages

Language:Jupyter Notebook 100.0%