Intro
Свойства данных

VVVVVV:
- Volume;
- Velocity
- Variety;
- Veracity;
- Value;
- Valence - то, как данные соотносятся друг с другом, валентность.
Variety
- Un Structured - у данных нет структуры и они хранятся в файлах разных типов. (jpg, gif, текст, pdf, mp4);
- Semi Structured - текстовые данные со встроенный шаблоном, способствующим его анализу. (csv, xls(x), xml, json);
- Quasi Structured - текстовые данные с “плавающей структурой”, упрощающей их анализ (потоки данных);
- Structured - для данных определены формат, структура и модель. (БД)

Google File System

DFS
