На протяжении всей истории человечества информация была дефицитом и ценностью. Однако последние десятилетия заставляют менять отношение к ней. Данные накапливаются эксабайтами (1018 байт), охватывая все: от частоты пульса пользователей «умных» браслетов до снимков удаленных галактик, от расхода воды в каждой квартире до параметров ядерных реакторов. Согласно оценкам компании Cisco, к концу 2014 года только ежемесячный мобильный трафик данных в мире составил 2,5 эксабайт, к 2019-му он достигнет 24,3 эксабайт в месяц, а число подключенных мобильных устройств превысит 10 млрд единиц. На Facebook ежечасно загружается более 10 млн фотографий. На YouTube каждую секунду загружается более часа видео. По прогнозам IDC, к 2020 году общий объем цифровых данных достигнет 40 зеттабайт. Для понимания масштабов: если записать 40 зеттабайт (40*1021 байт) данных на самые емкие современные диски Blue-ray, суммарный вес дисков без упаковки будет равен весу 424 авианосцев. При этом используется лишь менее 3% из 23% потенциально полезных данных.
Тема перспективности анализа Big Data на слуху уже шесть-семь лет и успела поднадоесть. Однако в огромном количестве публикаций, рассказывающих о светлом будущем больших данных, практически нет реальных примеров внедрений. Как с изрядной долей самоиронии подметил главный технический директор корпорации Teradata Стивен Бробст, «Big Data — как секс в старших классах: все о нем говорят, но мало кто пробовал, а те, кто попробовал, плохо поняли, что это».
Мы все же попытались найти российские примеры реализации работы с Big Data. Прямо скажем, это было непросто. Достичь результатов на практике и внедрить решения оказывается куда сложнее, чем это выглядит в рекламных презентациях. Признаваться в неудачах никто не хочет, успешные примеры тем более засекречиваются — даже намек на сделанное позволит конкурентам повторить этот путь и уничтожить преимущество. Консультанты лишь с горестью разводят руками — они были бы счастливы похвастаться достижениями, да кто ж позволит.
Понимать не обязательно
Общим местом стали упоминания, что большие данные — лишь маркетинговый ход. Накопленные данные росли в объеме на протяжении всего развития современной цивилизации, и их анализом занимались издавна. Стремительное снижение стоимости хранения и обработки лишь делает работу с данными все более доступной.
Однако количественные изменения начинают переходить в качественные. Отличие первое: данные становятся все детальнее и персонифицированнее и собираются у все большего числа игроков. Если раньше анализ велся преимущественно на макроуровне, то сейчас даже владелец небольшой сети магазинов может отслеживать и анализировать действия своих покупателей и монетизировать результаты этого изучения. Второе отличие — качественное: отказ от проверки простых гипотез о причинно-следственных взаимосвязях в пользу более сложных математических моделей. То, что раньше делалось «вручную», теперь начинают доверять системам машинного обучения.
Чтобы показать разницу, раз