Постоянство аналитического процесса

Когда появились большие данные и в мир аналитики начали приходить люди с разной подготовкой, начались дебаты о том, не потребуется ли для аналитики новый рабочий процесс. Нет, не потребуется. На фундаментальном уровне рабочий процесс является одинаковым для всех типов данных и аналитики. Подобное постоянство замечательно, поскольку избавляет нас от необходимости каждый раз заново изобретать колесо, когда нам нужно применить аналитику новым способом или использовать новые источники данных.

Я был свидетелем споров по поводу того, представляет ли анализ больших данных нечто новое. Помню, как в ходе жарких дебатов утверждал, что в обнаружении больших данных нет ничего нового. Чтобы положить конец спорам, я показал своим оппонентам модель межотраслевого стандартного процесса анализа данных (Cross Industry Standard Process for Data Mining, CRISP?DM), разработанную в 1990-х гг. Модель CRISP-DM описывает основные шаги в классическом процессе анализа данных. Я поместил схему процесса CRISP-DM рядом с предложенной схемой процесса обнаружения больших данных. Также нарисовал таблицу, где сопоставил отдельные этапы каждого процесса. Один из моих оппонентов, ранее утверждавший, что это были разные процессы, воскликнул: «Постой, Билл, но это практически то же самое!» Наконец-то они поняли мою точку зрения. Да, слегка были изменены термины и семантика, но фундаментально «новый» процесс ничем не отличался от «старого». В таблице 7.1 показано сходство фаз этих двух моделей, тогда как на рис. 7.1 представлена схема типового аналитического рабочего процесса.

Еще одна популярная парадигма – модель SEMMA, разработанная компанией SAS Institute{62}. Аббревиатура SEMMA расшифровывается как sample (отобрать), explore (исследовать), modify (модифицировать), model (моделировать) и assess (оценить). На веб-странице SEMMA говорится: модель предполагает, что бизнес-задача уже определена, а внедрение рассматривается как дополнение завершающей фазы. И снова обратите внимание на то, что эта модель мало чем отличается от модели CRISP-DM и модели обнаружения больших данных, как это можно увидеть в таблице 7.1.

Тот факт, что разные модели аналитических рабочих процессов, разработанные в разные годы и с использованием разных подходов, столь схожи между собой, свидетельствует о том, что, перефразируя слова великого Шекспира, в аналитическом безумии есть свой метод. Переход к аналитике больших данных, операционной аналитике или к следующему феномену будет опираться на знания, которыми уже обладают организация и ее команды.