Не пренебрегайте выборками

Концепция использования выборок в аналитических процессах родилась практически вместе с самой аналитикой{71}. В прошлом необходимость работы с выборками, а не со всей совокупностью данных диктовалась ограниченными возможностями обработки. В последние годы во многих случаях стало возможным собирать и анализировать всю совокупность интересующих нас данных, поэтому начались разговоры о том, что эпоха выборочных исследований подошла к концу.

Давайте начнем с признания того, что есть случаи, когда выборочный метод просто не будет работать. Если вам нужно найти 100 клиентов, обеспечивающих самые большие объемы продаж, это нельзя сделать на основе выборки. Вы должны рассмотреть каждого клиента, чтобы найти 100 лучших. Однако такие задачи, хотя и являются довольно типичными, не превалируют среди аналитических потребностей. Кроме того, существуют случаи, когда модель, даже если она построена на основе выборки, должна быть применена ко всей совокупности данных. Другими словами, когда дело доходит до практического применения модели, вариант с выборками отпадает.

Но давайте обратимся к типичной задаче, когда необходимо установить среднее значение или получить оценки параметров прогностической модели. С точки зрения статистики правильная выборка, которая адекватно отражает всю совокупность и имеет достаточный размер, даст такой же ответ, как и вся совокупность данных. В таких обычных ситуациях практически не будет разницы между ответом, полученным на выборке, и ответом, полученным на всей совокупности. Более высокая стоимость обработки массы дополнительных данных не принесет дополнительных доходов. Даже если модель в конечном итоге будет использована для обработки всех данных, нет смысла создавать модель на основе всей совокупности. Вместо этого необходимо разделить все данные на две части и использовать одну для построения, а другую для последующей валидации модели. Угадайте, что представляют собой наборы данных, предназначенные для построения и проверки модели? Это выборки! Таким образом, использования выборок данных во многих случаях попросту нельзя избежать.

Некоторые специалисты с пеной у рта утверждают, что в тех случаях, когда можно обойтись без выборки, нужно обходиться без нее. Другие считают, что использование более чем минимальной выборки – это пустая трата времени и ресурсов. Лично моя позиция такова: если некто выполняет для меня проект и хочет использовать выборку, я соглашаюсь при условии, что выборка является правильной и достаточного размера. Если же мне предлагают использовать всю совокупность данных, я соглашаюсь и на это при условии, что привлечение дополнительных ресурсов окажется незначительным. Я уверен, что получу такие же результаты, поэтому меня не беспокоит, какой именно путь будет избран. При разработке аналитического процесса существует масса спорных вопросов, поэтому не тратьте время на споры о том, использовать выборку или нет.

Более 800 000 книг и аудиокниг! 📚

Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением

ПОЛУЧИТЬ ПОДАРОК