9.6 Генеральная совокупность против выборки
Теперь пару слов о совокупности. Мы измеряли признаки всех возможных вариантов выпадения кубика, хорошо и годно всё посчитали. Но в реальности результаты экспериментов сосчитать трудно, потому что мы гораздо чаще имеем дело с выборками, а не со всей совокупностью результатов. Возьмём, например, дерево. Хотим мы оценить количество его листьев, берём 5 веток и считаем на них среднее количество листьев. Потом умножаем их на количество веток, и у нас получится примерная (но неплохая) оценка количества листьев на дереве.
Так вот, реальное среднее количество листьев на ветке мы не знаем, а лишь приблизительно определили из пяти наших веток. Его принято обозначать не иксом, а иксом с чертой, и оно тем ближе к иксу, чем ближе количество отобранных нами веток к количеству веток на всём дереве. Если мы возьмём несколько отличающихся веток (а не только самые длинные, например), то наша выборка будет лучше отражать свойства всего дерева. Так и с людьми — если в исследуемой группе есть представители разных городов, профессий, возрастов, то выводы будут точнее и вернее, чем если опросить только вечно пьяных студентов МИРЭА.
В Америке был интересный казус с репрезентативностью выборки, когда журнал «Литерари Дайджест» опросил аж 10 миллионов человек насчёт выборов президента. Это огромное количество респондентов: для достоверной статистики хватило бы 2–3 тысячи правильно собранных ответов. Журнал предсказал победу республиканцу Альфу Лэндону со значительным перевесом (60 на 40), а выборы выиграл демократ Франклин Рузвельт — как раз с таким же перевесом, но в обратную сторону. Дело в том, что большинство подписчиков журнала были республиканцами, а в попытке сгладить это несоответствие журнал рассылал бюллетени по телефонным книгам. Но не учёл забавного факта: телефоны тогда были доступны только среднему и высшему классу общества, а это были в основном республиканцы.