Приложение к главе 4

Чтобы вычислить коэффициент корреляции между двумя совокупностями чисел, вы должны выполнить перечисленные ниже действия, каждое из которых иллюстрируется путем использования данных о значениях роста и веса для 15 гипотетических учащихся в приведенной ниже таблице.

1. Преобразуйте рост каждого учащегося в стандартные единицы: (рост ? среднее значение) / стандартное отклонение.

2. Преобразуйте вес каждого из учащихся в стандартные единицы: (вес ? среднее значение) / стандартное отклонение.

3. Для каждого учащегося вычислите произведение (вес в стандартных единицах) ? (рост в стандартных единицах). Вы должны увидеть, что это число будет самым большим по абсолютному значению, когда рост и вес ученика расположены относительно далеко от своих средних значений.

4. Коэффициент корреляции представляет собой сумму произведений, вычисленных выше, деленную на количество наблюдений (в нашем случае – 15).

Корреляция между ростом и весом для этой группы учащихся – 0,83. Учитывая, что коэффициент корреляции может находиться в диапазоне от ?1 до 1, это относительно высокая степень положительной корреляции, чего и следовало ожидать.

A – Учащийся; B – Рост; C – Вес; D – Рост в стандартных единицах; E – Вес в стандартных единицах; F – (Вес в стандартных единицах) ? (Рост в стандартных единицах)

Формула для вычисления коэффициента корреляции требует небольшого отступления, которое понадобится для того, чтобы объяснить систему обозначений, используемую в данном случае. Символ ? часто применяется в статистике. Он обозначает суммирование величин, которые указаны после него. Если, например, имеется некая совокупность наблюдений x1, x2, x3 и x4, то запись ? (xi) говорит о том, что мы должны суммировать четыре наблюдения: x1 + x2 + x3 + x4. Таким образом, ? (xi) = x1 + x2 + x3 + x4. Наша формула для среднего значения совокупности из n наблюдений может быть представлена в следующем виде: среднее значение = ? (xi)/n.

Мы можем придать этой формуле еще более универсальный вид, записав ее как

Эта формула означает суммирование величин x1 + x2 + x3 +…+ xn, или, другими словами, начиная с x1 (поскольку i = 1) до xn включительно (поскольку i = n). Наша формула для среднего значения совокупности из n наблюдений может быть представлена в следующем виде:

С учетом этой универсальной системы обозначений формула вычисления коэффициента корреляции r для двух переменных x и y может выглядеть так:

где

n – количество наблюдений;

x?x – среднее значение для переменной x;

y?y – среднее значение для переменной y;

?x – стандартное отклонение для переменной x;

?y – стандартное отклонение для переменной y.

Любая статистическая компьютерная программа может с помощью статистических инструментов вычислить коэффициент корреляции между двумя переменными. Использование Microsoft Excel в примере с ростом и весом учащихся позволяет получить такую же корреляцию между ростом и весом пятнадцати учащихся, что и вычисление, выполненное нами вручную на основе приведенной выше таблицы: 0,83.