Приложение к главе 4
Чтобы вычислить коэффициент корреляции между двумя совокупностями чисел, вы должны выполнить перечисленные ниже действия, каждое из которых иллюстрируется путем использования данных о значениях роста и веса для 15 гипотетических учащихся в приведенной ниже таблице.
1. Преобразуйте рост каждого учащегося в стандартные единицы: (рост ? среднее значение) / стандартное отклонение.
2. Преобразуйте вес каждого из учащихся в стандартные единицы: (вес ? среднее значение) / стандартное отклонение.
3. Для каждого учащегося вычислите произведение (вес в стандартных единицах) ? (рост в стандартных единицах). Вы должны увидеть, что это число будет самым большим по абсолютному значению, когда рост и вес ученика расположены относительно далеко от своих средних значений.
4. Коэффициент корреляции представляет собой сумму произведений, вычисленных выше, деленную на количество наблюдений (в нашем случае – 15).
Корреляция между ростом и весом для этой группы учащихся – 0,83. Учитывая, что коэффициент корреляции может находиться в диапазоне от ?1 до 1, это относительно высокая степень положительной корреляции, чего и следовало ожидать.
A – Учащийся; B – Рост; C – Вес; D – Рост в стандартных единицах; E – Вес в стандартных единицах; F – (Вес в стандартных единицах) ? (Рост в стандартных единицах)
Формула для вычисления коэффициента корреляции требует небольшого отступления, которое понадобится для того, чтобы объяснить систему обозначений, используемую в данном случае. Символ ? часто применяется в статистике. Он обозначает суммирование величин, которые указаны после него. Если, например, имеется некая совокупность наблюдений x1, x2, x3 и x4, то запись ? (xi) говорит о том, что мы должны суммировать четыре наблюдения: x1 + x2 + x3 + x4. Таким образом, ? (xi) = x1 + x2 + x3 + x4. Наша формула для среднего значения совокупности из n наблюдений может быть представлена в следующем виде: среднее значение = ? (xi)/n.
Мы можем придать этой формуле еще более универсальный вид, записав ее как
С учетом этой универсальной системы обозначений формула вычисления коэффициента корреляции r для двух переменных x и y может выглядеть так:
где
n – количество наблюдений;
x?x – среднее значение для переменной x;
y?y – среднее значение для переменной y;
?x – стандартное отклонение для переменной x;
?y – стандартное отклонение для переменной y.
Любая статистическая компьютерная программа может с помощью статистических инструментов вычислить коэффициент корреляции между двумя переменными. Использование Microsoft Excel в примере с ростом и весом учащихся позволяет получить такую же корреляцию между ростом и весом пятнадцати учащихся, что и вычисление, выполненное нами вручную на основе приведенной выше таблицы: 0,83.