[МУЗЫКА]
[МУЗЫКА] Следующая наша
тема — это «Первичные описательные статистики»; имеются в виду
статистики как описательные модели для количественных переменных.
Как мы уже говорили,
для номинальных переменных описательной статистикой является частота, количество.
Прежде всего рассмотрим два понятия: статистика и параметры.
На экране вы видите схематично процесс исследования.
Исследование, как говорилось, начинается с содержательной гипотезы,
которая адресована генеральной совокупности.
Из генеральной совокупности извлекается выборка,
в результате измерения мы получаем переменные на выборке,
и по этим переменным вычисляются описательные статистики,
по количественным переменным.
Описательные статистики мы в ходе исследования
рассматриваем как оценки генеральных параметров именно тех,
в отношении которых проверяются статистические гипотезы.
Таким образом, вычисляем на выборках мы статистики, например, среднее значение
и при этом подразумеваем, что это среднее значение, вычисленное на выборке,
является оценкой генерального среднего, среднего для генеральной совокупности.
Основное назначение описательных статистик — это сравнение выборок, то есть мы можем,
например, сравнить два средних значения — для юношей и для девушек.
Выделяют две большие группы первичных описательных статистик:
это меры центральной тенденции и меры изменчивости.
Рассмотрим сначал меры центральной тенденции, они представлены на экране.
Перечислены они в порядке их усложнения,
и, соответственно, в порядке узости применения.
Самая универсальная мера центральной тенденции — это мода.
Мода — это наиболее часто встречающееся значение переменной.
Моде на графике распределения частот соответствует наивысший подъем этого
графика.
Медиана, или серединное значение переменной после
упорядочивания всех выборочных значений переменной.
То есть для того чтобы определить медиану, необходимо сначала все выборочные значения
переменной упорядочить по возрастанию, затем отсчитать ровно половину.
И вот то значение переменной, которое делит упорядоченное множество ровно
пополам по численности, и будет медианой.
И видите, что если объем выборки нечетное значение,
то тогда медиана совпадает с центральным значением,
если же объем выборки — четное значение,
то медиана находится посередине между двумя центральными значениями
или равна среднему значению этих двух центральных значений.
И, наконец, наиболее сложная, но в обыденной жизни наиболее часто
встречающаяся мера центральной тенденции, — это среднее значение.
На экране вы видите формулу среднего значения, и все, конечно,
знают, как ее вычислять, но эта формула приведена для того,
чтобы познакомиться с символами, которые мы будем в дальнейшем использовать.
Во-первых, само среднее значение обозначается буковкой M от английского
слова mean.
Индекс около этого обозначения обозначает обычно
номер выборки или название выборки, по которой вычислено среднее,
потому что среднее используется обычно для сравнения выборок.
Среднее вычисляется как сначала суммирование всех выборочных значений,
значит, здесь xi — это значение переменное для испытуемого
или респондента с номером i, и этот номер i меняется от 1 до N,
где N — это объем выборки, и сумма эта делится, соответственно, на объем выборки.
Далее рассмотрим свойства среднего, которые полезно знать,
но основные свойства среднего следуют из курса арифметики
средней школы: если мы к каждому значению переменной прибавим константу,
то среднее значение увеличится на эту константу, если константа положительная,
либо уменьшится, если константа отрицательная.
То же самое, если мы каждое значение переменной умножим на константу, то
новое значение среднее будет равно старому значению, помноженную на эту константу.
Существенное значение в ходе исследования,
да и в ходе диагностики, имеет отклонение от среднего.
Отклонение от среднего — разность данного значения переменной и
выборочного среднего.
Мы говорим, человек высокого роста, подразумевая,
что он выше среднего, или низкого роста, подразумевая, что он ниже среднего,
соответственно, эта величина имеет диагностическое значение.
Представляет интерес, а чему равна сумма всех отклонений от среднего?
На самом деле рассчитывать эту величину нет никакого смысла,
потому что сумма всех отклонений от среднего строго равна нулю,
то есть среднее значение выступает как бы центром тяжести распределения.
Если представить себе график распределения частот — переменные,
то среднее и будет центром тяжести этого распределения.
Положительные отклонения от среднего компенсируются отрицательными отклонениями
от среднего.
Полезно также знать среднее для объединенных выборок.
Вот вы видите формулу на экране.
Зачастую мы имеем несколько средних значений одной и той же переменной для
разных выборок, и хотелось бы знать общее среднее.
Его несложно посчитать, формула указана на экране.
Каждое среднее умножается на объем соответствующей выборки,
мы получаем сумму значений для этой выборки и так далее, и затем сумму
эту всю делим на общее количество испытуемых объединенной выборки.
Как соотносятся между собой разные меры центральной тенденции?
Вот посмотрите на график: изображено три графика распределения,
которые различаются ассиметрией: первое — левосторонняя асимметрия,
второе — симметричное и третье — правосторонняя асимметрия.
Подумайте.
На экране вы видите ответ на заданный вопрос.
Для первого распределения, если распределение имеет левостороннюю
асимметрию, мода будет меньше, самая меньшая из всех центральных тенденций,
а среднее значение будет наибольшим из всех трех мер центральной тенденции,
а медиана будет находиться посередине.
Для правосторонней ассиметрии мы будем наблюдать обратную картину:
наибольшее значение будет иметь мода, медиана будет меньше моды,
а среднее будет наименьшим из всех трех центральных тенденций.
Чем более симметрично распределение, тем ближе между собой значения моды,
медианы и среднего.
Для абсолютно симметричного распределения эти три меры центральной тенденции
совпадут.
Еще одно замечание по поводу интерпретации среднего значения.
Если распределение переменной существенно асимметрично,
то среднее значение просто может не иметь никакого смысла.
Можно привести пример.
Предположим, средняя заработная плата.
Средняя заработная плата — это один из способов обмана при помощи статистики,
может быть.
Предположим, в компании работает десять человек,
у девятерых из них средняя заработная плата от 40 до 60 тыс.
рублей, а у десятого — миллион.
Чему будет равно среднее значение,
и будет ли оно соответствовать кому-нибудь из представленной выборки?
Среднее значение будет, предположим,
близко к 130 тыс., и утверждение о том,
что в нашей компании средняя заработная плата 130 тыс., было бы весьма
привлекательным для сотрудников-кандидатов на поступление на работу.
Однако, конечно же, это значение не соответствует действительности,
и в данном случае более адекватной мерой центральной тенденции была бы медиана.
Поэтому следует запомнить, что среднее значение имеет
смысл только для тех распределений количественных переменных,
которые приблизительно симметричны, а если быть более точным,
то распределение которых соответствует нормальному распределению.
Отдельный вопрос — это выбор меры центральной тенденции.
На экране вы видите диапазон применимости каждой из мер центральной тенденции.
Для номинальных переменных подходит только мода,
поскольку мы не можем упорядочить категории по возрастанию или убыванию.
Для порядковых переменных подходит и мода и медиана,
но медиана является более точной мерой центральной тенденции,
поэтому для порядковых данных она является основной.
Понятное дело, что если распределение переменной существенно отличается от
нормального, имеет существенные асимметрии,
то мода — более слабая мера центральной тенденции, а медиана — наиболее
подходящая мера центральной тенденции для таких распределений.
И, наконец, для метрических переменных в качестве основной меры центральной
тенденции является среднее значение,
хотя мы можем использовать и моду и медиану для сравнения со средним.
Другие меры положения тоже используются зачастую в исследованиях,
хотя гораздо реже, в отдельных случаях — это квантили распределения.
Квантиль распределения, общее определение квантиля: это точка на
числовой оси переменных, которая делит упорядоченное множество выборочных
значений на определенные пропорции.
Определенная часть выборки имеет значение меньше квантиля, часть — больше квантиля.
Мы уже один квантиль с вами изучили — это медиана.
Под такое определение попадает медиана как одна из мер центральной тенденции.
Наиболее общим квантилем является процентиль.
Существует или можно выделить 99 процентилей, которые делят все
выборочные значения на 100 равных по численности частей,
а медиана является 50-м процентилем.
Наиболее важные и наиболее существенные процентили,
которые наиболее часто используются, это 25-й процентиль, 50-й (медиана) и 75-й.
25-й процентиль и 75-й процентиль называются квартилями.
Таким образом, три квартиля делят все множество
наблюдений на четыре группы,
равные по численности.