0:00
[МУЗЫКА] [МУЗЫКА]
[ЗВУК] До этого момента мы говорили о том, как
визуализировать распределение признаков, измеренных метрическими шкалами.
То есть что гистограмма, что ящик с усами, что диаграмма рассеяния,
все эти графики предназначены для визуализации признаков,
для которых имеет смысл расчет среднего, у которых достаточно большой разброс,
для которых мы можем сравнивать медианы, размахи и все такое прочее.
Но что делать, если мы работаем с признаками,
для которых невозможны арифметические операции?
Или того хуже, с номинальными признаками, для которых мы вообще не можем
рассчитывать ничего, кроме моды, и даже размах для нас не имеет никакого смысла?
В этой лекции постараемся в этом разобраться.
Начнем с того, как визуализировать одномерные распределения признаков,
измеренных неметрическими шкалами,
ну и затем немножечко поговорим о совместных распределениях.
Ну, начнем с одномерных.
Если нам нужно визуализировать распределение одного признака,
измеренного номинальной шкалой, то для этого обычно используется диаграмма так
называемый «пирог», пирогообразная диаграмма.
То есть у нас есть вот этот вот круг, похожий на пирог.
Мы его разрезаем на сектора,
которые отражают представленность вот этих вот разных категорий.
Чем толще кусок, тем более выражена и тем более популярна или распространена вот эта
вот категория популяции.
Если нам нужно просто понять соотношение, то в принципе пирога достаточно.
По взаимному там...
вот, положив там куски, мы увидим, какой больше, какой меньше,
и поймем относительную представленность.
Но бывают ситуации, когда нужно не просто понять соотношение,
а нужно понять популярность, то есть когда для нас важно, кто лидер, для нас важно,
какая категория или какие категории будут первыми.
Например, если мы опрашиваем жителей района о наиболее актуальных проблемах в
этом районе.
В таком случае нам не просто важно, что жители говорят, а нам важно,
какую проблему жители видят как самую актуальную.
Любой бюджет ограничен,
и какую-то проблему необходимо решать в первую очередь.
Ну, по логике, нужно решать самую острую, самую популярную.
И для того чтобы понять, какая из них самая острая,
можно использовать столбиковую диаграмму, горизонтальную столбиковую диаграмму
желательно, потому что она позволяет увидеть это наиболее ярко.
То есть мы опросили жителей района,
мы получили процентное распределение и затем нанесли его
на горизонтальную столбиковую диаграмму, упорядочив предварительно по популярности.
И в итоге то, что мы получим, это у нас будут такие вот столбики,
убывающие по длине, и где сразу будет видно,
что самая первая проблема — она и есть самая актуальная, она и есть самая острая.
Для таких задач горизонтальная столбиковая диаграмма самая информативная.
Когда мы работаем с порядковыми шкалами, здесь также можно использовать пирог,
но проблема пирога в том, что он как бы убирает, выносит за скобки ранговость.
Мы увидим относительные там опять-таки ширину, больше-меньше,
популярнее — не популярнее, но порядок между значениями признака у нас исчезнет.
Если мы хотим, чтобы эта ранговость или порядок значений сохранилась, тогда лучше
использовать опять же столбиковую диаграмму, но лучше вертикальную,
и упорядочивать ее не по популярности ответов, а по вот этому самому рангу.
Рассмотрим на примере шкалы счастья,
о которой мы уже неоднократно говорили в этом курсе.
Вот на основе данных европейского социального исследования получены
распределения шкалы счастья в Швеции.
Вы видите сейчас это распределение на экране.
Мода — 8, и распределение явно скошено в сторону бо́льших значений,
то есть шведы — относительно счастливая нация.
Если мы для сравнения посмотрим на распределение ответа на этот же
вопрос в России, то мы увидим немножечко другую ситуацию.
Мода здесь уже не 8, а 5, и можно говорить, что россияне у нас, ну,
не то чтобы несчастней шведов, но уровень счастья в России скорее средний,
чем высокий.
Для сравнения возьмем третий график.
Этот график полученный на тех же данных, но для Албании, и этот график
с одной стороны, самый неопределенный, с другой стороны, самый интересный.
Мы видим, что на этом графике у нас как самое высокое количество самых несчастных
— нигде больше нет такого высокого столбика в левом краю,
также мы видим здесь очень высокий столбик в самом правом краю.
То есть эта страна, в которой много несчастных, много счастливых,
также мы видим парочку мод в середине.
То есть почти наверняка это говорит о том,
что в стране есть разные категории людей с разными жизненными обстоятельствами.
Может быть, этническая ситуация, может быть, социально-экономическая ситуация,
но Албания, по крайней мере,
по вот этим вот данным страна по уровню счастья самая неоднородная.
И столбиковые диаграммы, вот эти вот вертикальные столбики,
позволяют нам визуализировать.
Вот, мы посмотрели на три графика, и мы очень четко видим, какая страна где
находится по счастью, и какие особенности в каждой из стран наблюдаются.
Если немножечко поговорить о совместных распределениях признаков,
то есть мы можем взять шкалы, как вот здесь мы нанесли три страны отдельно,
но мы могли бы нанести эти все три страны на один график.
В таком случае, это было бы совместное распределение двух признаков,
где одним признаком был бы признак «страна»,
другим признаком был бы признак «уровень счастья».
Одна шкала номинальная, другая шкала порядковая.
Что мы здесь можем делать?
Ну, мы можем докладывать несколько столбиковых диаграмм,
где у нас по относительной высоте столбцов будет видно, какая из стран счастливее,
а какая несчастнее.
Возможно, это будет наглядно, возможно, это будет смешано, но тем не менее,
есть такой вариант.
Совместное распределение признаков неметрических шкал сравнивают при помощи
столбиковых диаграмм.
Если у нас есть две шкалы, измеренных интервальными шкалами — два признака,
то мы уже знаем, что здесь нам поможет диаграмма рассеяния.
Мы уже смотрели на это на примере уровня дохода в стране
и среднего значения удовлетворенностью жизнью в стране, и видели,
что вот этот вот разброс, вот такая визуализация, очень информативна.
Что делать в промежуточном случае, когда у нас одна переменная номинальная,
то есть она хранит минимум информации, а другая переменная интервальная,
для которой возможно рассчитывать все, что угодно?
То есть номинальная как бы минимальная, и она нас ограничивает,
а интервальная переменная — содержащая максимальное количество информации.
В таком случае мы можем представить задачу вот этого вот показа совместного
распределения как задачу сравнения групп.
То есть фактически та шкала, которая номинальная, например,
страна в нашем примере, она может выступать в качестве группообразующей,
а та переменная, которая вот отражает интервальность вот эту вот,
она у нас будет признаком, по которому мы будем сравнивать страны.
Вот пример реализации такой задачи на данных российского мониторинга
экономического положения о здоровье, который вам уже знаком.
Мы возьмем несколько российских регионов, они у нас как номинальная переменная
станут группообразующими, а переменная ежемесячного дохода в рублях у нас будет
тем самым интервальным признаком, по которому мы можем сравнивать эти регионы.
Строим уже известный нам ящик с усами и видим,
что различия между регионами по доходам очень хорошо видны.
Таким образом, если нам нужно визуализировать совместные распределения
двух признаков, то в зависимости от того, с какими шкалами мы имеем дело,
две номинальные шкалы — это либо пирог, либо столбики,
две интервальные шкалы — это все-таки столбики, и скорее вертикальные.
Две интервальные шкалы — понятно, диаграмма рассеяния, а если одна шкала
неметрическая, а другая шкала метрическая, то мы можем использовать ящик с усами,
формулируя эту задачу как задачу сравнения групп по интервальному признаку.
В принципе, запомните вот эту вот табличку.
Если вам захочется что-нибудь визуализировать, то она вам поможет
сориентироваться в том, какие графики лучше использовать для какой задачи.