[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Здравствуйте, мы начинаем новый модуль нашего курса, который будет целиком посвящен выборкам. До этого мы много говорили о том, как, зная теоретическое распределение, зная теорию вероятности, зная параметры распределения, оценить на выборке то, что происходит с генеральной совокупностью, какие параметры там у нас в генеральной совокупности распределения. Но есть проблема, что даже самая хорошая теория и даже самое красивое распределение не помогут нам, если выборка, на которой мы оцениваем, сконструирована неправильно, если выборка эту самую генеральную совокупность не представляет, то есть не является репрезентативной. И этот модуль, собственно, будет посвящен тому, что такое «правильно» и «неправильно» в конструировании выборок; какие бывают типы выборок; что такое статистическая репрезентативность; и какие последствия хороших и плохих выборок для результатов нашего исследования могут возникнуть. Кастрюля здесь тоже находится не случайно. О том, что это такое и зачем она здесь, вы узнаете уже очень скоро. Начнем с того, собственно, почему выборка? Ну, логичный вопрос: если мы берем выборку, мы в любом случае кого-то отбрасываем, почему не взять всех и не поработать сразу со всеми элементами генеральной совокупности? Ну, во-первых, если вы работаете с опросными данными, то опросить всех — это очень дорого. Даже если мы не говорим о том, чтобы представить всех россиян, а хотим представить, например, всех новосибирцев, — это 1,5 млн человек. Даже больше уже сейчас по статистике. Для того чтобы взять и опросить 1,5 млн человек, нужны бюджеты, которых у нас, разумеется, нет. Кроме того, даже если бы эти бюджеты были, охватить всех новосибирцев или охватить всех жителей любого большого города практически невозможно. Почему? Во-первых, потому что люди не сидят на месте. Люди ездят в командировки, в отпуска, и всякие разные ситуации у людей бывают, которые их сдергивают с места в непредсказуемое время. Во-вторых, кроме того, что люди не сидят на месте, они еще и не все доступны. Некоторые не попадают в наши списки. Некоторые, например, не регистрируются. Некоторые не живут по прописке. Некоторые не хотят разговаривать с нами. Таким образом, даже если у нас есть бюджет на то, чтобы охватить всех новосибирцев, задача эта все равно практически нерешаемая. Очень трудно. А идея с выборкой, она в общем-то простая: взять небольшую совокупность, но которая будет достаточно разнородной, с точки зрения каких-то ключевых критериев, которые представляют нашу генеральную совокупность. То есть не опрашивать всех новосибирцев, а взять какой-то срез, который будет представлять новосибирцев по важным для нас критериям. Идея с выборкой... Ну вот, собственно, здесь появляется кастрюля. Идея с выборкой очень похожа на идею с супом. Когда мы сварили суп, в котором есть много ингредиентов, они по-разному порезаны, они в разное время добавлены, и нам нужно оценить качество супа. Понятно, что нам не нужно съедать весь суп, для того чтобы оценить, насколько вкусным он получился. Более того, если бы нам нужно было съесть весь суп, чтобы понять, насколько он хорош, то любая идея коллективной готовки или приготовления пищи на компанию была бы несколько абсурдной. Но что мы делаем? Мы варим суп, и после этого мы берем ложечку (или поварешечку в нашем случае), зачерпываем и на основе вот этой маленькой порции пытаемся оценить, удался ли нам суп или нужно что-то в нем изменить. Если мы просто возьмем какой-нибудь там случайный фрагмент, например зачерпнем сверху, то у нас получится полная поварешка воды, и никакого представления об ингредиентах (об овощах) она нам не даст. Если мы зачерпнем абы откуда, то может получиться так, что у нас только крупные куски попали, а про мелкие куски мы ничего не поняли. Для того чтобы все ингредиенты нашего супа попали вот в этот вот самый маленький образец, на котором мы пробуем на вкус суп, нам нужно его сначала тщательно взболтать, и потом, после того как мы его хорошо перемешали, зачерпнуть, и мы видим, что у нас в поварешке тогда оказываются все ингредиенты: и крупные, и мелкие, и вода, и всё. То есть мы можем оценить уже вот на этой порции, насколько хорошо приготовились все входящие в суп ингредиенты. Так же и с выборкой. Аналогом вот этого перемешивания в случае с выборкой является случайный отбор. Именно случайный отбор, суть которого в том, чтобы обеспечить равную вероятность для каждого элемента генеральной совокупности в выборочную совокупность попасть, именно он обеспечивает нам вот эту репрезентативность выборки. Идея в том, что у нас должен быть какой-то список. В каком-то виде у нас все элементы генеральной совокупности должны быть перечислены, будь то адресные книги, которые ведут сельсоветы, или будь то там полный список телефонных номеров, например, но у нас есть полный список элементов генеральной совокупности. И затем случайным образом мы отбираем выборку нужного объема, и благодаря тому, чтоб отбор ведется случайно, каждый из этих элементов имеет равную вероятность, то есть каждый может с одинаковой вероятностью попасть в выборочную совокупность. И таким образом, мы перемешиваем суп, обеспечивая попадание разным вот этим кусочкам: крупным, маленьким, доступным и не очень. Если у нас нет случайного отбора, то суп у нас не перемешан, то в таком случае в выборке у нас равная вероятность попадания не обеспечивается, следовательно в статистическом смысле наша выборка не репрезентативна. «Ну и что, — спросите вы, — что страшного в том, что выборка не репрезентативна?» Ну, обозначу только несколько проблем. В следующей лекции об этих проблемах Наталья поговорит подробнее. Самый простой и самый понятный пример: если мы отбираем, например, доступную выборку. То есть мы изучаем досуговые предпочтения молодежи, но поскольку мы учимся или работаем в МГУ, мы опрашиваем только студентов МГУ и говорим, что на основе вот этого нашего исследования мы будем знать про всю молодежь. Очевидно, про всю молодежь мы знать не будем, потому что выборка — это очень специфическая группа. Может быть, там у нас вообще большинство друзей, которые привыкли проводить досуг вместе определенным образом. Доступная выборка дает нам какую-то картину — очень даже красочную, может быть, но не полную. То есть существенная часть молодежи, которая не учится в вузах или учится в других вузах из нашей выборки выпадет. Кроме того, мы можем отобрать только тех людей, которые захотят с нами разговаривать. К примеру, если мы исследуем какие-нибудь чувствительные темы или какие-нибудь темы, актуальные для определенной группы населения, то мы можем охватить только ту часть людей, у которых либо есть мнение, либо которые любят поговорить. Ну вот, к примеру, мы знаем, что если никак не контролировать отбор, то женщины в возрасте говорят более охотно, чем молодые мужчины. И если никак не контролировать, то мы вполне возможно будем сбиваться либо в сторону разговорчивых людей, либо в сторону тех людей, у которых есть мнение по этому вопросу, либо в сторону тех людей, которые чувствуют себе уверенно, потому что их мнение совпадает с мнением большинства. При этом у нас будут пропадать, например, какие-то активные группы, которые не хотят со мной поговорить, либо группы, которые чувствуют себя неуверенно, потому что они в меньшинстве, а для исследования чувствительных тем именно такие мнения могут оказаться ключевыми. То есть беда таких нерепрезентативных выборок в том, что мы не даем равные возможности разным людям, разным точкам зрения быть представленными в наших выборках. Случайная выборка хотя бы формально такую возможность такого представительства гарантирует. Какие у нас бывают случайные выборки? Самый простой и самый понятный вариант — это простая случайная выборка, когда у нас есть полный список элементов генеральной совокупности. К примеру, наша генеральная совокупность — все обладатели телефонных номеров города Новосибирска, и у нас есть полный список этих номеров. Мы включаем датчик случайных чисел, отбираем нужное нам количество объектов и прозваниваем эти номера телефонов — простая случайная выборка. Другой вариант простой, но не очень случайной выборки — это выборка механическая, когда, опять-таки, у нас есть полный список элементов генеральной совокупности, мы случайным образом выбираем первый и затем от него с определенным шагом начинаем отбирать следующие элементы. То есть у нас первый — случайно, а остальные, соответственно, тоже случайно с определенным шагом. Еще один вариант — это выборка стратифицированная. Здесь у нас уже не просто случайный отбор, а здесь мы знаем что-то про нашу генеральную совокупность. Мы знаем, что она состоит из нескольких страт, которые внутри себя однородные, но которые обязательно нужно представить. Ну для простоты: мужчина и женщина, например, которые имеют разные мнения по какому-нибудь вопросу. И мы сначала делим нашу генеральную совокупность на мужчин и женщин и потом случайным образом отбираем и отсюда и отсюда, чтобы гарантировать представленность вот этих страт. И еще один вариант случайной выборки — это выборка гнездовая, или кластерная. Такие выборки используются, когда мы исследуем города, например, которые очень часто делятся на районы. Часть из районов похожи между собой, часть отличаются, и у нас такие как бы кластеры районов, похожих, скажем, по социально-экономическим условиям. И мы сначала разделяем город на кластеры и потом из этих кластеров случайным образом отбираем по одному, чтобы не ездить во все двенадцать районов, например, а выбрать из двенадцати три случайным образом, разделив их предварительно на вот эти сходные категории, и потом уже внутри вот этих районов работать. Итак, наши варианты для случайных выборок: простая, механическая, стратифицированная или кластерная. Если вам интересно, можете посмотреть, как отбирались объекты в базе данных RLMS, на которой мы с вами работаем, время от времени что-то смотрим. Там очень интересная схема многоступенчатая. А что по поводу неслучайных выборок? Неслучайные выборки, сразу скажу, что они тоже бывают нужны. Более того, в некоторых случаях неслучайные выборки незаменимы. К примеру, есть такой метод отбора — метод «снежного кома» называется. Он необходим, если мы исследуем, например, если мы опрашиваем экспертов или если мы исследуем труднодоступные группы, или мы не знаем точно объем генеральной совокупности и не уверены, как проникнуть в эту самую совокупность, тогда получается, что мы разговариваем с первым человеком, он нам дает контакт следующих, следующих, следующих, и мы как бы накапливаем ком, наращиваем выборку, начиная от одного, или иногда запускают несколько таких комков, чтобы как раз гарантировать гетерогенность совокупности. Но эта выборка статистически нерепрезентативная, разумеется, но есть задачи, для которых без нее просто не обойтись. Другой вариант — это выборка квотная, когда мы знаем, например, что у нас должен быть такой-то процент мужчин и женщин и такой-то процент людей с разным уровнем образования. Мы задаем вот эти процентные распределения и потом наполняем, как получится, вот эти самые проценты. По-хорошему, конечно, должно работать несколько интервьюеров, чтобы избежать эту проблему доступной выборки, но все равно квотная выборка нерепрезентативна примерно по той же причине, что у нас наполняться вот эти вот ячеечки могут... ну, поскольку случайности в отборе нет, то один интервьюер может отбирать людей из близкого круга или тех, кто согласиться разговаривать. Ну и здесь опять получается такой структурированный, но все же вариант доступной выборки. Есть задачи, для которых неслучайные выборки нужны, есть задачи, для которых они незаменимы, но в статистическом смысле неслучайные выборки нерепрезентативны. Поэтому все вот эти теоретические знания о распределениях, о том, чтобы на основе выборки сделать вывод о генеральной совокупности, это мы можем делать только на случайных выборках. Какие бывают ошибки выборок и какие печальные следствия из этих ошибок могут быть для анализа данных — об этом подробнее поговорим в следующей лекции.