[МУЗЫКА] [МУЗЫКА] Добрый день всем. Я рада снова к вам обращаться. Как я обещала ранее, сегодня мы уделим особое внимание Твиттеру. Почему? Потому что это единственный в таких огромных размерах источник больших данных из социальных сетей, доступный исследователям социальных наук для сбора детализированных данных о взаимодействии людей во время локальных, региональных и глобальных событий. Я на 100 % уверена, что вы все знаете, что такое Твиттер. Но все же я предлагаю поговорить об этом очень кратко. Твиттер был запущен в октябре 2006 года. Попав в категорию социальных медиа, концептуализируется он все же различными способами. Твиттер считается инструментом микроблогинга, службой коротких сообщений, а также социальной сетью. Фактически это платформа для выражения мнений в пределах 280 символов. Но если вы помните, до 2017 года их было вдвое меньше. Почему исследования данных Твиттера настолько обширны, разнообразны и являются растущей областью исследований? Дело в том, что Твиттер — это огромная общедоступная база данных с многочисленными возможностями для ученых. У него очень открытый интерфейс прикладного программирования (API), что делает его идеальным средством для изучения. На самом деле, одно из ключевых отличий между Фейсбук и Твиттер заключается в том, что большая часть контента в Твиттер общедоступна через API Twitter или через посредников, таких как Gnip или DataSift, тогда как большая часть контента Facebook является конфиденциальной. Таким образом, цифровые следы, оставленные пользователями Твиттера, данные об их взаимодействии друг с другом можно собирать и анализировать. Метаданные каждого твита содержат не только текст, но и различные переменные, такие как: число подписчиков, язык, географическое положение и так далее. Можно сказать, что у Твиттера есть свой технический сленг. Первой и более известной характеристикой является его краткость и простота 280-ти символов для публикации твитов. Кроме того, Twitter учитывает использование пользователями других элементов, таких как: прямые ответы на твиты (replies); обращение к другим аккаунтам, то есть упоминания (Mentions); и распространение информации — ретвиты (retweets). Взаимодействия, осуществляемые пользователями, выстраиваются в сети обсуждений под хэштегом, формируя диалоги и сообщества. Эти хэштегированные темы формируют, в свою очередь, вокруг себя публику, обсуждающую конкретные вопросы. Этот феномен назван issue publics. Итак, мы подошли к вопросу, как мы можем собирать данные из Твиттера. Существуют три основных метода сбора данных через API Twitter. Первый — Firehose, второй — REST, то есть остающиеся твиты, и третий — Stream, то есть поток твитов. Каждый из них подразумевает различные процедуры для извлечения конкретных данных. Первый метод Firehose обеспечивает полный доступ к данным твитов без каких-либо ограничений. Firehose API обеспечивает 100 % данных Твиттера в режиме реального времени. Несмотря на то, что этот метод идеально подходит для исследований, ученые обычно не используют Firehose из-за его высокой стоимости. Только крупные компании и учреждения с большими денежными ресурсами могут позволить себе использовать его. Кроме того, Firehose не доступен напрямую, то есть он не является публичным. Таким образом, исследователи могут получить доступ к API Firehose только через сторонние компании, такие, как Gnip и DataSift. Хорошей новостью является то, что два других метода REST и Stream общедоступны и относительно просты для доступа. Возможности переменных REST API огромны: чтение профилей авторов и данных подписчиков, то есть фолловеров, извлечение настроек, языков и так далее. Он также позволяет с помощью Search API, то есть с помощью поиска, извлекать твиты, содержащие конкретные ключевые слова, фразы или хэштеги, географические характеристики и ID, то есть идентификаторы пользователей. По сравнению с Firehose, REST имеет некоторые ограничения. Обратите внимание, что REST API имеет временные лимиты, то есть исследователь может получить следующий список пользователей только через 15 минут. Кроме того, поисковой запрос может быть возвращен только на одну неделю назад, и он предоставляет выборку только 1 % от возможностей Firehose. Таким образом, REST API предоставит вам не более 1 % всех твитов, опубликованных в Твиттере в определенный момент времени. Третий метод сбора данных твитов Stream заключается в том, чтобы оставить запрос в API открытым в течение определенного периода времени, то есть собирая данные в живую. Stream API можно настроить для потоковой передачи твитов с конкретными ключевыми словами, фразами, или хэштегами, геоданными и ID пользователей. Как и Search API, Stream предоставляет лишь 1 % от емкости Firehose, но зато нет ограничений по времени, в течение которого запрос может оставаться открытым. Однако этот метод требует больших навыков программирования и наличия технической инфраструктуры. Поскольку Stream API — это постоянный открытый запрос в API Twitter, необходимо подготовить дополнительное кодирование в программном скрипте на случай возникновения проблем с подключением к Интернету. Обычно Stream API держат открытым в течение нескольких часов, дней, недель и даже месяцев. В дополнение к вспомогательному кодированию, Stream API требует больше пространства на жестком диске, так как собранные данные могут быть большего объема. В среднем, миллион твитов требует около одного гигабайта пространства на жестком диске. Распространенным решением является наличие внешнего сервера или сервера, предоставленного университетом для хранения собранных данных. Как вы видите, только один метод предоставляет 100 % от объема данных Твиттера, то есть это Firehose API, тогда как два других метода собирают до 1 % твитов в зависимости от фильтров, наложенных Твиттером. Такое положение дел вызывает следующие исследовательские проблемы. Основная проблема, связанная с аналитикой данных Твиттера — это предвзятость данных. Что это означает? Дело в том, что учитывая, что собранные данные составляют до 1 % от общего объема данных о каком-либо событии, чрезвычайно сложно сделать достоверные выводы об очень больших событиях или глобальных событиях. Тип устройства обоих общедоступных API делает невозможным повторение одного и того же сбора данных. Это является серьезным исследовательским ограничением, поскольку исследователи не знают о конкретных методах выборки, используемых публичными API для удовлетворения их потребностей. Следующим ограничением исследования Твиттер является предвзятость репрезентативности, то есть низкая представленность широкой публики в Твиттер. Здесь можно говорить о нескольких причинах. Первая причина — это более низкий уровень использования Твиттер по сравнению с другими платформами, такими как Facebook, или СМИ, такими как телевидение, газеты и радио. На сегодняшний день у Твиттер около 330 миллионов активных пользователей по всему миру, а у Facebook — 2,6 миллиарда. Вторая причина — разница в уровне использования Твиттер по всему миру. В некоторых странах он широко используется, в то время как в других его использование незначительно. И третья причина — это цифровой разрыв, который вызывает дополнительное опасение по поводу обобщения любых инсайтов, перенесенных из онлайна в офлайн сферу. Население Твиттера отличается от обычного населения. Оно, как правило, моложе и лучше образовано. Следующий важный момент об ограничениях Твиттера можно назвать языковым вызовом или языковой проблемой, создаваемой языковыми пузырями, которые формируются пользователями, взаимодействующими на разных языках. При сборе данных всегда важно помнить о различии хэштегов на разных языках, иначе это может испортить результаты. В заключение следует отметить, что существуют некоторые методологические предостережения, которые необходимо учитывать при проведении исследования данных Твиттера. Кстати, в научных статьях эти ограничения всегда обязательно пишут в соответствующем разделе перед заключением. Однако даже если Твиттер- Твиттер-мир не идентичен миру офлайна, он полностью реален, потому что его пользователи — их желания, эмоции и политические взгляды реальны. Итак, почему Твиттер может быть так важен для исследователя международных отношений? Ну во-первых, из-за его уникальной степени транснационального общения и открытой интерактивности среди пользователей. Только подумайте, это делает платформу идеальной общественной ареной, в принципе без каких-либо ограничений. Во-вторых, из-за его асимметричного и открытого принципа фолловинга, то есть подписок пользователей без обязательной взаимности. Мы можем отслеживать, какие государства, политики и международные организации подписаны друг на друга, а какие нет. В заключение на данном этапе Твиттер с его очень открытыми API является идеальной средой для изучения, поскольку он дает нам возможность динамического анализа политических данных.