[БЕЗ _ЗВУКА] В этом видео мы поговорим о выделении коллокаций.
Ну, во-первых, о том, что такое коллокации, зачем их выделять, о том,
как их можно выделять с помощью взаимной информации, о том,
как можно комбинировать это с другими подходами, о том, какие
еще существуют статистические подходы, и закончим всё некоторой простой эвристикой.
Итак, коллокация — это, просто говоря, устойчивое словосочетание.
При этом это могут быть как достаточно обычные для речи вещи, ну, например,
фразы «ставить условие», «назначить встречу»,
так и какие-нибудь названия, например, крейсер «Аврора».
И возникает вопрос — зачем же нам выделять коллокации?
Коллокации интересно выделять, во-первых, в случае,
если вы хотите сконструировать какие-то более качественные признаки,
хотя здесь ваши ожидания могут быть слегка завышены.
Дело в том, что использование коллокаций вместо обычных биграмм не то чтобы очень
часто дает существенный прирост качества.
Ну а во-вторых, можно использовать для визуализации текстовых данных.
Это уже куда более осмысленное применение.
Дело в том, что иногда нам хочется посмотреть на тексты и понять,
о чем же они.
И один из способов это сделать — это посмотреть на характерные словосочетания
из этих текстов.
Как вариант, это можно использовать в тематическом моделировании или же в
кластеризации текстов, для того чтобы визуализировать кластеры.
Познакомимся для этого с таким понятием, как взаимная информация.
Взаимная информация — это некоторая мера того,
насколько часто событие происходит вместе.
Действительно, давайте рассмотрим вероятность пронаблюдать два события x и y
вместе и рассмотрим вероятность пронаблюдать их по отдельности — p(x)
и p(y).
Если эти события возникают независимо,
то вероятность p(x, y) будет просто произведением p(x) * p(y).
Если же события возникают не независимо, и, наоборот,
даже очень часто эти события происходят вместе, то отношение p (x,
y) / p(x) * p(y) будет больше единицы.
Ну и, соответственно, логарифм от этого отношения будет больше нуля.
Если PMI принимает достаточно большое значение,
то эти события часто происходят вместе.
Ну какие в нашем случае могут быть события?
Например, ситуация,
когда мы встречаем в одной биграмме какие-то два конкретных слова.
Как же можно выделить коллокации в этом случае?
Можно посчитать PMI для встречной пары слов и проверить,
что PMI получился больше некоторого порога.
Откуда мы возьмем порог?
Дело в том, что для разных датасетов порог будет получаться специфичный.
Поэтому самый разумный способ — это просто посмотреть на PMI
для разных словосочетаний и подобрать порог некоторым визуальным способом.
Как вариант, можно взять топ слов по PMI и выбрать достаточное количество.
С другой стороны, можно это сочетать с частотами,
с которыми биграммы встречаются в текстах.
Ну, например, можно отобрать биграммы по PMI, который должен быть больше
некоторого порога, и взять из них топ по частотам.
Или другой вариант.
Выбрать топ по PMI, выбрать топ по частотам и пересечь его.
Таким образом получаются наиболее удачные словосочетания.
С другой стороны,
PMI — это не единственный способ на основе какой-то статистики предположить,
что пара слов образует некоторое устойчивое словосочетание.
Существуют и другие методы.
Ну, во-первых, можно просто посмотреть на позицию одного слова в разных текстах,
позицию другого слова в разных текстах и посмотреть на разность этих позиций.
Если эти слова склонны встречаться вместе часто,
то матожидание этой разности будет близко к нулю,
а дисперсия будет не очень большой.
Таким образом,
на основе оценки матожидания и на основе оценки дисперсии можно получить некоторый
эвристический способ опять-таки выделять такие устойчивые словосочетания.
Кроме того, можно использовать другие статистические методы,
например, t-тест, χ²-тест, или же смотреть на отношение правдоподобий.
Мы не будем подробно останавливаться на этих различных методах в данном видео,
однако мне хочется еще успеть с вами поделиться такой интересной эвристикой.
Оказывается, если у вас достаточно большая выборка,
в ней достаточно много раз встречаются одни и те же слова,
сильно переусложнять решение задачи выделения коллокаций не стоит.
Дело в том,
что может быть достаточно просто выбрать наиболее часто встречающиеся биграммы.
Или же другой вариант.
Выбрать биграммы, которые имеют наибольшую документную частоту,
то есть большое количество документов, в которых встретились эти биграммы.
Стоит понимать,
что в этом случае мы выделяем просто часто употребимые биграммы.
Мы не выделяем такие пары слов,
которые употребляются только вместе или почти только вместе.
Среди выделенных таким образом биграмм могут оказаться и пары достаточно
общеупотребительных слов, которые все-таки часто встречаются вместе.
Подведем итог.
Мы с вами познакомились с понятием коллокаций, выяснили,
как можно выделять коллокации с помощью взаимной информации,
упомянули другие критерии, упомянули возможность сочетать разные критерии при
выделении коллокаций и обсудили простые эвристики.