Сегодня мы с вами рассмотрим такую важную тему для поиска, как ранжирование. До сих пор основной и единственной задачей у нас было найти все документы, которые удовлетворяют запросу пользователя. Однако, очевидно, может сложиться такая ситуация, что в результате мы получим так много документов, что пользователь просто физически не сможет за разумный промежуток времени пересмотреть их все и найти именно тот документ, который ему нужен. Поэтому мы поставим перед собой целью не просто найти документы, но и определенным образом упорядочить их так, чтобы на первых позициях в нашей выдаче были те документы, которые, на наш взгляд, являются лучшими. Лучшими в данном случае будут релевантные документы, то есть те, которые наилучшим образом отвечают на запрос пользователя. Что же такое релевантность? Это понятие, которое описывает степень подобия между документом и конкретным запросом. В первую очередь стоит заметить, что это понятие связано прежде всего именно с парой документ-запрос и не может применяться по отдельности к кому-нибудь из них. Таким образом, ранжирование в нашем случае — это некое численное выражение релевантности, которое позволяет упорядочить документы. Как же можно отранжировать документы? Все методы можно условно разделить на две группы. Первая использует только данные о самих документах и запросах. И вторая группа использует какие-то внешние сигналы. К первой группе, например, можно отнести те методы, которые используют информацию об обработке запроса, то есть использовали ли мы точную формулировку запроса и нашли ее в документе, исправляли ли опечатки, применяли ли расширение запроса с помощью синонимов либо нечеткого поиска. Кроме того, в некоторых методах используется информация о том, где именно в документе было найдено запросное слово. В случае же с методами, которые используют какие-то внешние сигналы, можно выделить методы, которые, например, используют информацию о том, где именно документ находится в web-пространстве, то есть на каком сайте он находится, как он соотносится с другими документами. И кроме того, не стоит забывать о такой полезной вещи, как пользовательская информация, а именно информация о том, как другие пользователи, задавшие похожие запросы, реагировали на тот или иной документ выдачи.