[БЕЗ_ЗВУКА] [БЕЗ_ЗВУКА] А теперь давайте поговорим о том, как мы можем улучшить алгоритм PageRank. Для этого нам нужно выполнение двух условий. Во-первых, мы взяли все документы нашего корпуса и классифицировали их, разбив на категории по определенным темам. Во-вторых, нам нужна информация о самом пользователе, который будет задавать запросы, а именно, какие из выделенных нами категорий ему нравятся больше, а какие меньше. Таким образом, мы можем сделать вывод, что пользователь скорее всего с большей вероятностью будет переходить на те документы, которые соответствуют его любимым темам, и с меньшей вероятностью на те, которые соответствуют тем категориям, которые его не интересуют. Давайте рассмотрим на примере, как это может повлиять на наш алгоритм PageRank. Итак, у нас есть документ, у которого есть две исходящие ссылки, причем, одна из них ведет на документ, который находится в числе любимых категорий пользователя, а другой на ту категория, которая пользователя не интересует. До этого мы считали, что вероятность перехода по ссылкам у нас будет одинаковой. В данном случае она будет равна 1/2. Но так как теперь мы будем учитывать интерес пользователя, то мы можем изменить эти коэффициенты и поставить более высокий коэффициент для перехода на страницу, которая может пользователю понравится, и более низкий коэффициент для той страницы, которая не интересна пользователю. Кроме того, мы можем изменить так же и коэффициент телепортации пользователя, так как очевидно, что пользователь с большей вероятностью может попасть в документ того кластера, который его интересует, чем в документ тех кластеров, которыми он не интересуется. Итак, к чему же приведет такое изменение тематического PageRank'a. Во-первых, мы сможем более точно отвечать на запросы пользователя, показывая ему именно те документы, которые его заинтересуют, которые соответствуют его интересам. Однако, очевидно, что у этого метода также много недостатков. Во-первых, нам нужно очень качественно классифицировать документы для того, чтобы они не оказались случайно не в той категории, которой они на самом деле соответствуют. Во-вторых, нам нужно информация об интересах пользователей, также достаточно четко классифицированная. Ну и кроме того, получается, что нам надо будет вычислять PageRank не для всего корпуса документов, как мы это делали в оригинальном алгоритме, а для каждого пользователя отдельно, что в свою очередь приведет к затратам большим по времени, либо по памяти. [БЕЗ_ЗВУКА]