[ЗАСТАВКА] Прежде чем дальше изучать задачи регрессии, в этом видео мы познакомимся с методом максимизации правдоподобия — одним из мощнейших методов математической статистики. Представьте, что у вас есть некая случайная величина x и ее функция распределения F(x) зависит от неизвестного вам параметра θ. Пусть у вас есть выборка из этой случайной величины, то есть совокупность независимых, одинаково распределенных ее реализаций. Как по выборке лучше всего оценить неизвестный параметр θ? Чтобы понять метод максимального правдоподобия, давайте рассмотрим еще один исторический пример. Эти данные собраны в конце XIX века. В Генеральный штаб прусской армии ежегодно в течение 20 лет от десяти кавалерийских корпусов поступали данные о количестве смертей кавалеристов в результате гибели под ними коня. Эти данные — перед вами в таблице. Как видно, в большей части отчетов никто не умер, однако в 65-и отчетах умер один человек, в 22-х отчетах умерло два человека и так далее. Поскольку эта случайная величина — количество умерших кавалеристов — явно счетчик, логично попробовать моделировать ее распределением Пуассона. Но как выбрать неизвестный параметр λ для этого распределения? Давайте запишем функцию вероятности для распределения Пуассона. Вероятность того, что случайная величина из распределения Пуассона с параметром λ примет значение k, определяется вот такой величиной. Теперь вероятность получения значения, равного i-тому элементу выборки, записывается той же формулой. Поскольку наша выборка состоит из независимых, одинаково распределенных случайных величин, мы можем записать суммарную вероятность выборки, вероятность получения именно такой выборки, и она будет являться произведением вероятности каждого элемента этой выборки. Эта функция является функцией неизвестного параметра λ, обозначается за L, и называется правдоподобием выборки, то есть вероятностью получения именно такой выборки. Если теперь мы, в качестве нашей оценки λ, возьмем значение, которое максимизирует функцию правдоподобия, мы получим оценку, которая называется оценкой максимального правдоподобия. Логично оценивать λ именно таким способом, поскольку, выбирая именно такое λ, мы максимизируем вероятность получения именно таких данных, которые у нас есть. В рассматриваемой задаче несложно показать, что оценка максимального правдоподобия для параметра λ совпадает с выборочным средним. Чтобы это показать, нужно всего лишь взять логарифм от функции правдоподобия — логарифмирование не влияет на положение максимума этой функции, но превращает произведение вероятностей в сумму, с которой легче оперировать. После чего от этого логарифма нужно взять производную, приравнять ее к нулю, и таким образом найти точку максимума. Вы можете без труда проделать это упражнение. В данном случае выборочное среднее равно 0,61, то есть данные, которые мы рассматриваем, лучше всего моделировать случайной величиной с распределением Пуассона и параметром 0,61. Вот так в общем виде выглядит метод максимума правдоподобия. Трюк с логарифмированием, который я вам только что описал, используется достаточно часто, потому что оперировать с логарифмом правдоподобия действительно проще, чем с самим правдоподобием. Если вы имеете дело со случайной величиной из непрерывного распределения, метод максимального правдоподобия работает точно так же, за исключением того, что функция вероятности нашей случайной величины заменяется на ее плотность. Метод максимального правдоподобия обладает рядом очень полезных свойств. Во-первых, получаемые с его помощью оценки являются состоятельными, то есть при увеличении объема выборки они начинают стремиться к истинным значениям параметра θ. Во-вторых, они являются асимптотически нормальными, то есть опять же, с ростом объема выборки, оценки максимального правдоподобия все лучше описываются нормальным распределением с средним, равным истинному значению θ и дисперсией, равной величине, обратной к информации Фишера. Что это такое, совершенно не важно. Важно только, что эта величина также с успехом может быть оценена по выборке. Итак, в этом видео мы познакомились с методом максимизации правдоподобия — крайне мощным и полезным методом оценки неизвестных параметров распределения. Из следующего видео вы узнаете, при чем тут регрессия.