[MÚSICA] [MÚSICA] Nesta aula, nós vamos discutir o método de Máxima Verossimilhança para a estimação dos parâmetros. No método de máxima verossimilhança, nós precisamos conhecer a distribuição de probabilidade de "y". No modelo de regressão, nós estamos sempre falando de "y" em relação a "x". Então, aqui, a gente precisa conhecer a distribuição de "y" condicional a "x". O estimador de máxima verossimilhança precisa de uma hipótese muito mais forte do que o estimador pelo método dos momentos, por exemplo. No método dos momentos, simplesmente falamos sobre dois momentos da distribuição, ou seja, o primeiro momento (a esperança). No método de máxima verossimilhança, nós precisamos conhecer toda a função de distribuição de probabilidade, por isso esse método é conhecido como método de informação completa. Na prática, muitas vezes faz sentido nós conhecermos a distribuição de "y" dado "x". Como, por exemplo, quando o "y" é binário, em que nós temos uma distribuição Bernoulli, ou quando "y" reflete uma contagem em determinado perÃodo do tempo; assim, ele teria uma distribuição Poisson. Nós vamos supor, nesta aula, que "y" condicional a "x" tem uma distribuição normal com média esperança de "y" dado "x", que podemos usar a mesma relação do método dos momentos, que é a nossa função de regressão da população. Ou seja, que a esperança de "y" dado "x" seja igual ao "Beta 0", mais o "Beta 1" "x". Já para a variância de "y" dado "x", vamos considerar que ela seja de igual a um "Sigma 2" constante. Dada uma amostra aleatória de "xs" e "ys" para "n" observações, temos que cada realização dessa amostra aleatória também terá a mesma distribuição da população. Ou seja, cada "y izinho" condicional ao "x izinho" também terá uma distribuição normal com a mesma média e com a mesma variância que citamos anteriormente. Como nós conhecemos a função densidade de probabilidade da normal, nós temos que a "f" de "y izinho" dado "x izinho" será igual a 1 sobre a raiz de 2 "Pi" "Sigma 2", vezes a exponencial de menos meio, abre parênteses, yi, menos a esperança de "y" dado "x", que vai ser o "Beta 0", mais o "Beta 1" "xi", dividido por "Sigma", tudo isso elevado ao quadrado. A ideia do estimador de máxima verossimilhança é, então, construir a função conjunta da nossa amostra, que vai ser a função de cada uma das "n" observações de "y" condicionais a "x". Isso porque uma vez que conhecemos o processo gerador dos dados da população (que é dado pela função densidade de probabilidade da população) a função da amostra aplicada a esse processo gerador de dados será a máxima possÃvel. Imagine que cada população tem como se fosse um DNA. Quando retiramos indivÃduos dessa população, todos eles têm o mesmo DNA. Nesse sentido, o DNA conjunto da nossa amostra será o máximo possÃvel em comparação à população da qual aquela amostra vem. Essa função conjunta da amostra é o que chamamos de função de verossimilhança. No nosso caso, como nós temos uma amostra aleatória, cada "y izinho" condicional a "x izinho" vai ser independente, além de ter a mesma distribuição. Assim, a função conjunta vai ser igual ao produtório das marginais, como nós podemos ver aqui no slide. Muitas vezes, escrevemos a nossa função de verossimilhança na forma logarÃtmica, para facilitar a derivação dos resultados. Note que o "ln" da multiplicação vai ser igual a soma dos "lns", o que facilita bastante as contas. E, como o logaritmo é uma transformação monotônica, ele não altera o resultado da maximização. Assim, como vimos no método de mÃnimos quadrados ordinários, nós temos aqui, também, um problema de otimização. Nós vamos, então, maximizar a nossa função de verossimilhança, ou a função de log-verossimilhança, escolhendo, agora, três parâmetros: o "Beta 0" e o "Beta 1" (que definem a média da nossa distribuição) e o "Sigma 2" (que define a variância da nossa distribuição). Novamente, teremos que calcular tanto as condições de primeira ordem (e igualá-las a zero), assim como as condições de segunda ordem, para checar se o nosso resultado é realmente um ponto de máximo dessa distribuição. Aqui no slide, podemos ver as três equações que definem as condições de primeira ordem. Note, novamente, que, quando "y" dado "x" tem uma distribuição normal, as duas primeiras equações aqui são exatamente equivalentes aos momentos amostrais do método dos momentos e à s duas condições de primeira ordem de mÃnimos quadrados ordinários. Assim, o nosso estimador de máxima verossimilhança será equivalente ao estimador pelo método dos momentos e por mÃnimos quadrados ordinários. Ou seja, o "Beta chapéu 0" de máxima verossimilhança vai ser "y-barra", menos "Beta chapéu 1" "x-barra"; e o nosso estimador "Beta chapéu 1" para máxima verossimilhança vai ser igual ao somatório de "xi" menos "x-barra" vezes "yi" menos "y-barra", dividido pelo somatório de "xi" menos "x-barra" ao quadrado. Mas, agora, temos mais uma condição de primeira ordem, que define o nosso "Sigma 2", ou seja, o nosso estimador para o nosso "Sigma 2". Assim como vimos mo método de mÃnimos quadrados ordinários, nós precisamos verificar se esses três estimadores que encontramos são pontos de máximo da função objetivo, ou seja, da função log-verossimilhança. Assim, nós podemos analisar a matriz das segundas derivadas. O determinante dessa matriz tem que ser negativo para que esse seja ponto de máximo. Para a derivação dessa matriz, vejam os livros da bibliografia do curso. [MÚSICA] [MÚSICA] [MÚSICA]