[MÚSICA] [MÚSICA] Nesta aula, nós vamos discutir um pouco sobre o ajuste da nossa regressão. Nós vimos, nas aulas anteriores, como estimamos os nossos parâmetros verdadeiros e vimos algumas das propriedades desses estimadores, como a propriedade do não-viés e a derivação da variância deles. Aqui, a primeira medida que vamos discutir é o que chamamos de grau de ajuste da regresão, ou coeficiente de determinação. Antes de discutir essa medida, vamos partir de dois resultados importantes do estimador de mÃnimos quadrados ordinários. O primeiro resultado importante é a primeira condição de primeira ordem do programa de otimização, que diz que a soma dos resÃduos é igual a zero, ou seja, que a soma dos resÃduos dividido por "n" (que seria a média amostral dos nossos resÃduos), também seja igual a zero. O segundo resultado importante que vamos utilizar aqui é que o somatório de "xi" vezes "u chapéu i", que são os nossos resÃduos, também é igual a zero, ou seja, o que chamamos de covariância entre "x" e os resÃduos é igual a zero na nossa amostra. Essas duas condições foram utilizadas para derivar o nosso estimador de mÃnimo quadrados ordinários. Tendo isso mente, vamos discutir, agora, como é que vamos decompor a variação do nosso "y". Para isso, vamos partir do termo que chamamos de soma dos quadrados totais de "y" que é igual ao somatório de "yi" menos "y-barra" ao quadrado. Veja que essa é uma medida da variação de "y", não é a variância do "y" amostral, pois ela seria dividida por "n" menos 1, mas é uma medida da variação de "y". Vamos decompor essa variação, então, pela parte que é dada pela regressão e a parte que é dada pelos resÃduos. Para isso, basta somarmos e subtrairmos o termo "y chapéu i" de dentro dessa relação. Como podemos ver no slide, ao fazer essa operação, nós temos o somatório do "u chapéu" mais o "y chapéu" menos o "y-barra", tudo isso ao quadrado. Desenvolvendo esse quadrado, nós temos a soma dos quadrados dos resÃduos mais duas vezes o somatório do "u chapéu" vezes "y chapéu i" menos "y-barra" mais o somatório do "y chapéu i" menos o "y-barra" ao quadrado. Note que esse segundo termo vai ser igual a zero, pois. se substituirmos o "y-chapéu" pela regressão, que seria o "Beta chapéu 0" mais o "Beta chapéu 1" "xi" podemos aplicar os dois resultados que vimos (que o somatório dos resÃduos é igual a zero e que o somatório dos "xi" vezes os resÃduos é igual a zero), para demonstrar que esse termo seria igual a zero. Ou seja, o total da variação de "y" que é dado pela soma dos quadrados totais de "y", vai ser igual à soma dos quadrados dos resÃduos mais a soma dos quadrados explicados (que é o total da variação da regressão). Assim, podemos encontrar a medida de ajuste da regressão, que é conhecida como R-quadrado, que vai dizer o quanto a regressão explica da variação de "y", ou seja, a soma dos quadrados explicados sobre a soma dos quadrados totais, ou 1 menos a soma dos quadrados dos resÃduos sobre a soma dos quadrados totais. Note que essa medida vai ser sempre entre 0 e 1. O R-quadrado do modelo vai ser 0 quando toda a variação de "y" é dada pelos resÃduos, ou seja, a regressão não adiciona nada de explicação da variação de "y". Esse termo vai ser igual a 1 quando a soma dos quadrados dos resÃduos for igual a zero, ou seja, o modelo explica perfeitamente a variação de "y". Os próximos gráficos ilustram exemplos de modelo para cada valor de R-quadrado. Note que, quando o R-quadrado for igual a 0, não há nenhuma relação entre "y" e "x" na regressão. Simplesmente, "y" é melhor explicado pela sua média amostral. No gráfico em que temos R-quadrado positivo e "Beta chapéu 1" negativo, nós temos uma relação negativa entre "y" e "x", porém não perfeita. No gráfico em que temos R-quadrado positivo e "Beta chapéu 1" positivo, nós temos uma relação positiva entre essas duas variáveis, mas também não perfeita, o que não acontece no quarto gráfico, em que notamos R-quadrado igual a 1 e uma relação perfeita, na amostra, entre "y" e "x". Vamos calcular o R-quadrado para um exemplo que vimos ao longo desse módulo, que é o retorno da educação sobre o salário dos indivÃduos brasileiros usando a PNAD. Note, aqui, que o R-quadrado calculado foi de 0,0125, resultado esse considerado bastante baixo. Mas vale, aqui, fazermos algumas ressalvas sobre o valor do R-quadrado. Primeira: em geral, nós observamos R-quadrados mais altos para dados em séries de tempo do que dados em cortes transversais. Isso porque o próprio tempo ajuda a explicar boa parte da variação de "y". Segunda ressalva: o R-quadrado baixo não necessariamente significa que o seu modelo é ruim. Isso porque podemos estar interessados, simplesmente, no efeito de uma variável "x" em "y", mas essa variável não explica toda a variação de "y". Esse seria o caso do nosso exemplo de salário e educação. Se estivermos interessados no efeito da educação sobre salários, existem várias outras variaveis que explicam salários também e que não estamos contabilizando, mas o nosso objetivo é identificar o quanto as polÃticas educacionais melhoram as condições de vida das pessoas. Agora, note que, quando o objetivo do seu modelo for fazer uma previsão de "y", obter um R-quadrado relativamente alto pode ser desejável, pois, assim, você está explicando boa parte da variação de "y" com as variveis que escolheu para o seu modelo. Por fim, vamos discutir, aqui, o modelo sem intercepto, ou seja, quando o "Beta 0" é igual a zero. Veja que o nosso estimador de mÃnimos quadrados ordinários, agora, tem apenas uma condição de primeira ordem, que é a derivação da soma dos quadrados dos resÃduos em "Beta 1". Temos o resultado para o "Beta chapéu 1" de MQO igual ao somatório de "yi" "xi" dividido pelo somatório de "xi" ao quadrado. Vamos deixar para você calcular em casa a variância desse estimador do modelo sem intercepto e compará-lo com o estimador com intercepto (que vimos ao longo deste módulo). [MÚSICA] [MÚSICA] [MÚSICA]