[MÚSICA] [MÚSICA] Nesta aula, nós vamos discutir dois tópicos importantes acerca do modelo de regressão linear múltipla. O primeiro será a derivação da variância dos nossos estimadores. O segundo vai ser a comparação do modelo de regressão linear simples com o modelo de regressão linear múltipla. Para calcular a variância dos nossos estimadores, precisamos supor mais uma hipótese, que é chamada hipótese RLM 5. Essa hipótese é conhecida como homocedasticidade e inexistência de autocorrelação entre os erros. Ou seja, a variância dos nossos erros, condicionais a todos os "x" incluÃdos no nosso modelo, é igual a uma constante. Nós ilustramos o que significa a hipótese de homocedasticidade na aula de regressão linear simples. Além da variância homocedástica dos erros, nós precisamos supor também que a covariância entre os erros do modelo é igual a zero. A hipótese de não-autocorrelação, ou não covariância entre os erros do modelo, é mais fácil de assumir quando temos dados em cross-section (a não ser que tenhamos um modelo, por exemplo, de redes, em que a decisão de um indivÃduo influencia a decisão de outro, não haverá correlação entre esses choques). No caso de dados em séries temporais, essa correlação vai ser mais importante; no entanto, não vamos lidar com esse tipo de dados aqui neste curso. Assim, essa hipótese não será válida, em geral, nos casos de redes, como discutimos agora há pouco e quando estivermos falando de dados regionais, em que o que acontece numa região é influenciado pelo que acontece na região vizinha (que é tema de todo uma linha de discussão dentro de econometria espacial). Nós vamos discutir brevemente esses casos da cross-section mais para a frente. Supondo, então, erros homocedásticos e não-autocorrelacionados, nós podemos escrever essa hipótese no formato matricial. Então, a variância do nosso vetor "u" condicional a "x" será, então, "Sigma 2" vezes uma identidade em "n", ou seja, o termo das diagonais dessa matriz de variância e covariância -- que são as próprias variâncias de cada observação -- serão iguais a "Sigma 2". Os demais termos dessa matriz, que são as covariâncias entre os erros, serão zero. Agora, adicionando essa hipótese RLM 5 à s quatro que já vimos, temos o teorema da variância. O teorema da variância diz que a variância do estimador de MQO pode ser escrita por "Sigma 2" "x linha" "x" a menos 1, no formato matricial, ou: a variância de um "Beta chapéu j" vai ser igual ao "Sigma 2" dividido pelo somatório do "r chapéu ji" ao quadrado, que é o resÃduo da regressão de "xj" contra as demais explicativas do modelo. Vamos demostrar esse teorema também usando o formato matricial. Vimos que podemos escrever o nosso vetor de estimadores, "Beta chapéu", como "Beta" mais a inversa de "x linha" "x" vezes "x linha" "u". Passando a variância condicional a "x" sobre os dois termos, nós temos que a variância do "Beta chapéu" condicional a "x" vai ser igual à variãncia do "x linha" "x" a menos 1 "x linha" "u". Veja que o vetor "Beta" pode ser eliminado aqui, pois se trata de um vetor de constantes. Para retirar, agora, esse termo "x linha" "x" a menos 1 "x linha" da variância, nós temos que tirar na forma quadrática. Assim, usamos o formato "sanduÃche". Ou seja, variância do "Beta chapéu", condicional a "x", vai ser igual a "x linha" "x" a menos 1 "x linha", variância de "u" dado "x", "x" "x linha" "x" a menos 1. Note que o termo da direita é simplesmente a transposta do termo da esquerda. Substituindo, agora, a nossa hipótese RLM 5 dentro dessa fórmula, nós temos que a variância do "Beta chapéu" dado "x" vai ser igual a "x linha" "x" a menos 1 "x linha", "Sigma 2" (que é uma constante) vezes a identidade, "x" "x linha" "x" a menos 1. Podemos trazer o nosso "Sigma 2" para o inÃcio da fórmula e, assim, "x linha" "x" vezes "x linha" "x" a menos 1 vai ser igual a uma identidade. Consequentemente, a variância do nosso vetor de estimadores pode ser escrita por "Sigma 2" "x linha" "x" a menos 1. Vamos deixar como exercÃcio você fazer essa demostração usando a fórmula de Frisch-Waugh-Lovell. Agora, vamos comparar os resultados que obtivemos no modelo de regressão linear simples com o modelo de regressão linear múltipla com duas variáveis, "x1" e "x2". Suponha, então, que o nosso modelo verdadeiro seja dado por "y" igual a "Beta 0" mais "Beta 1" "x1" mais "Beta 2" "x2" mais um termo de erro, ou seja, modelo de regressão linear múltipla com duas variáveis explicativas, "x1" e "x2". Se estimássemos esse modelo por regressão simples, excluindo a variável "x2", nós terÃamos que o nossos estimador seria igual ao somatório de "x1i" menos "x1-barra" vezes "yi" dividido pelo somatório de "x1i" menos "x1-barra" ao quadrado. Vamos verificar se esse estimador é não-viesado para o "Beta 1" verdadeiro, quando o nosso modelo verdadeiro tem duas variáveis e não apenas o "x1". Lembre-se que, para derivar a fórmula do viés, nós temos que substituir o modelo verdadeiro por "yi". Se substituirmos o "yi", aqui, por "Beta 0" mais "Beta 1" "x1i" mais "Beta 2" "x2i" mais "ui" e aplicarmos a propriedade distributiva, nós temos que a esperança do "Beta chapéu 1" condicional a "x1" e "x2" vai ser igual à esperança do "Beta 1" mais "Beta 2" somatório de "x1i" menos "x1-barra" vezes "x2i" dividido pelo somatório de "x1i" menos "x1-barra" ao quadrado mais somatório de "x1i" menos "x1-barra" vezes "ui" dividido pelo somatório de "x1i" menos "x1-barra" ao quadrado. Se vale a quarta hipótese, de média condicional zero, o terceiro termo será igual a zero. Como vimos nas últimas aulas, a grande diferença, aqui, é que, se o modelo verdadeiro contém o "x2", nós temos esse segundo termo que vai ser igual a "Beta 2" covariância de "x1" e "x2", dividido pela variância de "x1". O nosso estimador para "Beta 1" da regressão simples será não-viesado, mesmo quando o modelo verdadeiro incluir uma outra variável "x2", apenas sob duas condições: A primeira, quando "Beta 2" for igual a zero, ou seja, a variável "x2" não importa para explicar "y". Nesse caso, o nosso modelo verdadeiro não incluiria "x2"; ou se a covariância entre "x1" e "x2" for igual a zero. O importante, aqui, é notarmos que o "Beta 1" da regressão simples será não viesado quando as variáveis forem não-correlacionadas. Isso porque a gente consegue obter um efeito causal (ou um efeito "ceteris paribus") mesmo sem a presença de "x2", que está no termo de erro. Como a variação de "x1" não tem impacto sobre "x2", nós conseguimos ter um efeito não-viesado. Outra comparação interessante é da variância do estimador de regressão simples com a variância do estimador de regressão múltipla. Lembre-se do módulo dois, em que a variância do "Beta chapéu 1" de regressão simples, condicional à s variáveis explicativas, vai ser um "Sigma 2" dividido pelo somatório de "x1i" menos "x1-barra" ao quadrado. Já a variância do estimador quando incluÃmos a variável "x2" é derivada a partir do teorema de Frisch-Waugh-Lovell, (que deixamos como exercÃcio nessa aula), e será igual a "Sigma 2" dividido pelo somatório de "x1i" menos "x1-barra" ao quadrado vezes 1 menos o R-quadrado 1, que é o R-quadrado do modelo de "x1" contra "x2". Ou seja, essa variância também será equivalente à variância de regressão simples apenas quando as variáveis forem não correlacionadas, pois o R-quadrado seria igual a 0. Qualquer correlação entre as variáveis torna o estimador de regressão simples viesado, porém com variância menor. Nesse slide, temos um exemplo que ilustra essa relação entre os dois modelos. Nós estimamos, usando dados da PNAD de 2014, um modelo de regressão linear simples, que relaciona salário com anos de escolaridade; e o modelo de regressão linear múltipla, incluindo também a idade como uma variável explicativa de salários. Note que o estimador do parâmetro que acompanha a variável educação muda, assim como a sua variância, com a inclusão de uma nova variável. No caso, a variância desse estimador aumenta com a inclusão de idade, como vimos que pode acontecer, dada a relação estabelecida no slide anterior. Vamos deixar outros exemplos como exercÃcio. [MÚSICA] [MÚSICA] [MÚSICA]