[MÚSICA] [MÚSICA] Nesta aula, nós vamos introduzir o modelo básico de regressão linear múltipla, que é esse que nós podemos visualizar no slide. Então, agora, a nossa variável dependente, a nossa variável "y", vai ser igual a um "Beta 0" (que é o coeficiente do intercepto), mais um "Beta 1" "x1" (sendo que o "Beta 1" é o parâmetro que acompanha a variável x1), mais "Beta 2" "x2" mais outros termos, sucessivamente, até um "Beta k" "xk", mais o termo de erro. Agora, veja que temos "k" variáveis que explicam "y". O modelo de regressão linear múltipla tem inúmeras vantagens sobre o modelo de regressão linear simples. A primeira vantagem que podemos citar é o uso desse modelo para o caso de fazer previsões da nossa variável "y". Então, quanto mais variáveis temos explicando a variação de "y", mais vamos conseguir fazer boas previsões dessa variável. A segunda vantagem importante é a obtenção de um efeito "ceteris paribus", como vimos nos módulos anteriores. [No exemplo de retorno salarial da educação,]nós discutimos várias variáveis no modelo de regressão simples que estavam no termo de erro, como por exemplo, experiência profissional, habilidades cognitivas, motoras e outro tipo de habilidades dos indivÃduos, assim como outras caracterÃsticas dos indivÃduos que estão no mercado de trabalho. No modelo de regressão múltipla, nós podemos incluir essas variáveis dentro do modelo, sobrando, portanto, menos informação dentro do nosso termo de erro. Nós vamos fazer um exercÃcio daqui a pouquinho, para entender como essa obtenção do "ceteris paribus" é facilitada no modelo de regressão linear múltipla. E a terceira vantagem é que o modelo de regressão linear múltipla permite que nós incluamos outras formas funcionais da nossa variável dentro do nosso modelo. Imagine, por exemplo, que a relação entre "y" e "x" seja não linear, como uma forma quadrática. No exemplo que vimos de retorno salarial, imagine que a experiência profissional aumente os retornos salariais até certo ponto ou seja, que esse aumento tenha retornos decrescentes. Nesse caso, nós poderÃamos incluir termos polinomiais da variável "experiência profissional" para captar esse tipo de efeito. Veremos, agora, um exemplo sobre como vamos interpretar o efeito de uma variação numa das variáveis "x" do nosso modelo de regressão múltipla sobre "y". Suponha, então, uma equação de demanda por um produto básico como, por exemplo, o arroz. Na equação de demanda por arroz, se utilizarmos, por exemplo, todo o aparato da teoria do consumidor, sabemos que o modelo de demanda depende do preço do arroz, do preço de produtos complementares (como por exemplo, o preço do feijão) e também do preço de produtos substitutos (como por exemplo, o preço do macarrão), que é o que vemos aqui no nosso slide. IncluÃmos, também, a variável renda, que também vem da teoria do consumidor. Temos, então, um modelo de regressão linear múltipla com quatro variáveis explicativas. Note que teremos cinco parâmetros a serem estimados nesse modelo: sempre vamos ter os "k" parâmetros das variáveis explicativas mais um, que se refere ao intercepto. Vamos ver, então, como o efeito de um aumento do preço do arroz vai influenciar na quantidade demandada desse produto. Nesse caso, nós temos, aqui, a equação 2. Nessa equação, nós estamos simulando uma variação de preço do arroz, como fizemos nos outros módulos. Note que o "Beta 1" será o efeito de uma variação do preço do arroz sobre a variação na quantidade demandada desse produto, se temos o "ceteris paribus", ou seja, se todas as outras variáveis do modelo são mantidas constantes e se o nosso termo de erro também é mantido constante. Se não tivéssemos as demais variáveis que incluÃmos aqui, elas estariam no termo de erro, e seria um pouco mais difÃcil supormos o "ceteris paribus" no nosso termo de erro. Imagine que nós temos uma amostra de indivÃduos em que esses indivÃduos observem preços dos produtos (arroz, feijão, macarrão) e temos a informação da renda desses indivÃduos. A ideia, aqui, é que comparamos, na média, indivÃduos que observam os mesmos preços de feijão, macarrão e têm a mesma renda, com os indivÃduos que observam esses preços, mas que observam uma pequena diferença no preço do arroz. É nessa amostra que estamos interessados para obter o nosso efeito causal. Nesse módulo, nós vamos ver dois métodos de estimação. O método dos momentos e o método de mÃnimos quadrados ordinários. Vocês também podem usar o método de máxima verossimilhança para estimar esse modelo. Mas vamos deixar como exercÃcio e como material complementar. Então, para a estimação pelo método dos momentos, lembre-se de que precisamos partir de momentos populacionais desejáveis e também de uma amostra aleatória. No caso em que temos o modelo de regressão linear MÚLTIPLA, temos, agor,a "k" mais 1 parâmetros a serem estimados. Os nossos momentos importantes (que serão também "k" mais 1 momentos) vão ser o primeiro momento, que é a média dos erros iguais a zero (como já tinhamos visto no modelo de regresão linear simples), e os "k" momentos de não-correlação entre as nossas variáveis explicativas e o nosso termo de erro. Veja aqui no slide que esses "k" momentos são expressos pela esperança da multiplicação entre a variável explicativa e o termo de erro. Se esses momentos forem iguais a zero dizemos que essas variáveis são não correlacionadas linearmente com o termo de erro. Vimos que essa condição é bastante importante para a obtenção do "ceteris paribus". Uma vez que temos esses momentos populacionais, precisamos, agora, encontrar os momentos amostrais respectivos aos momentos populacionais e calcular a partir da amostra. Lembre-se que o momento amostral da esperança seria a média simples. Assim, os nossos momentos amostrais serão, então, o somatório da variável que está dentro da esperança dividido por "n", supondo que temos uma amostra com "n" observações. Esses momentos amostrais terão que ser iguais a zero. Assim, o nosso primeiro momento amostral vai ser o somatório de "ui", dividido por "n", igual a zero. Lembre-se que "ui" é o termo de erro verdadeiro do modelo, ou seja, é a distância entre o "yi" e a reta de regressão populacional. O nosso "ui", então, será a diferença entre o "yi" e a reta de regressão da população do modelo de regressão linear múltipla. Agora, no modelo de regressão linear múltipla, a nossa reta de regressão vai ser o "Beta 0" mais "Beta 1" "x1", mais "Beta 2" "x2" mais o somatório dessas combinações até o "Beta k" "xk". Não incluÃmos, aqui, o gráfico dessa relação, pois temos uma relação multidimensional. O segundo momento amostral será, portanto, o somatório de "x1i", vezes "ui", dividido por "n" igual a zero, que seria a correlação amostral entre o "x1" e os erros. O terceiro momento amostral será que a correlação amostral entre "x2" e "u" é igual a zero, e assim sucessivamente até o nosso k-ésimo momento dos "x", que vai ser o somatório de "xki" vezes "ui" dividido por "n" igual a zero, que seria a correlação amostral entre "xk" e o termo de erro igual a zero. Nós temos, então, "k" mais 1 momentos amostrais e "k" mais 1 parâmetros a serem estimados, de "Beta 0" até o "Beta k". Resolvendo esse sistema exatamente identificado, nós temos portanto os "k" mais 1 estimadores, pelo método dos momentos, dos nossos parâmetros populacionais. Nós vamos deixar para resolver esse sistema na próxima aula, quando falarmos do nosso estimador de mÃnimos quadrados ordinários. [MÚSICA] [MÚSICA] [MÚSICA]