[MÚSICA] [MÚSICA] Nesta aula, nós vamos discutir a variância do estimador, ou seja, a precisão com a qual o estimador atinge o parâmetro verdadeiro. Nós vimos que, sob as quatro primeiras hipóteses que enunciamos na aula passada, -- o modelo é linear nos parâmetros, existe variabilidade em "x", temos uma amostra aleatória e a esperança condicional de "u" a "x" é igual a zero --, um estimador, em média, é igual ao parâmetro verdadeiro. Agora, nós vamos adicionar uma nova hipótese para poder derivar a variância desse estimador, ou seja, a precisão dele em atingir o parâmetro verdadeiro. A essa nova hipótese chamaremos de RLS 5, e ela é a hipótese que a que chamamos de "homocedasticidade", ou seja, a variância de "u" dado "x" é igual a "Sigma 2". Isso significa que os nossos erros possuem a mesma variância para qualquer valor das variáveis explicativas. Uma consequência dessa hipótese é que a esperança de "u" ao quadrado também é igual a "Sigma 2". Vamos ilustrar essa hipótese observando os dois gráficos desse slide. O gráfico da esquerda mostra uma situação em que há homocedasticidade entre os erros, e o gráfico da direita mostra uma situação em que não há homocedasticidade entre os erros. Dizemos, então, que os erros são heterocedásticos. Note que, no eixo "x", nós temos os valores de "x" e, no eixo "y", os valores de "y". O erro é sempre a diferença entre a observação, que é dada pelos "pontinhos", e a reta. A hipótese de média condicional zero diz que temos sempre erros para cada valor de "x", positivos e negativos, contanto que a média seja igual a zero. Já a hipótese de homocedasticidade diz, também, que a variação desses erros para cada valor de "x" será igual, será constante. Por isso, nós temos a mesma dispersão ao longo dos valores de "x", o que não acontece no gráfico da direita, que mostra a variância aumentando com os valores de "x". Um dos exemplos clássicos de heterocedasticidade é a equação de consumo autônomo, ou seja, quando queremos explicar o consumo em função da renda das pessoas. Para indivÃduos de renda mais baixa, nós temos uma variação dos erros menor do que para indivÃduos com rendas mais altas, em que a variação do consumo pode ser muito maior. Nós podemos dizer que essa variação também é a variação do "y" porque, quando aplicamos a variância condicional a "x" ao nosso modelo de regressão linear, nós temos que a variância de "y" dado "x" é exatamente igual à variância de "u" dado "x", ou seja, também tem que ser homocedástica. Agora, sob as cinco hipóteses que enunciamos até agora (as quatro da aula passada mais a hipótese sobre a homocedasticidade dos erros do modelo), nós podemos derivar o teorema da variância, ou seja, nós conseguimos analisar a forma funcional da variância dos nossos estimadores. A variância do nosso "Beta chapéu 1" condicional a "x" vai ser, então, igual ao "Sigma 2" dividido pela soma dos quadrados totais de "x", e a variância do "Beta chapéu 0" condicional a "x" vai ser igual a "Sigma 2" sobre "n" vezes somatório de "xi" ao quadrado dividido pela soma dos quadrados totais de "x". Nós vamos demonstrar esse teorema, ou seja, calcular a variância tanto do "Beta chapéu 1" quanto do "Beta chapéu 0", por partes. Vamos começar com a variância do "Beta chapéu 1". Novamente, vamos usar a mesma lógica que vimos para a demonstração do não viés: vamos escrever o nosso "Beta chapéu 1" em função do "Beta 1" verdadeiro e dos erros e, então, aplicar a variância condicional. Note que a variância do "Beta chapéu 1" dado "x" vai ser igual, então, a "Beta 1" mais o somatório de "xi" menos "x-barra" vezes "ui" dividido pela soma dos quadrados totais de "x". Como "Beta 1" é uma constante, nós temos que a variância de uma constante mais uma variável aleatória vai ser exatamente igual à variância da variável aleatória; então, nós podemos ignorar esse termo. A variância, agora, desse segundo termo deve levar em consideração que estamos condicionando em "x", ou seja, todas as funções de "x", aqui, são consideradas constantes. Lembre-se das propriedades da variância. Quando nós retiramos uma constante de dentro da variância, ela deve ser elevada ao quadrado. Outra hipótese importante, aqui, é que a variância da soma de uma variável aleatória "u" vai ser igual à soma das variâncias. Isso porque nós temos uma amostra aleatória, o que faz com que as variáveis aleatórias do modelo sejam idependentes e identicamente distribuÃdas, ou seja, a covariância entre elas vai ser zero, e elas vão ter a mesma variância, que é dada pela hipótese RLS 5. Assim, a variância do "Beta chapéu 1" dado "x" vai 1 ser sobre a soma dos quadrados totais de "x" elevado ao quadrado vezes o somatório de "xi" menos "x-barra" ao quadrado vezes a variância do "ui" dado "x". Note que a variância de "ui" dado "x" também está dentro do somatório. Pela hipótese RLS 5, nós podemos substituir a variância de "ui" dado "x" por um "Sigma 2" constante, o que faz com que nós tenhamos que a variância de "Beta chapéu 1" dado "x" seja igual a "Sigma 2" sobre SQT de "x". Note, aqui, que a variância do nosso estimador de "Beta chapéu 1" decresce conforme aumenta a variação de "x" na amostra. Ou seja, se observarmos uma amostra em que os indivÃduos têm vários nÃveis de escolaridade para medir o efeito de educação sobre salários, nós podemos medir esse efeito com mais precisão. Vamos, agora, demonstrar a variância do termo "Beta chapéu 0". Novamente, vamos substituir o nosso modelo verdadeiro aqui, para ter o "Beta chapéu 0" em função dos erros. Para essa demonstração, vou substituir aqui o "Beta chapéu 1" direto pela forma que derivamos no estimador de mÃnimos quadrados ordinários. Note que podemos escrever o "Beta chapéu 0" como somatório de uma função de "x" vezes o "y" "izinho", que pode ser substituÃdo pelo modelo verdadeiro. A essa função de "x" nós daremos o nome de "A". Isso porque essa função depende de "x" e, quando condicionamos a "x", tornamos essa função constante. Quando aplicamos essa função ao "Beta zero" e ao "Beta 1" "x1" numa distributiva aqui desta equação, temos que todo esse termo é igual a uma constante. Então, a variância de uma constante mais uma variável aleatória, lembre-se, é sempre a variância da variável aleatória. Então o único termo que sobra aqui será o somatório desse termo "A" vezes o "ui", tudo isso condicional a "x". A ideia, então, aqui é tirar esse termo "A" ao quadrado da fórmula da variância e analisar, então, a fórmula do "ui" dado "x". Note, então, que a variância do "Beta chapéu 0" condicional a "x" vai ser 1 sobre "n", somatório desse termo "A" ao quadrado vezes a variância de "ui" dado "x". Como, pela hipótese RLS 5, nós temos que a variância de "ui" dado "x" é igual a um "Sigma 2" constante, nós podemos substituir aqui na fórmula. E, como essa constante não depende do somatório (ela não está indexada a "i"), nós podemos trazê-la para o começo da fórmula. Manipulando esse termo "A" ao quadrado, nós temos que a variância do "Beta chapéu 0" dado "x" vai ser igual a "Sigma 2" vezes SQT de "x" mais "n" "x-barra" ao quadrado, tudo isso dividido por "n" SQT de "x". Como nós temos que o somatório de "xi" menos "x-barra" ao quadrado é equivalente ao somatório de "xi" ao quadrado menos "n" "x-barra" ao quadrado, nós podemos excrever a variância do "Beta chapéu 0" dado "x" como o "Sigma 2" vezes o somatório de "xi" ao quadrado dividido por "n" SQT de "x", como o nosso teorema enunciou. Mesmo conseguindo derivar a variância dos nossos estimadores, ainda temos um problema, pois desconhecemos o parâmetro "Sigma 2". Lembre-se que apenas para o estimador de máxima verossimilhança nós derivamos um estimador para o "Sigma 2", o que não fizemos no estimador para o método dos momentos ou de mÃnimos quadrados ordinários. Sabendo que o nosso "Sigma 2" é igual à esperança de "u" ao quadrado (como vimos no inÃcio dessa aula, quando enunciamos a hipótese RLS 5), podemos utilizar o método dos momentos para propor um estimador para o "Sigma 2", que seria a média simples do "u" ao quadrado. O estimador possÃvel seria, então, o somatório de "ui" ao quadrado dividido por "n". Mas note que não observamos o "ui" verdadeiro, observamos apenas o resÃduo, que é calculado a partir dos estimadores que derivamos. Assim, quando utilizamos os resÃduos ao invés dos erros, nós temos que corrigir pelos graus de liberdade que perdemos ao estimar os dois parâmetros. O estimador, então, não-viesado do "Sigma 2" seria o somatório dos quadrados dos resÃduos dividido por "n" menos 2. Para ver mais detalhes sobre esse estimador, consulte a bibliografia do curso. Quando substituÃmos, então, o nosso "Sigma chapéu 2", que é a soma dos quadrados dos resÃduos dividido por "n" menos 2 pelo "Sigma 2" das variâncias, nós temos o que chamamos de variância estimada do nosso estimador. Aqui, identificamos com um "chapeuzinho" em cima da variância, para distingui-la da variância em função do "Sigma 2" verdadeiro. Além disso, a raiz dessa variância estimada é conhecida como erro padrão dos estimadores, que é o que os softwares comuns reportam quando fazemos uma estimação. [MÚSICA] [MÚSICA] [MÚSICA]