[MÚSICA] [MÚSICA] Nesta aula, vamos discutir o uso de variáveis "dummy". É bem comum nós termos variáveis econômicas qualitativas, como, por exemplo, caracterÃsticas dos indivÃduos (gênero, etnia ou estado civil); condição dos indivÃduos (trabalha ou não trabalha, possui ou não cartão de crédito, participa ou não da força de trabalho, participa ou não de um programa, ou de uma polÃtica social); a condição de um local ou uma região (implementou ou não a nota fiscal eletrônica, por exemplo, faz parte ou não da região metropolitana do seu estado); ou mesmo uma condição temporal (dia, mês, bimestre, ano ou qualquer outra frequência temporal). Para analisar esse tipo de variável, nós podemos transformá-las em variáveis binárias. Por exemplo, quando estamos discutindo o gênero dos indivÃduos, nós podemos criar uma variável chamada de "homens", que assume o valor 1, quando o indivÃduo é do sexo masculino, e assume o valor 0, quando o indivÃduo é do sexo feminino. Ou, então, podemos criar a variável "mulheres", que assume o valor 1, quando o indivÃduo é do sexo feminino, e 0, quando o indivÃduo é do sexo masculino. Quando incluÃmos essa variável "dummy", por exemplo, no nosso modelo de regressão simples (aqui na ilustração, nós temos "y" igual a "Beta 0" mais "Beta 1" vezes a "dummy", mais "Beta 2" vezes "x" mais um termo de erro) nós podemos escrever a nossa função de regressão da população para os dois grupos análise, por exemplo, homens e mulheres. Nós temos que, quando os indivÃduos são mulheres, essa variável "d" assume o valor 1, ou seja, o intercepto desse modelo vai ser, agora, "Beta 0" mais "Beta 1". Para os homens, essa variável "d" assume o valor 0, ou seja, o intercepto do modelo para os homens é apenas o "Beta 0". Nós temos, então, que o modelo para homens e o modelo para mulheres difere apenas no intercepto, ou seja, temos esse deslocamento paralelo que podemos ver no gráfico. Assim, a inclusão da variável "dummy" no modelo apenas desloca o intercepto da nossa regressão. Outro exemplo que temos de uso de variáveis "dummy" é quando incluÃmos tanto a "dummy" no nÃvel (como no exemplo anterior) quanto a dummy interagindo com a variável "x". Ou seja, uma variável cruzada entre a "dummy" e a variável "x". Então, o gráfico da relação entre "y" e "x" para os dois grupos que estamos analisando, homens e mulheres, vai ficar assim: nós temos que a diferença do intercepto será igual ao "Beta 1"; quando o indivÃduo é mulher, nós temos que a variável "d" assume o valor 1, ou seja, os parâmetros que acompanham o "x", agora, para os indivÃduos mulheres serão "Beta 2" mais "Beta 3". Veja que, ao incluir a variável dummy cruzada com a variável "x", nós temos uma mudança da inclinação da nossa reta, ou seja, muda o efeito da variável "x" sobre a variável "y" entre os grupos. Veremos, aqui, um exemplo de modelo em que estamos interessados em analisar o efeito da renda e do gênero sobre a qualidade de vida das pessoas. Nesse modelo, nós estamos assumindo que o "Beta 1" é positivo, ou seja, para rendas mais baixas, as mulheres têm uma qualidade de vida, em média, maior. Mas o efeito da renda sobre a qualidade de vida, que é uma medida de felicidade na literatura econômica, vai ser diferente, ou seja, a renda importa mais para a felicidade das mulheres do que para a felicidade dos homens. Um aspecto interessante desse tipo de modelo é que nós poderÃamos testar a diferença dessa relação para homens e mulheres. Para isso, bastaria olharmos para dois parâmetros da nossa equação, o "Beta 1" e o "Beta 3", pois são esses dois parâmetros que fazem com que o modelo difira entre os dois grupos. Vejamos o exemplo de monografia da aluna Ana Beatriz Davoli Silva, que utilizou várias caracterÃsticas dos veÃculos para medir o efeito sobre os seus preços. No modelo proposto pela aluna, nós temos várias variáveis "dummy", uma vez que muitas das caracterÃsticas dos veÃculos são qualitativas, como por exemplo: se o carro tem câmbio automático ou manual, se o carro tem ar condicionado, se o veÃculo é flex, se o veÃculo tem freios ABS... Todas essas variáveis mencionadas são variáveis "dummy". Como o preço está em logaritmo, lembre-se de que a interpretação, aqui, é de uma variação de "x" sobre uma variação percentual de "y". Ou seja, o fato de o veÃculo ter freios ABS, aumenta, em média, 7,2% o preço do veÃculo. O fato de o veÃculo ser automático aumenta, em média, o preço dele 16,3%. E veÃculos que têm ar condicionado são, em média, 2,9% mais caros do que veÃculos sem ar condicionado. Os dados utilizados pela aluna são os dados da tabela FIPE de veÃculos, coletada pela Fundação Instituto de Pesquisas Econômicas. Além de usarmos variáveis "dummy" para medir o efeito entre duas categorias (homens e mulheres, tem ou não tem freio ABS), nós podemos utilizá-las, também, para várias categorias, como, por exemplo, etnia, em que observamos etnia branca, negra, amarela, indÃgena, entre outras. Outro exemplo bastante comum para dados brasileiros é a forma como medimos a escolaridade. Muitas pesquisas, como a PNAD, por exemplo, ou o Censo Demográfico, ao invés de usarem anos de escolaridade, usam, também, a finalização de ciclos escolares (ou seja, se o indivÃduo terminou, ou não, o Ensino Fundamental 1, ou o Ensino Fundamental 2; se o indivÃduo terminou, ou não, o Ensino Médio, o Ensino Superior, e assim sucessivamente), como podemos ver na pergunta de escolaridade da PNAD, a Pesquisa Nacional por Amostra de DomicÃlios brasileira. Nesse caso, nós precisamos criar uma variável "dummy" para cada uma dessas categorias, ou seja, no caso de etnia, por exemplo, nós precisarÃamos criar uma variável para indivÃduos: brancos ou não brancos (que incluem todas as demais categorias); negros ou não negros (que incluem todas as demais categorias); amarelos ou não amarelos; e assim sucessivamente. Mas note, assim como fizemos para o caso de homens e mulheres, que nós utilizamos apenas uma dessas variáveis no nosso modelo. Aqui, se nós tivermos "g" categorias, nós temos que incluir apenas "g" menos 1 variáveis "dummy" no nosso modelo. Isso porque, se incluirmos todas as variáveis "dummy" no modelo, nós teremos multicolinearidade perfeita com o nosso intercepto. Fica fácil enxergarmos isso se desenharmos a nossa matriz "x" para o modelos com todas as categorias. Vamos deixar isso como exercÃcio para vocês fazerem. Agora, quando incluirmos, então, essas "g" menos 1 variáveis "dummy" no nosso modelo, nós temos um diferente intercepto para cada uma dessas categorias. Veremos, aqui, o exemplo de salário sobre escolaridade, medida por essas variáveis "dummy". Por fim, vamos ver o último uso das variáveis dummy no nosso modelo, que é quando a nossa variável "y" é uma variável binária. Esses modelos são conhecidos por "modelos de escolha discreta", pois, em geral, "y" é binário quando estamos tentando entender o efeito de uma variável "x" sobre uma escolha do indivÃduo. Alguns exemplos discutimos no inÃcio dessa aula, como, por exemplo: a aquisição, ou não, de determinado bem; participação, ou não, no mercado de trabalho; ou, por exemplo, se o indivÃduo se muda ou não se muda do local em que ele vive. Todos esses exemplos podem ser parametrizados por uma variável "y" binária. A grande particularidade desse modelo é que, quando "y" é uma variável binária, nós sabemos que a distribuição de probabilidade dela é uma Bernoulli. Ou seja, se "y" tem uma distribuição Bernoulli, nós sabemos que a esperança de "y" é igual a probabilidade de sucesso, ou seja, a probabilidade de "y" ser igual a 1. Se estamos falando no nosso exemplo de participação no mercado de trabalho: suponha que queremos entender os determinantes da participação, no mercado de trabalho, das mulheres. Será que ter mais filhos influencia na participação da mulher no mercado de trabalho? Nesse caso, então, a esperança de "y" vai ser igual à probabilidade da mulher estar no mercado de trabalho, ou seja, "y" ser igual a 1. Se vale a nossa hipótese de média condicional, que foi a quarta hipótese que vimos no modelo de regressão simples e no modelo de regressão múltipla, nós temos que a esperança de "y" dado "x" vai ser igual a "x" vezes "Beta", se utilizarmos a notação matricial. Como a esperança de "y" é igual à probabilidade, que é igual a uma relação linear nos parâmetros, esse modelo é conhecido por modelo de probabilidade linear. Porque estamos modelando a probabilidade de forma linear nos parâmetros. A grande particularidade desse modelo é que o efeito marginal é dado em probabilidade marginal, ou seja, o nosso "Beta", aqui, vai ser o efeito de uma variação de "x" sobre a probabilidade de "y" ser igual a 1. Se temos um modelo em que "y" é a participação da mulher no mercado de trabalho, "y" é igual a 1 quando a mulher trabalha e "y" é igual a 0 quando a mulher não trabalha. E a nossa variável "x" é, por exemplo, o número de filhos daquela mulher. O nosso efeito "Beta 1" vai ser, então, o quanto um filho a mais aumenta ou reduz a probabilidade daquela mulher estar no mercado de trabalho, que é o que chamamos de probabilidade marginal. Temos apenas duas desvantagens desse tipo de modelo. Primeiro, assim como vimos que a esperança de "y" é igual a "p" menos 1, que é a probabilidade de sucesso, ou a probabilidade de "y" ser igual a 1, a variância de uma variável Bernoulli vai ser igual a "p" 1 menos "p", ou seja, a probabilidade de "y" ser igual a 1 vezes 1 menos a probabilidade de "y" ser igual a 1. Isso fere a hipótese de homocedasticidade, ou seja, a quinta hipótese que vimos no modelo de regressão múltipla e no modelo de regressão simples. Veremos como vamos lidar com esse problema no módulo 6. Outra desvantagem desse modelo é que, para valores muito discrepantes, ou seja, para "outliers" da nossa amostra, podemos ter valores previstos para essas probabilidades maiores que 1 ou menores que 0, e isso fere a lei das probabilidades. O uso do estimador de máxima verossimilhança, nesses casos, pode ser o mais indicado, isso porque, lembre-se, para o método de máxima verossimilhança, nós precisamos conhecer a distribuição de probabilidades de "y", que, nesse caso, conhecemos, pois é a Bernoulli. Nós não vamos discutir, nesse curso, o uso desses modelos, pois eles são não lineares nos parâmetros. Mas, para quem tiver interesse, eu vou deixar alguns "links" aqui, que vocês podem consultar para estudar mais sobre esse tipo de modelo. [MÚSICA] [MÚSICA] [MÚSICA]