[MÚSICA] [ÁUDIO_EM_BRANCO] Olá, nesta videoaula eu quero mostrar para você como calcular distâncias euclidianas usando o software Excel. Primeiro passo, eu vou abrir uma base de dados que chama-se 'Gastos Diários' e que tem, basicamente, duas planilhas. Na primeira planilha, roteiro, tem os passos que nós vamos dar para chegar no cálculo da distância euclidiana. Na segunda planilhas, tem a base de dados, que é aquela mesma que nós usamos na nossa videoaula bastante simples, onde nós temos cinco pessoas, quanto que eles gastam por dia comida e quanto que eles gastam por dia roupas na média estimada por mês. O roteiro que nós vamos seguir consiste montar duas tabelas com cinco colunas e cinco linhas para os respondentes 'a' e 'e'. Depois, nós queremos calcular a distância entre cada par de respondentes, depois nós vamos calcular também a distância entre cada par de respondentes da variável X2_Roupas. Primeiro comida, segundo roupas. E depois, nós vamos fazer o cálculo da distância euclidiana segundo essa fórmula, que ela assusta pouco, mas, na verdade, na prática com dados reais, você vai ver que não é tão complicado. E, depois, nós vamos também fazer o gráfico de dispersão. Eu vou mostrar só o comecinho de como a gente poderia fazer aqui dados para que você acompanhe o raciocínio. Se eu colocasse aqui 'a', 'b', 'c', 'd' e 'e', eu colocaria aqui nas colunas também 'b', 'c', 'd' e 'e'. Ora, a distância entre o 'a' para a variável comida e o próprio 'a', obviamente, a distância entre o 'a' com o 'a' vai ser zero, porque é o próprio ponto. Já a distância do 'a' para o 'b', eu deveria subir e tirar a célula B2 e dela subtrair a célula B3, onde você tem a variável comida para o respondente três e você vê que eu obtenho o menos seis. Eu poderia fazer isso, por exemplo, entre 'a' e 'c', pegando o valor da variável comida para o 'a' e subtraindo o valor da variável comida para o 'c', menos sete. E esse processo, eu gostaria que você depois, até praticar sozinho, mas, como ele toma pouco de tempo, para ganharmos alguns minutos, eu queria ir direto para a solução do problema, que está numa outra base de dados, chamada 'Gastos Diários Solução'. Neste outro arquivo, também Excel, você está vendo o roteiro, exatamente igual ao anterior, mas agora você vai encontrar a solução pronta. Você se lembra que a gente estava fazendo aqueles cálculos de pegar o valor da variável e subtrair o valor da outra variável para saber a distância entre aquele parzinho? A mesma coisa você está vendo aqui, só que agora você está vendo com uma estética mais bonita, pouco de cores para facilitar o seu aprendizado. Aquele menos seis é exatamente o valor da variável 'a' para comida menos o valor da variável 'b' para comida. Aquele menos sete, que a gente tinha calculado antes e assim por diante. Quando a gente calcula aqui a parte de cima dessa matriz, na realidade, esta célula é exatamente igual a esta, porque a distância de 'a' e 'b' é menos seis, e, portanto, de 'a' e 'b' a distância é menos seis. Lembre-se que a gente sempre calcula a subtração partindo da mesma base, ou seja, é 'a' menos 'b' e não 'b' menos 'a'. Então, esta matriz, ela é exatamente refletida na parte da diagonal superior relação a diagonal inferior. Você está vendo aqui e. E a diagonal? A diagonal, necessariamente, nós temos que colocar zero e zero, porque é a distância do ponto a ele mesmo. Portanto, a distância de ponto 'e' ou 'b' ou 'c', qualquer que seja ele a ele mesmo, é zero, é o próprio ponto. Fizemos, então, essa planilha nessa matriz o cálculo das distâncias da variável comida. Ainda não estamos falando de distâncias euclidianas, simplesmente, a distância entre os pontos para uma das variáveis. Agora, nós temos que repetir o procedimento X2_Roupas. Então, como eu calcularia o 'b' menos 'a'. É muito simples, é só você pegar a distância entre esses dois pontos. Esta é a fórmula. Você pega quatro menos dois, dois. A distância do 'a' com 'c', a fórmula que eu estou aqui iluminando é quatro menos três. Muito bem. Agora que você já tem as duas tabelas de distâncias entre as variáveis X1_Comida e X2_Roupas, nós estamos condições de calcular a distância euclidiana entre as variáveis, que seria a distância combinada. A distância dos pontos de maneira, como nós mostramos naqueles slides, como se a gente tivesse calculando a hipotenusa de triângulo retângulo seguindo a fórmula de pitagoras, porque aqui nós temos apenas duas variáveis. Ou, genericamente, a fórmula euclidiana que pode ser aplicada para conjunto maior de variáveis. Ora, como é que eu calculo agora esta distância combinada? A fórmula de Euclides diz que eu tenho que pegar a distância entre 'a' e 'b' e elevar ao quadrado [ÁUDIO_EM_BRANCO] mais a distância entre o 'a' com o 'b' da variável segunda, elevar ao quadrado e, no final, extrair a raíz quadrada. Basicamente, o que eu estou fazendo é exatamente isto. Eu estou fazendo a distância entre dois pontos como sendo a raíz quadrada da soma das distâncias de cada parzinho elevada ao quadrado. Vamos fazer mais exemplo aqui. Eu vou apagar este e vamos fazer juntos. Primeira coisa, eu vou dar sinal de igual, vou abrir parênteses. Eu tenho que pegar a distância do 'c' com o 'a', 'c' com o 'a' é menos sete. Este número, eu vou elevar ao quadrado. Inclusive, note que ele é número negativo, mas ao quadrado ele vai ficar positivo, ele vai dar 49. Eu tenho que somar com a distância do mesmo ponto 'c' com 'a', mas agora para a segundo variável que é a variável Roupas. Elevo este número ao quadrado e agora eu tenho a soma dos quadrados. Terminei? Não. O que diz a minha fórmula de Euclídes? Que eu tenho que agora fazer a raíz quadrada. Como que eu faço a raíz quadrada? Basta elevar a número zero vírgula cinco ou, se você preferir, você pode elevar a dividido por dois, que é a mesma coisa meio. Opa. Temos problema na nossa fórmula. Vamos consertar. Faltamos, temos que colocar parênteses também aqui, porque se não ele faz a conta não do jeito que a gente gostaria. A raíz quadrada de 50 é aproximadamente sete vírgula. De novo, essas distâncias estão refletidas na parte superior e agora eu quero que você, seguindo o roteiro, observe após os cálculos as distâncias que nós obtivemos. Você está vendo aqui, claramente, que o ponto 'a' e o ponto 'd' estão muito próximos. A distância entre eles é ponto quatro. Igualmente aqui, que é o reflexo daquela mesma célula. Já os pontos 'b', 'c' e 'e' coloridos verde, você vê que também são muito próximos. Isso tudo poderia ser visto, caso você quisesse, através de gráfico, como nós fizemos já através de gráfico que pode ser feito tanto Excel, quanto Stata, que nós vamos depois voltar esse exercício Stata. Basta você iluminar esses pontos, vir aqui inserir gráfico chamado gráfico de dispersão. Esse gráfico vai mostrar os pontos. Aqui não saiu uma legenda, mas é possível coloca. Aqui estão os pontos 'a' e 'd', 'a' e 'd' e aqui estão os pontos 'b', 'c' e 'e'. Você tá vendo, claramente, que esses pontos são próximos do outro, enquanto que esses pontos são próximos também, formando dois agrupamentos, que era o que a gente queria que você entendesse. Até a próxima videoaula. [ÁUDIO_EM_BRANCO]