[MÚSICA] [MÚSICA] Bom pessoal, a partir disso, nós já podemos iniciar o projeto. Após toda a configuração de administração, de configuração do ambiente, quais "engines" ele vai utilizar e quais variáveis de ambiente são necessárias para o trabalho da sua equipe, do seu data science. Ele já pode começar a utilizar o "cluster", todas as informações que estão lá dentro, e trabalhar esses dados para realmente tirar algum valor relação a eles, que é realmente o objetivo da ferramenta e no que ela se propõe. Vamos criar novo projeto, eu já tenho projeto criado, já vamos voltar nele, mas projeto novo é muito simples, a criação, aqui eu vou colocar o nome, onde eu posso colocá-lo como privado, onde somente os colaboradores que eu adiciono, dentro da minha equipe, vão visualizar esse projeto, são os usuários que já são cadastrados dentro da ferramenta. O público, todos os usuários autenticados na ferramenta podem visualizar esse projeto. Normalmente, claro, a opção privada é a mais utilizada. No início, eu posso iniciar projeto branco, sem nenhum template, vou fazer uma codificação inicial do zero somente para teste, verificar o que está ocorrendo, fazer uma análise exploratória dentro da ferramenta. Ou eu já utilizar template Python, R, Pyspark e Scala. Esses já são templates prontos, que vêm baseado naquele repositório de engines que eu mostrei anteriormente. E existe, também, templates locais, onde eu posso fazer o upload dos códigos e também de todas as informações, dentro da ferramenta, e trazer essas informações para dentro do cluster e começar a trabalhar. Por último, que é o git hub, é o repositório de diversionamento de código mais utilizado atualmente, onde você pode trazer essas informações, de projeto no git hub, e começar a trabalhar. Aqui, nós temos no meu exemplo- deixa eu criar esse projeto branco aqui- termos de visualização, no exemplo, que é de demonstração, eu tenho projeto que foi criado via git hub. É projeto interno da Cloudera, tem git hub interno nosso onde eu tenho todas as informações necessárias para fazer a minha demonstração. Aqui, essa é a tela inicial do projeto, eu posso fazer fork desse projeto assim como no próprio git hub, iniciar projeto novo, não é o caso aqui. E, também, iniciar a minha análise. Eu clico open workbench, realizo todas as análises necessárias de códigos. Eu tenho aqui, por exemplo, projeto que faz detecções anormais de tráfego na rede e aqui ele tem "leia-me", como que eu faço esse projeto funcionar. Principalmente, ele trabalha escala, então, eu tenho aqui o código escala que faz todo o processo das informações. Lembrando que meu cluster não possui informação nenhuma, então, eu tenho que incluir essas informações no cluster. Vamos fazer isso primeiro? Eu crio uma sessão nova, escala; aqui eu tenho aquelas opções que eu mostrei anteriormente, de memória e VCPU, o que delimita o meu trabalho nesse ambiente e é muito importante, porque você tem algo distribuído e controlado dentro de ambiente produtivo; e inicio a sessão. Enquanto a sessão está sendo iniciada, o processo cria, por trás, as imagens dockers no meu ambiente distribuído. Aqui eu só tenho uma máquina, mas se eu tivesse ambiente distribuído, ela iria criar várias VM´s com essa configuração, no meu ambiente. [MÚSICA] Bom pessoal, a partir disso eu já tenho o meu container criado, ele já está distribuído no meu ambiente, se eu tivesse ambiente distribuído. Aqui, no caso, eu tenho nó somente, mas aqui, como nós estamos vendo que ele ficou verde, ele já está pronto para ser utilizado. Eu tenho acesso, nesse ambiente, ao terminal, do ambiente que foi criado, onde eu posso trabalhar as informações, verificar quais informações se encontram no ambiente e quais arquivos eu posso trabalhar. Aqui, no caso, eu já tenho acesso ao cluster, o ambiente de big data, conforme eu mencionei anteriormente que é ambiente [INCOMPREENSÍVEL], eu já tenho acesso às informações. No meu ambiente não tenho nenhum dado, eu tenho que fazer essa análise inicial. Eu incluí algumas informações dentro de diretório temporário que se chama KDD Cup. Essas informações foram incluídas a partir da internet. Como eu tenho acesso para poder fazer a inclusão de dados dentro do cluster, eu posso, aqui no setup, por exemplo, trazer as informações direto para o meu ambiente Hadoop. Como eu já coloquei essas informações temporárias dentro do ambiente e já criei uma sessão escala, eu posso começar a trabalhar essa informação. A parte de preparação dos dados. Aqui eu tenho exemplo de livro onde faz essa análise e armazena essa informação no "cache" de memória, no spark, para poder processá-la. Eu vou executar essa linha de código, somente a parte que eu selecionei, e a partir disso, ele já vai fazer todo o trabalho dentro do ambiente do cluster, utilizando, aí sim, todo o processamento que o ambiente de big data tem. E com isso, você tem a utilização de todos os recursos processando esse dado. [MÚSICA] Pronto! O ambiente já tem todas informações processadas e eu já a tenho armazenada cache para eu poder trabalhar essa informação, na preparação de dados conforme eu mencionei anteriormente. Fazendo count de quantas informações, de quantos registros eu tenho no meu dataset, deve ter cerca de quatro milhões de linhas dentro desse ambiente. E com isso, esse processamento pode ser realizado e aplicadas técnicas avançadas, que no caso, aqui utilizamos o Spark ML para poder fazer a análise do ambiente. Aqui o resultado: cerca de quatro milhões e oitocentas mil linhas. E a partir disso, eu já posso aplicar o que eu falei, as técnicas avançadas. Vamos fazer uma análise de distribuição e verificar como que está essa distribuição cluster. [SEM SOM] [SEM SOM] Dentro dessa análise de distribuição, verificamos que existe monte de ataques smurf e neptune, dentro do ambiente. E isso já dá uma análise do quê que pode ser feito relação a isso. Obviamente, existem técnicas mais avançadas para verificar por que isso está ocorrendo, e com isso, você pode aplicar vários modelos estatísticos, dentro dessa informação, e persistir o dado ou não. Aqui, no caso, vamos executar todo o restante do código para verificar como a análise se encontra no final. E aí sim, verificar o resultado dessa análise. [MÚSICA] Após a execução do processo, de toda a sua análise exploratória, a criação desde o dataset e a análise efetiva no modelo de clusterização, o resultado pode ser compartilhado, tanto para o seu time, que você criou dentro, ou forma de link para fora. Aqui como exemplo, após a execução, nós podemos voltar- eu parei a sessão- nós podemos voltar nas sessões que foram executadas e posso verificar todo o conteúdo de execução da sessão. Eu tenho tudo que foi executado relação ao meu trabalho, e com isso, eu posso compartilhar essa informação, retirando o código ou colocando alguma explicação no que eu fiz, e enviar toda essa análise para o usuário final. Se eu quiser fazer o deploy do modelo que eu criei, como eu já tenho acesso ao cluster via terminal, eu posso fazer todo esse deploy lá dentro já, sem a necessidade de enviar para outra pessoa. Obviamente, se eu tiver acesso a isso, que é o mais importante num ambiente produtivo. Bom pessoal, depois da análise com o link gerado, você pode enviar essas informações para a sua empresa como uma análise realizada termos de codificação do quê que foi feito. E, também, todas as informações que foram contidas dentro dessa análise, e utilizando todos os recursos do ambiente, o que a ferramenta propõe. Você utiliza toda a engine de processamento spark, toda a engine de processamento do ambiente do cluster, como todo, ambiente controlado, previsível, mas, também, não tão limitado à utilização de ferramentas como outros ambientes tradicionais. E é isso, o que nós propomos demonstrar hoje. Muito obrigado! [MÚSICA]