[SOM] [SOM] Olá pessoal, meu nome é Luiz Carrossoni. Eu sou engenheiro de sistemas especialista Big Data na Cloudera. Hoje eu vou fazer uma demonstração do Cloudera Data Science Workbench, que é uma ferramenta que ajuda a unir os dois mundos entre o mundo exploratório do mundo de Big Data com o cluster produção que já está com todas as informações seguras e carregadas no seu ambiente. E também onde você não tem uma forma disruptiva no acesso a esse cluster, você não consegue por exemplo utilizar todos os recursos, algo que na administração isso acaba sendo pouco complicado e essa parte exploratória do cientista de dados que acaba sendo o maior trunfo na análise da sua informação acaba sendo pouco travada na hora de se utilizar esses clusters. Hoje dia você tem ferramentas no ecossistema onde elas já ajudam os cientistas de dados a fazer esse tipo de trabalho, mas elas acabam deixando algo a desejar, como por exemplo, seja no acesso ao cluster que esteja criptografado, seja na utilização de alguma ferramenta nova numa instalação de uma biblioteca nova e o Cloudera Data Science Workbench acaba simplificando esse tipo de utilização. Vamos lá? Primeiro, para a instalação do Cloudera Data Science Workbench você pode seguir os passos que tem no website da Cloudera. É muito simples a instalação. Aqui tem os passos. Somente peço para atentar nos prerequisitos, onde você tem algumas informações que necessitam serem passadas como por exemplo o nome do DNS, onde vai ser feito o host do software, toda a parte de gateway e obviamente o espaço disco para a instalação. Após a instalação, onde já é tudo automatizado, você tem essa tela no ambiente. É a tela inicial onde você vai praticamente se cadastrar a uma conta nova. Você pode colocar o nome de usuário ou email e a senha que você possui. Se você já tem uma conta, que é o nosso caso, basta digitar o login e a senha e você já possui acesso ao ambiente. Essa é a primeira tela do ambiente, onde você tem todas as informações de recursos disponÃveis para o seu trabalho e também para o trabalho do seu time. Todo o seu time vai visualizar essa tela inicial e aqui nós já trabalhamos num ambiente conteinerizado, contêineres, que possui toda a praticidade na criação das suas VMs, é ambiente virtualizado que vai ser criado para o seu trabalho e também para o trabalho da sua equipe de cientistas de dados. Aqui podemos ver por exemplo a quantidade VCPUs, virtual CPUs que há no ambiente, e o total de memória disponÃvel. Indo na parte de administração, que é a primeira parte que há na ferramenta, você consegue verificar todas as informações de versões, quantidade de nós da ferramenta, que no caso eu estou utilizando como exemplo nó somente. É recomendável no mÃnimo três nós para ambiente produtivo, mas com nó você já consegue fazer simulações, fazer a parte exploratória e testes se você quiser instalar a ferramenta algum ambiente para poder começar a utilizá-la. Dentro da parte administrativa, você também tem os usuários, onde você pode fazer o convite a usuário novo após a instalação para ele poder, poder testar o seu ambiente ou até acessar essa informação. Então, por exemplo, se eu enviar email para Cloudera Brasil, ele vai enviar o link da ferramenta, quem fez o invite e vai ficar esperando alguma ação cima disso. Se o usuário responder, você já o tem aqui na parte administrativa e já vai poder fazer toda a configuração do quê que ele pode visualizar ou não. Termos de sessões, se você criar alguma sessão dentro do ambiente, ele já fica logado aqui na parte administrativa e as sessões são as engines que vão ser criadas dentro do ambiente. Na aba de engines, essa é a parte mais importante da ferramenta, onde você tem toda a configuração do ambiente questão a recursos. Isso é muito importante porque quais recursos vão ser utilizados, obviamente data science necessita de recursos, mas também ele não pode utilizar todos os recursos que existem no ambiente. Nessa aba, a partir de configuração, você pode adicionar uma configuração nova, por exemplo, usuário que necessita de mais memória no ambiente, eu tenho 30 giga, mas aqui eu vou colocar 18 só para verificar depois. Ele vai poder selecionar entre essas três opções e também pode ser configurável qual usuário tem acesso a cada opção. Isso é muito importante porque você consegue restringir o usuário de testes, por exemplo, qual engine ele vai utilizar e o usuário de produção já consegue utilizar uma maior quantidade de CPU e memória dentro do ambiente. Como eu falei, o ambiente é todo baseado contêineres, aqui temos os contêineres docker. E você pode utilizar uma imagem inicial, que é a imagem disponibilizada pela própria Cloudera, ou customizar as suas imagens e adicionar para serem utilizadas após essa customização. Dentro dessa tela também que como eu falei ela é a mais importante, você consegue colocar todas as variáveis de ambiente que cada usuário vai possuir ao iniciar a sessão e com isso você já elimina passo bem grande do usuário ter que ficar configurando, verificar qual configuração necessária ele necessita para o jobing spark por exemplo para rodar o seu ambiente Python. Tudo isso já vai estar customizado sem a necessidade de você ter que ficar passando e perguntando à TI qual a forma de utilizar o ambiente. O usuário já consegue fazer isso e trabalhar diretamente no dado sem passar por todo esse processo. Por último, quais as informações de instalação de pacotes e também qual espaço disco disponÃvel ele pode adicionar mais espaço dentro do ambiente. Na parte de segurança que como eu falei é muito importante, você tem a opção local que é o que eu estou utilizando na parte inicial. Mas também a ferramenta possibilita toda a configuração via ODAP para você utilizar, reutilizar toda a configuração que você já possui dentro da sua empresa de grupos de usuários, etc. e também se integra com o que já possui no seu ambiente Hadoop. Se o seu ambiente Hadoop já tem toda a configuração de ODAP sendo utilizada, ele pega toda essa configuração também sem a necessidade de algo adicional. Na parte de settings, de configuração, qual a informação do email, enviar, o email SMTP que vai enviar todas as requisições e a parte de utilização da ferramenta, são informações mais administrativas. Após toda a parte de administração, como eu expliquei anteriormente, o usuário, toda a sua equipe já pode utilizar os dados e já pode utilizar a ferramenta para realizar trabalhos e criar projetos e utilizar todas as informações que possuem dentro do seu cluster. Nesse caso, eu criei ambiente mÃnimo, cluster de cinco máquinas para fazer essa demonstração, sem dado nenhum, cluster sem informação, mas eu vou utilizar a ferramenta tanto para adicionar informações e fazer a análise dessas informações dentro do ambiente. Se o seu cluster é produtivo, já possui informações, não tem problema nenhum, a ferramenta já faz toda a configuração via Kerberos. Aqui eu vou mostrar como que se faz. Você coloca qual é o principal, qual é a senha, ele já faz toda essa configuração dentro do ambiente e você já pode acessar o seu ambiente Hadoop utilizando essa autenticação. A partir disso, eu posso criar projetos. Projeto dentro da ferramenta nada mais é do que ambiente onde você só vai analisar as informações e criar scripts {SOM}