[MÚSICA] [MÚSICA] [MÚSICA] Olá. Sejam bem vindos a esse bate-papo com a Cloudera. Hoje estamos aqui com o Pedro e ele vai contar pouco para nós o que que é a Cloudera e eu farei algumas perguntas interessantes para ele. >> Bom, obrigado pela oportunidade. Cloudera. A Cloudera é uma empresa formada 2008, no Vale do SilÃcio, por quatro indivÃduos, que são engenheiros, que vieram da Oracle, outro do Google, Facebook e Yahoo e formaram a Cloudera para explorar o Hadoop e o ecossistema do Hadoop. E ano depois o inventor do Hadoop, Doug Cutting, se incluiu neste time de fundadores e formou a corporação que tem a missão de colaborar com as organizações a explorar todos seus dados para que possa responder aos desafios de negócio. >> Que bom. Que bom, Pedro. Como é que você vê que a Cloudera está percebendo o mercado brasileiro de Big Data? >> Boa pergunta. Sabe que hoje no mercado brasileiro, a gente percebe que, torno, isso não é número de estudo realizado com dados quantitativos, mas de percepção, de interação com clientes, participação eventos, a gente percebe hoje que 80% do mercado ainda está explorando o dado estruturado. Apenas 20% das organizações estão conseguindo explorar dados não estruturados e dados estruturados. Isso deixa uma série de oportunidades aà para quem trabalha com esse mercado de dados e para as próprias organizações, para melhorar o seu desempenho relação a relacionamento com cliente, seu desempenho relação a entregar novos produtos, novas experiências para os seus clientes. >> Que bom. Esta parte de dados estruturados realmente é muito importante e tem potencial muito grande mundial. Temos muito trabalho a ser feito. Pedro quais são as fontes de dados que as corporações têm usado projetos de Big Data? >> Hoje dentro do mercado, até linkando com a resposta anterior, como você tem a questão dos dados estruturados e os dados não estruturados, as organizações têm procurado inicialmente as fontes de dados estruturados. DRP, CRM, sistemas internos que já foram desenvolvidos dentro da plataforma de banco de dados tradicional, é uma das fontes de dados. Agora, com a explosão dos dados não estruturados que cresce exponencialmente, como dados de log de servidores, sensores de GPS, você tem aà a necessidade de incorporar esses dados dentro da sua análise, do seu trabalho, com o Big Data. Então hoje no mercado, você vê principais fontes de dados, dados de redes sociais, dados relação a locks, principalmente aqueles sites de e-commerce onde você tem esse desafio de entender como cada cliente está navegando dentro do website, para que você possa interagir. E os dados que são dentro da organização propriamente dito, que são os cadastros tradicionais que as organizações hoje demandam e precisam ter. >> Perfeito. Como é que você está vendo os lÃderes das organizações? Como é que eles selecionam projeto de Big Data, dado que tem tanto projeto, tanto problema? Como selecionar projeto? >> Sabe, Alessandra, que dentro deste trabalho é interessante que eu gosto de usar alguns exemplos, como o Gartner, por exemplo. O Gartner faz uma pesquisa anual com os principais CIOs do mundo, inclusive América do Sul e Brasil, para entender quais são as suas prioridades relação a investimentos e projetos. E o tema Dados, BI, Analytics, Big Data, está no top de prioridades desses diretores de TI, ou CIOs, como o mercado muitas vezes o conhecem, como prioridade número já há dois anos seguidos, ou top três já há mais de 10 anos. Então o mercado vem entendendo que trabalhar com dados é tema relevante, importante, para a sobrevivência das organizações. Uma outra pesquisa que o próprio Gartner faz com os presidentes de organizações, que define quais são as prioridades e a maioria respondeu que crescer a empresa, ou seja, crescer receita, é a prioridade número. E no nosso entendimento não dá para fazer isso se você não usar bem os seus dados. Porque são seus dados que vão permitir que você entenda melhor o seu cliente, que você melhore cenário de operação para ser mais eficiente e consiga ser lucrativo no final do dia. >> Perfeito. Tem que incorporar bastante os dados dos clientes. Tem tanta informação, tanto rastro digital disponÃvel e as empresas precisam fortemente colocar e agregar mais variáveis aos modelos, está certo? >> Sim. Fica evidente que os dados hoje são, realmentem uma matéria-prima bruta que precisa ser trabalhada para alavancar os negócios. >> É o nosso novo petróleo, que é o que estão dizendo. >> Exatamente. >> Perfeito. Agora me conta uma coisa. O ambiente de Big Data e o Hadoop, você acha que eles vão substituir os sistemas de bancos de dados atuais? >> Na verdade, não. Isso é cenário de coexistência. É claro que você tem hoje algumas organizações, principalmente as startups, pela caracterÃstica de você ter o acesso via o Open Source a essas tecnologias, algumas delas já iniciam propriamente dentro desse contexto. Mas o que a gente percebe no mercado corporativo não. É cenário de coexistência, de otimização destes ambientes que já estão e, tem outro cenário que precisa ser percebido nesse contexto. As organizações investiram milhares e milhares de reais e dólares nesses ambientes. Ou seja, não faz sentido nenhum você descartar esse investimento que já foi realizado e sim otimizar esse esse investimento usando a plataforma de Hadoop e Big Data, para fazer isso, o ecossistema do Hadoop para fazer isso. >> Para ajudar as empresas nas soluções. Tá certo. Como é que as organizações estão utilizando o Hadoop e quem se beneficia com essa plataforma? >> Boa pergunta. Hoje dentro do nosso ambiente de trabalho, você tem as organizações utilizando a plataforma de dados para quatro cenários principais. Primeiro deles é o que a gente chama de visão 360 graus dos clientes. Ou seja, como eu consigo trabalhar as informações dos meus clientes, este rastro digital que você mencionou anteriormente, para criar uma visão única. Ou seja, se o Pedro entra no site de e-commerce, começa processo de compra, ele interrompe no meio do caminho e por algum motivo, por conveniência dele, entra no telefone para dar continuidade a esse processo, a organização precisa ser capaz de entender que o Pedro que estava no website é o mesmo que o Pedro que está ligando pelo telefone, pelo call center, para concluir aquele processo de compra, ou de gestão daquele serviço. Então, o primeiro cenário é visão 360 graus dos clientes. O segundo cenário é o que a gente chama de internet das coisas, ou eficiência operacional. Como eu posso utilizar informações que vêm do chão de fábrica para ser mais eficiente? Alguns cenários você é capaz de encontrar hoje disponÃveis na internet, de cenários de manutenção preventiva. Tem case que o Gartner menciona, da PEMEX, de manutenção da tubulação dos oleodutos pela vibração. Eles criaram baseline para entender o momento que aquele ruÃdo subiu além daquele baseline é o momento de fazer a manutenção preventiva antes de isso chegar a uma falha, ou uma quebra. O terceiro cenário que eu mencionei, é o cenário de segurança, ou o Cyber Security. Hoje esse desafio das coisas estarem todas conectadas à internet, você gera uma série de ameaças e riscos e a equipe de tecnologia e de segurança precisa usar essas informações para fazer trabalho preditivo relação à tecnologia da informação. Então usar Big Data, Hadoop, para que você possa antecipar ameaças, coletar informações, entender esse baseline é super importante e a plataforma viabiliza este tipo de cenário. E o quarto, que é o cenário mais comum, que é a modernização da infraestrutura de data warehouse dentro das organizações. Ou seja, como eu otimizo a infraestrutura de data warehouse dessas organizações. Dentro desse cenário de uso, a gente percebe que você tem quatro desafios principais. Primeiro a ingestão de dados, que é desafio, porque você tem uma janela para ingestão de dados, ou seja, para processar, transformar e carregar isso dentro do seu ambiente, bastante curta cada vez mais, para que você possa atender os desafios do negócio. Então ingestão de dados é desafio. O segundo é o histórico desses dados. Ou seja, quanto mais tempo de histórico de dados você tem dentro da sua plataforma, maiores são as análises que você consegue fazer, a assertividade é maior. E manter esse histórico ele tem custo elevado na plataforma tradicional de data warehouse. Então, a gente nessa plataforma de Big Data, consegue transferir esse histórico para esta plataforma que tem o custo de armazenamento 10, 15 vezes menor do que o tradicional. E o terceiro ponto é viabilizar o que a gente chama de Data Lake, que é permitir que dados não estruturados sejam incorporados a essa camada de dados ou esse lago de dados, vamos dizer assim, que possuem dados estruturados, dados não estruturados que estão disponÃveis para você fazer a descoberta de dados, para que a tua área de negócio, a tua equipe de marketing, gerentes de programa possam procurar informações que estão dentro desse repositório que, por algum motivo, ainda não foram trabalhados para chegar a algum tipo de resposta e viabilizar nesse cenário o que o mercado está chamado de self service BI, que é a possibilidade de entregar para os usuários de negócio a capacidade de explorar esses dados e ele mesmo criar os seus relatórios, os seus dashboards para a tomada de decisão no dia-a-dia. Então, quem usa esse ambiente de Big Data, realmente, são essas pessoas que estão envolvidas com os processos de negócio da organização, que estão envolvidas com melhorias, com a gestão de clientes e a própria área de tecnologia. >> Enfim, todos os envolvidos com a parte de dado e informação podem se beneficiar, de uma forma ou de outra dessas tecnologias. >> Exato. >> Muito bom! Agora, me dá uma sugestão. Como que você iniciaria projeto de Big Data? >> Esse é ponto bastante desafiador para o mercado porque a maioria dos projetos de Big Data é uma jornada. O que a gente percebe é que a melhor maneira de iniciar é iniciar identificando muito bem caso de uso. Entender esse caso de uso, ou seja, é trabalho de melhorar a visão do cliente, é trabalho de melhorar processo de atendimento, é trabalho de otimização da linha de produção. Fatiar isso, começar com projetos pequenos para que você possa identificar o benefÃcio logo e não leve perÃodo muito longo para entender que aquele trabalho não vai gerar o resultado desejado. Ou seja, é importante identificar o cenário de utilização, o quê que você está buscando, qual benefÃcio para o negócio você vai trazer com essa iniciativa de Big Data. A maioria dos casos hoje está relacionada à questão de trabalhar com os clientes. >> Perfeito. E quais são as demandas de infraestrutura para esses projetos de Big Data que vocês estão fazendo? >> Esse é outro diferencial da plataforma do ecossistema do Hadoop. A infraestrutura pode ser uma infraestrutura que a gente chama de hardwares commodities, ou seja, você pode utilizar componentes que estão dentro das organizações, dentro do seu data center ou adquirir novos hardwares, mas são hardwares que têm preço de commodity, porque eles são básicos, ou seja, não têm nenhuma caracterÃstica diferencial que vá inviabilizar esse projeto como muitas vezes acontece num ambiente de data warehouse, que você precisa de hardware mais potente. Porque ele vai estar centralizando muitos dados, ele vai fazer trabalho de processamento, de disponibilização de informação para os usuários finais que realmente é bastante intenso, então você demanda hardware especializado e tudo o mais. Outra caracterÃstica importante na plataforma da Cloudera é que você pode escolher onde você quer implementar essa infraestrutura. Ela pode ser dentro do seu data center ou qualquer uma das três opções de nuvem pública que você tem no mercado e até no contexto hÃbrido. Apesar do mercado brasileiro não estar tão maduro nesse ambiente hÃbrido, existe essa possibilidade, ou seja, dependendo do cenário de uso, eu posso implementar isso numa infraestrutura dentro de casa ou eu posso implementar na nuvem. >> Perfeito. E uma coisa muito difÃcil hoje dia, como é que justifica projeto de Big Data? >> É. >> Como é que iniciamos, cadê uma boa justificativa? >> Geralmente, nesse cenário a gente acaba percebendo a demanda de experimentar. De fazer ali uma experimentação, uma prova de conceito. Mas uma prova de conceito, uma coisa assim muito curta, não aquela coisa de três meses trabalhando para provar esse conceito. Uma coisa muito simples de que uma semana você consiga entender: isso vai trazer benefÃcio para o negócio. Na maioria das vezes, são casos que estão relacionados à eficiência profissional, relacionados a aumentar a receita da organização, porque eu vou explorar novo serviço, vou cruzar dados para entregar serviço mais completo, aquele cenário de vendas cruzadas ou até da estratégia do long tail, que todo mundo vem explorando hoje no mercado para gerar novas receitas. >> O grande desafio é como encantar o cliente com projeto que traga muito retorno e rápido, tudo tempo real. >> Você sabe que recentemente eu estava lendo artigo da Hardwares Review que fala sobre o tradutor de dados, que é a pessoa que vai fazer o trabalho de intermediar a demanda do negócio com a área de tecnologia, porque ele entende pouco da tecnologia, mas entende como traduzir isso benefÃcio de negócio para poder justificar o projeto e ele avançar. Tem algumas empresas que dão nome para esse papel de business partner. Mas eu vi recentemente essa nomenclatura que me chamou atenção de tradutor de dados. Ou seja, uma pessoa que vai olhar e falar: esse dado aqui tem esse valor para esse negócio porque ele vai endereçar esses desafios dessa área, da área de marketing, da área de vendas e assim por diante. >> Muito bem. Agora me conta uma coisa, cyber poltergeist, segurança. Porquê que segurança é importante Big Data e por quê que as empresas estão pouco pânico, vamos colocar IoT, tudo conectado tudo, okay? Mas estamos abrindo portas para a invasão. >> Exato. >> Por que que segurança é pontinho muito relevante? >> Porque segurança sempre está inserida ao nosso dia-a-dia e a gente já teve uma série de eventos recentes demonstrando que você precisa usar a inteligência, a informação ao teu favor para conseguir mitigar esses riscos. Então, dentro do ambiente da plataforma de Hadoop, do ecossistema, a Cloudera desenvolveu trabalho que é projeto Rhino que foi feito com a Intel para implementar segurança dentro do HDFS, permitindo a integração com os mecanismos de validação e tudo o mais para que você possa viabilizar que quem tem direito a determinada informação possa ver e usar essa informação. Tem caso bastante interessante, inclusive tem filme que fala sobre isso, que é o caso do Snowden. Onde ele faz uma série de downloads de informações confidenciais e, naquele desafio de segurança não é porque ele era usuário indevido à quele sistema, pelo contrário ele tinha todas as credenciais de acesso, ele poderia realmente acessar todas aquelas informações. Mas o baseline de uso dele era o que era fora. Então, num ambiente com Big Data, fazendo ali o analytics daquelas informações, logo você iria perceber que o perfil de utilização dele do sistema si estava fora do baseline tradicional. Ele fez uma quantidade de downloads num tempo tão curto que qualquer sistema que estivesse monitorando aquele ambiente poderia identificar que houve ali evento fora do padrão e poderia na segurança antecipar e bloquear aquele acesso. Segurança é desafiador, mas hoje, com o avanço do Big Data, do ecossistema de Hadoop, você tem condições de conectar essas informações e fazer uma análise dessas informações próximo de real time. >> Diminuir pouco o risco, proteger as organizações. Perfeito. Agora me conta uma coisa: quais são os principais cenários de uso de Big Data? >> Voltando pouco a algumas perguntas anteriores que a gente estava aqui conversando e tal, na Cloudera a gente identifica quatro cenários principais de utilização para facilitar os clientes no momento de identificar oportunidades e tudo o mais. Existem outras mas eu gostaria de centrar dentro dessas quatro opções, porque dentro dessas quatro opções você tem as variações muito limitadas. Mas é visão 360 graus dos clientes, toda a parte de eficiência operacional, internet das coisas, segurança, ou seja mitigar riscos utilizando essa plataforma, e modernização da área de data warehouse que, hoje, você tem essa demanda de criar esse novo conceito de datalink e é uma possibilidade que essa plataforma traz. Então, esses são os quatro principais cenários de utilização. >> E o datalink de fato acelera muito a equipe de modelagem, o pessoal de analytics, você vai modelagem encontrar coisa concentrada, fica muito mais fácil para nós. Muito bom. Agora eu vou para pontinhos negativos, por quê que os projetos de Big Data fracassam? >> Excelente pergunta. Você sabe que o Gartner tem uma pesquisa que fala que 60% dos projetos de Big Data vão falhar por falta de conhecimento. Então, a questão de capacitação Big Data, porque são tecnologias que vêm surgindo, algumas são antigas mas devido à capacidade de processamento que você tem hoje, que de alguma forma commoditizou: armazenamento, memória, se tornaram viáveis para o mundo corporativo e a utilização, a adoção dessas tecnologias demanda novo paradigma de utilizar os dados. Então, se as pessoas não estiverem capacitadas a entender esse novo modelo, a mesclar a esse mundo de agilidade, hoje o mundo demanda esse cenário de ser ágil, de trabalhar com integráveis pequenos mas contÃnuos, que é muito do conceito de agilidade, não só de desenvolvimento de software, mas agilidade qualquer contexto, ou seja, você gera subproduto que já tenha algo ali pronto e vai melhorando ciclos contÃnuos até ter o produto pronto, se dia tiver, se chegar a tê-lo pronto, mas essas entregas, a agilidade. Esse cenário de você se capacitar é muito importante e a Cloudera trabalhou nesse cenário. A Cloudera, dentro do modelo que ela desenhou de business plan para o mercado, é uma empresa que tem a missão de viabilizar o Big Data para as corporações. Toda a corporação hoje tem alguns pilares que são: suporte, consultoria e treinamento. A Cloudera certificou mais de 40.000 pessoas no ecossistema de Hadoop nos últimos anos. A gente tem uma série de treinamentos que permitem, desde a administração do ambiente do Hadoop até o cenário de desenvolvimento, de analista de dados e agora mais recente o cientista de dados que também virou aà uma palavra da moda, cientista de dados e tudo o mais e demanda esse tipo de capacitação. >> Perfeito. E quais são as tendências na plataforma de dados? >> Isso é ponto interessante. A gente percebe que hoje, com a explosão de dados, com esse desafio de trabalhar com os dados que são não estruturados, ou seja, logs ou os dados de redes sociais, de internet das coisas, você percebe essa necessidade de ter uma plataforma que consiga endereçar esse desafio. Eu estava vendo uma pesquisa do IDC que fala que até o final de 2020, a maioria das organizações do ranking das globais 2000 vão ter demandas de inteligência artificial, ou seja, capacidade de inteligência artificial dentro dos seus produtos, serviços para o mercado. Não dá para fazer isso se você não tiver uma plataforma de dados moderna que consiga trabalhar com todos esses desafios que a gente vê relação a essa explosão de dados. A tendência é que você tenha cada vez mais dados disponÃveis para que você possa inovar e gerar novos produtos, novas experiências para os clientes. Veja os exemplos recentes: Uber, Airbnb, são exemplos de empresas que entenderam aquele contexto integrando uma série de informações para atender uma determinada demanda com determinado serviço. Então, é uma tendência você usar cada vez mais os dados. >> Está ótimo. Pedro, muito obrigado por esse bate-papo. Espero que tenhamos esclarecido aos nossos alunos, aos nossos colegas, pouquinho mais sobre a Cloudera, alguns desafios e espero encontrar vocês no nosso próximo curso. Até breve. [MÚSICA]