Agora que você conhece os tipos de modelos de ML que podem ser escolhidos, é preciso usar dados de alta qualidade para ensinar o que for preciso aos modelos. O melhor jeito de aprender os principais conceitos de ML em conjuntos de dados estruturados é conferindo um exemplo. Nesse cenário, vamos prever o valor de vida útil do cliente com um modelo. O valor da vida útil, ou LTV, é uma métrica comum de marketing usada para estimar os valores da receita ou do lucro que são esperados de um cliente com base no histórico dessa pessoa e nos clientes com padrões parecidos. Vamos usar um conjunto de dados de e-commerce do Google Analytics da Google Merchandise Store, que vende itens de marca, como camisetas e jaquetas. O objetivo é identificar clientes de alto valor e atrair essas pessoas para nossa loja com promoções e benefÃcios especiais. Após analisar os campos disponÃveis, talvez você considere útil determinar se um cliente é de alto valor, de acordo com o comportamento dessa pessoa no site. Esses campos incluem dados voltados à vida útil do cliente, como visualizações de páginas, número total de visitas, tempo médio gasto no site, receita total gerada e transações de e-commerce no site. Em machine learning, você preenche as colunas com dados e deixa o modelo entender a relação entre eles para prever melhor o identificador. O ML pode até descobrir que algumas das colunas não foram úteis para o modelo na previsão do resultado. Depois você vai ver como definir isso. Agora que temos alguns dados, podemos organizar o uso deles no modelo. Aliás, para manter o exemplo simples, estamos usando apenas sete registros, mas precisarÃamos de milhares para treinar um modelo com eficiência. Antes de usar os dados no modelo, primeiro precisamos definir dados e colunas na linguagem que os cientistas de dados e outros profissionais de ML usam. No exemplo da Google Merchandise Store, um registro ou uma linha do conjunto de dados é chamado de um exemplo, uma observação ou uma instância. Um identificador é a resposta certa, e você tem certeza disso porque ele vem de dados históricos. Você precisa disso para treinar o modelo e fazer previsões de dados futuros. Dependendo do que você quer prever, um identificador pode ser uma variável numérica, que requer um modelo de regressão linear, ou uma variável categórica, que requer um modelo de regressão logÃstica. Por exemplo, se sabemos que um cliente que fez transações no passado e passa muito tempo em nosso site, em geral, tem uma receita alta de vida útil, podemos usar a receita como identificador e prever as mesmas informações para clientes mais novos com a mesma trajetória de gastos. Isso significa prever um número. Portanto, podemos usar uma regressão linear como um ponto de partida para reproduzir. Os identificadores também podem ser variáveis categóricas como valores binários, como um cliente de alto ou baixo valor. Para prever uma variável categórica, como falamos na seção anterior, é preciso usar um modelo de regressão logÃstica. Saber o que você quer prever, como uma classe ou um número, vai afetar muito o tipo de modelo que você vai usar. Mas como chamamos todas as outras colunas de dados na tabela de dados? Essas colunas são chamadas de atributos ou atributos em potencial. Cada coluna de dados é como o ingrediente de uma receita que você pode escolher no armário da cozinha. A dosagem errada, entretanto, pode estragar a refeição. O processo de filtragem de dados pode ser demorado. Entender a qualidade dos dados em cada coluna e trabalhar com equipes para ter mais atributos ou mais contexto é, com frequência, a parte mais difÃcil de projetos de ML. É possÃvel combinar ou transformar colunas de atributos usando um processo chamado de engenharia de atributos. Se você já criou campos calculados em SQL, já realizou as etapas mais básicas da engenharia de atributos. Além disso, o BigQuery ML faz boa parte do trabalho pesado para você, como codificar valores categóricos em one-hot de maneira automática. Essa codificação é um método de conversão de dados categóricos em dados numéricos para deixar tudo pronto para o treinamento de modelos. Depois disso, o BigQuery ML divide o conjunto de dados automaticamente em dados de treinamento e de avaliação. Por fim, há dados futuros e de previsão. Digamos que você recebeu novos dados, mas não tem identificadores para eles. Assim, você não sabe se eles são para um cliente de alto valor, mas você tem um vasto histórico de exemplos identificados para treinar um modelo. Então, se treinarmos um modelo com os dados históricos conhecidos e estiver tudo certo com o desempenho dele, podemos usar esse modelo para prever os próximos conjuntos de dados.