7 algoritmos de machine learning que hay que conocer: Guía para principiantes

Written by Coursera • Updated on

Los algoritmos de aprendizaje automático impulsan muchos servicios en el mundo actual. Aquí tienes siete que debes conocer para iniciar tu carrera profesional.

[Imagen destacada] Dos profesionales del aprendizaje automático discuten sobre algoritmos de aprendizaje automático.

Read in English. (Leer en inglés.)

El aprendizaje automático (machine learning, ML) puede hacer de todo, desde analizar radiografías hasta predecir cotizaciones bursátiles o recomendar programas de televisión que merezcan la pena. Con una gama tan amplia de aplicaciones, no es de extrañar que se prevea que el mercado mundial del aprendizaje automático crezca de $21,700 millones de dólares estadounidenses (approx. 415,741,837 pesos mexicanos) en 2022 a 209,910 millones de dólares (approx. 4,021,583,825 pesos) en 2029, según Fortune Business Insights [1].

En el núcleo del aprendizaje automático se encuentran los algoritmos, que se entrenan para convertirse en los modelos de aprendizaje automático utilizados para impulsar algunas de las innovaciones más impactantes del mundo actual. En este artículo, aprenderás sobre siete de los algoritmos de ML más importantes que debes conocer al comenzar tu propio aprendizaje del aprendizaje automático y explorarás los diferentes estilos de aprendizaje que se usan para convertir algoritmos de ML en modelos de ML.

Principales algoritmos de aprendizaje automático que debes conocer

Los algoritmos de aprendizaje automático son los componentes fundamentales de los modelos de aprendizaje automático. Desde la clasificación hasta la regresión, aquí hay siete algoritmos que debes conocer al comenzar tu carrera de aprendizaje automático:

1. Regresión lineal

La regresión lineal (linear regression) es un algoritmo de aprendizaje supervisado que se utiliza para predecir y pronosticar valores dentro de un rango continuo, como cifras de ventas o precios.

Procedente de la estadística, la regresión lineal desempeña una tarea de regresión (regression task), que asigna una pendiente constante utilizando un valor de entrada (X) con una variable de salida (Y) para predecir un valor numérico o una cantidad. La regresión lineal usa datos etiquetados para hacer predicciones estableciendo una línea de mejor ajuste (line of best fit), o “línea de regresión”, que se aproxima a partir de un diagrama de dispersión de puntos de datos. Como resultado, la regresión lineal se emplea para el modelado predictivo más que para la categorización.

2. Regresión logística

La regresión logística (logistic regression), o “regresión logit”, es un algoritmo de aprendizaje supervisado utilizado para la clasificación binaria, como decidir si una imagen encaja en una clase u otra.

Originaria de la estadística, la regresión logística predice técnicamente la probabilidad de que una entrada pueda clasificarse en una única clase primaria. En la práctica, sin embargo, puede emplearse para agrupar las salidas en una de dos categorías: “clase primaria” (“the primary class”) o “clase secundaria” (“not the primary class”). Esto se consigue creando un rango para la clasificación binaria, de forma que cualquier salida entre 0 y 0,49 se incluya en un grupo y cualquier salida entre 0,50 y 1,00 se incluya en otro.

Como resultado, la regresión logística en el aprendizaje automático se utiliza normalmente para la categorización binaria en lugar de para el modelado predictivo. 

3. Clasificador bayesiano ingenuo

El clasificador bayesiano ingenuo o “Naive Bayes” es un conjunto de algoritmos de aprendizaje supervisado que se utilizan para crear modelos predictivos de categorización binaria o múltiple. Basado en el Teorema de Bayes, Naive Bayes opera con probabilidades condicionales, que son independientes entre sí, pero indican la probabilidad de una clasificación basada en sus factores combinados.

Por ejemplo, un programa ingeniado para identificar plantas podría usar un algoritmo de Bayes ingenuo para clasificar imágenes en función de factores concretos, como el tamaño, el color y la apariencia percibida. Aunque cada uno de estos factores es independiente del otro, el algoritmo anotaría la probabilidad de que un objeto sea una planta concreta utilizando los factores combinados.

4. Árbol de decisión

Un árbol de decisión (decision tree) es un algoritmo de aprendizaje supervisado utilizado para la clasificación y el modelado predictivo.

Semejante a un diagrama de flujo gráfico, un árbol de decisión comienza con un nodo raíz, que formula una pregunta concreta a los datos y luego los envía por una rama en función de la respuesta. Cada una de estas ramas conduce a un nodo interno, que a su vez formula otra pregunta a los datos antes de dirigirlos hacia otra rama en función de la respuesta. Esto continúa hasta que los datos llegan a un nodo final, también llamado nodo hoja, que no se ramifica más.

Los árboles de decisión son habituales en el aprendizaje automático porque pueden manejar conjuntos de datos complejos con relativa sencillez.

5. Algoritmo de bosque aleatorio

Un algoritmo de bosque aleatorio (random forest algorithm) utiliza un conjunto de árboles de decisión para la clasificación y el modelado predictivo. 

En un bosque aleatorio, muchos árboles de decisión (a veces cientos o incluso miles) se entrenan utilizando una muestra aleatoria del conjunto de entrenamiento (un método conocido como bagging). Después, los investigadores introducen los mismos datos en cada árbol de decisión del bosque aleatorio y cuentan sus resultados finales. Luego se selecciona el resultado más común como el más probable para el conjunto de datos.

Aunque pueden llegar a ser complejos y requerir mucho tiempo, los bosques aleatorios corrigen el problema común del “sobreajuste(overfitting) que puede producirse con los árboles de decisión. Se habla de sobreajuste cuando un algoritmo se ajusta demasiado a su conjunto de datos de entrenamiento, lo que puede repercutir negativamente en su precisión cuando se introduce posteriormente en nuevos datos. 

6. Algoritmo K-Nearest neighbor (KNN)

Un algoritmo K-Nearest neighbor es un algoritmo de aprendizaje supervisado que se usa para la clasificación y el modelado predictivo. 

Fieles a su nombre, los algoritmos KNN clasifican una salida por su proximidad a otras salidas en un gráfico. Por ejemplo, si una salida está más cerca de un grupo de puntos azules en un gráfico que de un grupo de puntos rojos, se clasificaría como miembro del grupo azul. Este enfoque significa que los algoritmos KNN pueden utilizarse tanto para clasificar resultados conocidos como para predecir el valor de resultados desconocidos.

7.  Algoritmo K means

K means es un algoritmo no supervisado que se emplea para la clasificación y el modelado predictivo.

Al igual que KNN, K means utiliza la proximidad de un resultado a un conglomerado de puntos de datos para identificarlo. Cada uno de los conglomerados está definido por un centroide, un punto central real o imaginario del conglomerado. K means es útil en grandes conjuntos de datos, especialmente para la agrupación, aunque puede fallar cuando maneja valores atípicos.

Entrenamiento de algoritmos de aprendizaje automático: Cuatro métodos

Todo el mundo aprende de forma diferente, incluidas las máquinas. En esta sección, aprenderás sobre cuatro estilos de aprendizaje diferentes usados para entrenar algoritmos de aprendizaje automático: aprendizaje supervisado, aprendizaje no supervisado, aprendizaje de refuerzo y aprendizaje semisupervisado.

Aprendizaje supervisado

Un algoritmo de aprendizaje supervisado (supervised learning algorithm) utiliza un conjunto de datos etiquetados para entrenar un algoritmo, garantizando de manera efectiva que tiene una clave de respuesta disponible para cruzar las predicciones y refinar su sistema. Como resultado, el aprendizaje supervisado es el más adecuado para algoritmos que se enfrentan a un resultado específico en mente, como la clasificación de imágenes.

Por ejemplo, un algoritmo destinado a identificar distintos tipos de plantas podría entrenarse utilizando imágenes ya etiquetadas con sus nombres (por ejemplo, “rosa”, “calabaza” o “aloe vera”). Mediante el aprendizaje supervisado, el algoritmo sería capaz de identificar las características diferenciadoras de cada clasificación de plantas de forma eficaz y, con el tiempo, hacer lo mismo con un conjunto de datos sin etiquetar.

Al igual que un profesor supervisa a sus alumnos en clase, los datos etiquetados también supervisan las soluciones del algoritmo y las dirigen hacia la respuesta correcta. 

Aprendizaje no supervisado 

Un algoritmo de aprendizaje no supervisado (unsupervised learning algorithm) utiliza un conjunto de datos no etiquetados para entrenar un algoritmo, que debe analizar los datos para identificar características distintivas, estructuras y anomalías. A diferencia del aprendizaje supervisado, los investigadores utilizan el aprendizaje no supervisado cuando no tienen un resultado específico en mente, sino que utilizan el algoritmo para agrupar datos e identificar patrones, asociaciones o anomalías.

Por ejemplo, una empresa puede alimentar un algoritmo de aprendizaje no supervisado con datos de clientes sin etiquetar para segmentar su mercado objetivo. Una vez establecida una segmentación clara de los clientes, la empresa podría usar estos datos para dirigir sus futuros esfuerzos de marketing, como el marketing en redes sociales.

El aprendizaje no supervisado es como si un alumno resolviera por sí mismo un problema sin la supervisión de un profesor.

Aprendizaje por refuerzo

En el aprendizaje por refuerzo (reinforcement learning), una máquina o agente de inteligencia artificial o IA intenta realizar una tarea, recibe información mientras la realiza y luego repite un nuevo enfoque hasta que ha encontrado la solución óptima. Como resultado, el aprendizaje por refuerzo es similar a la forma en que un niño aprende a desenvolverse en un entorno nuevo: primero explora, luego interactúa con él y, con el tiempo, aprende a desenvolverse sin problemas en el espacio.

Debido a los bucles de retroalimentación (feedback loops) necesarios para desarrollar estrategias cada vez mejores, el aprendizaje por refuerzo se utiliza a menudo en entornos de videojuegos en los que las condiciones pueden controlarse y la retroalimentación es fiable. Con el tiempo, la máquina o IA aprende a través de la acumulación de retroalimentación hasta que consigue el camino óptimo hacia su objetivo.

Aprendizaje semisupervisado

El aprendizaje semisupervisado (semi-supervised learning o SSL) entrena algoritmos utilizando una pequeña cantidad de datos etiquetados junto con una mayor cantidad de datos sin etiquetar. El aprendizaje semisupervisado se utiliza a menudo para categorizar grandes cantidades de datos sin etiquetar porque podría ser inviable o demasiado difícil etiquetar todos los datos por sí mismo.

Normalmente, un investigador que utilice SSL entrenará primero un algoritmo con una pequeña cantidad de datos etiquetados antes de entrenarlo con una gran cantidad de datos sin etiquetar. Por ejemplo, un algoritmo SSL que analice el habla podría entrenarse primero con fragmentos de sonido etiquetados antes de entrenarse con sonidos no etiquetados, que probablemente varíen en tono y estilo con respecto a los datos etiquetados.

You are Currently on slide 1

Aprende más sobre el aprendizaje automático

Una carrera en el aprendizaje automático empieza por aprender todo lo que pueda sobre él. Al fin y al cabo, incluso los mejores modelos de aprendizaje automático necesitan cierta formación previa.

Para comenzar tu propia formación, puedes considerar cursar la Especialización en Aprendizaje Automático para principiantes de Andrew Ng para dominar los conceptos fundamentales de la IA y desarrollar habilidades prácticas de aprendizaje automático. Por su parte, la Especialización en Aprendizaje Profundo de DeepLearning.AI enseña a los alumnos a crear y entrenar redes neuronales profundas. Por último, puedes obtener un Certificado profesional de Automatización de TI de Google con Python si deseas continuar expandiendo tus conocimientos de automatización.

Article sources

  1. Fortune Business Insights. “The global machine learning (ML) market is expected to grow from $21.17 billion in 2022 to $209.91 billion by 2029, https://www.fortunebusinessinsights.com/machine-learning-market-102226”. Consultado el 2 de diciembre de 2022.

Keep reading

Updated on
Written by:

Coursera

Writer

Coursera is the global online learning platform that offers anyone, anywhere access to online course...

This content has been made available for informational purposes only. Learners are advised to conduct additional research to ensure that courses and other credentials pursued meet their personal, professional, and financial goals.