Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable
Il y a 6 modules dans ce cours
Études de cas : Recherche de documents similaires Un lecteur s'intéresse à un article de presse spécifique et vous souhaitez trouver des articles similaires à lui recommander. Quelle est la bonne notion de similarité ? En outre, que se passe-t-il s'il existe des millions d'autres documents ? Chaque fois que vous souhaitez récupérer un nouveau document, devez-vous effectuer une recherche dans tous les autres documents ? Comment regrouper les documents similaires ? Comment découvrir de nouveaux sujets émergents couverts par les documents ?
Dans cette troisième étude de cas, la recherche de documents similaires, vous examinerez les algorithmes de recherche basés sur la similarité. Dans ce cours, vous examinerez également les représentations structurées pour décrire les documents du corpus, y compris les modèles de regroupement et d'appartenance mixte, tels que l'allocation de Dirichlet latente (LDA). Vous mettrez en œuvre la maximisation de l'espérance (EM) pour apprendre les regroupements de documents, et verrez comment mettre à l'échelle les méthodes en utilisant MapReduce. Objectifs pédagogiques : A la fin de ce cours, vous serez capable de : -Créer un système de recherche de documents en utilisant les k-voisins les plus proches -Identifier les différentes métriques de similarité pour les données textuelles -Réduire les calculs dans la recherche des k-voisins les plus proches en utilisant les KD-trees -Produire les plus proches voisins approximatifs en utilisant le hachage sensible à la localité -Comparer et contraster les tâches d'apprentissage supervisé et non supervisé -Cluster les documents par sujet en utilisant les k-moyens -Décrire comment paralléliser les k-moyens en utilisant MapReduce -Examiner les approches probabilistes de la recherche de documents en utilisant les KD-trees -Décrire comment paralléliser les k-moyens en utilisant MapReduce.
-Examiner les approches de clustering probabiliste utilisant des modèles de mélanges -Affecter un mélange de modèles gaussiens en utilisant la maximisation de l'espérance (EM) -Exécuter une modélisation d'appartenance mixte en utilisant l'allocation latente de Dirichlet (LDA) -Décrire les étapes d'un échantillonneur de Gibbs et comment utiliser sa sortie pour tirer des inférences -Comparer et contraster les techniques d'initialisation pour les objectifs d'optimisation non-convexes -Implémenter ces techniques en Python.
Le clustering et la récupération sont parmi les outils d'apprentissage automatique qui ont le plus d'impact. L'extraction est utilisée dans presque toutes les applications et tous les appareils avec lesquels nous interagissons, par exemple pour fournir un ensemble de produits liés à celui qu'un acheteur est en train d'envisager, ou une liste de personnes avec lesquelles vous pourriez vouloir vous connecter sur une plateforme de médias sociaux. Le clustering peut être utilisé pour faciliter la recherche, mais il s'agit d'un outil plus largement utile pour découvrir automatiquement des structures dans les données, comme la découverte de groupes de patients similaires.<p>Cette introduction au cours vous donne un aperçu des sujets que nous allons couvrir et des connaissances de base et des ressources que nous supposons que vous avez.
Inclus
4 vidéos5 lectures
Afficher les informations sur le contenu du module
4 vidéos•Total 25 minutes
Bienvenue et introduction aux tâches de regroupement et d'extraction•6 minutes
Aperçu du cours•3 minutes
Thèmes abordés module par module•9 minutes
Antécédents supposés•6 minutes
5 lectures•Total 45 minutes
Mise à jour importante concernant la spécialisation en apprentissage automatique•10 minutes
Diapositives présentées dans ce module•10 minutes
Outils logiciels dont vous aurez besoin pour ce cours•10 minutes
Une grande semaine en perspective !•10 minutes
Obtenez de l'aide et rencontrez d'autres apprenants. Rejoignez votre communauté !•5 minutes
Recherche du plus proche voisin
Module 2•5 heures à terminer
Détails du module
Nous commençons le cours en considérant une tâche de recherche qui consiste à trouver un document similaire à celui qu'une personne est en train de lire. Nous présentons ce problème comme une recherche du plus proche voisin, un concept que nous avons vu dans les cours sur les fondements et la régression. Cependant, ici, vous ferez une plongée en profondeur dans deux composants critiques des algorithmes : la représentation des données et la métrique pour mesurer la similarité entre les paires de points de données. Vous examinerez la charge de calcul de l'algorithme naïf de recherche du plus proche voisin, et mettrez en œuvre des alternatives évolutives utilisant les arbres KD pour traiter de grands ensembles de données et le hachage sensible à la localité (LSH) pour fournir des plus proches voisins approximatifs, même dans des espaces de haute dimension. Vous explorerez toutes ces idées sur un ensemble de données de Wikipedia, en comparant et en opposant l'impact des différents choix que vous pouvez faire sur les résultats de recherche du plus proche voisin produits.
Inclus
22 vidéos4 lectures5 devoirs
Afficher les informations sur le contenu du module
22 vidéos•Total 137 minutes
Récupération sous forme de recherche par le plus proche voisin (k-nearest neighbor)•3 minutes
algorithme 1-NN•3 minutes
algorithme k-NN•7 minutes
Représentation des documents•6 minutes
Mesures de distance : Euclidienne et Euclidienne échelonnée•7 minutes
Écriture de la distance euclidienne (échelonnée) à l'aide de produits intérieurs (pondérés)•4 minutes
Mesures de distance : Similitude de cosinus•9 minutes
Normaliser ou non et autres considérations de distance•7 minutes
Complexité de la recherche par force brute•2 minutes
Représentation de l'arbre KD•10 minutes
Recherche NN avec KD-trees•7 minutes
Complexité de la recherche de NN avec des arbres KD•6 minutes
Visualisation du comportement de mise à l'échelle des arbres KD•4 minutes
Recherche approximative k-NN à l'aide d'arbres KD•8 minutes
Limites des arbres KD•4 minutes
LSH comme alternative aux arbres KD•4 minutes
Utilisation de lignes aléatoires pour partitionner des points•6 minutes
Définir d'autres emplacements•3 minutes
Recherche d'emplacements voisins•9 minutes
LSH dans des dimensions supérieures•4 minutes
(FACULTATIF) Amélioration de l'efficacité grâce à des tableaux multiples•23 minutes
Un bref récapitulatif•2 minutes
4 lectures•Total 40 minutes
Diapositives présentées dans ce module•10 minutes
Choix des caractéristiques et des mesures pour la recherche du plus proche voisin•10 minutes
(FACULTATIF) Un exemple travaillé pour les arbres KD•10 minutes
Mise en œuvre d'un hachage sensible à la localité à partir de zéro•10 minutes
5 devoirs•Total 150 minutes
Représentations et mesures•30 minutes
Choix des caractéristiques et des mesures pour la recherche du plus proche voisin•30 minutes
Arbres KD•30 minutes
Hachage sensible à la localité•30 minutes
Mise en œuvre d'un hachage sensible à la localité à partir de zéro•30 minutes
Regroupement avec k-means
Module 3•3 heures à terminer
Détails du module
Dans le cas du clustering, notre objectif est de regrouper les points de données de notre ensemble de données en ensembles disjoints. Motivé par notre étude de cas d'analyse de documents, vous utiliserez le clustering pour découvrir des groupes thématiques d'articles par "sujet". Ces sujets ne sont pas fournis dans cette tâche d'apprentissage non supervisé ; l'idée est plutôt de produire des étiquettes de cluster qui peuvent être associées a posteriori à des sujets connus tels que "Science", "Nouvelles du monde", etc. Même sans ces étiquettes post-facto, vous examinerez comment les résultats du regroupement peuvent fournir des informations sur les relations entre les points de données dans l'ensemble de données. Le premier algorithme de regroupement que vous mettrez en œuvre est le k-means, qui est l'algorithme de regroupement le plus largement utilisé. Pour faire évoluer k-means, vous découvrirez le cadre général MapReduce pour la parallélisation et la distribution des calculs, puis comment les itérés de k-means peuvent utiliser ce cadre. Vous montrerez que les k-means peuvent fournir un regroupement interprétable des articles de Wikipédia lorsqu'ils sont correctement réglés.
Inclus
13 vidéos2 lectures3 devoirs
Afficher les informations sur le contenu du module
13 vidéos•Total 79 minutes
L'objectif du regroupement•3 minutes
Une tâche non supervisée•7 minutes
L'espoir de l'apprentissage non supervisé et quelques défis à relever•4 minutes
L'algorithme k-means•8 minutes
k-means comme descente de coordonnées•6 minutes
Initialisation intelligente via k-means++•5 minutes
Évaluer la qualité et choisir le nombre de grappes•9 minutes
Motiver MapReduce•9 minutes
L'abstraction générale MapReduce•5 minutes
Aperçu de l'exécution MapReduce et combinateurs•6 minutes
MapReduce pour les k-moyennes•7 minutes
Autres applications du regroupement•7 minutes
Un bref récapitulatif•1 minute
2 lectures•Total 20 minutes
Diapositives présentées dans ce module•10 minutes
Regroupement de données textuelles avec les k-moyennes•10 minutes
3 devoirs•Total 76 minutes
k-means•30 minutes
Regroupement de données textuelles avec K-means•16 minutes
MapReduce pour les k-moyennes•30 minutes
Modèles de mélange
Module 4•4 heures à terminer
Détails du module
Dans le cas des k-moyennes, chaque observation est assignée à une seule grappe et ces assignations sont basées uniquement sur les centres des grappes, au lieu d'incorporer également des informations sur la forme. Dans notre deuxième module sur le clustering, vous effectuerez un clustering basé sur un modèle probabiliste qui fournit (1) une notion plus descriptive d'un "cluster" et (2) prend en compte l'incertitude dans les affectations des points de données aux clusters via des "affectations douces". Vous explorerez et mettrez en œuvre un algorithme largement utile appelé maximisation de l'espérance (EM) pour déduire ces affectations souples, ainsi que les paramètres du modèle. Pour acquérir de l'intuition, vous commencerez par étudier une tâche de regroupement d'images visuellement attrayante. Vous allez ensuite regrouper des articles de Wikipédia, en gérant la haute dimensionnalité de la représentation de document tf-idf considérée.
Inclus
15 vidéos4 lectures3 devoirs
Afficher les informations sur le contenu du module
15 vidéos•Total 91 minutes
Motivation des modèles de regroupement probabiliste•8 minutes
Agrégation de classes inconnues dans un ensemble de données d'images•7 minutes
Distributions gaussiennes univariées•3 minutes
Gauss bivariés et multivariés•7 minutes
Mélange de gaussiens•7 minutes
Interprétation du mélange de termes gaussiens•6 minutes
Mise à l'échelle des mélanges de gaussiennes pour le regroupement de documents•5 minutes
Calcul des affectations douces à partir des paramètres connus des grappes•7 minutes
(FACULTATIF) Responsabilités en tant que règle de Bayes•5 minutes
Estimation des paramètres des grappes à partir des affectations connues des grappes•7 minutes
Estimation des paramètres des grappes à partir d'affectations douces•8 minutes
EM itère en équations et en images•7 minutes
Convergence, initialisation et surajustement de la méthode EM•9 minutes
Relation avec les k-moyennes•3 minutes
Un bref récapitulatif•2 minutes
4 lectures•Total 40 minutes
Diapositives présentées dans ce module•10 minutes
(FACULTATIF) Un exemple concret pour l'EM•10 minutes
Mise en œuvre de la méthode EM pour les mélanges gaussiens•10 minutes
Regroupement de données textuelles à l'aide de mélanges gaussiens•10 minutes
3 devoirs•Total 90 minutes
EM pour les mélanges gaussiens•30 minutes
Mise en œuvre de la méthode EM pour les mélanges gaussiens•30 minutes
Regroupement de données textuelles à l'aide de mélanges gaussiens•30 minutes
Modélisation des membres mixtes via l'allocation de Dirichlet latent
Module 5•3 heures à terminer
Détails du module
Le modèle de regroupement suppose intrinsèquement que les données se divisent en ensembles disjoints, par exemple les documents par sujet. Or, nos objets de données sont souvent mieux décrits par leur appartenance à une collection d'ensembles, par exemple des sujets multiples. Dans notre quatrième module, vous explorerez l'allocation de Dirichlet latente (LDA) comme un exemple de modèle d'appartenance mixte particulièrement utile dans l'analyse de documents. Vous interpréterez les résultats de LDA et les différentes façons dont ils peuvent être utilisés, par exemple comme un ensemble de caractéristiques documentaires apprises. Les idées de modélisation d'appartenance mixte que vous apprenez à travers LDA pour l'analyse de documents s'étendent à de nombreux autres modèles et applications intéressants, comme les modèles de réseaux sociaux où les gens ont des affiliations multiples.<p>Tout au long de ce module, nous introduisons des aspects de la modélisation bayésienne et un algorithme d'inférence bayésienne appelé échantillonnage de Gibbs. À la fin du module, vous serez en mesure d'implémenter un échantillonneur de Gibbs pour LDA.
Inclus
12 vidéos2 lectures3 devoirs
Afficher les informations sur le contenu du module
12 vidéos•Total 58 minutes
Modèles d'appartenance mixtes pour les documents•4 minutes
Un modèle alternatif de regroupement de documents•5 minutes
Composantes du modèle d'allocation Dirichlet latent•3 minutes
Objectif de l'inférence LDA•5 minutes
La nécessité de l'inférence bayésienne•5 minutes
Échantillonnage de Gibbs à 10 000 pieds•5 minutes
Un échantillonneur Gibbs standard pour LDA•10 minutes
Qu'est-ce que l'échantillonnage de Gibbs effondré ?•3 minutes
Un exemple de travail pour LDA : Configuration initiale•4 minutes
Un exemple de travail pour LDA : Dérivation de la distribution de rééchantillonnage•8 minutes
Utilisation du résultat de l'échantillonnage de Gibbs effondré•4 minutes
Un bref récapitulatif•2 minutes
2 lectures•Total 20 minutes
Diapositives présentées dans ce module•10 minutes
Modélisation des sujets de texte avec l'allocation de dirichlet latent•10 minutes
3 devoirs•Total 84 minutes
Allocation de Dirichlet Latent•30 minutes
Apprentissage du modèle LDA par échantillonnage de Gibbs•30 minutes
Modélisation des sujets de texte avec l'allocation de dirichlet latent•24 minutes
Regroupement hiérarchique et remarques finales
Module 6•1 heure à terminer
Détails du module
Dans la conclusion du cours, nous récapitulerons ce que nous avons couvert. Il s'agit à la fois de techniques spécifiques au clustering et à la recherche, et de concepts fondamentaux de l'apprentissage automatique qui sont plus largement utiles.</p> <p>Nous proposons une visite rapide d'une approche alternative du clustering appelée clustering hiérarchique, que vous expérimenterez sur l'ensemble de données de Wikipédia. Après cette exploration, nous verrons comment les idées de type clustering peuvent être appliquées à d'autres domaines tels que la segmentation de séries temporelles. Nous décrivons ensuite brièvement quelques idées importantes de clustering et de récupération que nous n'avons pas abordées dans ce cours.<p>Nous concluons par un aperçu de ce qui vous attend dans le reste de la spécialisation.
Inclus
12 vidéos2 lectures1 devoir
Afficher les informations sur le contenu du module
12 vidéos•Total 62 minutes
Récapitulation du module 1•10 minutes
Récapitulation du module 2•3 minutes
Récapitulation du module 3•6 minutes
Récapitulation du module 4•7 minutes
Pourquoi le regroupement hiérarchique ?•2 minutes
Regroupement divisé•4 minutes
Regroupement agglomératif•3 minutes
Le dendrogramme•5 minutes
Détails du regroupement agglomératif•7 minutes
Modèles de Markov cachés•9 minutes
Ce que nous n'avons pas couvert•3 minutes
Merci de votre attention !•2 minutes
2 lectures•Total 20 minutes
Diapositives présentées dans ce module•10 minutes
Modélisation des données textuelles à l'aide d'une hiérarchie de grappes•10 minutes
1 devoir•Total 6 minutes
Modélisation des données textuelles à l'aide d'une hiérarchie de grappes•6 minutes
Obtenez un certificat professionnel
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
Instructeurs
Évaluations de l’enseignant
Évaluations de l’enseignant
Nous avons demandé à tous les étudiants de fournir des commentaires sur nos enseignants au sujet de la qualité de leur pédagogie.
Depuis sa fondation en 1861, l'University of Washington est un centre d'apprentissage, d'innovation, de résolution de problèmes et de renforcement de la communauté. Animés par la mission de servir le bien commun, nos étudiants, nos professeurs et notre personnel s'attaquent aux défis les plus pressants d'aujourd'hui avec courage et créativité, faisant la différence dans tout l'État de Washington - et dans le monde entier.
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Avis des étudiants
4.7
2 369 avis
5 stars
74,37 %
4 stars
19,12 %
3 stars
4,68 %
2 stars
0,75 %
1 star
1,05 %
Affichage de 3 sur 2369
D
DS
5·
Révisé le 3 août 2020
A challenging course!!! It's necessary to fix some compatibility problems with Tury and Windows, because Python 2.7 it's obsolete. I really enjoy it!!!
S
SO
5·
Révisé le 29 janv. 2020
A great course, well organized and delivered with detailed info and examples. The quiz and the programming assignments are good and help in applying the course attended.
D
DP
5·
Révisé le 24 janv. 2017
The material is complex and challenging, but the teaching procedure is carefully thought out in a way that you quickly get it, giving you a great sense of accomplishment.
Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Qu'est-ce que je recevrai si je souscris à cette Specializations ?
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.
Une aide financière est-elle disponible ?
Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.