Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.
Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage
In diesem Kurs gibt es 6 Module
Fallstudien: Ähnliche Dokumente finden Ein Leser ist an einem bestimmten Nachrichtenartikel interessiert und Sie möchten ähnliche Artikel finden, die Sie empfehlen können. Was ist der richtige Begriff von Ähnlichkeit? Und was ist, wenn es Millionen von anderen Dokumenten gibt? Müssen Sie jedes Mal, wenn Sie ein neues Dokument abrufen wollen, alle anderen Dokumente durchsuchen? Wie können Sie ähnliche Dokumente zusammenfassen? Wie entdecken Sie neue, aufkommende Themen, die in den Dokumenten behandelt werden?
In dieser dritten Fallstudie, der Suche nach ähnlichen Dokumenten, werden Sie auf Ähnlichkeit basierende Algorithmen für den Abruf untersuchen. In diesem Kurs werden Sie auch strukturierte Darstellungen zur Beschreibung der Dokumente im Korpus untersuchen, einschließlich Clustering und gemischte Zugehörigkeitsmodelle, wie die latente Dirichlet-Zuordnung (LDA). Sie werden die Erwartungsmaximierung (EM) implementieren, um die Clusterung der Dokumente zu erlernen, und sehen, wie Sie die Methoden mit MapReduce skalieren können. Lernergebnisse: Am Ende dieses Kurses werden Sie in der Lage sein: - Ein System zur Dokumentensuche mit k-nearest neighbors zu erstellen. - Verschiedene Ähnlichkeitsmetriken für Textdaten zu identifizieren. - Berechnungen bei der Suche nach k-nearest neighbors mit Hilfe von KD-Bäumen zu reduzieren. - Näherungsweise nächste Nachbarn mit Hilfe von lokalsensitivem Hashing zu erzeugen. - Überwachtes und unüberwachtes Lernen zu vergleichen und gegenüberzustellen. - Dokumente mit Hilfe von k-means nach Themen zu clustern. - Zu beschreiben, wie k-means mit MapReduce parallelisiert werden kann.
-Untersuchen Sie probabilistische Clustering-Ansätze unter Verwendung von Mischungsmodellen. -Fitten Sie ein Gauß-Mischungsmodell unter Verwendung von Erwartungsmaximierung (EM). -Modellieren Sie gemischte Zugehörigkeiten unter Verwendung von Latent-Dirichlet-Allokation (LDA). -Beschreiben Sie die Schritte eines Gibbs-Samplers und wie Sie seine Ergebnisse verwenden, um Schlussfolgerungen zu ziehen. -Vergleichen und kontrastieren Sie Initialisierungstechniken für nicht-konvexe Optimierungsziele. -Implementieren Sie diese Techniken in Python.
Clustering und Retrieval gehören zu den wirkungsvollsten Tools für maschinelles Lernen, die es gibt. Die Suche wird in fast allen Anwendungen und Geräten verwendet, mit denen wir interagieren, z. B. bei der Bereitstellung einer Reihe von Produkten, die mit einem Produkt verwandt sind, das ein Kunde gerade in Erwägung zieht, oder einer Liste von Personen, mit denen Sie sich auf einer Social Media-Plattform verbinden möchten. Clustering kann zur Unterstützung des Retrievals verwendet werden, ist aber auch ein nützliches Werkzeug zur automatischen Erkennung von Strukturen in Daten, z.B. zur Aufdeckung von Gruppen ähnlicher Patienten.<p>Diese Einführung in den Kurs gibt Ihnen einen Überblick über die Themen, die wir behandeln werden, sowie über das Hintergrundwissen und die Ressourcen, die wir bei Ihnen voraussetzen.
Das ist alles enthalten
4 Videos5 Lektüren
Infos zu Modulinhalt anzeigen
4 Videos•Insgesamt 25 Minuten
Begrüßung und Einführung in Clustering- und Retrieval-Aufgaben•6 Minuten
Überblick über den Kurs•3 Minuten
Modul für Modul behandelte Themen•9 Minuten
Angenommener Hintergrund•6 Minuten
5 Lektüren•Insgesamt 45 Minuten
Wichtiges Update bezüglich der Machine Learning Specialization•10 Minuten
In diesem Modul präsentierte Folien•10 Minuten
Software-Tools, die Sie für diesen Kurs benötigen•10 Minuten
Eine große Woche liegt vor uns!•10 Minuten
Holen Sie sich Hilfe und treffen Sie andere Lernende. Treten Sie Ihrer Community bei!•5 Minuten
Suche nach nächstgelegenen Nachbarn
Modul 2•5 Stunden abzuschließen
Moduldetails
Zu Beginn des Kurses betrachten wir eine Suchaufgabe, bei der es darum geht, ein Dokument zu finden, das einem Dokument ähnlich ist, das jemand gerade liest. Wir betrachten dieses Problem als eine Suche nach dem nächsten Nachbarn, ein Konzept, das wir bereits in den Kursen Grundlagen und Regression kennengelernt haben. In diesem Kurs werden Sie jedoch zwei entscheidende Komponenten der Algorithmen genauer unter die Lupe nehmen: die Datendarstellung und die Metrik zur Messung der Ähnlichkeit zwischen Datenpunktpaaren. Sie werden den Rechenaufwand des naiven Algorithmus für die Suche nach dem nächsten Nachbarn untersuchen und stattdessen skalierbare Alternativen implementieren, die KD-Bäume für die Verarbeitung großer Datensätze und ortsabhängiges Hashing (LSH) für die Bereitstellung annähernder nächster Nachbarn selbst in hochdimensionalen Räumen verwenden. Sie werden all diese Ideen anhand eines Wikipedia-Datensatzes untersuchen und die Auswirkungen der verschiedenen Optionen auf die Ergebnisse der nächsten Nachbarn vergleichen und gegenüberstellen.
Das ist alles enthalten
22 Videos4 Lektüren5 Aufgaben
Infos zu Modulinhalt anzeigen
22 Videos•Insgesamt 137 Minuten
Abruf als k-nächste-Nachbarn-Suche•3 Minuten
1-NN-Algorithmus•3 Minuten
k-NN-Algorithmus•7 Minuten
Darstellung des Dokuments•6 Minuten
Abstandsmetriken: Euklidisch und skaliert euklidisch•7 Minuten
Schreiben des (skalierten) euklidischen Abstands unter Verwendung (gewichteter) innerer Produkte•4 Minuten
Abstandsmetriken: Kosinus-Ähnlichkeit•9 Minuten
Normalisieren oder nicht und andere Abstandsüberlegungen•7 Minuten
Komplexität der Brute-Force-Suche•2 Minuten
KD-Baum-Darstellung•10 Minuten
NN-Suche mit KD-Bäumen•7 Minuten
Komplexität der NN-Suche mit KD-Bäumen•6 Minuten
Visualisierung des Skalierungsverhaltens von KD-Bäumen•4 Minuten
Näherungsweise k-NN-Suche mit KD-Bäumen•8 Minuten
Beschränkungen von KD-Bäumen•4 Minuten
LSH als Alternative zu KD-Bäumen•4 Minuten
Zufällige Linien zum Aufteilen von Punkten verwenden•6 Minuten
Weitere Ablagen definieren•3 Minuten
Suche in benachbarten Behältern•9 Minuten
LSH in höheren Dimensionen•4 Minuten
(OPTIONAL) Verbesserung der Effizienz durch mehrere Tabellen•23 Minuten
Eine kurze Zusammenfassung•2 Minuten
4 Lektüren•Insgesamt 40 Minuten
In diesem Modul präsentierte Folien•10 Minuten
Auswahl von Merkmalen und Metriken für die Suche nach dem nächsten Nachbarn•10 Minuten
(OPTIONAL) Ein ausgearbeitetes Beispiel für KD-Bäume•10 Minuten
Implementierung von Locality Sensitive Hashing von Grund auf•10 Minuten
5 Aufgaben•Insgesamt 150 Minuten
Darstellungen und Metriken•30 Minuten
Auswahl von Merkmalen und Metriken für die Suche nach dem nächsten Nachbarn•30 Minuten
KD-Bäume•30 Minuten
Lokalitätssensitives Hashing•30 Minuten
Implementierung von Locality Sensitive Hashing von Grund auf•30 Minuten
Clustering mit k-means
Modul 3•3 Stunden abzuschließen
Moduldetails
Beim Clustering besteht unser Ziel darin, die Datenpunkte in unserem Datensatz in disjunkte Gruppen einzuteilen. Motiviert durch unsere Fallstudie zur Dokumentenanalyse werden Sie Clustering verwenden, um thematische Gruppen von Artikeln nach "Themen" zu entdecken. Diese Themen werden in dieser unüberwachten Lernaufgabe nicht vorgegeben. Die Idee ist vielmehr, solche Cluster-Labels auszugeben, die postfaktisch mit bekannten Themen wie "Wissenschaft", "Weltnachrichten" usw. assoziiert werden können. Auch ohne solche Post-Facto-Labels werden Sie untersuchen, wie die Clustering-Ausgabe Einblicke in die Beziehungen zwischen den Datenpunkten im Datensatz geben kann. Der erste Clustering-Algorithmus, den Sie implementieren werden, ist k-means, der am weitesten verbreitete Clustering-Algorithmus, den es gibt. Um k-means zu skalieren, lernen Sie das allgemeine MapReduce-Framework für die Parallelisierung und Verteilung von Berechnungen kennen und erfahren dann, wie die Iterate von k-means dieses Framework nutzen können. Sie werden zeigen, dass k-means eine interpretierbare Gruppierung von Wikipedia-Artikeln liefern kann, wenn es richtig eingestellt ist.
Das ist alles enthalten
13 Videos2 Lektüren3 Aufgaben
Infos zu Modulinhalt anzeigen
13 Videos•Insgesamt 79 Minuten
Das Ziel des Clustering•3 Minuten
Eine nicht überwachte Aufgabe•7 Minuten
Hoffnung auf unüberwachtes Lernen und einige Problemfälle•4 Minuten
Der k-means Algorithmus•8 Minuten
k-means als Koordinatenabstieg•6 Minuten
Intelligente Initialisierung über k-means++•5 Minuten
Bewertung der Qualität und Auswahl der Anzahl von Clustern•9 Minuten
Motivation für MapReduce•9 Minuten
Die allgemeine MapReduce-Abstraktion•5 Minuten
Übersicht über die MapReduce-Ausführung und Kombinierer•6 Minuten
MapReduce für k-means•7 Minuten
Andere Anwendungen von Clustering•7 Minuten
Eine kurze Zusammenfassung•1 Minute
2 Lektüren•Insgesamt 20 Minuten
In diesem Modul präsentierte Folien•10 Minuten
Clustering von Textdaten mit k-means•10 Minuten
3 Aufgaben•Insgesamt 76 Minuten
k-means•30 Minuten
Clustering von Textdaten mit K-means•16 Minuten
MapReduce für k-means•30 Minuten
Gemischte Modelle
Modul 4•4 Stunden abzuschließen
Moduldetails
Bei k-means werden die Beobachtungen jeweils einem einzigen Cluster fest zugeordnet, und diese Zuordnungen basieren nur auf den Clusterzentren, anstatt auch die Forminformationen zu berücksichtigen. In unserem zweiten Modul zum Thema Clustering werden Sie probabilistisches, modellbasiertes Clustering durchführen, das (1) einen anschaulicheren Begriff von "Cluster" bietet und (2) die Unsicherheit bei der Zuordnung von Datenpunkten zu Clustern durch "weiche Zuordnungen" berücksichtigt. Sie werden einen weithin nützlichen Algorithmus namens Erwartungsmaximierung (EM) erforschen und implementieren, um diese weichen Zuordnungen sowie die Modellparameter abzuleiten. Um ein Gefühl dafür zu bekommen, werden Sie zunächst eine visuell ansprechende Aufgabe zum Clustering von Bildern betrachten. Anschließend werden Sie Wikipedia-Artikel clustern, wobei Sie die hohe Dimensionalität der tf-idf-Dokumentendarstellung berücksichtigen werden.
Das Clustering-Modell geht von der Annahme aus, dass die Daten in disjunkte Gruppen unterteilt sind, z.B. Dokumente nach Thema. Oft werden unsere Datenobjekte jedoch besser durch die Zugehörigkeit zu einer Sammlung von Mengen, z.B. mehreren Themen, beschrieben. In unserem vierten Modul werden Sie die latente Dirichlet-Zuordnung (LDA) als Beispiel für ein solches gemischtes Zugehörigkeitsmodell kennenlernen, das besonders bei der Dokumentenanalyse nützlich ist. Sie werden die Ergebnisse der LDA interpretieren und verschiedene Möglichkeiten kennenlernen, wie diese Ergebnisse genutzt werden können, z.B. als eine Reihe von gelernten Dokumentenmerkmalen. Die Ideen zur Modellierung gemischter Zugehörigkeit, die Sie durch LDA für die Dokumentenanalyse kennenlernen, lassen sich auf viele andere interessante Modelle und Anwendungen übertragen, wie z.B. Modelle sozialer Netzwerke, in denen Personen mehrere Zugehörigkeiten haben.<p>In diesem Modul werden Aspekte der Bayes'schen Modellierung und ein Bayes'scher Inferenzalgorithmus namens Gibbs Sampling vorgestellt. Am Ende des Moduls werden Sie in der Lage sein, einen Gibbs-Sampler für LDA zu implementieren.
Das ist alles enthalten
12 Videos2 Lektüren3 Aufgaben
Infos zu Modulinhalt anzeigen
12 Videos•Insgesamt 58 Minuten
Gemischte Mitgliedschaftsmodelle für Dokumente•4 Minuten
Ein alternatives Modell zum Clustering von Dokumenten•5 Minuten
Komponenten des latenten Dirichlet-Zuordnungsmodells•3 Minuten
Ziel der LDA-Inferenz•5 Minuten
Die Notwendigkeit der Bayes'schen Inferenz•5 Minuten
Gibbs-Probenahme aus 10.000 Fuߕ5 Minuten
Ein Standard-Gibbs-Sampler für LDA•10 Minuten
Was ist ein Collapsed Gibbs Sampling?•3 Minuten
Ein praktisches Beispiel für LDA: Anfängliche Einrichtung•4 Minuten
Ein praktisches Beispiel für LDA: Ableitung der Resampling-Verteilung•8 Minuten
Verwendung der Ausgabe des kollabierten Gibbs Sampling•4 Minuten
Eine kurze Zusammenfassung•2 Minuten
2 Lektüren•Insgesamt 20 Minuten
In diesem Modul präsentierte Folien•10 Minuten
Modellierung von Textthemen mit Latent Dirichlet Allocation•10 Minuten
3 Aufgaben•Insgesamt 84 Minuten
Latente Dirichlet-Allokation•30 Minuten
LDA-Modell über Gibbs-Sampling lernen•30 Minuten
Modellierung von Textthemen mit Latent Dirichlet Allocation•24 Minuten
Hierarchisches Clustering & Schlussbemerkungen
Modul 6•1 Stunde abzuschließen
Moduldetails
Am Ende des Kurses fassen wir zusammen, was wir behandelt haben. Dabei handelt es sich sowohl um Techniken, die speziell für Clustering und Retrieval geeignet sind, als auch um grundlegende Konzepte des maschinellen Lernens, die im weiteren Sinne nützlich sind.<p>Wir geben einen kurzen Einblick in einen alternativen Clustering-Ansatz, das hierarchische Clustering, mit dem Sie anhand des Wikipedia-Datensatzes experimentieren werden. Im Anschluss an diese Erkundung erörtern wir, wie Clustering-ähnliche Ideen in anderen Bereichen wie der Segmentierung von Zeitreihen angewendet werden können. Anschließend gehen wir kurz auf einige wichtige Clustering- und Retrieval-Ideen ein, die wir in diesem Kurs nicht behandelt haben.<p> Zum Abschluss geben wir Ihnen einen Überblick darüber, was Sie im weiteren Verlauf der Spezialisierung erwartet.
Das ist alles enthalten
12 Videos2 Lektüren1 Aufgabe
Infos zu Modulinhalt anzeigen
12 Videos•Insgesamt 62 Minuten
Modul 1 Rekapitulation•10 Minuten
Modul 2 Rekapitulation•3 Minuten
Modul 3 Rekapitulation•6 Minuten
Modul 4 Rekapitulation•7 Minuten
Warum hierarchisches Clustering?•2 Minuten
Trennendes Clustering•4 Minuten
Agglomeratives Clustering•3 Minuten
Das Dendrogramm•5 Minuten
Details zum agglomerativen Clustering•7 Minuten
Versteckte Markov-Modelle•9 Minuten
Was wir nicht abgedeckt haben•3 Minuten
Vielen Dank!•2 Minuten
2 Lektüren•Insgesamt 20 Minuten
In diesem Modul präsentierte Folien•10 Minuten
Modellierung von Textdaten mit einer Hierarchie von Clustern•10 Minuten
1 Aufgabe•Insgesamt 6 Minuten
Modellierung von Textdaten mit einer Hierarchie von Clustern•6 Minuten
Erwerben Sie ein Karrierezertifikat.
Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.
Dozenten
Lehrkraftbewertungen
Lehrkraftbewertungen
Wir haben alle Lernenden um Feedback zu unseren Dozenten gebeten, ausgehend von der Qualität ihres Unterrichtsstils.
Seit unserer Gründung im Jahr 1861 ist die University of Washington ein Hub für Lernen, Innovation, Problemlösung und Gemeinschaftsbildung. Angetrieben von der Mission, dem Allgemeinwohl zu dienen, gehen unsere Studenten, Dozenten und Mitarbeiter die drängendsten Herausforderungen der heutigen Zeit mit Mut und Kreativität an und bewirken etwas im gesamten Bundesstaat Washington - und in der ganzen Welt.
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Felipe M.
Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“
Jennifer J.
Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“
Larry W.
Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“
Chaitanya A.
„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“
Bewertungen von Lernenden
4.7
2.369 Bewertungen
5 stars
74,37 %
4 stars
19,12 %
3 stars
4,68 %
2 stars
0,75 %
1 star
1,05 %
Zeigt 3 von 2369 an
C
CS
5·
Geprüft am 11. Feb. 2020
Excellent Course. This course provides in depth understanding of what's going in the background when an algorithm runs and how we can tune it for our purpose.
D
DS
5·
Geprüft am 3. Aug. 2020
A challenging course!!! It's necessary to fix some compatibility problems with Tury and Windows, because Python 2.7 it's obsolete. I really enjoy it!!!
B
BK
5·
Geprüft am 24. Aug. 2016
excellent material! It would be nice, however, to mention some reading material, books or articles, for those interested in the details and the theories behind the concepts presented in the course.
Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?
Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Was bekomme ich, wenn ich mich für diese Specialization einschreibe?
Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Spezialisierung, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder Ihrem LinkedIn-Profil hinzufügen.
Ist finanzielle Hilfe verfügbar?
Ja. Für ausgewählte Lernprogramme können Sie finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Einschreibegebühr nicht aufbringen können. Wenn für das von Ihnen gewählte Lernprogramm eine finanzielle Unterstützung oder ein Stipendium verfügbar ist, finden Sie auf der Beschreibungsseite einen Link zur Beantragung.