Ausreißer sind Datenpunkte, die ungewöhnlich weit von den übrigen Werten eines bestimmten Datensatzes entfernt liegen. Statistiker oder Datenanalysten verwenden verschiedene Methoden, um zu bestimmen, ob ein bestimmter Wert ein Ausreißer ist.
Read in English (Auf Englisch lessen)
Da sich der Bereich der Datenwissenschaft immer weiter ausbreitet, ist das Verständnis des Konzepts der Ausreißer für eine genaue Datenanalyse und -interpretation entscheidend. In diesem Artikel erfahren Sie, was Ausreißer sind, welche Rolle sie in der Datenanalyse spielen, welche Methoden Sie verwenden können, um Ausreißer zu definieren, und wie Sie mit Ausreißern umgehen, sobald Sie solche identifiziert haben.
Ein Ausreißer ist ein Datenpunkt, der außerhalb der Mehrheit der Daten in einem bestimmten Datensatz liegt. Dieser Wert kann viel höher oder niedriger sein als andere Punkte und kann die Ergebnisse der Datenanalyse auf eine Weise beeinflussen, die die Datenstichprobe falsch darstellt. Wenn Datenanalysten lernen, Ausreißer zu erkennen und zu behandeln, können sie die Wahrscheinlichkeit erhöhen, dass ihre Analyse die Gültigkeit und Zuverlässigkeit ihrer Ergebnisse korrekt wiedergibt.
Ausreißer spielen in der Datenanalyse eine wichtige Rolle, die je nach Ursprung und Auswirkung der Analyse variiert. In einigen Bereichen können Ausreißer beispielsweise Aufschluss über seltene Vorkommnisse geben, die auf die Notwendigkeit weiterer Analysen hinweisen. In der Gesundheitsbranche kann ein Ausreißer-Datenpunkt eine Person mit einer ungewöhnlichen Reihe von Symptomen oder einem ungewöhnlichen Genesungsmuster darstellen. Dies könnte darauf hindeuten, dass Sie weitere Studien an Patienten mit ähnlichen Merkmalen durchführen sollten, um zu sehen, ob sie ähnliche Ergebnisse erzielen würden.
In anderen Fällen können Ausreißer Fehlerquellen darstellen. Fehler bei der Messung, Tippfehler oder andere Einflüsse können dazu führen, dass der Datensatz verfälscht wird und nicht die tatsächlichen Daten repräsentiert. Das Vorhandensein von Ausreißern in Datensätzen kann auch auf eine schlechte Datenqualität hindeuten, wie z. B. eine verzerrte Datenerfassung oder ein unvollständiges Datenerfassungsverfahren. Wenn bei der Datenerhebung systematische Fehler aufgetreten sind, müssen Sie eine fundierte Entscheidung darüber treffen, wie Sie am besten vorgehen.
Sie können Ausreißer in Daten mit verschiedenen Methoden aufspüren. Je nach Ihrer Aufgabe und dem Zweck der Ausreißererkennung können Sie sich für mehrere verschiedene Methoden entscheiden. Einige der Methoden, die Sie wählen können, sind:
Wenn Sie Ihre Daten in aufsteigender oder absteigender Reihenfolge sortieren, kann es sein, dass bestimmte Datenpunkte viel höher oder niedriger sind als andere. Zum Beispiel, wenn Sie den folgenden Datensatz haben:
1, 1, 3, 4, 5, 5, 102
Sie würden wahrscheinlich feststellen, dass 102 ein Ausreißer ist. Sie würden sich dann genauer ansehen, was die Datenpunkte darstellen, um die Quelle des Ausreißers zu ermitteln.
Eine weitere Möglichkeit, um festzustellen, ob es Ausreißer in Ihrem Datensatz gibt, ist die Visualisierung von Daten. Dazu können Sie Ihren Datensatz grafisch darstellen. Sie können jede Art der grafischen Darstellung wählen, die Ihnen zusagt, jedoch sind Streudiagramme und Histogramme zwei gängige Möglichkeiten, um Ausreißer zu identifizieren.
Histogramme zeigen Daten in sogenannten Bins an, die Segmente der Daten darstellen. Jedes Feld zeigt an, wie viele Datenpunkte einen bestimmten Wert haben oder in einen bestimmten Wertebereich fallen. So können Sie feststellen, ob ein Datenpunkt weit außerhalb des Bereichs liegt. Wenn Sie z. B. hohe Werte zwischen 10 und 30 und dann einen kurzen Bereich bei einem Wert von 200 haben, können Sie sich den Wert 200 genauer ansehen.
Bei Streudiagrammen werden die Werte in einem Standarddiagramm mit einer X- und Y-Achse dargestellt. Dies zeigt Ausreißer auf, indem es die Gruppierung der meisten Punkte in einem Cluster darstellt. Weicht ein Punkt stark vom Rest des Clusters ab, ist dies ein Hinweis auf einen Ausreißer.
Die Bewertung des Interquartilbereichs (IQR) eines Datensatzes ist eine weitere Möglichkeit, Ausreißer zu erkennen. Sie berechnen den IQR, indem Sie den Wert des ersten Quartils (Q1) vom Wert des dritten Quartils (Q3) subtrahieren. Sie können dies mithilfe von Boxplots visualisieren, die Sie zeichnen, indem Sie einen Kasten entlang einer Y-Achse erstellen. Der untere Rand der Box ist der Wert des ersten Quartils, der obere Rand der Box ist der Wert des dritten Quartils der Daten.
Im Datensatz liegen 25 Prozent der Werte unterhalb des ersten Quartils (Q1) und 75 Prozent unterhalb des dritten Quartils (Q3). Ausreißer werden oft als Werte bezeichnet, die entweder unter Q1 - 1,5 (IQR) oder über Q3 + 1,5 (IQR) liegen.
Für Daten, die einer Normalverteilung folgen, kann der Z-Score eine Möglichkeit sein, um herauszufinden, wie weit ein Datenpunkt vom Mittelwert des Datensatzes entfernt ist. Eine Normalverteilung bedeutet, dass die Daten einer glockenförmigen Kurve folgen. Der Z-Wert gibt an, wie viele Standardabweichungen (ein Maß für die Varianz) ein Punkt vom Mittelwert entfernt ist. Üblicherweise deutet ein Wert über drei auf das Vorhandensein eines Ausreißers hin. Bevor Sie sich für diese Methode zur Ausreißererkennung entscheiden, sollten Sie unbedingt prüfen, ob Ihre Daten einer Normalverteilung folgen. Wenn Ihre Daten einer Normalverteilung folgen, liegen 68 Prozent der Datenpunkte innerhalb einer Standardabweichung vom Mittelwert und 95 Prozent zwischen zwei Standardabweichungen vom Mittelwert.
Nachdem Sie Ausreißer in Ihrem Datensatz identifiziert haben, ist der nächste Schritt, zu entscheiden, wie Sie am effektivsten mit diesen Ausreißern umgehen. Hierzu stehen Ihnen mehrere Möglichkeiten zur Verfügung:
Ausreißer entfernen oder korrigieren: Wenn Sie feststellen, dass die Ausreißer auf Messfehler zurückzuführen sind, kann es von Vorteil sein, sie aus dem Datensatz zu entfernen oder wenn möglich zu korrigieren. Dabei sollten Sie jedoch vorsichtig vorgehen, um Verzerrungen oder eine falsche Repräsentation der Stichprobe zu vermeiden.
Wenden Sie Datentransformationen an: Logarithmische, Quadratwurzel- oder inverse Transformationen können dazu beitragen, den Einfluss von Ausreißern auf die Analyse zu verringern. Solche Transformationen stabilisieren oft die Varianzen der Daten und machen sie für bestimmte statistische Tests besser geeignet.
Verwenden Sie robuste statistische Methoden: Die Verwendung von Methoden für Ihre Analyse, die weniger empfindlich auf Ausreißer reagieren, wie die Wahl des Medians Ihres Datensatzes anstelle des Mittelwerts, kann zu zuverlässigeren Ergebnissen führen, ohne dass Ausreißer entfernt werden müssen.
Sie können Ihre statistischen Kenntnisse mit Online-Kursen auf Lernplattformen wie Coursera ausbauen. Um die Grundlagen von Ausreißern und Datenanalyse zu erlernen, sollten Sie den Einsteigerkurs Einführung in die Datenanalyse von IBM besuchen oder das Google-Datenanalyse (berufsbezogenes Zertifikat) absolvieren.
Redaktion
Das Redaktionsteam von Coursera besteht aus äußerst erfahrenen professionellen Redakteuren, Autoren ...
Diese Inhalte dienen nur zu Informationszwecken. Den Lernenden wird empfohlen, eingehender zu recherchieren, ob Kurse und andere angestrebte Qualifikationen wirklich ihren persönlichen, beruflichen und finanziellen Vorstellungen entsprechen.