Header
   TUM Logo Clusteranalyse Polytop
Header_Inhalt

Header Bild

Ausreißer

Ausreißer sind Extremwerte, die sich von den anderen Werten des Datensatzes abheben und deutlich isoliert von den restlichen Punkten im Datenraum liegen. Ergebnisse von Datenanalysen, zum Beispiel einer Clusteranalyse, können durch einige wenige Ausreißer völlig verzerrt werden. Deswegen ist es von großer Bedeutung Ausreißer zu erkennen und richtig mit ihnen umzugehen.

Beispiel
Die ’violette Nase’ des Datensatzes ist ein Ausreißer. Hinzufügen der ’Nase’ zu ’Augen’ oder ’Mund’ würde die natürliche Form der Cluster verzerren.

Diagramm-Ausreisser
Ein Ausreißer innerhalb eines Datensatzes, durch den eine lineare Ausgleichsgerade gelegt werden soll, führt zum so genannten Hebeleffekt. Der Ausreißer hat eine überproportionale Auswirkung auf die resultierende Regressionsgerade und sollte deswegen vernachlässigt werden.

Es gibt verschiedene Methoden die Abweichung eines Datenpunktes von den übrigen Daten zu erkennen und als ’stark genug’ einzuschätzen. Die Entscheidung, ob es sich bei dem betrachteten Punkt um einen Ausreißer handelt, liegt zumeist im Ermessenspielraum des Anwenders.

Ausreißer sind nicht notwendigerweise falsche bzw. ungenau erfasste Werte, sondern unter Umständen auch Werte, die zwar richtig und genau, aber erwartungswidrig sind. Diese Tatsache lässt es schwierig erscheinen, Ausreißer von normalen Daten zu unterscheiden.

Die Schwierigkeiten des Erkennens von Ausreißern führten beispielsweise dazu, dass das Ozonloch über der Antarktis jahrelang nicht entdeckt wurde. Die Software, mit der das Ozon über der Antarktis gemessen wurde, entfernte die vermeintlichen Ausreißer, die Daten, die den Rückgang der Ozonschicht andeuteten, automatisch.

Erkennen von Ausreißern

Mit Hilfe von Ausreißertests lassen sich Ausreißer identifizieren. Diese Tests beruhen meistens auf statistischen Maßen, die überprüfen, inwieweit ein Datenpunkt den Erwartungen der Datenerhebung entspricht.

Es gibt eine Vielzahl solcher Ausreißertests, die verschiedene Vor- und Nachteile haben und je nach Beschaffenheit des Datensatzes mehr oder weniger geeignet sind. In der Literatur lassen sich folgende Tests finden:

  • Ausreißertest nach Grubbs
  • Ausreißertest nach Hampel
  • Ausreißertest nach Walsh
  • Dean-Dixon-Test
  • Nalimov-Test
  • 2-σ-Methode

Im Folgenden wollen wir die 2-σ-Methode näher betrachten.

2-σ-Methode

Bei einem Datensatz mit n Datenpunkten aus dem ℝp wird ein Ausreißer xk (k = 1,...,n) klassifiziert, sobald mindestens eine Komponente xk(i) (i = 1,...,p) um mehr als zweimal die Standardabweichung σ vom Mittelwert x abweicht. 

Formel 

Die 2-σ-Methode ist einfach durchzuführen. Allerdings lassen sich mit diesem Test fehlerhafte Daten, also echte Ausreißer, nicht von ’Exoten’, korrekte aber ungewöhnliche Daten, unterscheiden.

Umgang mit Ausreißern

Hat man Ausreißer mit Hilfe eines Ausreißertests identifiziert, hat die weitere Behandlung der Ausreißer großen Einfluss auf die Ergebnisse der Datenanalyse. Je nach dem wie stark der Datensatz verändert werden soll, nimmt man folgende Schritte vor:

  • Korrektur der betroffenen Komponente xk(i) des Ausreißers xk
  • Entfernung der betroffenen Komponente xk(i) des Ausreißers xk
  • Entfernung des gesamten Ausreißers xk

Das Entfernen des gesamten Ausreißers xk wird häufig verwendet. Allerdings hat dies in der Praxis den Nachteil, dass unter Umständen ein großer Teil des ursprünglichen Datensatzes entfernt wird. Dadurch können für die Datenanalyse zu wenige Daten zur Verfügung stehen. Abhilfe hierfür schafft das Vorgehen, nur diejenigen Komponenten des Ausreißers zu entfernen, die tatsächlich zu stark von den anderen Daten abweichen.

Möchte man den erhobenen Datensatz nicht reduzieren, empfiehlt sich die Korrektur derjenigen Komponenten des Ausreißers, die entsprechend des verwendeten Ausreißertests zu stark von den anderen Daten abweichen. Die Datenkorrektur der betroffenen Komponente lässt sich beispielsweise mit der Ersetzung durch

  • den Maximal- bzw. Minimalwert
  • den globalen Mittelwert
  • den nächsten Nachbarnwert

durchführen.

Je nach Zweck der Datenuntersuchung ist es äußerst wichtig, die identifizierten Ausreißer ’richtig’ zu behandelt. Eine Entscheidung darüber, was ’richtig’ bedeutet, muss im jeweiligen Fall vom Anwender selbst festgelegt werden.

Copyright 2009 - Team Clusteranalyse
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _