Uitbijter
Een uitbijter of uitschieter (outlier) is in de statistiek en gegevensanalyse een waarneming die niet bij de overige lijkt te passen. Meestal betreft het een van de gegevens die relatief ver van de overige data verwijderd ligt. Statistieken afgeleid uit gegevens met uitbijters kunnen een sterk vertekend beeld geven van de werkelijkheid.
Uitbijters kunnen echter ook een aanwijzing zijn dat niet de juiste kansverdeling wordt toegepast. In dat geval is er feitelijk geen sprake van uitschieter. Zo heeft een uitbijter grote invloed op het rekenkundig gemiddelde, maar nauwelijks of geen invloed op de mediaan.
Detectie van uitbijters is, naast het opsporen van redundantie en de eliminatie van ruis, een van de belangrijkste taken na het opmeten en verzamelen van resultaatgegevens. Voor het detecteren van uitbijters moet onderscheid gemaakt worden tussen univariate (slechts één meetresultaat per meting voor een staal) en multivariate gegevens (vele, soms wel honderden, meetresultaten per meting voor een staal).
Voorbeeld
[bewerken | brontekst bewerken]Stel bijvoorbeeld dat de temperatuur van een kamer gevolgd wordt die rond 20 °C ligt en dat er 9 metingen zijn in de buurt van de doeltemperatuur en één meting van 200 °C. Dan is duidelijk dat deze laatste meting een uitbijter is, dus niet juist, die het totale beeld verstoort. Een uitbijter behoort niet tot de betrokken populatie.
Voorkomen en oorzaken van uitbijters
[bewerken | brontekst bewerken]In een normale verdeling liggen 95% van de meetwaarden op maximaal twee standaardafwijkingen van het gemiddelde, terwijl 99,7% van de meetwaarden op maximaal 3 standaarddeviaties van het midden liggen. Wanneer in een normaal verdeelde populatie een hoger percentage van de meetwaarden buiten deze intervallen ligt, zijn er waarschijnlijk uitbijters aanwezig in de dataset. Een andere mogelijkheid is dat er geen sprake is van een normale verdeling, maar andere kansverdeling, zoals een lange of zware staart.
Voor het weergeven van de spreiding van meetwaarden en uitbijters wordt vaak gebruikgemaakt van een boxplot.
Uitbijters hebben tal van mogelijke oorzaken, waaronder technische oorzaken.
- Als een meettoestel niet correct functioneert, kan het bijvoorbeeld een nulwaarde, de maximale meetwaarde of een willekeurig meetresultaat geven.
- Tevens kunnen er fouten optreden bij de transmissie van het meetsignaal van de sensor of het meettoestel naar het toestel, bijvoorbeeld een computer, dat de meetgegevens registreert.
- Bovendien kan een monster bedorven zijn of kan er verontreiniging optreden voorafgaand aan de analyse.
- Ook is het mogelijk dat niet de juiste meetschaal is gebruikt voor de waarnemingen. Het is soms mogelijk dat er na een transformatie van de waarden (bijvoorbeeld logaritmische transformatie) geen uitbijters meer zijn.
- Een triviale, maar in de praktijk weleens voorkomende fout, is het foutief overschrijven van gegevens, waardoor bijvoorbeeld de komma een grootteorde opschuift.
Detectie van uitbijters
[bewerken | brontekst bewerken]Er bestaat geen eenduidige definitie van wat een uitbijter is. Het bepalen of een meetwaarde een uitbijter is, is bijgevolg subjectief.
Diverse criteria worden gebruikt voor het objectiveren van de beslissing of een bepaalde meetwaarde een uitbijter is. Meestal wordt uitgegaan van de veronderstelling dat de meetpunten van een dataset uit een normaal verdeelde populatie komen. Een vaak gebruikt criterium stelt dat een meetwaarde die meer dan drie standaarddeviaties van het gemiddelde ligt, een uitbijter is. Andere criteria die afgeleid worden van het gemiddelde en de standaardafwijking zijn:
- Criterium van Chauvenet
- Grubbs' test voor uitbijters
- Peirces criterium
- ASTM E178 standaardmethode voor het werken met uitbijters
Daarnaast bestaan er ook criteria die gebruikmaken van de interkwartielafstand. Wanneer bijvoorbeeld en het eerste en derde kwartiel zijn, kan een meetwaarde als uitbijter beschouwd worden als deze ligt buiten het interval
- ,
waarbij een vooraf bepaalde constante is.
Univariate gegevens
[bewerken | brontekst bewerken]In het meest voorkomende geval is er per meting van een staal slechts één meetresultaat verkregen. Vaak volgen de meetwaarden een normale verdeling. Als dit niet het geval is, kan soms door een geschikte transformatie toch tot een normale verdeling besloten worden.
Detectie van uitbijters bij univariate gegevens die als normaal verdeeld beschouwd kunnen worden, kan op de volgende wijze gedaan worden:
- bepaal het gemiddelde van alle meetwaarden
- zoek de meetwaarde die het verst (het minimum of het maximum van de meetwaarden) ligt van dit gemiddelde
- bepaal het gemiddelde en de standaardafwijking van de overige meetwaarden
- beschouw als uitbijter, als
- verwijder uit de oorspronkelijke set gegevens en herhaal de procedure met de resterende gegevens
Multivariate gegevens
[bewerken | brontekst bewerken]Bij multivariate gegevens zullen de verschillende meetwaarden per meting tezamen veranderen. Daarom kan de procedure van univariate gegevens niet gevolgd worden en zijn enkel speciale multivariate methoden bruikbaar die de gezamenlijke verandering van verschillende meetwaarden kunnen uitbuiten.
Voor detectie van uitbijters bij multivariate gegevens kan gebruik worden gemaakt van Hotellings -waarden of Cooks afstanden.
In de biologie, met name de ecologie en taxonomie, wordt voor het opsporen van uitbijters en van redundantie vaak gebruikgemaakt van ordinatie, gradiëntanalyse of multidimensionale schaling (waarbij objecten en variabelen als punten of vectoren in een vectorruimte worden voorgesteld) – en van classificatie, waarbij het onderlinge verband tussen objecten wordt ontward door deze te groeperen.
Gevaar
[bewerken | brontekst bewerken]Als van het te meten onderwerp weinig bekend is, kan het verwijderen van uitbijters leiden tot onbewuste datamassage, manipulatie van data tot een gewenste uitkomst. Het is daarom aan te bevelen om de criteria voor de gegevensselectie vooraf (ex ante) vast te stellen en niet achteraf (ex post).