Beschrijvende statistiek

Uit Systeemmodellering
Ga naar: navigatie, zoeken

Met de beschrijvende statistieken worden getallen bedoeld die een (grote) gegevensverzameling karakteriseren. Deze getallen vormen een maat voor de grootte, het centrum, en de spreiding van de verzameling. Door alleen naar deze getallen te kijken kun je snel zien of gegevens die je hebt verzameld over twee variabelen op elkaar lijken of juist verschillen.

Inhoud

Grootte

De grootte van een gegevensverzameling wordt gemeten als het aantal elementen in die verzameling. Vaak spreekt men van "het aantal waarnemingen". Dit aantal wordt aangegeven met de letter N (van het Engelse number).

Centrum

Om het centrum van een gegevensverzameling te bepalen worden drie verschillende indicatoren gebruikt:

  • Voor numerieke waarden kan het gemiddelde μ worden berekend als de som van alle waarden gedeeld door hun aantal N. Als formule geschreven:
Gemiddelde.png
  • De mediaan is de waarde van het middelste element in de gegevensverzameling wanneer deze in oplopende waarde is geordend. Als de gegevensverzameling een even aantal elementen heeft, en er dus geen middelste element is, wordt voor de mediaan het gemiddelde van de elementen N/2 en N/2 + 1 genomen.
  • De modus is de waarde die het vaakst voorkomt in de gegevensverzameling.

Spreiding

De spreiding van een gegevensverzameling wordt beschreven door vier getallen:

  • Het minimum en het maximum, d.w.z. de laagste en de hoogste waarde in de verzameling.
  • De variantie σ2, berekend als de som (over alle waarden x in de verzameling) van het kwadraat van de afwijking van x t.o.v. het gemiddelde μ. Als formule geschreven:
Variantie.png
  • De standaarddeviatie (of standaardafwijking) σ, gedefinieerd als de vierkantswortel uit de variantie σ2. Daarmee heeft σ dezelfde dimensie als de grootheid waarvan de spreiding bepaald wordt, en kan deze bijvoorbeeld in een diagram langs dezelfde as gebruikt worden. Zie hiervoor bijvoorbeeld onderstaande figuur, waarin de normale verdeling gegeven is met gemiddelde μ en standaardafwijking σ.

Standard deviation diagram.svg

Vorm van de verdeling

Een histogram van een gegevensverzameling laat niet alleen zien waar (ongeveer) het centrum van de verdeling ligt en of de spreiding groot of klein is, maar ook of die spreiding symmetrisch is, en of er sprake is van een platte of juist een piekvormige verdeling. Ook voor deze eigenschappen zijn maten gedefinieerd:

  • De symmetrie wordt gemeten door de scheefheid (Engels: skewness). De normale verdeling is volmaakt symmetrisch en heeft daarom scheefheid = 0. Een verdeling waarvan de "staart" aan de rechterkant het dikst is (bv. de driehoeksverdeling T(1, 2, 5) heeft scheefheid > 0, een verdeling waarvan de "staart" aan de linkerkant het dikst is (bv. de driekhoeksverdeling T(1, 4, 5)) scheefheid < 0.
  • De piekvormigheid wordt gemeten door de kurtosis (van het Grieks κυρτός (kyrtos) "gebogen, gewelfd"). De normale verdeling wordt gezien als niet plat en ook niet piekvormig en heeft daarom kurtosis = 0. Een platte kansverdeling zoals de uniforme verdeling heeft een negatieve kurtosis. Een positieve kurtosis duidt juist op een scherpe piek.

Kwartielen en Percentielen

Om een gegevensverzameling te karakteriseren worden soms ook kwartielen of percentielen als indicatoren gebruikt. Als je een gegevensverzameling hebt gesorteerd in oplopende volgorde van waarden is het eerste kwartiel de waarde van het ((N+1)/4)e element, het tweede kwartiel de waarde van het ((N+1)/2)e element, en het derde kwartiel de waarde van het (3·(N+1)/4)e element. Evenzo is het pe percentiel de waarde van het (p·N/100)e element.

Dus:

  • 25e percentiel = eerste kwartiel
  • 50e percentiel = tweede kwartiel = mediaan
  • 75e percentiel = derde kwartiel

Zie ook