Gemiddelden en standaard deviaties

Rekenen met gemiddelden

Gemiddeld
Er zijn nogal wat vreemde statistische zaken waar mensen onbewust mee werken. Zo weten we allemaal wat een gemiddelde is en wat de afwijking van dat gemiddelde is, ook al is het niet bewust. Maar zou iemand ons vragen om het gemiddelde te berekenen, dan zouden we het niet kunnen. Gevoelsmatig gaat het echter perfect. Zo kunnen we op basis van onze ervaringen met een ander aangeven of die persoon gemiddeld een zeurpiet is of een extravert. Van nature is dat ook wel logisch dat we met gemiddelden werken. Het is een handige strategie om te overleven. Op basis van gemiddelden en spreiding kun je namelijk een aardige inschatting maken van een situatie.

Gemiddelde

Als je ongeveer wilt weten wat er in een bepaalde situatie geldt, dan is het goed om het gemiddelde voor die situatie te bepalen. In de meeste gevallen is het gemiddelde eigenlijk niet veel meer dan de som van alle gevallen gedeeld door het aantal gevallen. Dus als ik tien keer op een straathoek vaststel dat ik iemand tegenkom van de tien keer dat ik die straathoek passeer, dan is het gemiddeld 1. Maar als ik honderd keer een straathoek passeer en ik kom maar tien keer iemand tegen, dan is het gemiddelde 0,1 passanten. In gewone taal heet dat: “Ik kom zelden iemand tegen op die straathoek.” Onbewust registreer ik die straathoek nu als heel rustig, ik kom er tenslotte bijna nooit iemand tegen. Met het gevaar dat ik die straathoek met steeds minder voorzichtigheid passeer, tot de dag dat ik tegen iemand oploop, omdat ik niemand verwacht tegen te komen.

Straathoek
Werken met gemiddelden doen we dus iedere dag. Zo verwacht iedereen heel simpel dat er water uit de kraan komt. Want gemiddeld komt er altijd water uit de kraan. Aan de andere kant zal iemand die maar eens per week water heeft heel verbaasd zijn dat wij iedere dag water uit de kraan verwachten. Voor ons is het schrikken als er geen water is. Voor iemand die niet gewend is aan water uit de kraan is het schrikken dat er altijd water is als je de kraan open doet. Hoewel we dus heel snel gewend raken aan dit soort luxe. Hoeveel Nederlanders zouden verbaast zijn als er water uit de kraan komt.Overlevingstechnisch is het heel slim om met gemiddelden te werken. Je kunt tenslotte beter fruit zoeken onder een boom die bijna altijd fruit heeft, dan onder een boom die maar eens in de tien jaar fruit heeft. Zelfs als dat fruit tien keer lekkerder is. Dan kun je er beter voor zorgen dat je weet welke boom je iedere dag te eten geeft en dan eens in de tien jaar lekker fuit eten. In plaats van tien jaar hongeren om lekker te kunnen eten.Gemiddelden zijn dus iets wat we iedere dag gebruiken. Maar wat nog handiger is, is om te weten wat de afwijking van het gemiddelde is. Helemaal als je tegelijkertijd weet wat het gemiddelde is.
☷ Index


Standaard deviatie

De standaard deviatie of te wel de gemiddelde afwijking van het gemiddelde is ook iets wat mensen van nature onbewust toepassen. Zo zullen we bijvoorbeeld onze keuze voor een bepaald product laten leiden door de schommeling in kwaliteit. Als we bijvoorbeeld merken dat bij een bepaalde winkel de kwaliteit van de bediening verandert in negatieve richting, waar we eerst gewend waren aan een positieve behandeling, dan zoeken we een andere winkel. Daarbij hanteren we bijvoorbeeld een bepaalde minimum norm waarboven de negatieve bediening nog geaccepteerd wordt.

School
Ook bij de keuze van een school voor onze kinderen baseren we onze beslissing op een gemiddelde maat en de gemiddelde afwijking. Zo praten we bijvoorbeeld met ouders en leerkrachten van de school en lezen hun informatie folder en zoeken naar informatie over de school op internet. Op basis van die informatie komen we tot een geïnformeerde beslissing over de school voor onze kinderen. Die geïnformeerde beslissing is een combinatie van een gemiddelde uitspraak over de school en de gemiddelde afwijking. Horen we bijvoorbeeld veel goede verhalen van andere ouders en ervaren we de school zelf als prettig, dan zullen we eerder voor een school kiezen, ook al ligt hij wat verder weg, dan wanneer we alleen maar slechte verhalen horen met af en toe een positief verhaal.

Beslissen

Het punt waar het bij al onze beslissingen over gaat is dat we graag veel verschillende verhalen horen van een gelijkwaardige strekking, dan dat we allemaal dezelfde verhalen horen. We voelen namelijk automatisch aan dat alleen maar dezelfde verhalen niet mogelijk is. Onbewust weten we dat iets wat te mooi klinkt niet kan kloppen.

☷ Index


Statistiek

Voor deze twee onbewuste rekenmethodes van ons brein heeft men in de statistiek formules gecreëerd. Helaas is het nog niet gelukt om formules te maken, die net als ons brein op basis van tekst informatie komt tot een gemiddelde en een standaard afwijking voor een bepaalde situatie. Maar de basaalste formule voor het gemiddelde is de som van alle waarnemingen gedeeld door het aantal waarnemingen: het rekenkundige gemiddelde = som waarnemingen / aantal waarnemingen in wiskundige notatie is dat:

In deze formule betekent:
1. het symbool voor het rekenkundige gemiddelde;
2. het aantal waarnemingen;
3. tel alle waarnemingen bij elkaar op beginnend bij de eerste en eindigend bij de laatste waarneming;
4. De waarnemingen. De eis voor de waarnemingen is wel dat het gaat om natuurlijke getallen.

De waarnemingen kunnen dus niet bestaan uit opmerkingen als: Goed, slecht, matig, redelijk, leuk, aardig, mooi, lelijk, vies, smakeloos. Iets waar ons brein wel mee kan werken.De standaard deviatie is vervolgens iets ingewikkelder als formule. Er zit namelijk een addertje onder het gras bij deze formule. De basis van de formule voor de standaard deviatie is het berekenen van het gemiddelde en vervolgens dat gemiddelde aftrekken van iedere afzonderlijke waarneming, dus:

Het gevolg is echter dat waarnemingen groter dan het gemiddelde een positieve waarde opleveren, terwijl de waarnemingen onder het gemiddelde een negatieve waarde opleveren. Vervolgens worden de resultaten van

bij elkaar opgeteld, met als gevolg een uitkomst nul. Maar een voorbeeld werkt veel beter natuurlijk: Stel je hebt tien waarnemingen van één tot en met tien, dus 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. Dus x1= 1 en x10= 10 en n = 10.

=(1+2+3+4+5+6+7+8+9+10) / 10 ⇒
= 55 / 10 ⇒
= 5,5

Nu trek ik dat gemiddelde 5,5 één voor één af van de waarnemingen en tel ze op, dus:

(1 - 5,5) + (2 - 5,5) + (3 - 5,5) + (4 - 5,5) + (5 - 5,5) + (6 - 5,5) + (7 - 5,5) + (8 - 5,5) + (9 - 5,5) + (10 - 5,5) ⇒
(- 4,5) + (- 3,5) + (- 2,5) + (- 1,5) + (-0,5) + 0,5 + 1,5 + 2,5 + 3,5 + 4,5 = 0

Nul

Nul
Aan zo’n formule heb ik natuurlijk niet veel, nul is tenslotte een onveranderbaar begrip, wat ik er ook mee doe. Als ik iemand niets geeft en hij had niets, dan heeft hij nadat ik hem niets heb gegeven, nog steeds niets. Als iemand iets heeft en ik pak hem niets af, dan heeft hij nog steeds iets. Als ik niets met iemand probeer te delen die iets heeft, dan heeft hij daarna nog steeds evenveel als daarvoor. Als ik niets probeer te vermeerderen, dan is niets plus niets, nog steeds niets, zelfs als ik het tien keer doe. Niets is dus het enige dat niet meer of minder kan worden in dit universum. Of zoals we dat zo mooi zeggen met een spreekwoord:
Waar niets is, verliest de keizer zijn recht.

Variantie

De oplossing voor het nul worden van de standaard deviatie, als je het gemiddelde aftrekt van alle waardes en de resultaten optelt, is gevonden in het absoluut maken of kwadrateren van de uitkomsten. Als je de uitkomsten kwadrateert dan noemen we de formule de variantie, waarna we de standaard deviatie bepalen door de wortel van de variantie te nemen. Dus de variantie wordt dan:

variantie = de som van de kwadraten van het resultaat van de waarneming minus het gemiddelde gedeeld door het aantal waarnemingen.

In wiskunde notatie is dat:

Waarbij de verschillende symbolen het volgende betekenen:
1. het symbool voor de variantie is;
2. het aantal waarnemingen;
3. tel alle waarnemingen bij elkaar op beginnend bij de eerste en eindigend bij de laatste waarneming;
4. het kwadraat van het resultaat van de waarneming minus het gemiddelde;

Uitgaande van het vorige voorbeeld met de tien waarnemingen van 1 tot en met 10, krijg je nu een ander effect, je komt tenslotte niet meer uit op nul.

= 1/10 * ((1-5,5)²+(2-5,5)²+(3-5,5)²+(4-5,5)²+(5-5,5)²+(6-5,5)²+(7-5,5)²+(8-5,5)²+(9-5,5)²+(10-5,5)²) ⇒
= 1/10 * ((-4,5)²+(-3,5)²+(-2,5)²+(-1,5)²+(-0,5)²+(0,5)²+(1,5)²+(2,5)²+(3,5)²+(4,5)²) ⇒
= 1/10 * ((20,25)+(12,25)+(6,25)+(2,25)+(0,25)+(0,25)+(2,25)+(6,25)+(12,25)+(20,25)) ⇒
= 1/10 * 82,50 ⇒
= 8,25De standaard deviatie is dan weer de wortel uit de variantie:
= √8,25 ⇒
= 2,87

Wat deze standaard deviatie duidelijk maakt is dat de spreiding van de waarnemingen heel gelijkmatig is. De standaard deviatie is namelijk bijna gelijk aan de helft van het gemiddelde. Zo krijg ik een hele andere standaard deviatie als ik bijvoorbeeld de volgende waarnemingen heb:

5, 5, 5, 5, 5, 6, 6, 6, 6, 6.

Ik heb nu weer tien waarnemingen. Het gemiddelde van deze tien waarnemingen is weer 5,5. Namelijk:

= 1/10 * (5*5+5*6) ⇒
= 0,1 * (25+30) ⇒
= 0,1 * 55 ⇒
= 5,5

De standaard deviatie geeft echter een volkomen andere uitkomst. Waar eerst gelijk was aan 2,87 wordt hij nu 0,5:

= 0,1 * ((5*(5-5,5)²)+(5*(6-5,5)²)) ⇒
= 0,1 * ((5*(-0,5)²)+(5*(0,5)²)) ⇒
= 0,1 * (5*0,25+5*0,25) ⇒
= 0,1 * (1,25+1,25) ⇒
= 0,1 * 2,5 ⇒
= 0,25
= √0,25 ⇒
= 0,5

De spreiding rond het gemiddelde is nu duidelijk veel en veel kleiner. Ze bedraagt nu iets meer dan 17 procent van de vorige standaard deviatie, terwijl het gemiddelde hetzelfde is. Door de combinatie van het gemiddelde en de standaard deviatie kan ik dus iets zeggen over hoe uitgespreid de waarnemingen zijn. Bij een gemiddelde van 5,5 en een standaard deviatie van 2,87 of een standaard deviatie van 0,5 weet ik dat de waarnemingen in het ene geval veel meer van elkaar afwijken dan in het andere geval. Ik weet natuurlijk nog steeds niet hoe die verdeling er uitziet, maar wel dat ik in de ene groep waarnemingen grote verschillen kan verwachten, terwijl dat in de andere kleine zijn.

☷ Index


Waarschuwing

In de voorbeelden die hier werden gebruikt, werden eenvoudige getallen gebruikt om de werking van het gemiddelde in combinatie met de standaard deviatie te verduidelijken. In de praktijk komen dit soort mooie verdelingen zelden tot nooit voor. Dat betekent dat een kleine standaard deviatie niet altijd betekent dat de verdeling opgehoopt is. Je zou je bijvoorbeeld kunnen voorstellen, dat je duizend mensen bevraagt. Van die duizend zijn er 995 die vergelijkbare antwoorden geven. De overige vijf geven sterk afwijkende antwoorden.
Getallen
Je standaard deviatie zal je nu het idee geven dat je een groep mensen hebt die een kleine spreiding vertonen. Ook al is de spreiding iets groter dan als alle duizend vergelijkbare antwoorden hadden gegeven. De vijf afwijkers verdwijnen echter in de grote groep. Het gevaar hiervan is dat je in de toekomst juist mensen die lijken op de afwijkers, bijvoorbeeld als het om ziekte patronen gaat, verkeerde adviezen geeft. Je baseert je advies namelijk op die grote groep.

Uiteindelijk komt het bij statistiek er altijd op neer dat je je gezonde verstand moet blijven gebruiken. De formules voor gemiddelden, standaard deviatie, covariantie en correlatie zijn bedoeld om patronen te ontdekken in je gegevens, niet om je gegevens en het onderzoek er van te vervangen. Want uiteindelijk zal de vraag altijd blijven: zijn de afwijkers fouten in de metingen of zeggen ze iets over dat wat ik onderzoek.

☷ Index


Extra

Afbeeldingen

Index van koppen

± Rekenen met gemiddelden
÷ Gemiddelde
σ Standaard deviatie
⚠ Beslissen
∑ Statistiek
∅ Nul
⇄ Variantie
⍰ Waarschuwing
ℕ Extra
؈ Afbeeldingen
⇪ Index van koppen