‘Je hebt leugens, gore leugens en je hebt statistiek.’
‘De cijfers liegen niet, maar leugenaars gebruiken graag de cijfers.’
Twee rake citaten die meteen het grote probleem van data blootleggen. Je kan de data laten spreken, maar dat doet de data niet op eigen kracht. De data is hooguit een poppenkastpop die de data-analist laat buikspreken. Laten we eens kijken naar een aantal manier om de data te laten zeggen wat jij wilt…
Laat de Y-as niet op 0 beginnen.
Het oudste datatrucje dat we kennen. Een Y-as die niet op de nul begint vergroot de verschillen.
De Winstbijdrage per Verkoper; het is duidelijk dat topverkoper Ina de grootste bijdrage levert aan de winst. Meer dan Mirjam, Steven en Jan Willem bij elkaar… Dat zie je in een oogopslag. Maar juist die ene oogopslag (wat de kracht is van grafisch zaken weergeven) wordt hier bedrogen. Doordat de de Y-as niet op 0 begint. Als we de grafiek eerlijker laten spreken wordt het een heel ander verhaal.
Topverkoper Ina levert nog steeds de grootste bijdrage, maar de bijdrage van haar collega’s wordt beter op waarde geschat.
Kies een continue schaal.
Op deze continue schaal zie je dat alle West-Europese landen in dezelfde, onderste categorie vallen qua percentage moslims. Wat je niet goed ziet is dat de onderste categorie van 0-14,29% loopt. Waardoor de verschillen tussen die landen helemaal wegvallen.
Wanneer je minderheden in een land wilt weergeven, moet je de schaal natuurlijk aanpassen naar waarden die passen bij een minderheid, Hier loopt de schaal van met stapjes van 2% omhoog; en daar wordt het een veel duidelijker plaatje van.
Kies een Landkaart
Sowieso is een landkaart een goede manier om zaken te verdoezelen en moeilijk interpreteerbaar te maken. Dezelfde data op wereldschaal bekeken levert veel voer voor de verkeerde conclusies.
Waar wonen de meeste moslims? Uiteraard wordt je blik snel getrokken naar het grote India, en ook Indonesië kun je moeilijk over het hoofd zien. Maar het dichtbevolkte Bangladesh dat door India omsloten wordt zie je makkelijk over het hoofd. Terwijl er toch 153 miljoen moslims wonen… slechts 40 miljoen minder dan het veel grotere buurland.
Toon een correlatie (maar geen verband)
Er zijn tal van correlaties te vinden, zonder dat je daadwerkelijk van een oorzakelijk verband kunt spreken. Maar laat dat je vooral niet weerhouden. Dit stuk gaat over liegen met data. En een van de mooiste manieren is door alleen maar te stellen dat er een (onmiskenbare) correlatie is. Zo bestaat er een onmiskenbare correlatie tussen de consumptie van kip en totale import van ruwe olie in de VS. En is er een duidelijke correlatie tussen het aantal piraten en de stijging van de zeespiegel. Want in 1700 waren er veel piraten en was het probleem van de zeespiegelstijging nog niet bekend.
Dit is ook een typische valkuil van Big Data; Als je maar genoeg metingen hebt over een relatief beperkt aantal meetpunten, dan kom je altijd wel een verband tegen. Bijvoorbeeld allerlei metingen over de laatste 10 jaar – daar komen verbanden uit. Dat wordt al kleiner als je diezelfde metingen uitzet over 520 weken. Dan komen de daadwerkelijke verbanden vanzelf bovendrijven.
Neem een absoluut getal.
De wanbetalers nemen hand over hand toe: Al jaren gaat het de verkeerde kant op bij dit bedrijf. Tijd om de afdeling Debiteurenbeheer eens grondig aan te pakken. Ook de afdeling HR en de gehele Ondernemingsraad stemmen op basis van deze keiharde data in met een stevige reorganisatie.
Maar ja, als we het nu eens laten zien als een percentage; dan komt de afdeling Debiteurenbeheer er een stuk beter uit. Ondanks een gestage groei in het aantal aangemelde klanten, blijft het uiteindelijke percentage wanbetalers rond de 15% schommelen. Nog steeds 15% te veel, maar allicht niet meteen het mes in de afdeling zetten.
Neem de afgeleide.
Het aantal autodiefstallen neemt al jaren af. Of dat ligt aan de betere beveiliging, aan de hogere pakkans of aan de toegenomen alternatieven; dat laat ik hier even in het midden. We zijn bezig met de ruwe cijfers.
Maar wat als dat nou niet past bij het verhaal wat je wilt vertellen? Als je angst wil zaaien en wantrouwen wil kweken ten opzichte van de politie? Deze truc werkt (bijna) altijd: Je neemt de afgeleide. Je hebt het niet meer over het ‘aantal autodiefstallen’; maar je hebt het over de ‘daling van het aantal autodiefstallen’…
Nu is het een heel andere grafiek geworden. Het is nog steeds data, maar de pieken zijn dalen geworden, en het begrijpen van de grafiek is een stuk moeilijker. De titel die hoort bij zo’n grafiek: ‘Daling aantal autodiefstallen neemt af – De data spreekt voor zich!’