Soms lees je een boek dat je je heel lang bij blijft. Voor mij is dat Freakonomics van Steven D. Levitt en Stephen J. Dubner. Ik las het in een tijd dat data science en data gedreven werken nog geen onderwerpen waren waar ik mij mee bezig hield. Ik vraag mij zelfs af of het begrip datagedreven werken in de tijd van het verschijnen van het boek (2005) al werd gehanteerd. In ieder geval zette dit boek mij aan het denken over causale verbanden en het analyseren van data.
Waar gaat het boek over?
Mocht je het boek nog niet kennen: in het boek geven de schrijvers een flink aantal voorbeelden van, zoals zij het noemen, het toepassen van economische theorie op onderwerpen die normaliter niet door economisten worden bekeken. In het boek stellen ze zich vragen die ze vervolgens d.m.v. data mining proberen te beantwoorden.
Denk hierbij bijvoorbeeld aan:
- Het bewijzen van het bestaan van valsspelen onder sumo worstelaars. Binnen het sumo worstelen is het zo dat je degradeert als je van de 15 wedstrijden die je moet doen, er niet tenminste 8 winnend afsluit. Levitt en Dubner bekeken de laatste wedstrijden van het seizoen. Daaruit kwam naar voren dat degene die statisch gezien zou moeten winnen omdat hij beter was, dit vaak niet deed. Deze uitkomst leidde tot veel rumoer in Japan.
- Het onderzoeken of drugsdealers allemaal rijk zijn zoals wel eens wordt gedacht. Dit blijkt niet zo te zijn. De organisaties waar zij deel vanuit maken zijn namelijk vaak net zo van opzet zijn als grote bedrijven. Dit betekent dat er maar een paar mensen aan de top staan en veel verdienen terwijl de rest het moet doen met veel minder.
- Het onderzoeken van de reden waarom in het midden van de jaren negentig de criminaliteit in de Verenigde Staten afnam. Volgens de analyse van de schrijvers is dit toe te schrijven aan de invoering van abortus in de jaren 70. Hierdoor werden er minder kansarme kinderen geboren.
- De invloed van ouders op het succes van hun kinderen. Hierbij geven de schrijvers aan dat het minder belangrijk is wat ouders doen voor het succes van hun kinderen dan het opleidingsniveau en het inkomen van de ouders.
Wat maakt het boek interessant?
Dat het boek meer dan 5,5 miljoen keer is verkocht zegt denk ik al iets. Maar de reden dat dit boek bij mij naar al die jaren nog naar boven komt? Dat zijn niet zozeer de de analyses die gedaan worden. Voor mij gaat het meer om de manier waarop in het boek naar alledaagse gebeurtenissen wordt gekeken o.b.v. data en analyses. Eigenlijk deden Dubner en Levitt wat je al data specialist dagelijks doet, met behulp van data de werkelijkheid om je heen proberen te begrijpen.
Dus voor mij geldt, ondanks dat het inmiddels gedateerd is, zou ik iedereen aanraden om het te lezen.
Mocht je zelf trouwens nog andere suggesties hebben, die kun je hieronder in de comments toevoegen.