De Lie-factor - Baseline Paradox

In een van mijn vorige blogs schreef ik dat een lijngrafiek niet altijd bij nul hoeft te beginnen. Ook schreef ik over de lie-factor. Bij de voorbereiding voor een presentatie besefte ik ineens dat deze begrippen paradoxaal zijn. 
Het begon ermee dat ik de lie-factor uitrekende voor een aantal van de voorbeelden uit mijn vorige blogs.
Links de grafiek waarin zichtbaar is dat de gemiddelde wereldtemperatuur stijgt. Met een lie-factor van 110,14 kan je stellen dat deze grafiek onbetrouwbaar is. Dus het commentaar van Steven Hayward van de rechtse Amerikaanse website Powerline was wellicht terecht. De rechter grafiek geeft de versie van Powerline weer. De grafiek vlakt de verandering enorm af doordat de verticale as te ver doorloopt. De rechter grafiek scoort ook slecht op de lie-factor, maar minder extreem dan links. Toch durf ik te beweren dat de linker grafiek een beter beeld geeft van de data. Tufte beschrijft een ander principe waarmee ik kan uitleggen waarom.


Ik noem dit even het 'baseline-principe'. Op zich fijn dat Tufte een principe geeft om te verklaren waarom de klimaatverandering toch goed in beeld is gebracht, maar welk principe weegt dan zwaarder, de lie-factor of het baseline-principe?

Laten we naar een ander voorbeeld kijken, van Emile Roemer:


Maarten Keulemans  bekritiseerde Emile Roemer omdat hij de grafiek niet bij nul liet beginnen. Op zijn website publiceerde hij een 'betere' versie:


Als we Tufte's baseline-principe erbij halen dan heeft Maarten Keulemans onterecht kritiek. Als er 1 ding duidelijk is in het gerectificeerde voorbeeld van Maarten is dat hij 'a lot of empty vertical space' gebruikt om het nulpunt te bereiken. Roemer heeft gezien het onderwerp ook zeker een punt om niet bij 0 te beginnen. Een gemiddelde huurpijs van 0 euro is niet realistisch, dus dat lijkt me geen heilige baseline. En 90 euro is ook best een grote huurstijging, zeker in de gereguleerde sector, dus dat mag best zichtbaar zijn.

Toch heeft de originele grafiek van Roemer een lie-factor van rond de 7 en die van Maarten zit keurig rond de 1 (uitleg over de lie-factor vind je hier). Dus als we de lie-factor van Tufte leidend laten zijn heeft Maarten weer gelijk.
De enige manier waarop ik deze tegenstelling kan oplossen is om toch te beweren dat een lijngrafiek bij nul moet beginnen. Het is namelijk een glijdende schaal, hoe ver mag de lie-factor afwijken om een baseline te rechtvaardigen die niet bij nul begint. Een onmogelijke vraag. Bovendien stel je de grafiek open tot makkelijke kritiek: 'Emile misleidt ons!' of 'wat een onzin die klimaatverandering!', zelfs als iemand goede redenen heeft om van de richtlijn af te wijken.
Zeker als je zoals Roemer in de politieke arena twittert, kan je maar beter zorgen dat je de informatie op een andere manier laat zien. Roemer had bijvoorbeeld het verschil ten opzichte van 2010 kunnen visualiseren.
De grafiek begint keurig bij 0, heeft een lie-factor van rond de 1 en geeft een goed beeld van de stijging. Nu is Roemer wel erg selectief in welke data hij hier laat zien, want om het effect van het VVD beleid zichtbaar te maken moet de stijging voor 2010 ook zichtbaar zijn om te kunnen checken of de huren sneller stijgen onder het bewind van Rutte, maar dat is weer een heel ander verhaal.
In de klimaatdiscussie lossen ze het op door een nieuw 0-punt te creƫren met een gemiddelde. Ze laten vervolgens de afwijking van dat gemiddelde zien. Nu kan je discussiƫren over het vaststellen van dat 0 punt, maar dat is een meer technische discussie die het een stuk minder goed doet op social media.

Reacties