***pravidelné páteční „přetištění“ staršího článku
Kupodivu ne, jde o tzv. Simpsonův paradox.
Ukažme si problém na konkrétních datech:
Pacienti v dobrém stavu
Nemocnice A… zemřelo 10 pacientů ze 600, tj. 1,6 %
Nemocnice B… zemřelo 30 pacientů z 900, tj. 3,3 %
Pacienti v kritickém stavu
Nemocnice A… zemřelo 190 pacientů ze 400, tj. 47 %
Nemocnice B… zemřelo 70 pacientů ze 100, tj. 70 %
Pro obě skupiny pacientů je nemocnice A zjevně bezpečnější. Jenže…
Data po sloučení obou skupin
Nemocnice A… zemřelo 200 pacientů z 1 000, tj. 20 %
Nemocnice B… zemřelo 100 pacientů ze 1 000, tj. 10 %
Takže – jaká nemocnice poskytuje kvalitnější péči? Samozřejmě nemocnice A. Obě „počáteční“ menší a oddělené skupiny dat popisují realitu (srovnání kvality obou nemocnic) mnohem lépe. Přitom se jedná o menší soubory.
„Ve statistice platí, že čím větší je množství dat, tím dosahujeme spolehlivější výsledky. Simpsonův paradox jako by toto pravidlo zpochybňoval,“ vysvětluje Jan Hendl. Ostatně – právě proto se celý jev označuje jako paradox…
Podstatou toho, co se stalo při sloučení dat, je ztráta informace o tom, že do nemocnice A směřuje více pacientů v kritickém stavu. Mechanickým spojením-sečtením dat nám tato informace vypadne ze zorného pole a stane se skrytou proměnou.
Zdroj: Jan Hendl: Přehled statistických metod zpracování dat, Portál, Praha, 2004
Obdobný článek na toto téma: Pásy a smrt na silnicích
http://www.scienceworld.cz/sw.nsf/ID/D6D0E406995E0B00C1256ED3005C7611?OpenDocument&cast=1