Pokazywanie postów oznaczonych etykietą statystyka. Pokaż wszystkie posty
Pokazywanie postów oznaczonych etykietą statystyka. Pokaż wszystkie posty

piątek, 6 marca 2015

Kiedy zmienia się statystyka a nie zmienia się świat.

Ach te statystyki...

Zbiór liczb opisujących zachodzące zjawiska i mający pomóc w ich ogarnięciu i zrozumieniu. Zawierzamy im mając nadzieję, że przystają do rzeczywistości - i czasem prowadzi nas to na manowce.

Na początku zeszłego roku polskie media obiegła wiadomość: "Coraz więcej Polaków popełnia samobójstwa!". Ze statystyk udostępnianych przez Policję wynikało, że w roku 2013 samobójstwo skutecznie popełniło 6 tysięcy osób, co w porównaniu z 2012 rokiem w którym zanotowano ich o 2 tysiące mniej, stanowiło wyraźny i zastanawiający wzrost. Wzrost, który skłaniał do szukania przyczyn - do czego zaraz ochoczo wzięły się media.

Wedle prof. Marii Jarosz, poproszoną o komentarz przez Na Temat, ten nagły wzrost to oznaka coraz gorszej kondycji społeczeństwa, związanej także z kryzysem finansowym[1]. Wszakże - zauważa w pewnym momencie - liczba samobójstw wzrasta od roku 2009 czyli od początku kryzysu.. Wywiad ma jednak charakter rozważań bardziej ogólnych na temat zjawiska, a nie ma temat wzrostu w tym konkretnym roku.
Gazeta Wyborcza z kolei koncentrowała się na przewadze mężczyzn wśród samobójców, uważając to za wynik presji wizerunku "twardego faceta" który nie okazuje uczuć[2].
Najwyższy Czas uważa że to wina Tuska, bo jesli sięgnąć jeszcze dalej, do 2007 roku, to od tego czasu przyrost wynosi 50%! [3] Podobne przyczyny - złe rządy i długi (oraz wizyty komorników) widzą w tym przypadku inne portale.[4] Niekiedy wskazuje się, że mogą być to statystyki i tak zaniżone, bowiem dane publikowane przez policję dotyczą tylko potwierdzonych samobójstw.
Co więcej - pewne informacje wskazują że w roku 2014 samobójstw było jeszcze więcej.[5] Dane te nie zostały jeszcze opublikowane, ale gdy tak się stanie, z pewnością alarmistyczne głosy powrócą.

Skąd ten nagły wzrost? Ja gdy usłyszałem niedawno o tej sprawie, zaciekawiłem się przede wszystkim kwestią - skąd te dane. Źródłem są tu statystyki publikowane przez komendę główną Policji, a konkretnie tabela podsumowująca dotychczasowe raporty.[6]

LICZBA ZAMACHÓW SAMOBÓJCZYCH ZAKOŃCZONYCH ZGONEM
ROK OGÓŁEM MĘŻCZYŹNI KOBIETY
2013 6.101* 5.196 904
2012 4.177 3.569 508
2011 3.839 3.294 545
2010 4.087 3.517 570
2009 4.384 3.739 645
2008 3.964 3.333 631
2007 3.530 2.924 606
2006 4.090 3.444 646
2005 4.621 3.885 736
2004 4.893 4.104 789
2003 4.634 3.890 744
2002 5.100 4.215 885
2001 4.971 4.184 787
2000 4.947 4.090 857
1999 4.695 3.967 728
1998 5.502 4.591 911
1997 5.614 4.622 992
1996 5.334 4.392 942
1995 5.485 4.465 1.020
1994 5.538 4.541 997
1993 5.569 4.519 1.050
1992 5.453 4.426 1.027
1991 4.159 3.388 771
*- w 1 przypadku brak danych ze względu na płeć

Liczby wyglądają przerażająco. Zarazem jednak przyglądając się im, trudno nie zauważyć, jak pewne wymienione wcześniej tezy o wzrostach i spadkach nie zupełnie stosują się do tych danych. Przykładowo trudno mówić o "wzroście od 2009 roku" w sytuacji gdy zmienność liczb w obrębie kolejnych lat jest dosyć duża - między 2009 a 2010 spadek o 400, potem spadek o 200 mimo że to środek kryzysu; potem wzrost o 350 i gdyby nie ten skok na końcu, trend byłby raczej spadkowy. Jeszcze dziwniej wygląda teza "wzrostu samobójstw od rządów Tuska" bo w roku 2007 w którym wygrał wybory, samobójstw było o 500 mniej niż w roku, w którym rządził jego antagonista.

Ale nie takie kwestie sprawiły, że napisałem ten artykuł - powodem była inna rzecz, którą zrobiłem, gdy już odpowiedziałem sobie na pytanie o źródło danych. Popatrzyłem na tabelkę na stronie policji i zastanowiłem się - a czy na pewno nie zmieniła się metoda statystyczna? Po czym zrobiłem coś na co nie wpadł ani jeden dziennikarz - kliknąłem na link do raportu podsumowującego ten tragiczny rok 2013.
A tam przeczytałem:
Od 2013 roku zmienił się sposób gromadzenia i generowania danych statystycznych dotyczących zamachów samobójczych. Wcześniej dane do systemu wprowadzane były po przeprowadzeniu i zakończeniu postępowania: sprawdzającego* lub przygotowawczego. Obecnie wprowadzane są bezpośrednio po wydarzeniu jeżeli z okoliczności wynika, że doszło do zamachu samobójczego. System pozwala na modyfikację danych jeżeli okaże się, że nie był to zamach samobójczy.[7]
Teraz rozumiecie?

W poprzednich latach w tabelce zapisywano tylko dane dotyczące samobójstw potwierdzonych w dochodzeniu. Jeśli dany przypadek uznano za wypadek, morderstwo lub zgon naturalny, lub też nie było możliwe ustalenie jego natury, to w tabelce się nie pojawiał. Podobnie było z przypadkami dla których śledztwo dało wyniki w innym roku niż rok popełnienia.
W roku 2013 do statystyk wliczono wszystkie sprawy, dla których przyjęto samobójstwo wstępnie - także te które potem mogły mieć jednak inne przyczyny. Brak odrzucenia wątpliwych spraw spowodował gwałtowny i skokowy wzrost liczb w statystykach. I to była przyczyna.

W takiej sytuacji, gdy już znamy główną przyczynę, nasuwają się dosyć oczywiste wnioski - po pierwsze dziennikarze powinni zacząć dokładniej weryfikować informacje, bo to że na głównej stronie statystyk jest tabela, nie oznacza że nie warto zajrzeć w poszczególne dokumenty. Jeśli tego nie zrobią, to daję głowę, że w  marcu wraz z publikacją kolejnych statystyk sprawa wybuchnie ponownie.
Po drugie panowie policjanci zajmujący się statystykami powinni się nauczyć dokładniej objaśniać wprowadzane zmiany, w tym także na głównej stronie. I ewentualnie prostować błędne rozumienie statystyk w mediach.
Po trzecie wypadałoby dodać teraz do tabeli trzecią kolumnę i podać w niej dane zgodne ze starym sposobem podliczania samobójstw, bo w obecnej sytuacji gdy zmieniło się naliczanie, nowych danych nie ma jak porównać ze starymi i tym samym sprawdzić jak się one rzeczywiście zmieniły, i czy nastąpił rzeczywisty wzrost w porównaniu z poprzednimi latami, czy nie.
Takie dobre rozwiązanie stosuje GIS w raportach na temat niepożądanych odczynów poszczepiennych. Od kilku lat zmienił się sposób klasyfikowania stopnia ciężkości objawów - w starym używanym w Polsce, za ciężki uznawano objaw skutkujący hospitalizacją dłuższą niż 1 dzień, wedle norm WHO jest to każdy skutkujący obecnością w szpitalu, nawet jeśli pacjent był tam tylko na badaniu. Ta różnica daje ok. 20% więcej powikłań ciężkich i wynika tylko ze zmiany sposobu naliczania. Aby moc porównywać stare dane z nowymi, służba zdrowia zlicza powikłania na dwa sposoby, podając liczby zarówno wedle nowego i starego sposobu. O czymś takim właśnie powinni pomyśleć policyjni statystycy.

A po czwarte... Jak zobaczyłem, że to co ja spostrzegłem na początku, umknęło tym wszystkim dziennikarzom snującym rozważania na temat nagłego wzrostu, to nie wyobrażacie sobie jak mi się zrobiło ciepło na ego...
--------------
[1] http://natemat.pl/35151,wzrost-samobojstw-mamy-tak-wysoki-jak-w-grecji-zycie-odbiera-sobie-ponad-6-tys-osob-rocznie
[1] http://wyborcza.pl/1,75478,15713588,2013__rekord_samobojstw__Mezczyzni_pod_presja.html
[3] http://nczas.com/wiadomosci/polska/drastyczny-wzrost-liczby-samobojstw-za-tuska/
[4] https://www.eurogospodarka.eu/jezeli-liczba-samobojstw-rosnie-ze-spoleczenstwem-dzieje-sie-cos-niedobrego
[5] http://londynek.net/wiadomosci/article?jdnews_id=26198
[6] http://statystyka.policja.pl/st/wybrane-statystyki/samobojstwa
[7] http://statystyka.policja.pl/st/wybrane-statystyki/samobojstwa/100065,Samobojstwa-2013.html

sobota, 5 kwietnia 2014

Jednym rośnie a innym opada

Ach, te wykresy!
Nieodzowny element każdego publicznego wystąpienia polityka, przekonującego o słuszności swych racji, naukowca prezentującego dane i pseudonaukowca prezentującego swój brak danych. W zamierzeniu mając jedynie obrazować i ułatwiać zrozumienie zebranych danych, czasem stają się celem same w sobie. Wykres niejednokrotnie staje się dowodem, tym wiarygodniejszym im lepiej wygląda.
Wiele rzeczy próbuje się udowadniać wykresami - wzrost zużycia prezerwatyw w Afryce w pewnym stopniu koreluje ze wzrostem zapadalności na HIV, stąd też próby dowodzenia, że prezerwatywy zwiększają szanse zakażenia. Tymczasem jest odwrotnie - prezerwatywy zaczęto stosować dla ochrony przed zakażeniem. Wzrost urbanizacji następuje w tym samym czasie co wzrost zapadalności na raka, ale oba trendy łączy tylko kierunek w tym samym czasie.
Jest wiele zjawisk których wielkość rośnie lub spada - wzrasta wciąż liczba osób na świecie, wzrasta liczba samochodów, produkowanych cukierków i powierzchnia działających baterii słonecznych. Spada liczba rolników używających koni do orki, użytkowników telewizorów kineskopowych. Powierzchnia przydomowych ogródków warzywnych czasem spada a czasem rośnie, w przeciw-rytmie ze wzrostem i spadkiem powierzchni trawników. Ale samo stwierdzenie, że dwa zjawisko w tym samym czasie rosną i opadają, nie potwierdza jeszcze związku między nimi. Dopiero gdy odnajdziemy jakiś związek przyczynowo-skutkowy, będziemy mogli powiedzieć - jedno zjawisko wpływa na te drugie.

 Postanowiłem zebrać kilka takich przykładów wykresów, które dobrze wyglądają ale niczego nie dowodzą:

Sprzedaż zdrowej żywości i zapadalność na autyzm:
Oba wykresy korelują ze sobą w niesamowicie zgodny sposób. Jednak sama korelacja danych to nie to samo co związek przyczynowo-skutkowy.

Internet Explorer i ilość morderstw:
Udział przeglądarki IE w domowych komputerach spada tak samo jak ilość morderstw. Podobnie jak w poprzednim przypadku korelacja to nie związek. Jest wiele rzeczy, których częstość lub liczebność spada i rośnie w tym samym czasie, ale z różnych przyczyn.

Ilość użytkowników Facebooka i obligacje Grecji:

Otyłość i ilość zadłużonych:

Import meksykańskich cytryn zmniejsza liczbę śmierci na autostradach:
Piraci hamują globalne ocieplenie:
Konsumpcja czekolady zwiększa szanse na Nobla?

Akurat o tym ostatnim przypadku piszą ostatnio na blogu Xjentifika.