niedziela, 1 stycznia 2023

Darrell Huff. How to lie with statistics

How to lie with statistics

Zdjęcie Gatesa (z 2015 roku) w połączeniu z faktem, że Gates finasował badania w dziedzinie epidemiologii (na John Hopkins University) stało się ,,dowodem'' dla różnych szurów, których w USA nie brakuje, iż za pandemią COVID19 stał Gates.

A book written by Darrell Huff in 1954 presenting an introduction to statistics for the general reader. Not a statistician, Huff was a journalist [...]

In the 1960/1970s, it became a standard textbook introduction to the subject of statistics for many college students [...] one of the best-selling statistics books in history.

https://en.wikipedia.org/wiki/How_to_Lie_with_Statistics

Książeczka składa się z 10 rozdziałów i jest napisana w prowokacyjny, sposób (nienaukowy). Nie była przetłumaczona na język polski. Poszczególne rozdziały można powiedzieć przeszły do legendy i jak się wpisze tytuł rozdziału do google to zwykle można znaleźć setki tysięcy stron cytujących... Osobiście nie widzę nic aż tak nadzwyczajnego w tej książce. Przedstawia kilkanaście sposobów manipulacji, w miarę oczywistych. Miejscami gubi wątek w tym sensie, że są rozdziały lepsze (zaznaczone plusem poniżej) i gorsze. Ale ponieważ jest tak znana to poniżej strzeszczenie:

r1+: a sample with the built-in bias czyli niereprezentatywność próby; że ciężko jest zebrać próbę reprezentatywną (z różnych powodów).

r2: the well chosen average czyli sztuczki nt. średniej. Zarówno co jest uśredniane (who's included), jak i jak jest uśredniane (średnia vs mediana)

r3+: the little figures that are not there. Niejasne/nieznane szczegóły wyników analizy (statystycznie nieistotne rezulataty ogłaszane bez podania, że są nieistotne--albo średnie dla rozkładów daleko różnych od normalnych)

r4: to samo co #r3 przy założeniu że pomiar jest mocno przybliżony przez co zaobserwowane różnice nie mają specjalnie znaczenia (bo ewentualny błąd jest większy niż różnice)

r5+: The gee-whiz graph aka zmyłkowe wykresy (głównie nie zaczynająca się od zera oś 0Y) (cf https://en.wikipedia.org/wiki/Gee_Whiz albo https://en.wikipedia.org/wiki/Misleading_graph)

r6+: The one dimensional picture aka zmyłkowe wykresy cd (porównywanie jednowymiarowych wielkości w 2D albo 3D; cf https://thejeshgn.com/2017/11/17/how-to-lie-with-graphs/)

r7+: semiattached figure. Using one thing as a way to claim proof of something else, even though there's no correlation between the two (teza i dowód nie są ze sobą powiązane niczym oprócz wrażenia że są; https://www.secjuice.com/the-semi-attached-figure/)

r8: post hoc Rides Again. Korelacja to nie przyczynowość; dla mnie najbardziej mętny rozdział ale też temat chyba najtrudniejszy do przybliżenia na poziomie Idiots Guide

r9: How to statisticulate: Misinforming people by the use of statistical material might be called statistical manipulation, in a word, Statisticulation. (ten rozdzialik to podsumowanie r1--r8)

r10++: how to talk back to statistics. Dwa plusy to nie przypadek bo chyba najciekawszy: Jak się nie dać oszukać kiepskiej statystyce w pięciu krokach.

Pięć kroków Huffa

Who Says So? (ludzie mają interesy, osoby zainteresowane mogą nie mówić prawdy);

How Does He Know? (pomiar jest często wysoce wadliwy);

What's Missing? (analiza jest niejasna/niepełna);

Many figures (liczb nie rysunków) lose meaning because a comparison is missing. Mój przykład: kobiety w PL nie rodzą dzieci; przeciętny wiek matki w momencie urodzenia dziecka to 27 lat. [czego NIE powiedziano: W całej Europie tak jest]

Did Somebody Change The Subject? (czy teza i dowód są logicznie powiązane czy tylko sprawiają takie wrażenie)

Does It Make Sense? (ogólnie czy coś z tego wynika na poziomie zdrowego rozsądku)

Bibliografia

Darrell Huff. How to lie with statistics (142 strony/a5) https://en.wikipedia.org/wiki/How_to_Lie_with_Statistics

1 komentarz: