sobota, 7 listopada 2020

COVID19: współczynnik WZ dla powiatów województwa pomorskiego

Wskaźnik zapadalności (dalej WuZet) dla ostatnich 14 dni po naszemu w oryginale zaś 14-day notification rate of newly reported COVID-19 cases per 100 000 population (Data on 14-day notification rate of new COVID-19 cases and deaths). Nasz wspaniały rząd walczący z COVIDem przyjął w swoim czasie `nową strategię' (od tego czasu już kilka razy odnawianą), a w niej był podział na strefy zielona/żółta/czerwona, definiowane odpowiednio jako wartości WuZet poniżej 6 (zielona); 6--12 (żółta) oraz powyżej 12 (czerwona). Dla Sopotu na przykład, który oficjalnie ma około 35 tys mieszkańców, do wejście do czerwonej strefy wystarczały zatem około 4 zakażenia (w ciągu dwóch tygodni). To wszysto wydaje się dziś śmieszne jak ostatnio zakażeń dziennie potrafi być na poziomie trzy-tygodniowej dawki...

Parę dni temu mój bank danych nt. COVID19 uzupełniłem o dane dotyczące liczby zakażeń w powiatach województwa pomorskiego. Akurat WSSE w Gdańsku takie dane w sposób w miarę porządny publikuje i da się je względnie łatwo odzyskać z raportów publikowanych i archiwizowanych (brawo--na to nie wpadł nawet Minister w MZ) pod adresem http://www.wsse.gda.pl/.

library("dplyr")
library("tidyr")
library("ggplot2")
m1unit <- 100000
# pomorskie_by_powiat.csv pobrane z www.wsse.gda.pl
# format: data;powiat;nc 
d <- read.csv("pomorskie_by_powiat.csv", sep = ';',  header=T, na.string="NA" )

# wartości skumulowane (po powiatach dlatego tak dziwnie)
# replace_na jest potrzebne bo cumsum nie obsługuje NA
e <- d %>% group_by(powiat) %>% dplyr::mutate(tc = cumsum(replace_na(nc, 0)),
tc1m = cumsum(replace_na(nc, 0)) / pop * m1unit
)
## dzień ostatni
day00 <- as.Date(last.obs)
## dwa tygodnie przed ostatnim
day14 <- as.Date(last.obs) - 14
## 4 tygodnie przed ostatnim
day28 <- as.Date(last.obs) - 28

## Stan na dzień ostatni
e00 <- e %>% filter (as.Date(dat) == day00 ) %>%
 group_by(powiat) %>% as.data.frame

## BTW Żeby było dziwniej zapis
## e0 <- e %>% group_by(powiat) %>%  slice_tail(n=1) %>% as.data.frame
## Daje inny wynik, liczby te same, ale porządek wierszy jest inny

## Stan na dzień dwa tygodnie przed
e14 <- e %>% filter (as.Date(dat) == day14 ) %>%
 group_by(powiat) %>% as.data.frame

e14 <- e %>% filter (as.Date(dat) == day14 ) %>%
 group_by(powiat) %>% as.data.frame

## Stan na dzień 4 tygodnie przed
e28 <- e %>% filter (as.Date(dat) == day28 ) %>%
 group_by(powiat) %>% as.data.frame

## nowe zakażenia w tygodniach 3/4
c28 <- e14$tc - e28$tc

## nowe zakażenie w tygodniach 2/1
c14 <- e00$tc - e14$tc
## To samo co c14/c28 ale w przeliczeniu
## na 100 tys:
c28m1 <- e14$tc1m - e28$tc1m
c14m1 <- e00$tc1m - e14$tc1m
## Dynamika zmiana WuZet w dwóch ostatnich okresach
## tj WuZet12 względem WuZet34
#d14v28 <- (c14m1 - c28m1) / c28m1 * 100
d14v28 <- (c14m1/c28m1) * 100
##
## Można sobie teraz c14m1/d14v28 na wykresach przestawić

Na dzień 7 listopada wyniki były takie (jeżeli się nie rąbnąłem w powyższym kodzie):

sprintf("%10.10s = %6.2f | %6.2f | %6.2f - %6.2f | %4i | %4i | %4i (%4i)",
   e00$powiat, d14v28, c14m1, e00$tc1m, e28$tc1m, e00$tc, e14$tc, e28$tc, e00$pop )
 [1] "    Gdynia = 229.15 | 577.74 | 1129.08 - 299.22 | 2781 | 1358 |  737 (246306)"
 [2] "    Gdańsk = 149.50 | 416.37 | 1045.98 - 351.10 | 4856 | 2923 | 1630 (464254)"
 [3] "    Słupsk = 228.26 | 803.59 | 1387.42 - 231.78 | 1269 |  534 |  212 (91465)"
 [4] "     Sopot = 144.90 | 583.03 | 1404.21 - 418.80 |  513 |  300 |  153 (36533)"
 [5] "  tczewski = 437.50 | 905.98 | 1323.60 - 210.53 | 1534 |  484 |  244 (115896)"
 [6] "   gdański = 399.21 | 889.61 | 1353.71 - 241.26 | 1543 |  529 |  275 (113983)"
 [7] "  kartuski = 197.07 | 855.49 | 1846.22 - 556.63 | 2471 | 1326 |  745 (133841)"
 [8] "  bytowski = 268.71 | 998.31 | 1693.33 - 323.50 | 1340 |  550 |  256 (79134)"
 [9] " malborski = 329.61 | 923.16 | 1408.21 - 204.97 |  900 |  310 |  131 (63911)"
[10] "     pucki = 225.35 | 766.35 | 1545.69 - 439.26 | 1309 |  660 |  372 (84687)"
[11] "wejherowsk = 150.71 | 396.16 |  971.92 - 312.90 | 2078 | 1231 |  669 (213803)"
[12] "starogardz = 216.36 | 744.52 | 1388.93 - 300.31 | 1776 |  824 |  384 (127868)"
[13] " chojnicki = 266.33 | 813.36 | 1311.04 - 192.29 | 1275 |  484 |  187 (97251)"
[14] "  sztumski = 309.52 | 619.84 |  979.83 - 159.73 |  411 |  151 |   67 (41946)"
[15] " kwidzyńsk = 251.34 | 563.39 |  973.35 - 185.80 |  812 |  342 |  155 (83423)"
[16] " kościersk = 293.30 | 786.88 | 1392.60 - 337.43 | 1007 |  438 |  244 (72311)"
[17] "nowodworsk = 263.21 | 777.35 | 1273.30 - 200.61 |  457 |  178 |   72 (35891)"
[18] "   słupski = 244.23 | 514.50 |  969.24 - 244.08 |  957 |  449 |  241 (98737)"
[19] "  lęborski = 172.27 | 618.09 | 1135.18 - 158.29 |  753 |  343 |  105 (66333)"
[20] " człuchows = 268.29 | 388.16 |  571.65 -  38.82 |  324 |  104 |   22 (56678)"

Dynamika WuZeta: Gdynia/Gdańsk/Sopot = 129.1%, 149.5% i 144.9%; wartość maksymalna 437% (tczewski); wartość minimalna 150% (wejherowski). Najnowsze wartości współczynnika WuZet: Gdynia/Gdańsk/Sopot= 577.7, 416.4 oraz 583.0; wartość maksymalna 998,3 (bytowski); wartość minimalna 388.1 (człuchowski). Dane i skrypty są tutaj.

7 komentarzy:

  1. Przepraszam, że nie na temat wpisu. Chętnie poczytałbym pańskie analizy związane z wyborami w USA.
    Zaciekawiły mnie takie informacje:
    https://www.sott.net/article/443995-Undeniable-Mathematical-Evidence-The-Election-Was-Stolen-From-Trump

    Co pan o tym sądzi?

    OdpowiedzUsuń
  2. https://www.sott.net/article/444089-Benfords-law-and-the-2020-presidential-election-The-numbers-dont-add-up

    OdpowiedzUsuń
  3. O czytelnik mi się trafił:-) Dziękuję za obie analizy wskazujące na możliwość wyborczych nieprawidłowości w USA. Osobiście bym poczekał na rozwój wypadków--jeszcze nawet oficjalnie (chyba) nie wszędzie policzono głosy.
    Jak policzą to zobaczymy jakie zarzuty
    sformułuje komitet wyborczy prezydenta Trumpa. Wtedy można
    spróbować coś analizować a że w USA dane o wyborach są zbierane
    na poziomie głosu (w PL komisji bodajże) to i z tych analiz może coś wyniknie.

    Ale zanim coś się analizuje statystycznie, to trzeba dobrze poznać naturę tego co się bada o czym wielu zapomina.
    Jak się pozna to wiele liczbowych "anomalii" okazuje się całkiem prosta do wytłumaczenia. A ja się nie podejmują
    poznać wielce skomplikowanego systemu wyborczego w USA, który zresztą został (z tego co słyszałem) na szybko modyfikowany
    w wielu stanach bo pandemia.
    Na przykład wzrost frekwencji może (może powtarzam) być
    związany ze ułatwieniami/większą skalą głosowania w trybie
    korespondencyjny.

    W trybie korespondencyjnym frekwencja zwykle rośnie. Np słynne
    wybory w Bawarii, które stawiano jako przykład w Polsce w maju
    br, miały największą frekwencję. Tajemnicą poliszynela jest że
    ta większa frekwencja jest związana z nadużyciami.
    Ktoś kto normalnie nie głosuje jest namawiany do oddania głosu, a że koszty/wysiłek są zerowe to głosuje, a raczej nie on tylko ten kto go namówił. Pytanie na ile takie rzeczy są masowe? Jeżli wnuczek zagłosuje za babcię to skala zjawiska jest
    IMO niewielka, no i jest to nie-do-udowodnienia,
    ale jak ktoś będzie zbierał głosy w sposób zorganizowany
    (vote harvesting) to już sprawa
    jest poważna (vote harvesting jest w USA przestępstwem, przynajmniej w większości stanów)...

    Załóżmy że doszło do vote harvesting. Należy to udowodnić metodami niestatystycznymu. Po prostu jeżeli ktoś zorganizował
    coś takiego, to musiał wynająć ludzi a
    w grupie trudno o zachowanie tajemnicy. Jeden sypnie a resztę powinno
    ustalić śledztwo FBI. Powtarzam nie twierdzę że tak było--tylko gdyby było to tak to należy udowodnić (świadkowie/zdjęcia inne dowody)

    Reasumując: za wcześnie na wnioski. Czekałbym na rozwój wypadków.
    Niech chociaż pojawią się oficjalnie zarzuty bo na razie trudno
    oddzielić prawdę od fake-newsów...

    Pozdrawiam

    OdpowiedzUsuń
  4. W promocji tekst Waltera Mebane (jest o nim na stronie o prawie Benforda) pn. http://www-personal.umich.edu/~wmebane/mebane.pop2004.pdf na temat słynnych wyborów z 2000 (Bush vs Gore)

    Po pierwsze ilustruje on jak skomplikowane są wybory w USA. Po drugie jak dziadowsko sa organizowane (każdy powiat ma własny standard). Po trzecie że pomimo tego sąd uznał że nie ma podstaw do powtórzenia głosowania a nawet do przeliczenia wszystkich głosów...

    OdpowiedzUsuń
  5. Dziękuję za rozsądną odpowiedź. Pozostaje czekać na rozwój sytuacji. Jednak, jak to zauważył pewien polityk, wybory natychmiast by zdelegalizowano, gdyby to głosy wyborców decydowały o ich wyniku.

    OdpowiedzUsuń
  6. Wpis zawiera bardzo ciekawe informacje

    OdpowiedzUsuń