środa, 20 kwietnia 2016

Web scrapping protokołów z wyborów do Parlamentu Europejskiego w 2014 r.


Rozkład komisji wg. liczby głosów

Frekwencja

Głosy nieważne

Ze strony pe2014.pkw.gov.pl ściągnąłem szczegółowe wyniki wyborów do parlamentu europejskiego z 2014 r. Pobrałem protokoły ze wszystkich 27664 komisji obwodowych. Takie protokoły są dostępne pod adresem:

http://pe2014.pkw.gov.pl/pl/wyniki/protokoly/<idGminy><idOkręgu>

Rozkład komisji obwodowych według liczby oddanych głosów:

komisje <- read.csv("komisje-frekwencja.csv", sep = ';',  header=T, na.string="NA");
str(komisje);

fivenum(komisje$lkw);

hist(komisje$lkw, breaks=seq(0, 1250, by=10),
       freq=TRUE,col="orange",main="Wybory2014: komisje wg liczby oddanych głosów ważnych",
       xlab="# głosów",ylab="# komisji (N = 27664)",yaxs="i",xaxs="i")

Zależność pomiędzy frekwencją w wyborach do PE a frekwencją w wyborach do Sejmu 2015:

require(ggplot2)

d <- read.csv("komisje-frekwencja14_15.csv", sep = ';',  header=T, na.string="NA");
# Usuń zagraniczne (jako nietypowe):
d <- subset (d, ( teryt != 149901 ));

ggplot(d, aes(x = freq)) +
  geom_point(aes(y = freq15), colour = 'blue') +
  xlab(label="freq 2014") +
  ylab(label="freq 2015")

## tylko obwody z liczbą głosów > 20 oraz
## frekwencją większą od 60  
d <- subset (d, ( lkw > 20 & lkw15 > 20 & freq > 60 & freq15 > 60))
str(d)
'data.frame':   76 obs. of  19 variables:

Komisji z nietypowo dużą frekwencją (arbitralnie przyjąłem 60%), w których głosowało co najmniej 21 wyborców (też arbitralnie) było 76 (0,2% wszystkich komisji). Okazało się, że praktycznie wszystkie te komisje są zlokalizowane w obwodach ,,specjalnych'' (szpitale, domy pomocy społecznej, areszty itp...)

Zależność pomiędzy odsetkiem głosów nieważnych w wyborach do PE a frekwencją w wyborach do Sejmu 2015:

 ggplot(d, aes(x = pgnw)) +
  geom_point(aes(y = pgnw15), colour = 'blue') +
  xlab(label="nonvalid 2014 (%)") +
  ylab(label="nonvalid 2015 (%)") 

Zwraca uwagę pewna liczba komisji o bardzo dużej liczbie głosów nieważnych:

d <- read.csv("komisje-frekwencja14_15.csv", sep = ';',  header=T, na.string="NA");
# Usuń zagraniczne (nietypowe):
d <- subset (d, ( teryt != 149901 ));

# Usuń krajowe nietypowe tj.areszty/domy pomocy itp:
d <- subset (d, !grepl("Dom pomocy|Domu Pomocy|Areszt|Zakład karny", adres, ignore.case = TRUE));

# Tylko komisje gdzie odsetek gł. nieważnych > 6%
d <- subset (d, ( pgnw > 6 & pgnw15 > 6 ));

str(d);
'data.frame':   861 obs. of  19 variables:

Komisji z ze znacznym odsetkiem głosów nieważnych (przyjąłem 6% jako wartość progową) było zatem 861 (3%). Trzy procent to nie jest aż tak mało, więc warto by się przyjrzeć im bliżej, ale to nie teraz.

Dane pobrane ze strony http://pe2014.pkw.gov.pl/pl/ są dostępne tutaj. Natomiast tutaj znajdują się pobrane ze strony PKW protokoły wyborcze: 1) z wyborów do parlamentu europejskiego 2014r. 2) z wyborów prezydenckich 2015r. 3) z wyborów parlamentarnych 2015r. oraz 4) z wyborów samorządowych 2014r.

Wszelkie komentarze/uwagi/poprawki mile widziane:-)

Brak komentarzy:

Prześlij komentarz