Na stronie www.sejm.gov.pl
już dziś pojawiły się strony o nowowybranych posłach 8 kadencji. Strony można ściągnąć na przykład takim oto prostym skryptem basha:
#!/bin/bash # Przykładowy URL: http://www.sejm.gov.pl/Sejm8.nsf/posel.xsp?id=002&type=A padtowidth=3 for ((i=1;i<=460;i++)) ; do ## parametr id w URLu ma wartość 001--460 ## za pomocą printf/tricku z padtowidth dodajemy wiodące zera: POSEL=`printf "%0*d\n" $padtowidth $i` wget 'http://www.sejm.gov.pl/Sejm8.nsf/posel.xsp?id='$POSEL'&type=A'\ -O $POSEL.html done
Na stronach na razie jest niewiele informacji, ale jest data urodzenia, liczba zdobytych głosów oraz okręg wyborczy z którego poseł został wybrany. Za pomocą prostych skryptów Perla można wydłubać te dane, dodać informacje o wieku/płci i zapisać w pliku CSV:
imnz;rokur;wiek;klub;miejsce;okreg;glosy;plec Adam Abramowicz;1961-03-10;54;PiS;NA;7 Chełm;10500;M Andrzej Adamczyk;1959-01-04;56;PiS;NA;13 Kraków;18514;M ...
Jak wygląda struktura wiekowa w poszczególnych klubach? (na poniższym wydruku symbole x.1
, x.2
, x.3
, x.4
oraz x.5
, to odpowiednio: wartość minimalna, pierwszy kwartyl, mediana, trzeci kwartyl oraz wartość maksymalna)
p <- read.csv("Sejm_8_u.csv", sep = ';', header=T, na.string="NA"); boxplot (wiek ~ klub, p, xlab="Klub", ylab="Wiek", col='yellow') aggregate (p$wiek, list(Klub = p$klub), fivenum) aggregate (p$wiek, list(Klub = p$klub), na.rm=TRUE, mean)
A jak wyglądała średnia wieku w poszczególnych kadencjach Sejmu?
p <- read.csv("Sejm1-8.csv", sep = ';', header=T, na.string="NA"); boxplot (wiek ~ kadencja, p, xlab = "Kadencja", ylab = "Wiek", col='yellow') aggregate (p$wiek, list(Kadencja = p$kadencja), fivenum) Kadencja x.1 x.2 x.3 x.4 x.5 1 1991 22.0 37.0 43.0 49.0 70.0 2 1993 24.0 39.0 45.0 50.0 74.0 3 1997 23.0 40.5 46.0 51.0 72.0 4 2001 26.0 43.0 49.0 54.0 78.0 5 2005 23.0 41.0 47.0 53.0 67.0 6 2007 22.0 41.0 48.0 54.0 78.0 7 2011 22.0 42.0 50.0 56.0 73.0 8 2015 23.0 41.5 51.0 59.0 77.0 aggregate (p$wiek, list(Kadencja = p$kadencja), na.rm=TRUE, mean) Kadencja x 1 1991 43.19438 2 1993 45.21535 3 1997 46.42500 4 2001 48.28221 5 2005 46.55230 6 2007 47.32948 7 2011 48.86739 8 2015 49.74783
Dane pobrane ze strony http://www.sejm.gov.pl/Sejm8.nsf/poslowie.xsp?type=A
są dostępne tutaj.
Brak komentarzy:
Prześlij komentarz