wtorek, 27 listopada 2007

Czy flickr umie liczyć -- lepsze rozwiązanie

Wymyśliłem lepsze rozwiązanie problemu opisanego tutaj. Ściągane strony są obrabiane ,,w locie'' a w pliku na dysku są zapisywane tylko informacje o liczbie odsłon. Mówiąc konkretniej korzystam z metod store/retrive modułu Storable, zapisując/czytając hasz postaci $PhotoLog{data}{photoid}= views. Generowaniem podsumowań zajmuje się inny skrypt, który wypisuje wyniki w postaci dobrze sformatowanego fragmentu dokumentu HTML (,,opakowanego'' wewnątrz elementu <div>). Ten fragment następnie można wstawić w odpowiednie miejsce strony HTML. Wreszcie ostatni skrypt tworzy wykres liniowy (przy wykorzystaniu modułu GD::Graph) liczby odsłon oraz liczby odsłoniętych zdjęć. Trzy skrypty można połączyć w całość:


#!/bin/bash
perl flick-store-views.pl
if [ "$?" -ne "0" ] ; then echo "** Problems ..." ; exit 1 ; fi
perl flick-report-views.pl -lang=pl -max=25 > 00-pl.phtml && \
perl flick-graph-views.pl
if [ "$?" -ne "0" ] ; then echo "** Problems ..." ; exit 1 ; fi
echo "OK"

Jakoś tak... Przykład wykorzystania jest na tych stronach [1] [2] [3]. Skrypty można pobrać stąd (flick-store-views.pl, flick-report-views.pl oraz flick-graph-views.pl.) Powyższe można nawet wsadzić do crona. Skrypty wykorzystują m.in. moduły GD::Graph::lines oraz Storable. Ten pierwszy musiałem doinstalować do mojej FC5. Z tym był zresztą pewien kłopot ponieważ yum nie zadziałał--nie wiem czemu. Ostatecznie sprawę rozwiązało ,,ręczne'' ściągnięcie perl-GDGraph-1.4307-1.fc5.noarch.rpm, perl-GDTextUtil-0.86-7.fc5.noarch.rpmperl-GD-2.35-1.fc5.i386.rpm ze strony rpm.pbone.net.

Przy okazji dowiedziałem się jak ,,porządnie'' wycentrować tabelę w oknie przeglądarki:


<table style='margin-left: auto; margin-right: auto;' ...

niedziela, 18 listopada 2007

Czy flickr umie liczyć -- rozwiązanie

Łączną liczbę odsłon dla wszystkich zdjęć -- por. poprzedni wpis na ten temat -- można ustalić programistycznie ściągając wszystkie strony albumu (mają one URLe kończące się na pageliczba, tj. page1, page2, page3, itp.). Pod miniaturą każdej fotografii jest odpowiednia informacja. Zwykłe LWP::Simple w zupełności by do tego wystarczył:


use LWP::Simple;
my $max_page = $ARGV[0] || 1; # nie podano ile -- ściągnij pierwszą
$urlbase = "http://www.flickr.com/photos/tprzechlewski/page";

for ($p=1; $p =< $max_page; $p++ ) {
$content = get($urlbase . $p );
die "Couldn't get it!" unless defined $content;
print $content; }

Niech powyższy kod zapisano w ftotal.pl. Teraz można by np. ściągnąć wszystkie strony podając ftotal.pl 161 > ftotal.log a następnie wyłuskać odpowiednie informacje z pliku ftotal.log innym skryptem.

Ale... Ale jest jeden problem. Flickr słusznie nie liczy odsłon (zalogowanego) właściciela albumu. Skrypt nie autoryzuje dostępu i działa jako ,,osoba trzecia'' więc jednocześnie sztucznie nabija statystykę. Jeżeli skrypt byłby uruchamiany cyklicznie zmieniłby znacząco statystykę odsłon głównych stron w albumie. Przykładowo w moim przypadku byłoby to dodanie 161 odsłon, bo tyle liczy -- obecnie -- stron głównych mój album. Można by machnąć ręką, ale z drugiej strony jakby udało się skrypt zalogować...

Logowanie do www.flickr.com jest jednak cokolwiek skomplikowane. Kombinowałem na różne sposoby szukając w google albo gotowców albo podpowiedzi. Pierwszym ,,podejrzanym'' był moduł WWW::Mechanize:


#!/usr/bin/perl
use WWW::Mechanize;

my $mech = WWW::Mechanize->new( autocheck => 1 );

$mech->credentials( 'login' => 'password' );
$mech->get( 'http://www.flickr.com/photos/tprzechlewski/page1/' );
print $mech->content();

Nie działa... Próbowałem, też WWW::Mechanize::Shell, opisany przykładowo w tekście Michaela Schilli Simple Data Scraper (tutaj jest polskie tłumaczenie). BTW były pewne kłopoty z jego zainstalowaniem, ponieważ make test kończy się błędem... Szukając wskazówek do rozwiązania mojego problemu znalazłem także potencjalnie przydatny tekst pt. Secure Web site access with Perl. Podsumowując WWW::Mechanize okazał się strzałem w płot, ale może się przyda do czegoś innego...

Rozwiązanie znalazłem -- jak to często bywa -- trochę przypadkowo. Punktem wyjścia były skrypty ze strony: coder.home.cosmic-cow.net (ich kopie umieściłem tutaj). Następnie posługując się wtyczką do Firefoxa pn. Live HTTP headers ustaliłem co i gdzie trzeba zmienić. Skrypt wykorzystuje moduły HTTP::Request::CommonLWP::UserAgent, koncepcyjnie jest mało skomplikowany ale dość rozwlekły bo liczy ca 100 wierszy. Nie będę go więc cytował, jest dostępny tutaj. Nie do końca jestem też pewny czy wszystkie wywołania GET są potrzebne, ale nie mam czasu/wiedzy tego optymalizować, ważne że działa, tj. udaje zalogowanego użytkownika serwisu flickr.

Skrypt działa w ten sposób, że ściąga n stron ,,głównych'' z mojego konta flickr (te URLe przypominam kończą się na pageliczba). Liczbę n, podaną jako parametr wywołania skryptu, ustalam ,,empirycznie'' konsultując się z flickr.com (ewentualnie w wersji gold-extended skryptu można by to zautomatyzować):


perl flick-total-views.pl 161 > flick-total-views.log && \
perl -h flick-aggr-totals.pl flick-total-views.log > stats.html

Skrypt flick-aggr-totals.pl zlicza co trzeba parsując flick-total-views.log. Na razie pomija pliki, które nie były wcale oglądane (tj. 0 views), ale to łatwo poprawić/zmienić, bo kod HTML generowany przez www.flickr/ nie jest specjalnie zaplątany. Wynik pierwszego zastosowanie ww. skryptów zamieściłem na mojej stronie.

środa, 14 listopada 2007

Czy flickr umie liczyć?

Flickr wyświetla liczbę że tak powiem odsłon pod każdym zdjęciem, zbiorczo dla każdego zbioru oraz łącznie dla całego albumu (zakreślone na czerwono na rysunkach poniżej). Wydawać by się mogło, że np. sumując odsłony dla wszystkich zdjęć otrzyma się łączną liczbę odsłon w albumie, to znaczy ile razy oglądano nasze zdjęcia. Już na pierwszy rzut oka widać, że tak nie jest. Po prostu nic nie jest sumowane a każdy licznik ,,liczy'' swoją stronę. Odzielnie jest sumowana ,,strona główna'', oddzielnie każda strona dla pojedynczego zdjęcia i oddzielnie strona główna każdego zbioru.

A jak obliczyć łączną liczbę odsłon dla wszystkich zdjęć? Wydawałoby się, że to pryszcz, bo flickr słynny jest ze swojego API. Akurat tego jednak nie da się ustalić -- nie ma takiej metody. Wprawdzie flickr.activity.userPhotos. zwraca m.in. liczbę wyświetleń każdej pojedynczej strony, ale tylko dla stron na których coś się stało: dodano komentarz, ktoś dodał taga albo dodał zdjęcie do swoich ulubionych. Do tego maksymalnie można ściągnąć 50 zdjęć na raz (maksymalna wartość per_page), parametr timeframe może przyjąć maksymalnie wartość jednego miesiąca (30d, większe wartości są ignorowane) a metodę można uruchomić powtórnie nie częściej niż co godzinę (czyli co godzinę można ściągnąć jedną stronę). Poddałem się...

Nie ustaliłem wprawdzie ile było odsłon zdjęć w moim albumie ale eksperymentując z API flickera odkryłem przynajmniej jak można obejść się bez perlowego pakietu Flickr-API (ale nie bez Perla). Otóż wystarczą moduły LWP::Simple oraz Digest::MD5:

Niektóre metody nie wymagają uwierzytelnienia. Ich wywołanie jest szczególnie proste -- nie jest potrzebny nawet moduł Digest::MD5 -- i sprowadza się do konstruowania adresów URL według następującego schematu (znak \ na końcu oznacza kontynuację wiersza):


http://www.flickr.com/services/rest/?method=metoda&parametr1=wartość1\
&parametr2=wartość2...

W metodach, które uwierzytelnienia wymagają sprawa się komplikuje. Trzeba podać api_key, auth_token oraz secret (poniżej nazwany shared_secret) opisane tutaj i/lub w dokumentacji modułu Flickr-Upload. Najpierw należy zbudować napis według schematu:


secretapi_keyapi_keyauth_tokenauth_tokenmethodmethodarg1wart1arg2wart2 ...

Następnie utworzyć jego skrót za pomocą funkcji MD5. W przypadku Perla może to wyglądać jak na poniższym przykładzie (metoda flickr.activity.userPhotos ma argumenty page, per_page oraz timeframe). Obliczony skrót dodajemy jako ostatnią część adresu URL:


Digest::MD5 qw(md5_hex);
my $method = 'flickr.activity.userPhotos';

## ...
## skrót MD5:
my $api_sig = md5_hex( "${shared_secret}api_key${api_key}auth_token${auth_token}method${method}" .
"page${page}" . "per_page${per_page}" . "timeframe${timeframe}" ) ;

my $url = "http://www.flickr.com/services/rest/?method=$method" .
"&api_key=$api_key" . "&auth_token=$auth_token" .
"&page=$page" . "&per_page=$per_page" .
"&timeframe=$timeframe" . "&api_sig=$api_sig" ; ## wstaw skrót tutaj

print $url;

Przy okazji -- jak to często bywa -- znalazłem ciekawą stronę dotyczącą języka Perl. Jest też na ww. stronie opis pakietu Flickr-Upload, z którego też korzystam. Norman Walsh zaimplementował nawet API flickra w XSLT -- ciekawe ale przydatność taka sobie.

wtorek, 13 listopada 2007

Jerzy Ustupski

Ten wpis to remanent z tegorocznych wakacji, w czasie których byłem m.in. w Zakopanem. Poszliśmy na słynny cmentarz na Pęksowym Brzysku. Elka wypatrzyła (szkolona:-) grób Jerzego Ustupskiego (,,Patrz a tu jakiś wioślarz...''). Ustupski to medalista olimpijski w deblu czyli dwójce podwójnej z Rogerem Vereyem. Obaj panowie to legendy polskiego sportu. Ciekawy tekst na ten temat znalazłem tutaj. Wyniki z Berlina są zaś tutaj (Men's Double Sculls, BTW walki na finiszu to raczej nie było). Verey napisał książkę pn. 40,000 kilometrów na skifie -- znalazłem ją parę miesięcy temu na Allegro ale już była sprzedana.

Aha, czemu o tym piszę. Bo sam kiedyś, dawno temu--jeszcze karbonowych wioseł nie było--uprawiałem wioślarstwo w AZS-AWF Gdańsk. Bez większych sukcesów, ale sentyment pozostał.

Więcej zdjęć z Pęksowego Brzyska jest tutaj.

Konfigurowanie Emacsa

Domyślne ustawienia w moim Emacsie zmieniają właściciela pliku podczas zapisu (konkretnie grupę). Przykładowo Elka edytuje plik, który należy do grupy family, a jak go zapisze, to plik już nie należy do family tylko do grupy elka. W dokumentacji Emacsa nie mogłem odszukać co trzeba ustawić, ale znalazłem tutaj:


(setq backup-by-copying-when-mismatch t)

Przy okazji pisania o ustawianiu Emacsa wspomnę także o tym jak nakazać tworzenie kopii w katalogu ~/.emacs-backups/, co zapobiega zaśmiecaniu dysku plikami ,,z tyldą'':


;; polecam szczególnie użytkownikom pakietu tramp
(defun make-backup-file-name (file)
(concat "~/.emacs-backups/"
(file-name-nondirectory file) "~"))

Powyższe nastawy należy oczywiście umieścić w pliku ~/.emacs.

niedziela, 11 listopada 2007

Przeliczanie ceny z USD/EUR na PLN

Kiedyś to się mnożyło cenę w USD razy trzy a rezultatem był ekwiwalent w PLN. Ostatnio jednak kurs dolara tak szybko spada, że pomyślałem o jakimś bardziej precyzyjnym narzędziu. Gdyby tak na przykład Firefox wyświetlał co trzeba przeliczone na PLN..., jakiś plugin (currency converter?). Najpierw spróbowałem wtyczkę Change ale nie podobał mi się sposób w jakim ona działa--być może niesłusznie. Za duże zadęcie jak dla mnie: oddzielna belka w menu (podobno można ukryć bez straty dla wygody obsługi) i ciągle musiałem wybierać że chcę konwertować na PLN. Usunąłem Change i zainstalowałem z kolei Yahoo! Finance Currency Converter (wymaga uprzedniego zainstalowania Greasemonkey.

Z tego co zauważyłem do tej pory skrypt powoduje problemy na stronach onet.pl. Nie jest to jednak poważna usterka. Po pierwsze rzadko oglądam strony na onet.pl, a po drugie bardzo łatwo wyłączyć Greasemonkey klikając na ikonę umieszoną na dole okna FireFoxa.

poniedziałek, 5 listopada 2007

Usunięcie zdjęcia ze zbioru (na flickr.com)

Dodać jest łatwo, ale jak usunąć? Nie jest to oczywiste. Ale doszedłem jak to zrobić: uruchomić tzw. organizera (czyli kliknąć w organize). Teraz kliknąć w  Set&Collections. Wybrać -- dwuklikiem -- odpowiedni zbiór (Set). Jak się załadują miniaturki zdjęć przeciągnąć niechciane poza ramkę zawierającą miniaturki jednocześnie wciskając klawisz r. Powinno działać. U mnie przynajmniej działało z FF (wersja 2.0.0.4).

Losowy podpis w programie pine

Jak wstawić losowy cytat via program fortune opisano na tej stronie. Jeżeli podpis ma być generowany a nie wklejany z pliku, to w konfiguracji Pine (setup -> config) literal-signature ma mieć wartość No Value Set a w signature-file należy wstawić (na końcu obowiązkowo znak ,,|''):


ścieżka-do-skryptu/skrypt |

No i dobrze. A ja chciałem w swojej sygnaturze losowy URL do mojego zbioru zdjęć na www.flickr.com/. Do tego zaadaptowałem następujący skrypcik, który ściąga informacje na temat n (konkretnie $max_photos) ostatnio umieszczonych na koncie flickr zdjęć i z tej n-ki losowo drukuje jedno:


#!/usr/bin/perl -s
# The program prints URL of random image out of $max_photos photos ...
use LWP::Simple;

my $my_flickr_id='20425995@N00'; # insert your ID
my $my_flickr_dir='http://www.flickr.com/photos/tprzechlewski';
my $max_photos = '20';
my $api_key = '????????????????'; # insert your API key here
my $method = 'flickr.people.getPublicPhotos';

my $url = "http://www.flickr.com/services/rest/?method=$method&" .
"api_key=$api_key&user_id=$my_flickr_id&per_page=$max_photos";

my $xml = get $url;

if ($xml =~ m/rsp stat=[ \t]*[\`\"]ok/) {# no errors so print
while ($xml =~ m/id=[ \t]*[\`\"]([^\"\']+)[\`\"]/g) { push @Photos, $1; }
} else { die "** Problems fetching $max_photos of $my_flickr_id **"; }

print "$my_flickr_dir/" . $Photos[ int(rand($max_photos)) . "\n";

Skrypcik jest specjalnie odchudzony, tak że korzysta wyłącznie z LWP::Simple i dzięki temu ma większe szanse działania w sytuacjach kiedy dociągnięcie tego czy tamtego modułu jest kłopotliwe. Z tego samego powodu do wyłuskania odpowiednich informacji nie parsuję pliku XML (posługując się np. XML::Simple), a używam wyrażeń regularnych (regułowych?).