środa, 12 listopada 2008

MSNbot

Administrator gnu.univ.gda.pl, czyli kol. Wanted Sochacki zablokował dostęp do http://gnu.univ.gda.pl/~tomasz/wblog z powodu obciążenia systemu spowodowanego indeksowaniem zawartości przez MSNbota. Zwrócił też uwagę, że dla tego bota nazbyt trudne mogą być URLe generowane w zestawieniu tagów (lewy/górny róg strony, pod zdjęciem) oraz pod każdym wpisem po słowie tagi:.

Oryginalnie linki te są tworzone tak, że kliknięcie w link taga zwracało dokument, w którym tenże tag był dodany do każdego linka w zestawienia tagów i do każdego linka pod każdym wpisem. Wyglądało to jakoś tak:


http://gnu.univ.gda.pl/~tomasz/cgi-bin/blosxom.cgi?-tags=docbook,mplayer,kolibki

Co oznaczało, że wyświetlone mają być dokumenty zawierające albo docbook albo mplayer albo kolibki. W następnym kliku można było dodać następnego taga itd... Reset listy tagów w URLu następował po wybraniu taga już znajdującego się na liście. IMHO ww. sposób działania niewątpliwie generuje dużo, i w znakomitej większości zbędnych linków. [Ale -- dalej IMHO -- nie generuje nieskończonej liczby URLi ani nie tworzy pętli.]

Najbardziej oczywiste dla mnie rozwiązanie, tj. zarąbać szkodliwego a bezużytecznego intruza (parafrazując Knutha, [TeXBook, s. 299]: If you have been so devious as to use MSN, [...] you will deserve no sympathy (w oryginale chodziło o komunikat o błędzie w systemie TeX:-), nie o MSN):


# msn search bot
User-agent: msnbot
Disallow: /

z niejasnych dla mnie przesłanek zostało określone przez Kol. Wanteda jako pochopny krok. Skoro tak, to nie było innego wyjścia jak zmodyfikować sposób działania blosxom.cgi.

Żeby link do taga zwracał dokumenty zawierające ten tag, bez modyfikowania linków innych tagów zmieniłem kod wtyczki tagging w następujący sposób:

$global_tag_list .=  qq|                '' : ''). ##!!! bez ,,rekursji'' !!!
]]>

Wydaje się, że działa

Brak komentarzy:

Prześlij komentarz