Administrator gnu.univ.gda.pl
, czyli kol. Wanted Sochacki zablokował dostęp do http://gnu.univ.gda.pl/~tomasz/wblog
z powodu obciążenia systemu spowodowanego indeksowaniem zawartości przez MSNbota. Zwrócił też uwagę, że dla tego bota nazbyt trudne mogą być URLe generowane w zestawieniu tagów (lewy/górny róg strony, pod zdjęciem) oraz pod każdym wpisem po słowie tagi:
.
Oryginalnie linki te są tworzone tak, że kliknięcie w link taga zwracało dokument, w którym tenże tag był dodany do każdego linka w zestawienia tagów i do każdego linka pod każdym wpisem. Wyglądało to jakoś tak:
http://gnu.univ.gda.pl/~tomasz/cgi-bin/blosxom.cgi?-tags=docbook,mplayer,kolibki
Co oznaczało, że wyświetlone mają być dokumenty zawierające albo docbook
albo mplayer
albo kolibki
. W następnym kliku można było dodać następnego taga itd... Reset listy tagów w URLu następował po wybraniu taga już znajdującego się na liście. IMHO ww. sposób działania niewątpliwie generuje dużo, i w znakomitej większości zbędnych linków. [Ale -- dalej IMHO -- nie generuje nieskończonej liczby URLi ani nie tworzy pętli.]
Najbardziej oczywiste dla mnie rozwiązanie, tj. zarąbać szkodliwego a bezużytecznego intruza (parafrazując Knutha, [TeXBook, s. 299]: If you have been so devious as to use MSN, [...] you will deserve no sympathy (w oryginale chodziło o komunikat o błędzie w systemie TeX:-), nie o MSN):
# msn search bot
User-agent: msnbot
Disallow: /
z niejasnych dla mnie przesłanek zostało określone przez Kol. Wanteda jako pochopny krok. Skoro tak, to nie było innego wyjścia jak zmodyfikować sposób działania blosxom.cgi
.
Żeby link do taga zwracał dokumenty zawierające ten tag, bez modyfikowania linków innych tagów zmieniłem kod wtyczki tagging
w następujący sposób:
$global_tag_list .= qq| '' : ''). ##!!! bez ,,rekursji'' !!!
]]>
Wydaje się, że działa
Brak komentarzy:
Prześlij komentarz