Strasznie dużo czasu zmarnowałem usiłując zmienić kodowanie w bazie MySQL na UTF i dopasować skrypty Perla do tej zmiany.
Przestawienie MySQLa na UTF-8 jest proste:
mysql -u www -p --default-character-set=utf8
CREATE database kpma CHARACTER SET utf8 COLLATE utf8_bin;
Baza kpma
(użytkownika www
) będzie kodowana w UTF-8. Można też określić domyślne kodowanie wszystkich baz w pliku konfiguracji MySQLa, tj. w pliku /etc/mysql/my.cnf
(Debian):
[mysqld]
...
default-character-set = utf8
Trochę diagnostyki:
use kpma;
show variables like 'char%';
show table status;
select tytul from Utwor;
## jest OK -- na konsoli widać poprawne różne znaki diakrytyczne
Prawdziwa męka to było zmuszenie Perla do poprawnego traktowania danych UTF.
Trzy kluczowe dla poprawnego przetwarzania UTF sprawy to: 1) klauzula binmod
(patrz poniżej); 2) klauzula use utf8
(jeżeli skrypt zawiera napisy kodowane w UTF); 3) wpisy mysql_enable_utf8
/SET NAMES utf8
dotyczące MySQLa.
Szkielet skryptu Perla wygląda następująco:
#!/usr/bin/perl -w
# -*- coding: utf-8 -*- --
#
use strict;
use utf8; ## skrypt zawiera napisy kodowane UTF
use CGI qw(:standard);
use DBI;
binmode(STDOUT, ":utf8"); ## bez tego problemy z UTF
my $dbname = 'kpma'; ## Nazwa bazy
my $dbuser = 'www'; ## Nazwa użytkownika MySQL
my $dbpasswd = '??????'; ## Hasło dla $dbuser
my $dsn = "dbi:mysql:$dbname:localhost:3306";
my $dbh = DBI->connect($dsn, "$dbuser", "$dbpasswd", { ChopBlanks => 1 });
$dbh->{'mysql_enable_utf8'} = 1;
$dbh->do('SET NAMES utf8');
my $SQL = "SELECT tytul FROM Utwor WHERE id_kompozytor1 = 59 ORDER BY rok ";
##my $SQL = "SELECT nazwisko FROM Kompozytor ";
my $sth = $dbh->prepare($SQL);
$sth ->execute();
while ( my @piece = $sth->fetchrow_array() ) { print ">> @piece\n"; }
$dbh->disconnect || warn "Nie mogę zamknąć bazy $dbname\n";
Jeżeli skrypt korzysta (pobiera dane) z param()
to koniecznie należy zastosować funkcję decode_utf8
:
use Encode; ## param() trzeba dekodować
if (param()) {# -- Wypełniono formularz --
## http://ahinea.com/en/tech/perl-unicode-struggle.html
my $who = Encode::decode_utf8(param("kto"));
Działa nawet z dość starym Perlem:
$perl --version
This is perl, v5.10.0 built for arm-linux-gnueabi-thread-multi
Copyright 1987-2007, Larry Wall