Dawno temu zrobiłem systemik formatujący pewien plik XML do postaci pliku PDF. Ten cel jest realizowany na dwa pas. Najpierw skrypt Perla zamienia XML na plik TeXa, który to plik jest zamieniany pdfTeXem na dokument PDF. 10 lat działało i nagle ktoś dostrzegł, że zakładki (bookmarks) są nie po polsku. No nie są, bo kiedyś było to trudne do wykonania... A teraz faktycznie nie jest trudne -- wystarczy zamienić kodowanie z jednobajtowego na UTF-8.
Po tej właśnie linii zaatakowałem problem, tj. 1) zmieniłem kodowanie w generowanym pliku TeXowym z ISO8859-2 na UTF-8 oraz, w związku z tym 2) zmieniłem pdfTeXa na XeTeXa. Jak zwykle nie obyło się bez problemów:
-
Elementy nawigacyjne są definiowane inaczej w XeTeXu niż w pdfTeXu, więc za pierwszym razem bookmarki zniknęły w ogóle. Gdybym swoje makra pisał w LaTeXu problem by nie istniał, ale w plain TeXu zwykle trzeba wszystko samemu... Tym razem na szczęście z pomocą google znalazłem działające gotowe makra pn. navigator.
Kolory też są inaczej definiowane. Ja to zrobiłem tak:
\def\cmykRed{0 1 1 0}
\def\setcolor#1{\special{color push cmyk #1}}
\def\endcolor{\special{color pop}}
\setcolor\cmykRed \bf Cośtam-coś-tam-na-czerwono \endcolorMiłą cechą XeTeXa jest to, że można korzystać z fontów systemowych. Wymyśliłem zatem, że dokument będzie składany fontem TeX Gyre Heros w odmianie wąskiej. Można to zadeklarować następująco:
%% Podstawowym fontem jest TeX Gyre Heros w odmianie `Condensed'
%% cf. http://www.gust.org.pl/projects/e-foundry/tex-gyre/heros
\def\MainFont{TeX Gyre Heros Cn}\def\MainXFont{TeX Gyre Heros}
\font\rm = "\MainFont:mapping=tex-text"
\font\bf = "\MainFont/B:mapping=tex-text"
\font\it = "\MainFont/I:mapping=tex-text"
%% W stopniu 8pt zamiast odmiany wąskiej używamy normalnej %%
\font\eightrm = "\MainXFont:mapping=tex-text" at 6.25pt
\font\eightbf = "\MainXFont/B:mapping=tex-text" at 6.25pt
\font\eightit = "\MainXFont/I:mapping=tex-text" at 6.25ptZapis
mapping=tex-text
oznacza, że font ,,reaguje'' na TeXowe ligatury, m.in--
oraz---
zamieniając je (odpowiednio) na półpauzę i pauzę. Zapis/B
włącza odmianę grubą a/I
kursywę...-
I gdy już wszystko było prawie gotowe nieopatrzenie zajrzałem do pliku
.log
a tam cała masa wpisów:
Invalid UTF-8 byte or sequence at line 22 replaced by U+FFFD.Czyli Perl jednak sygnalizował coś brzydkiego wypisując:
Wide character in print at ....Mój skrypt czyta plik XML, parsuje go z wykorzystaniem
XML::Parser
, który to -- jak powszechnie wiadomo -- wypluwa dokument w UTF-8. Więc czemu w efekcie dostaję błędnie kodowany plik?? Ustalenie co jest nie tak zajęło mi kilka godzin a sprawa sprowadzała się do dodania:
open (OUT, ">:utf8", "plik-out") # zamiast open (OUT, ">plik-out")zamiast
open (OUT, ">:utf8"...
można wpisać:
use open ":encoding(utf8)";
use open IN => ":encoding(utf8)", OUT => ":utf8";Wpisanie zaś:
use utf8 ;wskazuje tylko tyle, że skrypt Perla jest kodowany w UTF-8.
Brak komentarzy:
Prześlij komentarz