konwert

NAZWA

konwert - interfejs do ró¿nych konwersji kodowañ znaków

U¯YCIE

konwert FILTR [PLIK]... [-o WYNIK | -O]

OPIS

Konwert pozwala filtrowaæ wiele plików przez wiele filtrów. Filtruje podane PLIKI, albo stdin je¶li ¿adnych nie okre¶lono.

Prosty FILTR jest nazw± pliku wykonywalnego z katalogu ~/.konwert/filters albo z ogólnosystemowego, normalnie /usr/share/konwert/filters. Taki program sam filtruje stdin na stdout.

Regu³a filtrowania mo¿e byæ bradziej skomplikowana:

konwert FILTR1+FILTR2 znaczy konwert FILTR1 | konwert FILTR2.

konwert FORMAT1-FORMAT2, o ile taki filtr nie istnieje, próbuje znale¼æ wspólny FORMAT3, taki ¿e oba filtry FORMAT1-FORMAT3 i FORMAT3-FORMAT1 istniej±.

konwert FILTR/ARG/... przekazuje filtrowi argumenty. Argumenty mog± byæ te¿ podane tutaj: FORMAT1/ARG-FORMAT2. Znaczenie arguentów zale¿y od konkretnego filtru.

konwert '(KOMENDA ARG...)' wykonuje dane polecenie pow³oki. Jest to przydatne z opcjami -o albo -O. Komenda nie mo¿e zawieraæ ³añcucha )+, który zakoñczy specyfikacjê tego filtru.

OPCJE

-o WYNIK: wyj¶cie idzie do tego pliku/katalogu zamiast na stdout

-O: ka¿dy plik ¼ród³owy jest zastêpowany swoim t³umaczeniem

--help: wy¶wietla opis i wychodzi

--version: wy¶wietla informacjê o wersji i wychodzi

Przekierowanie wyj¶cia do jednego z plików ¼ród³owych przez -o albo > zamiast -O zniszczy ten plik! Opcja -O tworzy tymczasowy plik w /tmp i pó¼niej kopiuje go z powrotem na ¼ród³o.

KONWERSJE KODOWAÑ ZNAKÓW

Mo¿na konwertowaæ tekst miêdzy dowolnymi dwoma zestawami znaków, na przyk³ad konwert cp437-iso2.

Znaki niedostêpne w docelowym zestawie bêd± zast±pione przybli¿eniami dostêpnymi znakami. Przybli¿enia nie musz± byæ pojedynczymi znakami.

Filtry obs³uguj± teraz nastêpuj±ce zestawy znaków:

ascii: siedmiobitowe ASCII

utf8 = unicode: Unikod (Unicode) w UTF-8

iso1 = isolatin1: ISO-8859-1 albo ISO Latin 1 (zachodnioeuropejskie)

iso2 = isolatin2: ISO-8859-2 albo ISO Latin 2 (¶rodkowoeuropejskie)

iso3 = isolatin3: ISO-8859-3 albo ISO Latin 3 (Esperanto)

iso4 = isolatin4: ISO-8859-4 albo ISO Latin 4 (ba³tyckie)

iso5 = isolatincyr: ISO-8859-5 (cyrylica)

iso6 = isolatinarabic: ISO-8859-6 (arabskie)

iso7 = isolatingreek: ISO-8859-7 (greckie)

iso8 = isolatinhebrew: ISO-8859-8 (hebrajskie)

iso9 = isolatin5 = isolatintur: ISO-8859-9 albo ISO Latin 5 (tureckie)

iso10 = isolatin6 = isolatinnordic: ISO-8859-10 albo ISO Latin 6 (nordyckie)

iso12 = isolatin7 = isolatinceltic: ISO-8859-12 albo ISO Latin 6 (celtyckie) - Draft

iso13 = isolatin8 = isolatinbaltic: ISO-8859-13 albo ISO Latin 6 (ba³tyckie) - Draft

iso14 = isolatin9 = isolatinsami: ISO-8859-14 albo ISO Latin 6 (Sámi) - Draft

iso15: ISO-8859-15 - Draft

koi8r: KOI8-R (rosyjskie)

koi8u: KOI8-U (ukraiñskie, bia³oruskie)

koi8uni: KOI8-Uni (cyrylica)

cp1250 = wince = winlatin2: Windows CP-1250 albo Win Latin 2 (¶rodkowoeuropejskie)

cp1251 = wincyr: Windows CP-1251 (cyrylica)

cp1252 = winwest = winlatin1: Windows CP-1252 albo Win Latin 1 (zachodnioeuropejskie)

cp1253 = wingr: Windows CP-1253 (greckie)

cp1254 = wintur: Windows CP-1254 (tureckie)

cp1255 = winhebrew: Windows CP-1255 (hebrajskie)

cp1256 = winarabic: Windows CP-1256 (arabskie)

cp1257 = winbaltic: Windows CP-1257 (ba³tytckie)

cp1258 = winviet: Windows CP-1258 (wietnamskie)

cp437 = icmeng: DOS CP-437 (angielskie)

cp737 = dosgreek: DOS CP-737 (greckie)

cp775 = dosbaltic: DOS CP-775 (ba³tyckie)

cp850 = doswest = doslatin1: DOS CP-850 aka DOS Latin 1 (zachodnioeuropejskie)

cp852 = dosce = doslatin2: DOS CP-852 aka DOS Latin 2 (¶rodkowoeuropejskie)

cp855 = doscyr: DOS CP-855 (cyrylica)

cp857 = dostur: DOS CP-857 (tureckie)

cp860 = dosportugal: DOS CP-860 (portugalskie)

cp861 = dosiceland: DOS CP-861 (islandzkie)

cp862 = doshebrew: DOS CP-862 (hebrajskie)

cp863 = doscanadfr: DOS CP-863 (kanadyjskie - francuskie)

cp864 = dosarabic: DOS CP-864 (arabskie)

cp865 = dosnordic: DOS CP-865 (nordyckie)

cp866 = dosrussian: DOS CP-866 (rosyjskie)

cp869 = dosgreek2: DOS CP-869 (greckie 2)

cp874 = dosthai: DOS CP-874 (tajskie)

mac: Macintosh Roman (zachodnioeuropejskie)

macce: Macintosh Central European (wschodnioeuropejskie)

maccyr: Macintosh Cyrillic (cyrylica)

macgreek: Macintosh Greek (greckie)

maciceland: Macintosh Icelandic (islandzkie)

mactur: Macintosh Turkish (tureckie)

csk,

cyfromat,

dhn,

fidomazovia,

iea,

logic,

mazovia,

microvex: DOSowe zestawy znaków do polskiego

amigapl,

fat,

xjp: Amigowe zestawy znaków do polskiego

kamenicky: DOSowy zestaw znaków do czeskiego i s¥owackiego

wingreek: WinGreek (kodowanie dla staro¿ytnej greki wed³ug windowsowego fontu)

babelpl: TeX [polish]{babel}: "a"c"e"l"n"o"s"z"r

ciachy: TeX \prefixing: /a/c/e/l/n/o/s/x/z

xmetodo: Esperanto: cx gx hx jx sx ux (vx w)

hmetodo: Esperanto: ch gh hh jh sh u

antauxcxap: Esperanto: ^c ^g ^h ^j ^s ^u (~u)

postcxap: Esperanto: c^ g^ h^ j^ s^ u^ (u~)

apostrofoj: Esperanto: c' g' h' j' s' u'

malapostrofoj: Esperanto: c` g` h` j` s` u`

viscii: VISCII (wietnamski)

viqri: Vietnamese Quoted Readable Implicit

htmldec: SGMLowe/HTMLowe numery znaków (dziesi±tkowo): Æ ě →

htmlhex: SGMLowe/HTMLowe numery znaków (szesnastkowo) Æ ě →

htmlent: SGMLowe/HTMLowe encje (nazwy znaków): Æ &ecaron →

html: Wszystkie trzy powy¿ej (tylko jako format wej¶ciowy)

tex: TeX wraz z niektórymi rozszerzeniami LaTeXa albo AMS-TeXa. Nie ma rozró¿nienia miêdzy normalnym trybem a matematycznym - prawdopodobbie bêdziesz musia³ rêcznie podostawiaæ trochê znaków $.

mnemonic: Mnemoniki RFC 1345 poprzedzone przez &

mnemonic1: Mnemoniki RFC 1345 poprzedzone przez `

any/JÊZYK (np. any/pl-iso2): Ten specjalny format wej¶ciowy rozpozna kodowanie automatycznie, na podstawie czêsto¶ci znaków znalezionych w tek¶cie. Z ka¿dym jêzykiem jest skojarzony zbiór mo¿liwych kodowañ u¿ywanych dla niego i ¶rednie czêsto¶ci jego liter (wy³±czaj±c litery ASCII). U¿yte zostanie najlepiej pasuj±ce kodowanie. Filtr obs³uguje teraz jêzyki cs (czeski), de (niemiecki), el (grecki), eo (Esperanto), es (hiszpañski), fr (francuski), he (hebrajski), it (w³oski), pl (polski), pt (portugalski), ru (rosyjski) i sv (szwedzki).

varpl: Wymieszane polskie ISO-8859-2, CP-1250 i UTF-8. W polskich warunkach sugerujê podpiêcie tego jako filtr w czytniku newsów (dla szybko¶ci lepiej wo³aæ bezpo¶rednio, a nie przez konwerta).

vareo: Wymieszane ró¿ne kodowania Esperanta.

OPCJE KONTROLUJ¡CE POWY¯SZE KONWERSJE

/1 (np. konwert iso2-ascii/1): Ka¿dy niedostêpny znak bêdzie zast±piony przez pojedynczy przybli¿aj±cy znak, a nie przez napis. Przydatne dla programu filterm albo dla preformatowanego tekstu. Ta opcja jest automatycznie w³±czana je¶li filtr jest u¿ywany jako wyj¶cie filterma.

/html: Zak³ada, ¿e tekst jest HTMLem. Znaki " & < > wynik³e z przybli¿eñ innych znaków bêd± prawid³owo wyeskejpowane do " & < >. Nag³ówek <META http-equiv="content-type" content="text/html; charset=..."> bêdzie poprawiony je¶li wyst±pi.

/htmldec: Konwertuje META jak wy¿ej. Niedostêpne znaki bêd± zakodowane w &#Unikodzie;.

/htmlhex: Konwertuje META jak wy¿ej. Niedostêpne znaki bêd± zakodowane w szesnastkowym &#xUnikodzie;.

/tex: Niedostêpne znaki bêd± opisane w TeXu. Znaki # $ % & \ ^ _ { | } ~ wynik³e z przybli¿eñ niektórych znaków bêd± prawid³owo wyeskejpowane do \# \$ \% \& $\backslash$ \^{} \_ \{ $|$ \} \\~{}.

/asciichar: Rozpoznaje niektóre reprezentacje znaków w ASCII, np. (c) ... 1/2 >=.

/rosyjski: Rosyjski tekst bêdzie oddany w polskiej transkrypcji fonetycznej.

Niektóre filtry wyj¶ciowe mog± u¿yæ informacji o jêzyku do lepszego przybli¿enia niedostêpnych liter, np. w /de (niemieckim): ä → ae zamiast a.

INNE FILTRY

any/JÊZYK-test: Rozpoznaje kodowanie, ale zamiast konwersji tekstu pokazuje tylko nazwê kodowania. Dodatkowa opcja /all pokazuje wszystkie mo¿liwe kodowania, posortowane od lepszych do gorszych.

cr

lf

crlf: Wymusza okre¶lon± konwencjê oznaczenia koñców linii. cr = Macintosh, lf = Unix i Amiga, crlf = Windows i DOS. Konwencja wej¶ciowa jest rozpoznawana automatycznie.

expand: Rozwija tabulacje na spacje (u¿ywa programu expand z textutils).

unexpand: Kompresuje spacje na pocz±tku linii do tabulacji (u¿ywa programu unexpand z textutils).

rmspacesateol: Usuwa spacje i tabulacje z koñców linii.

qp-8bit

8bit-qp: Kodowanie MIME Quoted Printable: =A3=F3d=BC.

rtf-8bit

8bit-rtf: Rich Text Format: \\'a3\\'f3d\\'9f.

txt-htmlchar: Eskejpuje " & < > w SGMLowe/HTMLowe encje " & < >. Wygodne do w³±czania pliku tekstowego w HTMLowych tagach <PRE> </PRE>.

htmlchar-txt: W drug± stronê.

rot13: Gb wrfg qrzbafgenpwn ebg13.

toupper

tolower: Zamienia tekst na du¿e / ma³e litery. Na razie tylko ASCII.

prn7pl: Konwertuje polskie znaki na sekwencje sterujêce drukarki zgodnej z EPSON wykorzystuj±c jedynie podstawowe znaki 7-bitowe, cofaj±c g³owicê drukarki i drukuj±c na odpowiedniej wysoko¶ci ,.'` daj±ce w sumie pseudo- polskie znaki. Przyjmuje opcje: /nlq (domy¶lne) optymalizowane do drukarek o lepszej rozdzielczo¶ci i /draft - np. dla trybu draft 9-ig³ówki.

PLIKI

/usr/share/konwert/filters/*

~/.konwert/filters/*

B£ÊDY

Znak APPLE i zestawach mac* oraz znaki CH i ch w koi8cs nie s± zachowywane przy konwersji nawet kiedy s± dostêpne. Równie¿ nie przestrzegaj± opcji /1. Powód: nie ma ich w Unikodzie.

COPYRIGHT

Konwert jest pakietem s³u¿±cym do konwersji miêdzy ró¿nymi kodowaniami znaków.

Niniejszy program jest oprogramowaniem wolnodostêpnym; mo¿esz go rozprowadzaæ dalej i/lub modyfikowaæ na warunkach Powszechnej Licencji Publicznej GNU, wydanej przez Fundacjê Wolnodostêpnego Oprogramowania - wed³ug wersji 2-giej tej Licencji lub której¶ z pó¼niejszych wersji.

Niniejszy program rozpowszechniany jest z nadziej±, i¿ bêdzie on u¿yteczny - jednak BEZ JAKIEJKOLWIEK GWARANCJI, nawet domy¶lnej gwarancji PRZYDATNO¦CI HANDLOWEJ albo PRZYDATNO¦CI DO OKRE¦LONYCH ZASTOSOWAÑ. W celu uzyskania bli¿szych informacji - Powszechna Licencja Publiczna GNU.

Z pewno¶ci± wraz z niniejszym programem otrzyma³e¶ te¿ egzemplarz Powszechnej Licencji Publicznej GNU; je¶li nie - napisz do Free Software Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA

AUTOR

 __("<   Marcin Kowalczyk * [email protected] http://qrczak.home.ml.org/
 \__/       GCS/M d- s+:-- a21 C+++>+++$ UL++>++++$ P+++ L++>++++$ E->++
  ^^                W++ N+++ o? K? w(---) O? M- V? PS-- PE++ Y? PGP->+ t
QRCZAK                  5? X- R tv-- b+>++ DI D- G+ e>++++ h! r--%>++ y-

30 Jul 1998

Konwert