konwert - interfejs do ró¿nych konwersji kodowañ
znaków
konwert FILTR [
PLIK]... [
-o WYNIK |
-O]
Konwert pozwala filtrowaæ wiele plików przez wiele filtrów.
Filtruje podane
PLIKI, albo stdin je¶li ¿adnych nie
okre¶lono.
Prosty
FILTR jest nazw± pliku wykonywalnego z katalogu
~/.konwert/filters albo z ogólnosystemowego, normalnie
/usr/share/konwert/filters. Taki program sam filtruje stdin na stdout.
Regu³a filtrowania mo¿e byæ bradziej skomplikowana:
konwert FILTR1+FILTR2 znaczy
konwert
FILTR1 |
konwert FILTR2.
konwert FORMAT1-FORMAT2, o ile taki filtr nie
istnieje, próbuje znale¼æ wspólny
FORMAT3,
taki ¿e oba filtry
FORMAT1-FORMAT3 i
FORMAT3-FORMAT1 istniej±.
konwert FILTR/ARG/... przekazuje filtrowi
argumenty. Argumenty mog± byæ te¿ podane tutaj:
FORMAT1/ARG-FORMAT2. Znaczenie
arguentów zale¿y od konkretnego filtru.
konwert '(KOMENDA ARG...)' wykonuje dane polecenie
pow³oki. Jest to przydatne z opcjami
-o albo
-O. Komenda
nie mo¿e zawieraæ ³añcucha
)+, który
zakoñczy specyfikacjê tego filtru.
-
-o WYNIK
- wyj¶cie idzie do tego pliku/katalogu zamiast na
stdout
- -O
- ka¿dy plik ¼ród³owy jest
zastêpowany swoim t³umaczeniem
- --help
- wy¶wietla opis i wychodzi
- --version
- wy¶wietla informacjê o wersji i wychodzi
Przekierowanie wyj¶cia do jednego z plików
¼ród³owych przez
-o albo
> zamiast
-O zniszczy ten plik! Opcja
-O tworzy tymczasowy plik w
/tmp i pó¼niej kopiuje go z powrotem na
¼ród³o.
Mo¿na konwertowaæ tekst miêdzy dowolnymi dwoma zestawami
znaków, na przyk³ad
konwert cp437-iso2.
Znaki niedostêpne w docelowym zestawie bêd±
zast±pione przybli¿eniami dostêpnymi znakami.
Przybli¿enia nie musz± byæ pojedynczymi znakami.
Filtry obs³uguj± teraz nastêpuj±ce zestawy
znaków:
- ascii
- siedmiobitowe ASCII
- utf8 = unicode
- Unikod (Unicode) w UTF-8
- iso1 = isolatin1
- ISO-8859-1 albo ISO Latin 1 (zachodnioeuropejskie)
- iso2 = isolatin2
- ISO-8859-2 albo ISO Latin 2
(¶rodkowoeuropejskie)
- iso3 = isolatin3
- ISO-8859-3 albo ISO Latin 3 (Esperanto)
- iso4 = isolatin4
- ISO-8859-4 albo ISO Latin 4 (ba³tyckie)
- iso5 = isolatincyr
- ISO-8859-5 (cyrylica)
- iso6 = isolatinarabic
- ISO-8859-6 (arabskie)
- iso7 = isolatingreek
- ISO-8859-7 (greckie)
- iso8 = isolatinhebrew
- ISO-8859-8 (hebrajskie)
- iso9 = isolatin5 = isolatintur
- ISO-8859-9 albo ISO Latin 5 (tureckie)
- iso10 = isolatin6 = isolatinnordic
- ISO-8859-10 albo ISO Latin 6 (nordyckie)
- iso12 = isolatin7 = isolatinceltic
- ISO-8859-12 albo ISO Latin 6 (celtyckie) - Draft
- iso13 = isolatin8 = isolatinbaltic
- ISO-8859-13 albo ISO Latin 6 (ba³tyckie) -
Draft
- iso14 = isolatin9 = isolatinsami
- ISO-8859-14 albo ISO Latin 6 (Sámi) - Draft
- iso15
- ISO-8859-15 - Draft
- koi8r
- KOI8-R (rosyjskie)
- koi8u
- KOI8-U (ukraiñskie, bia³oruskie)
- koi8uni
- KOI8-Uni (cyrylica)
- cp1250 = wince = winlatin2
- Windows CP-1250 albo Win Latin 2
(¶rodkowoeuropejskie)
- cp1251 = wincyr
- Windows CP-1251 (cyrylica)
- cp1252 = winwest = winlatin1
- Windows CP-1252 albo Win Latin 1
(zachodnioeuropejskie)
- cp1253 = wingr
- Windows CP-1253 (greckie)
- cp1254 = wintur
- Windows CP-1254 (tureckie)
- cp1255 = winhebrew
- Windows CP-1255 (hebrajskie)
- cp1256 = winarabic
- Windows CP-1256 (arabskie)
- cp1257 = winbaltic
- Windows CP-1257 (ba³tytckie)
- cp1258 = winviet
- Windows CP-1258 (wietnamskie)
- cp437 = icmeng
- DOS CP-437 (angielskie)
- cp737 = dosgreek
- DOS CP-737 (greckie)
- cp775 = dosbaltic
- DOS CP-775 (ba³tyckie)
- cp850 = doswest = doslatin1
- DOS CP-850 aka DOS Latin 1 (zachodnioeuropejskie)
- cp852 = dosce = doslatin2
- DOS CP-852 aka DOS Latin 2
(¶rodkowoeuropejskie)
- cp855 = doscyr
- DOS CP-855 (cyrylica)
- cp857 = dostur
- DOS CP-857 (tureckie)
- cp860 = dosportugal
- DOS CP-860 (portugalskie)
- cp861 = dosiceland
- DOS CP-861 (islandzkie)
- cp862 = doshebrew
- DOS CP-862 (hebrajskie)
- cp863 = doscanadfr
- DOS CP-863 (kanadyjskie - francuskie)
- cp864 = dosarabic
- DOS CP-864 (arabskie)
- cp865 = dosnordic
- DOS CP-865 (nordyckie)
- cp866 = dosrussian
- DOS CP-866 (rosyjskie)
- cp869 = dosgreek2
- DOS CP-869 (greckie 2)
- cp874 = dosthai
- DOS CP-874 (tajskie)
- mac
- Macintosh Roman (zachodnioeuropejskie)
- macce
- Macintosh Central European (wschodnioeuropejskie)
- maccyr
- Macintosh Cyrillic (cyrylica)
- macgreek
- Macintosh Greek (greckie)
- maciceland
- Macintosh Icelandic (islandzkie)
- mactur
- Macintosh Turkish (tureckie)
-
csk,
-
cyfromat,
-
dhn,
-
fidomazovia,
-
iea,
-
logic,
-
mazovia,
- microvex
- DOSowe zestawy znaków do polskiego
-
amigapl,
-
fat,
- xjp
- Amigowe zestawy znaków do polskiego
- kamenicky
- DOSowy zestaw znaków do czeskiego i
s¥owackiego
- wingreek
- WinGreek (kodowanie dla staro¿ytnej greki
wed³ug windowsowego fontu)
- babelpl
- TeX [polish]{babel}:
"a"c"e"l"n"o"s"z"r
- ciachy
- TeX \prefixing: /a/c/e/l/n/o/s/x/z
- xmetodo
- Esperanto: cx gx hx jx sx ux
(vx w)
- hmetodo
- Esperanto: ch gh hh jh sh u
- antauxcxap
- Esperanto: ^c ^g ^h ^j ^s ^u (~u)
- postcxap
- Esperanto: c^ g^ h^ j^ s^ u^ (u~)
- apostrofoj
- Esperanto: c' g' h' j' s' u'
- malapostrofoj
- Esperanto: c` g` h` j` s` u`
- viscii
- VISCII (wietnamski)
- viqri
- Vietnamese Quoted Readable Implicit
- htmldec
- SGMLowe/HTMLowe numery znaków (dziesi±tkowo):
Æ ě →
- htmlhex
- SGMLowe/HTMLowe numery znaków (szesnastkowo)
Æ ě →
- htmlent
- SGMLowe/HTMLowe encje (nazwy znaków): Æ
&ecaron →
- html
- Wszystkie trzy powy¿ej (tylko jako format
wej¶ciowy)
- tex
- TeX wraz z niektórymi rozszerzeniami LaTeXa albo
AMS-TeXa. Nie ma rozró¿nienia miêdzy normalnym trybem
a matematycznym - prawdopodobbie bêdziesz musia³
rêcznie podostawiaæ trochê znaków
$.
- mnemonic
- Mnemoniki RFC 1345 poprzedzone przez &
- mnemonic1
- Mnemoniki RFC 1345 poprzedzone przez `
-
any/JÊZYK (np.
any/pl-iso2)
- Ten specjalny format wej¶ciowy rozpozna kodowanie
automatycznie, na podstawie czêsto¶ci znaków
znalezionych w tek¶cie. Z ka¿dym jêzykiem jest
skojarzony zbiór mo¿liwych kodowañ u¿ywanych
dla niego i ¶rednie czêsto¶ci jego liter
(wy³±czaj±c litery ASCII). U¿yte zostanie
najlepiej pasuj±ce kodowanie. Filtr obs³uguje teraz
jêzyki cs (czeski), de (niemiecki), el
(grecki), eo (Esperanto), es (hiszpañski), fr
(francuski), he (hebrajski), it (w³oski), pl
(polski), pt (portugalski), ru (rosyjski) i sv
(szwedzki).
- varpl
- Wymieszane polskie ISO-8859-2, CP-1250 i UTF-8. W polskich
warunkach sugerujê podpiêcie tego jako filtr w czytniku
newsów (dla szybko¶ci lepiej wo³aæ
bezpo¶rednio, a nie przez konwerta).
- vareo
- Wymieszane ró¿ne kodowania Esperanta.
-
/1 (np. konwert iso2-ascii/1)
- Ka¿dy niedostêpny znak bêdzie
zast±piony przez pojedynczy przybli¿aj±cy znak, a nie
przez napis. Przydatne dla programu filterm albo dla preformatowanego
tekstu. Ta opcja jest automatycznie w³±czana je¶li
filtr jest u¿ywany jako wyj¶cie filterma.
- /html
- Zak³ada, ¿e tekst jest HTMLem. Znaki
" & < > wynik³e z przybli¿eñ
innych znaków bêd± prawid³owo wyeskejpowane do
" & < >.
Nag³ówek <META http-equiv="content-type"
content="text/html; charset=..."> bêdzie
poprawiony je¶li wyst±pi.
- /htmldec
- Konwertuje META jak wy¿ej. Niedostêpne znaki
bêd± zakodowane w &#Unikodzie;.
- /htmlhex
- Konwertuje META jak wy¿ej. Niedostêpne znaki
bêd± zakodowane w szesnastkowym &#xUnikodzie;.
- /tex
- Niedostêpne znaki bêd± opisane w TeXu.
Znaki # $ % & \ ^ _ { | } ~ wynik³e z
przybli¿eñ niektórych znaków
bêd± prawid³owo wyeskejpowane do \# \$ \% \&
$\backslash$ \^{} \_ \{ $|$ \} \\~{}.
- /asciichar
- Rozpoznaje niektóre reprezentacje znaków w
ASCII, np. (c) ... 1/2 >=.
- /rosyjski
- Rosyjski tekst bêdzie oddany w polskiej transkrypcji
fonetycznej.
Niektóre filtry wyj¶ciowe mog± u¿yæ
informacji o jêzyku do lepszego przybli¿enia
niedostêpnych liter, np. w
/de (niemieckim):
ä
→
ae zamiast
a.
- any/JÊZYK-test
- Rozpoznaje kodowanie, ale zamiast konwersji tekstu pokazuje
tylko nazwê kodowania. Dodatkowa opcja /all pokazuje
wszystkie mo¿liwe kodowania, posortowane od lepszych do
gorszych.
- cr
- lf
- crlf
- Wymusza okre¶lon± konwencjê oznaczenia
koñców linii. cr = Macintosh, lf = Unix i
Amiga, crlf = Windows i DOS. Konwencja wej¶ciowa jest
rozpoznawana automatycznie.
- expand
- Rozwija tabulacje na spacje (u¿ywa programu expand z
textutils).
- unexpand
- Kompresuje spacje na pocz±tku linii do tabulacji
(u¿ywa programu unexpand z textutils).
- rmspacesateol
- Usuwa spacje i tabulacje z koñców linii.
- qp-8bit
- 8bit-qp
- Kodowanie MIME Quoted Printable: =A3=F3d=BC.
- rtf-8bit
- 8bit-rtf
- Rich Text Format: \\'a3\\'f3d\\'9f.
- txt-htmlchar
- Eskejpuje " & < > w SGMLowe/HTMLowe
encje " & < >. Wygodne do
w³±czania pliku tekstowego w HTMLowych tagach <PRE>
</PRE>.
- htmlchar-txt
- W drug± stronê.
- rot13
- Gb wrfg qrzbafgenpwn ebg13.
- toupper
- tolower
- Zamienia tekst na du¿e / ma³e litery. Na
razie tylko ASCII.
- prn7pl
- Konwertuje polskie znaki na sekwencje sterujêce
drukarki zgodnej z EPSON wykorzystuj±c jedynie podstawowe znaki
7-bitowe, cofaj±c g³owicê drukarki i drukuj±c
na odpowiedniej wysoko¶ci ,.'` daj±ce w sumie pseudo-
polskie znaki. Przyjmuje opcje: /nlq (domy¶lne)
optymalizowane do drukarek o lepszej rozdzielczo¶ci i /draft
- np. dla trybu draft 9-ig³ówki.
- /usr/share/konwert/filters/*
- ~/.konwert/filters/*
trs(1),
filterm(1)
Znak APPLE i zestawach mac* oraz znaki CH i ch w koi8cs nie s±
zachowywane przy konwersji nawet kiedy s± dostêpne.
Równie¿ nie przestrzegaj± opcji /1. Powód: nie ma
ich w Unikodzie.
Konwert jest pakietem s³u¿±cym do konwersji miêdzy
ró¿nymi kodowaniami znaków.
Copyright (c) 1998 Marcin 'Qrczak' Kowalczyk
Niniejszy program jest oprogramowaniem wolnodostêpnym; mo¿esz go
rozprowadzaæ dalej i/lub modyfikowaæ na warunkach Powszechnej
Licencji Publicznej GNU, wydanej przez Fundacjê Wolnodostêpnego
Oprogramowania - wed³ug wersji 2-giej tej Licencji lub
której¶ z pó¼niejszych wersji.
Niniejszy program rozpowszechniany jest z nadziej±, i¿
bêdzie on u¿yteczny - jednak BEZ JAKIEJKOLWIEK GWARANCJI, nawet
domy¶lnej gwarancji PRZYDATNO¦CI HANDLOWEJ albo
PRZYDATNO¦CI DO OKRE¦LONYCH ZASTOSOWAÑ. W celu uzyskania
bli¿szych informacji - Powszechna Licencja Publiczna GNU.
Z pewno¶ci± wraz z niniejszym programem otrzyma³e¶
te¿ egzemplarz Powszechnej Licencji Publicznej GNU; je¶li nie -
napisz do Free Software Foundation, Inc., 59 Temple Place, Suite 330, Boston,
MA 02111-1307 USA
__("< Marcin Kowalczyk * [email protected] http://qrczak.home.ml.org/
\__/ GCS/M d- s+:-- a21 C+++>+++$ UL++>++++$ P+++ L++>++++$ E->++
^^ W++ N+++ o? K? w(---) O? M- V? PS-- PE++ Y? PGP->+ t
QRCZAK 5? X- R tv-- b+>++ DI D- G+ e>++++ h! r--%>++ y-