unicode - insieme universale di caratteri
Lo standard internazionale ISO 10646 definisce l'insieme universale di caratteri
(UCS: Universal Character Set)". UCS contiene tutti i caratteri di tutti
gli altri standard per insiemi di caratteri. Garantisce anche
"compatibilità ad andata e ritorno", cioè è
possibile costruire tavole di conversione in modo tale da non perdere nessuna
informazione passando da una qualsiasi altra codifica a UCS e viceversa.
UCS contiene i caratteri necessari alla rappresentazione di praticamente tutte
le lingue conosciute. Esso comprende non solo i caratteri latino greco,
cirillico, ebreo, arabo, armeno e georgiano, ma anche alfabeti ideografici
cinese, giapponese e coreano han, e i caratteri hiragana, katakana, hangul,
devanagari, bengali, gurmukhi, gujarati, oriya, tamil, telugu, kannada,
malayalam, thai, lao, khmer, bopomofo, tibetano, runico, etiopico, canadese
sillabico, cherokee, mongolo, ogham, myanmar, sinhala, thaana, yi e altri. Per
caratteri non ancora inclusi la ricerca su come codificarli al meglio è
ancora in corso e prima o poi verranno aggiunti. Ciò potrebbe includere
non solo geroglifici e vari linguaggi storici indo-europei, ma anche alcuni
caratteri artistici selezionati come tengwar, cirth e klingon. UCS include
anche un grande numero di simboli grafici, tipografici, matematici e
scientifici, inclusi quelli forniti da TeX, Postscript, APL, MS-DOS,
MS-Windows, Macintosh e font OCR, oltre a molti sistemi di elaborazione testi
e di editoria, e altri se ne stanno aggiungendo.
Lo standard UCS (ISO 10646) descrive una architettura di caratteri a 31 bit
consistente di 128
gruppi a 24 bit, ciascuno diviso in 256
piani
a 16 bit, composti da 256
righe a 8 bit, con 256
colonne, una
per ciascun carattere. La parte 1 dello standard (ISO 10646-1) definisce le
prime 65534 posizioni (da 0x0000 a 0xfffd), che formano il
Piano
Multi-linguistico di Base (BMP), ovvero il piano 0 del gruppo 0. La parte
due dello standard (ISO 10646-2comune di uta studio dettaglio isca arcosu PAI)
aggiunge caratteri al gruppo 0 al di fuori del BMP in numerosi
piani
supplementari nell'intervallo da 0x10000 a 0x10ffff. Non ci sono piani per
l'aggiunta di caratteri allo standard oltre 0x10ffff, quindi, dell'intero
spazio codice, solo una piccola frazione del gruppo 0 verrà usata nel
prossimo futuro. Il BMP contiene tutti i caratteri che si trovano negli altri
insiemi di caratteri comunemente usati. I piani supplementari aggiunti da ISO
10646-2 coprono solo caratteri esotici per speciali bisogni scientifici,
stampa dizionario, industria editoriale, protocolli di livello più
elevato, e entusiasti.
La rappresentazione di ciascun carattere UCS come parola di 2 byte è
chiamato forma UCS-2 (solo per i caratteri BMP), mentre UCS-4 è la
rappresentazione di ciascun carattere in una parola a 4 byte. In aggiunta
esistono due forme di codifica UTF-8 per retrocompatibilità col
software di elaborazione ASCII e UTF-16 per la gestione della
retrocompatibilità dei caratteri non BMP fino a 0x10ffff del software
UCS-2.
I caratteri UCS nelle posizioni da 0x0000 a 0x007f coincidono con quelli
classici di US-ASCII e i caratteri da 0x0000 a 0x00ff coincidono con quelli
dell'insieme ISO 8859-1 Latin-1.
Alcuni codici di UCS sono stati assegnati a
caratteri combinanti. Simile
ad un tasto accentato che non avanza in una macchina da scrivere, un carattere
combinante aggiunge un accento al carattere precedente. I caratteri accentati
più importanti hanno un loro codice in UCS, ma questo meccanismo
permette di aggiungere accenti a altri segni diacritici a qualsiasi carattere.
I caratteri combinanti seguono sempre il carattere che modificano. Ad esempio,
il carattere tedesco Ä («A maiuscola romana con dieresi»)
può essere rappresentato sia col codice UCS precomposto 0x00c4, oppure
come combinazione di una normale «A maiuscola romana» seguita da
una «dieresi combinante»: 0x0041 0x0308.
I caratteri combinanti sono essenziali per esempio nella codifica dei caratteri
Thai o per la composizione matematica e per gli utenti dell'alfabeto
internazionale fonetico.
Siccome non ci si aspetta che tutti i sistemi possano supportare meccanismi
avanzati come i caratteri combinanti, ISO 10646-1 specifica tre
livelli
d'implementazione per UCS:
- Livello 1
- I caratteri combinanti e Hangul Jamo (una variante della
codifica dell'alfabeto coreano, dove le sillabe Hangul sono codificate
come tripletta o coppia di codici vocale/consonante) non sono
supportati.
- Livello 2
- Come il livello 1, ma alcuni caratteri combinanti sono
permessi in alcuni alfabeti (per es., tailandese, laotiano, ebraico,
arabo, devangari, malese).
- Livello 3
- Tutti i caratteri UCS sono supportati.
Lo Standard Unicode 3.0 pubblicato dall'Unicode Consortium contiene esattamente
il piano multi-linguistico di base UCS al livello 3 d'implementazione, come
descritto in ISO 10646-1:2000. Unicode 3.1 ha aggiunto i piani supplementari
dell'ISO 10646-2. Lo standard Unicode e i raporti tecnici pubblicati
dall'Unicode Consortium forniscono molte informazioni aggiuntive sulla
semantica e sugli usi raccomandati dei vari caratteri. Essi forniscono linee
guida e algoritmi per editing, ordinamento, comparazione, normalizzazione,
conversione e visualizzazione delle stringhe Unicode.
Sotto GNU/Linux, il tipo C
wchar_t è un tipo intero 32-bit con
segno. I suoi valori sono sempre interpretati dalla libreria C come valori del
codice UCS (in tutte le localizzazioni), una convenzione che è
segnalata alle applicazioni dalla libreria C di GNU definendo la costante
__STDC_ISO_10646__ come specificato nello standard ISO C99.
UCS/Unicode può essere usato come semplice ASCII nei flussi input/output,
comunicazioni tra terminali, file di testo, nomi file e variabili d'ambiente
nella codifica multi-byte .B UTF-8 compatibile ASCII. Per segnalare l'uso di
UTF-8 come codifica carattere a tutte le applicazioni deve venire selezionata
una
localizzazione appropriata attraverso variabili d'ambiente (es.,
"LANG=en_GB.UTF-8").
The
nl_langinfo(CODESET) function returns the name of the selected
encoding. Library functions such as
wctomb(3) and
mbsrtowcs(3)
can be used to transform the internal
wchar_t characters and strings
into the system character encoding and back and
wcwidth(3) tells how
many positions (0–2) the cursor is advanced by the output of a
character.
L'intervallo da 0xe000 a 0xf8ff nel Piano multi-linguistico di base, non
verrà mai assegnato dallo standard a nessun carattere ed è
riservato per uso privato. Per la comunità Linux questo intervallo
è stato ulteriormente suddiviso nell'intervallo da 0xe000 a 0xefff, che
può essere usato dall'utente finale, e nell'area Linux nell'intervallo
da 0xf000 a 0xf8ff, le cui estensioni sono coordinate fra tutti gli utenti di
Linux. Il registro dei caratteri assegnati all'area Linux è al momento
mantenuto da LANANA e il registro stesso è
Documentation/admin-guide/unicode.rst nei sorgenti del kernel Linux (o
Documentation/unicode.txt prima di Linux 4.10).
Altri due piani sono riservati per uso privato, il piano 15 (Supplementary
Private Use Area-A, intervallo da 0xf0000 a 0xffffd) e il piano 16
(Supplementary Private Use Area-B, intervallo da 0x100000 a 0x10fffd).
- •
- Information technology — Universal Multiple-Octet
Coded Character Set (UCS) — Part 1: Architecture and Basic
Multilingual Plane. International Standard ISO/IEC 10646-1, International
Organization for Standardization, Geneva, 2000.
- Questa è la specifica ufficiale di UCS. Disponibile
su
http://www.iso.ch/
- •
- The Unicode Standard, Version 3.0. The Unicode Consortium,
Addison-Wesley, Reading, MA, 2000, ISBN 0-201-61633-5.
- •
- S. Harbison, G. Steele. C: A Reference Manual. Fourth
edition, Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3.
- Un buon testo di riferimento sul linguaggio di
programmazione C. La quarta edizione comprende l'Emendamento 1 del 1994
allo standard ISO C90, che aggiunge un buon numero di funzioni di libreria
C per gestire codifiche di caratteri lunghi e multibyte, ma non comprende
ancora la ISO C99, che ha migliorato ulteriormente il supporto per i
caratteri lunghi e multibyte.
- •
- Unicode Technical Reports.
- •
- Markus Kuhn: UTF-8 and Unicode FAQ for UNIX/Linux.
- •
- Bruno Haible: Unicode HOWTO.
locale(1),
setlocale(3),
charsets(7),
utf-8(7)
La traduzione italiana di questa pagina di manuale è stata creata da
Ottavio G. Rizzo <
[email protected]>, Giulio Daprelà
<
[email protected]>, Elisabetta Galli <
[email protected]> e Marco Curreli
<
[email protected]>
Questa traduzione è documentazione libera; leggere la
GNU
General Public License Versione 3 o successiva per le condizioni di
copyright. Non ci assumiamo alcuna responsabilità.
Per segnalare errori nella traduzione di questa pagina di manuale inviare un
messaggio a
[email protected]