UTF-8

UTF-8 ist ein variabel langer Zeichensatz, was in diesem Beispiel bedeutet, dass er 1 bis 4 Byte pro Symbol nutzt. So wird das erste UTF-8-Byte zur ASCII-Kodierung genutzt, dies ermöglicht volle Abwärtskompatibilität zu ASCII. UTF-8 bedeutet, dass ASCII- und lateinische Zeichen austauschbar sind, mit einem relativ geringen Anstieg der Datengröße, da nur das erste Bit genutzt wird. Benutzer der östlichen Alphabete wie die Japaner, welche einen höheren Zahlenbereich zugeschrieben bekamen, dürften hingegen über die 50% zusätzliche Datenredundanz unglücklich sein.

Was UTF-8 für Sie tun kann

UTF-8 erlaubt ihnen in einer standardkonformen und international akzeptierten, mehrsprachigen Umgebung zu arbeiten, mit einer vergleichsweise geringen Datenredundanz. UTF-8 ist der bevorzugte Weg nicht-ASCII-Zeichen über das Internet, Email, IRC und nahezu jedem anderen Medium zu übertragen. Trotz dessen stehen einige Menschen UTF-8 in der Online-Kommunikation schmähend gegenüber. Es ist daher immer ratsam sich der Haltung in Channels, Mailinglisten, oder Usenet-Gruppen gegenüber UTF-8 bewusst zu sein, bevor man nicht-ASCII UTF-8 verwendet.

Finden oder Erstellen von UTF-8 Locales

Jetzt, wo die Hintergründe zu Unicode sind, ist man bereit auf dem System UTF-8 zu benutzen.

Die Grundvoraussetzung UTF-8 nutzen zu können, ist eine installierte Version von glibc mit National Language Support.

1
USE="nls" emerge -av glibc

Dazu braucht man die /etc/locale.gen Datei.

Nun werden wir überprüfen, ob schon UTF-8-Locales installiert sind, oder ob wir sie erst erstellen müssen.

1
locale -a | grep 'de_DE'

Wenn in der Ausgabe noch keine Locale mit dem Anhang .UTF8 steht, muss diese zuvor erstellt werden.

Notiz: Führen Sie die nachfolgenden Befehle nur aus, wenn Sie keine UTF-8-kompatible Locale für ihre Sprache zur Verfügung haben.

1
localedef -i de_DE -f UTF-8 de_DE.UTF-8

Ein weiterer Weg eine UTF-8-Locale zu erstellen, ist diese der /etc/locale.gen Datei hinzuzufügen und die nötigen Locales mit dem locale-gen Befehl zu erstellen.

1
de_DE.UTF-8 UTF-8

Setzen der Locale

Es muss eine Umgebungsvariable gesetzt werden, damit die neuen UTF-8-Locales genutzt werden können: LC_CTYPE (oder optional LANG, falls auch die Systemsprache geändert werden soll). Es gibt hier wieder einige Möglichkeiten, sie zu setzen. Manche Menschen bevorzugen es, die Einstellung nur für bestimmte Nutzer zu übernehmen; in diesem Fall muss sie entweder in ~/.profile (wenn /bin/sh verwendet wird) bzw. in ~/.bash_profile oder ~/.bashrc (wenn /bin/bash verwendet wird) gesetzt werden.

Andere bevorzugen die Locale global zu setzen. Dies empfiehlt sich besonders, wenn /etc/init.d/xdm genutzt wird, da das Initskript den Displaymanager und den Desktop startet, bevor irgendwelche zuvor erwähnten Shell-Startup-Dateien gelesen werden.

Um die Einstellung global zu übernehmen, muss /etc/env.d/02locale bearbeitet werden. Die Datei sollte wie folgt aussehen:

1
LANG="de_DE.UTF-8"

Notiz: Man kann auch LC_CTYPE anstelle von LANG verwenden. Für weitere Informationen zu den Kategorien, welche von LC_CTYPE betroffen sind, sollte man die GNU Locale Seite lesen.

Als Nächstes muss die Umgebung mit den Änderungen aktualisiert werden.

1
2
env-update
source /etc/profile

Um zu sehen ob die Variablem korrekt in die Umgebung übernommen wurden, führt man einfach locale aus.

1
locale

Zum Abschluss

Um nun das System komplett an UTF-8 zu „gewöhnen“, empfiehlt es sich, noch ein Paar kleine Schritte durchzuführen.

Schrtitt 1 (make.conf editieren):

1
USE="unicode nls"

Schritt 2 (System neu bauen):

1
emerge -DNuav world

Hinweis:

Beschreibung entnommen und angepasst von:
Gentoo Linux Dokumentation – UTF-8 unter Gentoo Linux einrichten

Artikel / Seite weiterempfehlen

Schreibe einen Kommentar

Ihre Email-Adresse wird nicht veröffentlicht. Pflichtfelder sind durch * markiert.

Sie können folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>