UTF-8 unter Gentoo Linux einrichten

Was ist Unicode?

Unicode durchbricht die traditionelle Single-Byte-Grenze der Zeichensätze. Der Zeichensatz nutzt 17 Ebenen von 65.536 Code Points und ermöglicht ein Maximum von 1.114.112 Zeichen. Die erste Ebene wird „Basic Multilingual Plane“ oder BMP bezeichnet und beinhaltet fast alles was Sie je brauchen werden. Viele nahmen fälschlicherweise an, dass Unicode ein 16-Bit-Zeichensatz sei.

Unicode wurde auf verschiedene Weise abgebildet, aber die meist verbreitetsten sind UTF (Unicode Transformation Format) und UCS (Universal Character Set). Eine Nummer hinter UTF gibt die Zahl der Bits in einer Einheit an, während die Nummer hinter UCS die Zahl der Bytes angibt. Aufgrund der sauberen 8-Bit-Basis von UTF-8, ist es die weitverbreitetste Konvention zum Austausch von Unicode-Text geworden und ist daher Thema dieses Dokuments.
Weiterlesen