Grundeinheiten eines jeden Computers sind Bit und Byte, wobei ein Bit entweder 0 oder 1 (flip oder flop) entspricht und ein Byte eine Folge von 8 Bit ist. Ein Byte kann also 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 256 (0 – 255) Zustände beschreiben, und diese innerhalb eines Zeichensatzes mit alphanumerischen Zeichen belegen.
Zeichensätze sind Tabellen, die einem Byte-Wert ein Zeichen zuordnen, das in unseren Schriftkulturen eine Bedeutung hat. Dateien im Netz bestehen also aus Byte-Werten, die den Zeichensatzes beim Lesen mit dem Browser oder bei der Recherche mit einer Suchmaschine benötigen, mit dem sie auch erstellt wurden.
Wie wir beim Erstellen eines html – Dokumentes bemerkt haben, reicht der Pioneerzeichensatz ASCII (American Standard Code for Information Interchange) – geschichtlich bedingt noch ein 7Bit–Zeichensatz (also nur 128 Zeichen, davon ersten 32 Steuerzeichen) nicht aus, um unsere deutschen Umlaute darzustellen. Erst durch eine Erweiterung von ASCII durch 1 weiteres Bit (noch mal 128 neue Möglichkeiten) die moderne Rechner ermöglichen, wie dies beispielsweise im Zeichensatz ANSI erfolgt ist, lassen sich auch unsere Umlaute korrekt darstellen.
Verlassen wir bei unserer Recherche jedoch alphabetisch aufgebaute Schriften kommt man mit solchen 1Byte – Zeichensätzen schnell an die Grenze. Deswegen entstand und entsteht ein globaler 2Byte – Zeichensatz (65536 verschiedene Zeichen), der Unicode, der aber wieder ein Kapitel für sich ist. Mehr Informationen unter www.unicode.org.