ASCII

Aus IndustryArena
Zur Navigation springen

ASCII, kurz für American Standard Code for Information Interchange (dt.: Amerikanische Standardcodierung für den Informationsaustausch), ist ein Verfahren, um Schrift- und Steuerzeichen in einem begrenzten Zahlenraum von acht Bit zu kodieren. So ist es insbesondere bei der digitalen Übermittlung und Speicherung von Text möglich, eine vergleichsweise hohe Zeichenzahl bei effizienter Speichernutzung zu übertragen. Im ASCII-Code können bis zu 128 unterschiedliche Zeichen kodiert werden. Das umfasst die lateinischen Buchstaben, arabische Ziffern, in der westlichen Welt gebräuchliche Satz- und Sonderzeichen sowie eine Reihe von Steuerzeichen. Die ASCII-Kodierung stellt zudem die Basis für das universell nutzbare Unicode-Codierungssystem UTF-8 und UTF-16 dar.


Funktionsweise

Die ASCII-Kodierung einfach erklärt: Ein ASCII-Zeichen wird in einer acht Bit langen Binärzahl kodiert. Da aber das erste Bit dieser Folge für Steueraufgaben reserviert ist, stehen lediglich sieben Stellen der Zahl zur Verfügung, um Zeichen zu kodieren. Damit ergibt sich ein möglicher Zeichenvorrat von 2⁷ = 128 Zeichen. Von diesen werden wiederum die ersten 32, d.h. die Codepunkte von 0 bis 11111, für nicht druckbare Steuerzeichen genutzt. Es folgen einige Satz- und Sonderzeichen. Erst auf Position 65 (1000001) wird „A“ codiert. Die weiteren Großbuchstaben folgen und sind so für Menschen vergleichsweise einfach von Hand einzugeben und auszulesen. Die Kleinbuchstaben werden ab Position 97 (1100001) definiert und nicht als von den Großbuchstaben abhängig behandelt. Auch die Codepunkte für die arabischen Ziffern, die auf den Positionen ab 110001 kodiert werden, sind aufgrund der vielen führenden Nullen für Menschen identifizierbar.


Geschichte

Schon vor Anbruch des Computerzeitalters spielte die Kodierung geschriebener Sprache für die Übermittlung über lange Strecken eine entscheidende Rolle. So nutzten die optischen Telegrafen des 19. Jahrhunderts zum Beispiel ein System, in dem nicht einzelne Buchstaben, sondern ganze Wörter kodiert wurden. Auf diesem Weg konnten Informationen schnell und effektiv übermittelt werden, trotz der geringen Bandbreite des Mediums. Semaphoren spielten beispielsweise für die militärischen Feldzüge des Kaisers Napoléon Bonaparte eine entscheidende Rolle. Mit den elektrischen Telegrafen stiegen die Anforderungen an die universelle Verwendbarkeit. Zugleich erhöhte sich die Bandbreite der Systeme. Dies ermöglichte die Übertragung mehr Daten in kürzerer Zeit. Aus diesem Grund mussten einzelne Buchstaben für die Übertragung via Telegrafenleitung kodiert werden. Das bis heute bekannteste Kodierungssystem ist das Morsealphabet. Im praktischen Einsatz wurde dieses jedoch vergleichsweise schnell durch den Baudot- und Murray-Code verdrängt. Während das Morsealphabet mit drei unterschiedlichen Signalen arbeitete (langes Signal, kurzes Signal und fehlendes Signal), nutzten die letztgenannten Verfahren bereits eine binäre Kodierung. Sie unterschieden nur noch zwischen an "Strom fließt" und aus "kein Strom fließt". Das machte es möglich, die übertragenen Zeichenfolgen automatisch von Fernschreibern auslesen zu lassen und verringerte die Fehlerrate in der Telegrafie entscheidend.

Das ASCII-Verfahren war zunächst eine direkte Weiterentwicklung des Murray-Codes für Fernschreibersysteme und wurde im Jahr 1963 für Fernschreiber des Herstellers Teletype entwickelt. Dies startete mit einem einzelnen Satz an Buchstaben und ohne Satzzeichen. Die meisten der bis heute im ASCII-Verfahren codierten Steuerzeichen wurden aber schon damals festgeschrieben. So existiert etwa bis heute der Befehl BEL, mit dem ursprünglich eine Glocke "Bell" am Fernschreiber aktiviert wurde. Später wurde der Computer damit aufgefordert ein akustisches Signal auszugeben. Im Jahr 1968 definierte die Internationale Standardisierungsorganisation (ISO) die ASCII-Codierung als weltweite Norm für elektrische Datenübertragungssysteme.

Mit dem Aufkommen universell programmierbarer Rechner war es daher naheliegend dieses System zu übernehmen, denn auch Computer arbeiten im Binärsystem und können das elektronische Codierungsverfahren so 1:1 für die langfristige Speicherung von Daten verwenden. Terminals und Drucker wurden mehr als modernere Fernschreiber wahrgenommen. Mit dem ungleich komplizierteren System EBDIC versuchte zu jener Zeit ein großes Computerunternehmen einen eigenen Standard zu etablieren. Das Unternehmen scheiterte aber am Widerstand anderer Marktteilnehmer und der US-Regierung, die das ASCII-Verfahren befürwortete und in staatlichen Einrichtungen förderte. Auch die auf Computersystemen bis heute gebräuchliche Speichereinheit Byte leitet sich aus der ASCII-Codierung ab. Ein Byte entspricht acht Bit und kann damit genau ein ASCII-kodiertes Schriftzeichen aufnehmen.


ASCII-Tabelle

Überblick

Die ASCII-Tabelle stellt eine Zuordnung binärer Codes zu Schrift- und Steuerzeichen her. Dieses sogenannte Mapping wird einmalig definiert und behält dann über eine breite Anzahl von Systemen seine Gültigkeit. Soweit es möglich ist, erfolgt die Sortierung einem Schema, das sich in Oktetten abbilden lässt. Beispielsweise sind die ersten vier Oktette der Tabelle für Steuerzeichen reserviert. Ziffern und Buchstaben beginnen jeweils zu Beginn eines Oktetts. Dadurch wird nicht nur die manuelle Eingabe der Codes in entsprechende Systeme vereinfacht, sondern auch die Notierung der Tabelle. Durch Nutzung hexadezimaler Notation wird diese in vielen Fällen deutlich leichter lesbar. Es wird somit an Computern möglich ein einzelnes Schriftzeichen, des auf acht Bit erweiterten ASCII-Zeichensatzes mit genau zwei Zeichen in hexadezimaler Notation, darzustellen. Dies bedeutet für die Programmierung niedrig-leveliger Systeme eine enorme Vereinfachung. Sogenannte Hexeditoren geben EntwicklerInnen direkten und vereinfachten Zugang zum Binärcode gespeicherter Daten und Programme.

Erweiterung

Das ASCII-System nutzt in seiner Grundvariante lediglich sieben der acht zur Verfügung stehenden Speicher-Bits. Dadurch ist die Abbildung einer typischen US-Schreibmaschinen-Tastatur möglich. Für Sonderzeichen wie den deutschen Umlauten Ä, Ö, Ü oder andere bietet der Zeichensatz allerdings keinen Platz. Ähnlich ist dies bei Systemen wie der kyrillischen, asiatischen oder arabischen Schrift. Spätestens mit dem weltweiten Siegeszug des Personal Computers in den 80er-Jahren wurde es daher notwendig, die ASCII-Tabelle zu erweitern.

Zunächst wurde dazu das achte Bit des ASCII-Zeichensatzes, welches ursprünglich für Steuersignale auf dem Datenkanal reserviert war, genutzt. Damit wurde der Zeichenvorrat verdoppelt. Es wurde möglich, die von den lateinischen Buchstaben abgeleiteten Sonderzeichen der verschiedenen europäischen Sprachen zu codieren. Die Sonderzeichen Ä, Ø und ¿ ließen sich fortan in ASCII-kodierten Dateien verwenden. Für andere Schriftarten bot das erweiterte ASCII-System jedoch weiterhin keinen Platz. Mit Unicode wurde ab Ende der 80er-Jahre ein alternatives System geschaffen. Unicode 1.0 wurde 1991 finalisiert und bot Platz für 65.536 unterschiedliche Schriftzeichen. Nur fünf Jahre später wurde dieses System auf 1.114.112 Codepunkte erweitert. Bis heute ist dieser Umfang ausreichend, um alle Schriftzeichen der Welt abbilden zu können. Es werden sogar Emojis in Unicode kodiert und einheitlich über alle Systeme hinweg definiert. Um die Kompatibilität mit dem alten ASCII-Verfahren sicherzustellen, entsprechen auch in Unicode die ersten 256 Zeichen weiterhin der klassischen ASCII-Tabelle.


Forschung

Schriftzeichen nach heutigem Verständnis nutzt die Menschheit bereits seit mehr als 5.000 Jahren. Schon die Schrift für sich stellt eine Form der Abstraktion und Kodierung von Information dar. In lautlicher Ausbildung vorliegende Sprachinformationen werden dadurch überhaupt erst auf weiteren Distanzen und über längere Zeiträume übermittelbar. ASCII-Kodierung und Unicode stellen damit aus Sicht der Semiotik eine weitere Abstraktionsebene dar. Wie auch bei anderen digital gespeicherten Daten ist noch nicht ganz klar, wie zukünftig damit umgegangen werden soll. Diese komplex kodierten Schriftstücke sollen auch für künftige Generationen lesbar bleiben. Dabei spielt sowohl die Technologie der Trägermedien eine Rolle als auch die verwendeten Kodierungsverfahren. Gerade Unicode gilt als schwer entzifferbar.


Weiterführende Suche


Nachweise und Literatur

  • Mai-Linh Thi Truong, Jürgen Siebert, Erik Spiekermann (Hrsg.): FontBook. Digital Typeface Compendium (= FontBook 4). 4. überarbeitete und erweiterte Auflage. FSI FontShop International, Berlin 2006, ISBN 3-930023-04-0
  • Richard Gillam: Unicode Demystified: a practical programmer’s guide to the encoding standard. Addison-Wesley, Boston 2003

Bewertung für diesen Artikel:
5.00
(2 Stimmen)