Sie sind auf Seite 1von 10

Internet

Überblick

Internet Überblick 1. Zeichensätze <head> <meta http-equiv="content-type" content="text/html;
1. Zeichensätze
1. Zeichensätze
Internet Überblick 1. Zeichensätze <head> <meta http-equiv="content-type" content="text/html;

<head> <meta http-equiv="content-type" content="text/html; charset=ISO-

8859-1">

<!--

</head>

andere Angaben im Dateikopf

-->

Die Angabe zum Zeichensatzes wird mit http-equiv="content-type" definiert. Daran ist schon erkennbar, dass sich die Angabe auch an den Web-Server richtet.

Bei content= geben Sie zunächst den Dateien immer text/html lautet.

geben Sie zunächst den Dateien immer text/html lautet. Mime-Type an, der für HTML- Dahinter folgt, durch

Mime-Type an, der für HTML-

Dahinter folgt, durch einen Strichpunkt getrennt, die Angabe des Zeichensatzes. Im obigen Beispiel wird der Zeichensatz ISO-8859-1 definiert (das ist der normale Zeichensatz für westeuropäische Sprachen, unter anderem auch für Deutsch). Erlaubt sind Zeichensatzangaben, wie sie auf der Web-Adresse http://www.iana.org/assignments/character-sets angegeben sind.

angegeben sind. Mime steht für M ultipurpose I nternet M ail E

Mime steht für Multipurpose Internet Mail Extensions. Aus dem Namen geht hervor, dass das, was da spezifiert wird, ursprünglich für E-Mails gedacht war - und zwar für E-Mails mit Attachments (englisch für Anhang). Solche so genannten Multipart-Mails enthalten die gesamten zu übertragenden Daten in einer Datei. Innerhalb der Datei musste eine Konvention gefunden werden, wie die einzelnen Teile (z.B. Text der Mail und angehängte ZIP-Datei) voneinander zu trennen seien. Dabei wurde auch ein Schema entwickelt, das der interpretierenden Software mitteilt, um welchen Datentyp es sich bei dem jeweils nächsten Teil der Mail handelt.

Das Schema erwies sich nicht nur für E-Mails als nützlich. Fast immer, wenn entfernte Programme (z.B. Web-Browser und Web-Server) wegen einer bevorstehenden Datenübertragung miteinander kommunizieren, geht es auch um die Art der zu übertragenden Daten. Dabei hat sich im gesamten Internet das Schema der Mime-Typen durchgesetzt. Auch im Web stößt man an verschiedenen Stellen auf Mime-Typen::

Verschiedene HTML-Elemente haben Attribute, die als Wertzuweisung

die Angabe eines Mime-Typen erwarten, nämlich

form (accept= und enctype=),

erwarten, nämlich form ( accept= und enctype= ), a ( type= ), input ( accept= ),

a (type=),

nämlich form ( accept= und enctype= ), a ( type= ), input ( accept= ), param
nämlich form ( accept= und enctype= ), a ( type= ), input ( accept= ), param

input (accept=), param (type=),

link (type=,

script

( accept= ), param ( type= ), link ( type= , script object ( codetype= und

object (codetype= und type=),

(type=) und

, script object ( codetype= und type= ), ( type= ) und style ( type= )

style (type=)

Wenn ein CGI-Script an den aufrufenden Browser einen

) • Wenn ein CGI-Script an den aufrufenden Browser einen HTTP- Header sendet , muss es

HTTP-

Header sendet, muss es den Mime-Type der nachfolgenden Daten senden.

In JavaScript gibt es ein eigenes Objekt

Daten senden. • In JavaScript gibt es ein eigenes Objekt MimeTypes , das es erlaubt, in

MimeTypes, das es

erlaubt, in JavaScript die verfügbaren Mime-Typen des Browsers zu

http://de.selfhtml.org/

Dieser Text ist vollständig aus selfhtml entnommen!

Internet

Überblick

ermitteln.

SSowohl jeder Web-Browser als auch jeder Web-Server führen eine Liste mit ihnen bekannten Mime-Typen. Bei der Kommunikation müssen sie sich darauf einigen, ob der Empfänger den Mime-Type akzeptiert, den der Sender senden will. Moderne Browser akzeptieren zwar in der Regel jeden Mime- Type und bieten dem Anwender einfach an, falls sie den Mime-Typ nicht kennen, die zu empfangenden Daten als Download-Datei abzuspeichern. Web-Server sind dagegen meist empfindlicher. Mime-Typen, die sie nicht kennen, verarbeiten sie nicht. Gerade wenn auf dem Server-Rechner nicht alltägliche Dateiformate bereitgestellt werden, ist es wichtig, den Mime-Type dafür in der Konfiguration des Web-Servers zu notieren.

Bei Standard-Dateiformaten sollten Sie unbedingt die Mime-Type-Angaben

verwenden, die dafür etabliert sind. Die Übersicht auf dieser Seite weiter unten listet viele bekannte Mime-Typen auf. Wenn Sie trotz Recherchen,

zum Beispiel im IANA-

Anhaltspunkte dafür finden, ob es zu einem Dateiformat einen bereits etablierten Mime-Type gibt, können Sie selber einen festlegen. Gleiches gilt für völlig eigene Dateiformate.

Dazu müssen Sie das Schema der Mime-Typen kennen. Ein Mime-Type besteht aus zwei Teilen: der Angabe eines Medientyps und der Angabe eines Subtyps. Beide Angaben werden durch einfachen Schrägstrich voneinander getrennt. Beispiele: text/html, image/gif.

voneinander getrennt. Beispiele: text/html , image/gif . Verzeichnis der Media-Typen keinerlei Die

Verzeichnis der Media-Typen keinerlei

Die ISO-8859-Zeichensätze

Die ISO-8859-Familie wurde vom European Computer Manufacturer's Association (ECMA) entwickelt. Es handelt sich um ein Set von standardisierten Zeichensätzen für alphabetische Schriften. Dazu gehören die lateinischen Schriften, auf denen die meisten Sprachen Westeuropas und Amerikas beruhen, oder etwa die kyrillischen Schriften.

Alle Zeichensätze dieser Familie basieren auf der 1-Byte-Abbildung eines Zeichens. Das heißt, alle Zeichensätze enthalten 256 mögliche Zeichen. Bei allen Zeichensätzen sind die ersten 128 Zeichen, also die Zeichen mit den Werten 0 bis 127, identisch mit dem ASCII-Zeichensatz. Das hat den Vorteil, dass die üblichen lateinischen Groß- und Kleinbuchstaben, die arabischen Ziffern und die üblichen Sonderzeichen wie Satzzeichen oder kaufmännische Zeichen in all diesen Zeichensätzen immer zur Verfügung stehen.

Internet

Überblick

Internet Überblick Oberhalb ist der ASCII-Zeichensatz abgebildet. Die darstellbaren Zeichen dieses Zeichensatzes haben

Oberhalb ist der ASCII-Zeichensatz abgebildet. Die darstellbaren Zeichen dieses Zeichensatzes haben die Werte zwischen 32 und 127. Wert 32 ist das Leerzeichen. Alle ISO-8859-Zeichensätze enthalten diesen Zeichensatz.

Zur Lesart dieser und der folgenden Zeichensatz-Tabellen:

Den Wert eines Zeichens ermitteln Sie, indem Sie die Werte aus Spalten- und Zeilenüberschrift des Zeichens addieren. Ein großes K hat in dieser Tabelle beispielsweise den Zeilenwert 70 und den Spaltenwert 5. Daraus ergibt sich der Wert 75 für dieses Zeichen. Zeichenwerte können bei der Verwendung von Zeichensätzen und Unicodes in HTML eine Rolle spielen. Falls Sie nicht den Dezimalwert eines Zeichens benötigen, sondern den

Hexadezimalwert, können Sie den benutzen.

So wie im ASCII-Zeichensatz die ersten 32 Zeichen (Zeichenwerte 0 bis 31) für Steuerzeichen reserviert sind, sparen auch die erweiterten Zeichensätze der ISO-8859-Familie einen Bereich von Zeichen aus. Es handelt sich um die ersten 32 Zeichen oberhalb des ASCII-Bereichs, also um die Zeichenwerte 128 bis 159. Die Tabellen zu den einzelnen Zeichensätzen weiter unten bilden daher die verbleibenden Zeichenwerte 160 bis 255 ab. Das Zeichen mit dem Wert 160 ist in all diesen Zeichensätzen ein erzwungenes Leerzeichen.

Viele der Zeichensätze der ISO-8859-Familie überlappen sich. Das ist Absicht. Die Zeichensätze sind so optimiert, dass sich mit je einem Zeichensatz möglichst viele Schriften möglichst vollständig abdecken lassen. Zeichen, die in mehreren Zeichensätzen der ISO-8859-Familie vorkommen, haben in der Regel immer den gleichen Wert, d.h. sie befinden sich in den unterschiedlichen Zeichensätzen an der gleichen Stelle.

Sechs der ISO-8859-Zeichensätze beziehen sich auf Schriften, die im Kern auf der lateinischen Schrift basieren. Diese Zeichensätze haben daher noch die Beinamen Latin-1 bis Latin-6.

Dezimal-Hexadezimal-Umrechner

daher noch die Beinamen Latin-1 bis Latin-6 . Dezimal-Hexadezimal-Umrechner Version 1.0_2004 3 ©Katrin Proschek

Internet

Überblick

Liste der ISO-8859-Zeichensätze

Die folgenden Tabellen zeigen die einzelnen Zeichensätze der ISO-8859- Familie. Wie Sie diese Zeichensätze in HTML einsetzen können, wird im

Abschnitt

dargestellten Namen sind jene Bezeichnungen, die Sie in HTML angeben können.

sind jene Bezeichnungen, die Sie in HTML angeben können. Zeichensatzangabe als Meta-Angabe beschrieben. Die blau

Zeichensatzangabe als Meta-Angabe beschrieben. Die blau

ISO- 885 9- 1 (Latin-1)

Dieser Zeichensatz enthält die schriftspezifischen Zeichen für westeuropäische und amerikanische Sprachen. Der Zeichensatz deckt die Sprachen Albanisch, Dänisch, Deutsch, Englisch, Farörisch, Finnisch, Französisch, Galizisch, Irisch, Isländisch, Italienisch, Katalanisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch und Spanisch ab. Lediglich einzelne Zeichen wie das niederländische "ij" oder die deutschen Anführungszeichen unten fehlen.

oder die deutschen Anführungszeichen unten fehlen. ISO- 885 9- 2 (Latin-2) Dieser Zeichensatz enthält die

ISO- 885 9- 2 (Latin-2)

Dieser Zeichensatz enthält die schriftspezifischen Zeichen für die meisten mitteleuropäischen und slawischen Sprachen. Der Zeichensatz deckt die Sprachen Kroatisch, Polnisch, Rumänisch, Slowakisch, Slowenisch, Tschechisch und Ungarisch ab.

Internet

Überblick

Internet Überblick ISO- 885 9- 3 (Latin-3) Dieser Zeichensatz deckt die Sprachen Esperanto, Galizisch, Maltesisch und

ISO- 885 9- 3 (Latin-3)

Dieser Zeichensatz deckt die Sprachen Esperanto, Galizisch, Maltesisch und Türkisch ab.

Sprachen Esperanto, Galizisch, Maltesisch und Türkisch ab. ISO- 885 9- 4 (Latin-4) Dieser Zeichensatz enthält einige

ISO- 885 9- 4 (Latin-4)

Dieser Zeichensatz enthält einige Zeichen der Sprachen Estnisch, Lettisch und Litauisch. Vergleichen Sie diesen Zeichensatz auch mit ISO 8859-10, der sehr ähnlich ist.

Internet

Überblick

Internet Überblick ISO- 885 9- 5 Dieser Zeichensatz enthält kyrillische Zeichen. Er deckt weitgehend die Sprachen

ISO- 885 9- 5

Dieser Zeichensatz enthält kyrillische Zeichen. Er deckt weitgehend die Sprachen Bulgarisch, Mazedonisch, Russisch, Serbisch und Ukrainisch ab.

Mazedonisch, Russisch, Serbisch und Ukrainisch ab. ISO- 885 9- 6 Dieser Zeichensatz enthält Zeichen arabischer

ISO- 885 9- 6

Dieser Zeichensatz enthält Zeichen arabischer Schrift. Die Darstellung der Zeichen in der folgenden Tabelle ist jedoch "abstrakt", da die Zeichen in der Schriftpraxis variieren, je nachdem, ob sie am Anfang, in der Mitte oder am Ende eines Wortes oder einzeln stehen. Arabisch zeichnet sich weiterhin dadurch aus, dass die Schriftrichtung von rechts nach links ist.

Internet

Überblick

Internet Überblick ISO- 885 9- 7 Dieser Zeichensatz enthält die Zeichen der neugriechischen Schrift. ISO- 885

ISO- 885 9- 7

Dieser Zeichensatz enthält die Zeichen der neugriechischen Schrift.

enthält die Zeichen der neugriechischen Schrift. ISO- 885 9- 8 Dieser Zeichensatz enthält die Zeichen der

ISO- 885 9- 8

Dieser Zeichensatz enthält die Zeichen der hebräischen Schrift. Wie bei der arabischen Schrift ist dabei die Schriftrichtung von rechts nach links.

Internet

Überblick

Internet Überblick ISO- 885 9- 9 (Latin-5) Dieser Zeichensatz ist speziell für Türkisch gedacht. Er basiert

ISO- 885 9- 9 (Latin-5)

Dieser Zeichensatz ist speziell für Türkisch gedacht. Er basiert auf ISO 8859- 1, enthält jedoch anstelle der isländischen Sonderzeichen türkische Zeichen.

anstelle der isländischen Sonderzeichen türkische Zeichen. ISO- 885 9- 1 0 (Latin-6) Dieser Zeichensatz enthält

ISO- 885 9- 1 0 (Latin-6)

Dieser Zeichensatz enthält speziell Zeichen für die Sprachen Grönländisch (Inuit) und Lappisch (Sami).

Internet

Überblick

Internet Überblick Allgemeines zu Unicode Unicode ist ein System, in dem die Zeichen oder Elemente aller

Allgemeines zu Unicode

Unicode ist ein System, in dem die Zeichen oder Elemente aller bekannten Schriftkulturen und Zeichensysteme festgehalten werden. Durch dieses System wird es möglich, einem Computer "weltweit" zu sagen, welches Zeichen man dargestellt bekommen will. Voraussetzung ist natürlich, dass der Computer bzw. das ausgeführte Programm das Unicode-System unterstützt.

Unicode strebt die möglichst vollständige Erfassung aller bekannten Zeichen aus gegenwärtigen und vergangenen Schriftkulturen an. Die Zeichen werden nach Klassen katalogisiert und erhalten einen Zeichenwert. Alle nur erdenklichen Zeichen und Zeichensorten werden erfasst. Für Steuerzeichen wie Silbentrennzeichen, erzwungene Leerzeichen oder Tabulatorzeichen gibt es Unicodes. Die Zeichen mathematischer Formeln fehlen ebenso wenig wie die Silben- oder Wortzeichen fernöstlicher Schriftkulturen. Auch Einzelteile von Zeichen, wie etwa die Doppelpunkte über den deutschen Umlauten, haben einen eigenen Unicode. Zeichen lassen sich auch dynamisch kombinieren - so gibt es zwar natürlich auch ein deutsches "ä", aber der gleiche Buchstabe lässt sich auch aus "a" und dem Element für Doppelpunkt über dem Zeichen erzeugen.

Neben der bloßen Adressierung eines Zeichens oder Elements ist im Unicode-System für jedes Zeichen auch ein Set von Eigenschaften definiert. Zur Eigenschaft eines Zeichens gehört z.B. die Schreibrichtung (bei arabischen Zeichen etwa ist die Schreibrichtung von rechts nach links). Insgesamt stecken hinter dem Unicode-System unzählige Forschungsergebnisse der weltweiten Sprachwissenschaft.

Das Unicode-Konsortium, das 1991 gegründet wurde und aus Linguisten und anderen Fachleuten besteht, ermittelt die aufzunehmenden Zeichen. Die vergebenen Zeichenwerte haben verbindlichen Charakter. Seit Version 2.0 ist das Unicode-System auch mit der internationalen Norm ISO/IEC 10646

Internet

Überblick

synchronisiert. Das ist insofern wichtig, als

auch

Sie also wissen wollen, wie man ein bestimmtes Zeichen in HTML oder XML notieren soll, müssen Sie in den Unicode-Zeichentabellen nachsehen, welchen Zeichenwert das gewünschte Zeichen hat. Anschließend können Sie das gewünschte Zeichen durch eine numerische Notation wie z.B. &#9871; (dezimale Schreibweise) oder &#x268F; (hexadezimale Schreibweise mit x)

im Quelltext der HTML- oder XML-Datei notieren.

Die Zeichenwerte der von Unicode erfassten Zeichen wurden bis vor kurzem noch ausschließlich durch eine zwei Byte lange Zahl ausgedrückt. Auf diese Weise lassen sich bis zu 65536 verschiedene Zeichen in dem System

unterbringen (2 Byte = 16 Bit = 2 16 Kombinationsmöglichkeiten). In der Unicode-Vollversion 3.0 vom September 1999 wurden bereits 49.194 Zeichen aus aller Welt aufgelistet - die Grenze von 65536 war also schon zum Greifen nah. In der Version 3.1 vom März 2001 wurden dann nochmals 44.946 Zeichen neu aufgenommen, z.B. Zeichen aus historischen Schriften. Und so kennt die Version 3.1 also bereits 94.140 Zeichen, weshalb die Zwei- Byte-Grenze durchbrochen werden musste. Das Zwei-Byte-Schema, im Unicode-System als Basic Multilingual Plane (BMP) bezeichnet, wird deshalb von einem Vier-Byte-Schema abgelöst, wodurch sich die beruhigende Anzahl

von 4.294.967.296 Zeichen (2 32 Kombinationsmöglichkeiten für Bits) adressieren lässt.

Informationen zum Unicode-Konsortium finden Sie im Web auf der Homepage des Unicode-Konsortiums.

Das große Problem mit Unicode ist eigentlich nur, wie all die vielen Zeichen an einem Computer dargestellt werden sollen. Denn Unicode definiert nur Zeichenwerte und Eigenschaften von Zeichen, aber es enthält ebenso wenig wie herkömmliche Zeichensätze Angaben darüber, wie das Zeichen darzustellen ist. Dazu sind am Computer Schnittstellen wie Schriftarten erforderlich. Die klassischen Computerschriftarten sind dazu jedoch nicht geeignet, da sie sich weitgehend an bestimmten Zeichensätzen orientieren. Neue, Unicode-orientierte Schriftarten verbreiten sich allmählich. In Verbindung mit modernen Betriebssystemen und Anwendungen unterstützen solche Schriftarten zumindest die zwei-byte-breite Adressierung, also den BMP-Anteil des Unicode-Systems.

Adressierung, also den BMP-Anteil des Unicode-Systems. HTML seit Version 4.0 und XML ab Version 1.0 auf

HTML seit Version 4.0 und

BMP-Anteil des Unicode-Systems. HTML seit Version 4.0 und XML ab Version 1.0 auf der Norm ISO/IEC

XML ab Version 1.0 auf der Norm ISO/IEC 10646 aufsetzen. Wenn

Version 4.0 und XML ab Version 1.0 auf der Norm ISO/IEC 10646 aufsetzen. Wenn Version 1.0_2004