Semantic Web und Klassifizierungssysteme
Aus Winfwiki
| Name des Autors / der Autoren: | Fiet Potthoff, Markus Wick |
| Titel der Arbeit: | "Semantic Web und Klassifizierungssysteme" |
| Hochschule und Studienort: | FOM Essen |
Inhaltsverzeichnis
|
1 Einleitung
185.497.213. Dies ist laut einer aktuellen Studie des Online-Dienstes Netcraft die weltweite Anzahl von Websites im Januar 2009- bis zu 3 Millionen kommen monatlich hinzu. Wer soll bei dieser Flut an Informationen noch den Überblick behalten?
Tim Berners-Lee, Erfinder des World Wide Web, versucht das Internet durch die Integration von stark vereinfachten
Diensten übersichtlicher zu gestalten. Mittels semantischer Ansätzen soll das Auffinden und Verarbeiten
von Daten und Informationen im WWW automatisiert werden.
Semantik ist die Theorie oder Wissenschaft von der Bedeutung der Zeichen, sie wird auch als Bedeutungslehre bezeichnet.
Tim Berners-Lee verknüpfte diese Bedeutungslehre mit dem World Wide Web und so entstand die Vision des Semantic Web.
Das Sematic Web fungiert dabei als Erweiterung des bestehenden WWW. Bisher besteht das Web aus Daten und Dokumenten, die lediglich durch menschliches Handeln verarbeitet werden können. Die Maschine (Rechner) dient dabei nur als passive Infrastruktur für den Menschen.
Das Semantic Web soll das Zusammenspiel von Mensch und Maschine optimieren, soll das WWW zu neuer, nie zuvor gekannter autarker Intelligenz verhelfen.
Durch die Integration von Strukturen (Syntax) und Bedeutungen (Semantik) sollen Daten maschinenlesbar und –interpretierbar bereitgestellt werden.
Ziel dabei ist die Schaffung von neuen Diensten und Anwendungen, in denen Daten unabhängig von Applikationen, Plattformen oder Domains, von Maschinen und Software automatisch weiterverarbeitet werden.
2 Semantic Web - Wissen kombinieren
Das World Wide Web (WWW) ist aus dem heutigen Altagsleben kaum mehr wegzudenken und erfährt, seit seiner Erfindung Anfang der Neunziger Jahre,
immer stärkere Bedeutung.
Nahezu jeder fünfte Erdbürger besitzt heutzutage einen Internetanschluss [1]., in Deutschland waren es im Jahre 2008 sogar 75% [2]., im europäischen vergleich Platz 5 hinter den Niederlanden (86 Prozent), Schweden (84), Dänemark (82) und Luxemburg (80)- Tendenz steigend.
Die dargestellten Informationen und Daten sind dank der enorm hohen Übertragungsraten nahezu ständig aktuell und für jedermann universell verfügbar.
2.1 WWW - Geschichte und Funktionsweise
Die Entstehung des WWW geht auf die späten Sechziger Jahre zurück. 1969 nutze das US-Verteildigungsministerium das so genannte "ARPANET", ein Projekt der Advanced Research Project Agency (ARPA), zur Vernetzung von Universitäten und Forschungseinrichtungen. Anfangs bestand die Kommunikation über dieses frühe Internet aus FTP-Diensten, E-Mail, Nachrichtendiensten wie "Netnews" und den ersten Informationssystemen "Archie" und "WAIS". Dabei handelte es sich allerdings um eine sehr statische Art der Kommunikation, denn die Vernetzung wurde lediglich Vorort zwischen der Hardware (Rechner) realisiert, eine strukturierte Ablage und Bereitstellung von Informationen gab es noch nicht. Genau diesen Gedankengang nahm 1989 Tim Berners-Lee vom europäischen Kernforschungszentrum CERN in Genf auf: basierend auf einer Informations- und Dokumentendatenbank "CERNDOC" des Forschungszentrums (eine Datenbank für Informationen und Dokumenten einschließlich Stichwortsuche) programmierte Berners-Lee eine Datenbank, die Forschungsergebnisse miteinander in Beziehung setzen konnte, "Enquire" sollte sich allerdings nicht durchsetzen.
Im März 1989 entstand die Idee des "Information Management: A Proposal" (Informationsmanagement: Ein Vorschlag). Auf dem Deckblatt von Berners-Lee Entwurfpapieres waren Objekte mit Pfeilen verbunden- die Idee von Hyperlinks* war geboren.
Zur grafischen Realisierung programmierte sich Tim Berners-Lee einen Server und einen Browser und nannte seinen ersten Prototypen "WorldWideWeb", anfangs noch zusammengeschrieben. Mit fünf Mitarbeitern und 80.000 Schweizer Franken wurde das System weiterentwickelt, Anfang 1993 gab es bereits etwa 50 Server, die HTTP unterstützten.
Der nächste Meilenstein in der WWW-Geschichte war Mitte 1993 die Entwicklung des grafischen Browser "Mosaic“ durch Marc Andreessen am National Center for Supercomputing Applications (NCSA), der University of Illinois. Ende des Jahres waren knapp 500 HTTP-Server in Betrieb. Noch im selben Jahr entschied das CERN, die WWW-Technik lizenzfrei zur Verfügung zu stellen- der Weg zur Nutzung für die Öffentlichkeit wurde somit geebnet.
2.2 Vom Web 1.0 zum Web 2.0
Der Begriff Web 2.0 tauchte das erste Mal im Jahr 2004 auf. Das Internet glänzte mit einer Vielzahl von Daten und Informationen, doch herrschte ein enorm hohes Ungleichgewicht zwischen Bearbeitern und Benutzern.
Online-Netzwerke wie StudiVZ, Myspace und Xing oder Video- und Fotoportale ála Youtube und Flickr wandelten das WWW von einem statischen Informationsdienst hin zu einem “Mitmachnetz“, bei dem ein jeder ohne große EDV- oder Programmierkenntnisse, seine Daten der Welt zur Verfügung stellen konnte. Der Anwender entwickelt sich zu einem Mitwirkenden / Mitentwickler des Internets, wobei das Web (und nicht der Rechner bzw. die Software) als Plattform fungiert.
2.3 Probleme und Grenzen des WWW
Aufgrund der enormen Informationsflut, stößt das Web an seine Grenzen. Es war und bleibt, trotz aller Entwicklung in den letzten Jahren, ein statisches Medium, das für die Nutzung durch den Menschen bestimmt ist. Es speichert die Informationen und Daten, kann sie allerdings nicht verwerten, analysieren oder gar weiterverarbeiten. Die Problematik lässt sich in den folgenden vier Punkten zusammenfassen:
- Informationssuche
- Die Suche nach einen Schlagwort führt oft zu vielen nicht relevanten oder zu nicht allen relevanten Ergebnissen. Grund dafür ist z. B. die Doppeldeutigkeit (Homonyme) von Worten (z. B. "Kiwi", der Begriff steht für eine Frucht, eine Vogelart und umgangssprachlich für die neuseeländische Währung).
- Informationsextraktion
- Die Selektion zwischen wichtigen und unwichtigen Informationen. Diese Unterscheidung kann nur durch ein gewisses Hintergrundwissen oder Allgemeinbildung bewältigt werden.
- Wartung
- Die Daten sollten stets aktuell sein. Dies bedeutet einen ansteigenden Aufwand mit ansteigender Größe der Webseite.
- Personalisierung
- Es sollen nur die Informationen und Daten angezeigt werden, die für einen persönlich relevant sind.
Des Weiteren basiert das Web auf der Programmiersprache "HTML". Diese Sprache gibt vor, wie Informationen dargestellt und miteinander verknüpft werden, aber nicht, was diese Informationen bedeuten. Genau an diesem Punkt, stößt das Web 2.0 an seine Grenzen.
2.4 Lösungsansätze
Zwei denkbare Lösungsansätze lassen sich aus der vorher definierten Problematik ableiten:
Eine Möglichkeit ist der Einsatz von künstlicher Intelligenz, die die Fähigkeit des Menschen annimmt und die Daten und Informationen des Webs brauchbar weiterverarbeitet und zur Verfügung stellt.
Doch trotz hoher Forschungsaktivitäten in diesem Sektor ist die Künstliche Intelligenz (noch) nicht in der Lage, solche Aufgaben zu übernehmen. Dies ist und bleibt noch Zukunftsvision.
Eine zweite Möglichkeit besteht darin, die Daten noch bevor sie veröffentlicht werden, in einer Art zur Verfügung zu stellen, dass die vom Maschinen gelesen und weiterverarbeitet werden können- der Ansatz des Semantic Web.
2.5 Vision nach Tim Berners-Lee
Bisher ist das Internet eine riesige Ansammlung (ein Archiv) von Daten und Informationen, die dem Menschen lesbare Dokumente zur Verfügung stellt. Berners-Lee Vision besteht darin, diese Informationen best möglich zu verarbeiten und global untereinander zu verknüpfen:
Angenommen, Sie finden im Web die Ankündigung eines Seminars und entschließen sich teilzunehmen. Nun sind allerlei Informationen auf dieser Seite, die Sie als Mensch verstehen, nicht aber Ihr Computer. Deshalb müssen Sie einen neuen Kalendereintrag anlegen und die Informationen dorthin übertragen. Dann nehmen Sie Ihr Adressbuch und fügen neue Einträge für alle Seminarteilnehmer hinzu. Und wenn Sie gründlich sind, ermitteln Sie die geografischen Koordinaten des Seminarraums und programmieren sie in Ihr Satellitennavigationsgerät.
Es ist sehr mühsam, das alles von Hand zu tun. Wie wäre es, dem Computer einfach zu sagen: "Ich gehe in dieses Seminar". Wenn es eine semantische Version der Webseite gäbe, enthielte sie markierte Informationen, die dem Computer sagen, "das ist ein Ereignis" sowie Uhrzeit und Datum. Sie würde automatisch die Anreise in Ihren Kalender eintragen, die Teilnehmer ins Adressbuch schreiben und Ihr Navigationssystem programmieren. Sie enthielte die Beziehungen zwischen der Veranstaltung und ihren diversen Leitern. Und diese Leiter hätten persönliche semantische Seiten, die ihre Kontaktdaten enthalten. Ihr Adressbuch kann von einer geschlossenen Datensammlung zu einem Fenster auf personenbezogene Daten weltweit wachsen.[3]
2.6 Ziele des Semantic Web
Das Ziel des Sematic Web lässt sich somit kurz zusammenfassen:
Informationen im Web sollen so dargestellt werden, dass Maschinen damit umgehen, sie aufbereiten und untereinander verknüpfen können, wie es aus menschlicher Sicht nützlich und sinnvoll erscheint.
2.7 Semantische Technologien
Die Grundlage für das Semantic Web stellen die so genannten Semantischen Technologien dar. Diese basieren auf Methoden und Werkzeuge der Modellierung, der formalen Logik und der Künstlichen Intelligenz. Im Folgenden werden diese Technologien vorgestellt.
2.7.1 XML - syntaktische Grundlage des Semantic Web
XML steht für "eXtensible Markup Language" (deutsch: erweiterbare Textauszeichnungssprache) und beschreibt Informationen in Form einer hierarchischen Struktur (Baumstruktur). Dabei unterscheidet eine XML-Datei zwischen Inhalt und Metadaten (Daten, die über einen angegebenen Datensatz Aussagen machen), die den Inhalt beschreiben.
<addressen>
<person>
<name>
<vorname>Markus</vorname>
<nachname>Wick</nachname>
</name>
<stadt>Dortmund</stadt>
<land>Deutschland</land>
</person>
<person>
<name>
<vorname>Fiet</vorname>
<nachname>Potthoff</nachname>
</name>
<stadt>Bochum</stadt>
<land>Deutschland</land>
</person>
</addressen>
Die Metadaten werden dabei in Elementen beschrieben, die von den beiden Start- und Endkennungen (-tag) eingegrenzt werden, z. B. <vorname> Starttag, </vorname> Endtag, vorname Element.
Elemente können Daten, aber auch andere Elemente enthalten, sie können also beliebig tief verschachtelt werden.
Der Inhalt wird beschrieben durch Text, also Zeichendaten, in der Regel ASCII.
Dadurch dass XML eine weit verbreitete, standardisierte Metasprache ist (und somit auch maschinenlesbar), ist diese ein wichtiger Grundstein für die Erstellung von strukturierten Daten. Doch auch die XML-Tags bestehen nur aus Wörter (Zeichenketten), die von Maschinen nicht eindeutig interpretiert werden können. Somit ist XML eine grundlegende Basistechnologie für Semantic Web, reicht allerdings alleine nicht aus, um die semantischen Ansprüche zu realisieren.
2.7.2 RDF - Resource Description Framework
Ein weiteres Puzzlestück in der Verwirklichung des Semantic Web ist das "Resource Description Framework" (System zur Beschreibung von Bezugsquellen), kurz RDF.
Dabei handelt es sich um eine formale Sprache zur Bereitstellung von Metadaten im WWW.
Im Gegensatz zu XML (Baumstruktur) baut RDF auf einem graph-orientierten Datenschema auf. Diese Graphen bestehen aus Knoten und Kanten (Pfeile), die jeweils mit eindeutigen Bezeichern ("URIs" – Web-Adressen, zum Zugriff auf ein Online-Dokument) beschriftet sind.
Zur bildlichen Darstellung ist dieses Graphenschema gut geeignet, nicht jedoch für die Verarbeitung der Daten durch Computersysteme. Die syntaktische Darstellung geschieht durch die Zerlegung des Graphen in seine Bestandteile. Diese Stücke werden anschließend der Reihe nach abgespeichert- in Subjekt, Prädikat und Objekt.
Diese Serialisierung der einzelnen Stücke wird "Tripel" genannt.
- Subjekt (Ressource)
- Werden durch RDF-Ausdrücke beschrieben, in der Regel durch URIs und sind somit eindeutig.
- Prädikat (Eigenschaftselement)
- Verbindung zwischen Subjekt und Objekt. Gibt Auskunft über das Subjekt.
- Objekt
- Gibt den Wert des Prädikats aus.
| Subjekt | Prädikat | Objekt |
| http://www.w3schools.com/RDF | http://www.recshop.fake/siteinfo#author | "Jan Egil Refsnes" |
| http://www.w3schools.com/RDF | http://www.recshop.fake/siteinfo#homepage | "http://www.w3schools.com" |
Zuletzt wird dieses Tripel in XML dargestellt, um es maschinenlesbar zu machen:
1: <?xml version="1.0"?> 2: <rdf:RDF 3: xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 4: xmlns:si="http://www.recshop.fake/siteinfo#"> 5: <rdf:Description rdf:about="http://www.w3schools.com/RDF"> 6: <si:author>Jan Egil Refsnes</si:author> 7: <si:homepage>http://www.w3schools.com</si:homepage> 8: </rdf:Description> 9: </rdf:RDF>
2.7.3 RDFSchema
RDFSchema (kurz: RDFS) ist eine Wissensrepräsentations- oder Ontologiesprache (Beschreibungssprache).
Das Konzept besteht darin, das in RDF formulierte Vokabular mit Hintergrundinformationen (terminologisches Wissen oder Schemawissen) zu versehen, um diese in semantische Beziehungen und Abhängigkeiten zu setzen.
Das RDFS-Sprachkonstrukt unterscheidet dabei zwischen:
- Klassen (classes) und
- Eigenschaften (properties)
Liste aller Klassen und Eigenschaften: http://www.w3.org/TR/rdf-schema/
Beispiel für ein RDFS-Code: [4]
?xml version="1.0"?> <rdf:RDF xmlns:rdf= "http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xml:base= "http://www.animals.fake/animals#"> <rdf:Description rdf:ID="animal"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> </rdf:Description> <rdf:Description rdf:ID="horse"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#animal"/> </rdf:Description> </rdf:RDF>
Mit RDFS sind die ersten semantischen Aspekte eingeflossen, doch auch diese Sprache stößt an seine Grenzen der Modellierungsfähigkeit. So lassen sich zum Bespiel keine negativen Aussagen in RDFS ausdrücken, sondern lediglich die Negationen der Klassen- oder Property-Bezeichnung:
ex:fiet rdf:type ex:Schwimmer ex:fiet rdf:type ex:Nichtschwimmer
2.7.4 OWL
Im Februar 2004 wurde die Ontologiesprache OWL (Web Ontology Language) standardisiert.
Wie auch schon RDF unterscheidet OWL in Klassen und Eigenschaften. Die Ontologiesprache kann diese allerdings in komplexe Beziehungen zueinander setzen. Des Weiteren ermöglicht OWL eine Veröffentlichung und den Austausch von Ontologien*. Die Erweiterung der Sprachkonstrukte ermöglicht somit eine höhere Ausdrucksstärke und die Integration einer Entscheidbarkeit.
OWL existiert in drei verschiedenen Teilsprachen:
OWL Full
- enthält OWL DL und OWL Lite, sowie ganz RDFS
- ausdrucksstarke Sprache
- keine Entscheidbarkeit möglich
- bedingte Kompatibilität mit aktuellen Softwarewerkzeugen
OWL DL
- enthält OWl Lite
- Entscheidbarkeit möglich
- gute Kompatibilität mit aktuellen Softwarewerkzeugen
OWL Lite
- Entscheidbarkeit möglich
- nicht sehr ausdrucksstarke Sprache
Beispiel für ein OWL-Code:
<owl:Class rdf:ID=„Ort"/> <owl:Class rdf:ID=„Stadt"> <rdfs:subClassOf rdf:resource=„#Ort"/> </owl:Class> <Stadt rdf:ID=„Dortmund“/>
2.7.5 SPARQL
SPARQL (SPARQL Protocol and RDF Query Language) ist eine Abfragesprache für das RDF-Format und somit Grundlage des Semantic Webs zur Selektion und Aufbereitung der vorhandnen Informationen und Daten. SPARQL kann durch die gängigsten Programmiersprachen implementiert werden, deren Syntax ähnelt SQL:
SELECT ?x
WHERE
{
?x a page .
?x about „Rock am Ring“ .
}
Obige Abfage kann man folgendermaßen übersetzen: "Ich suche eine Seite über "Rock am Ring".
SPARQL sucht nun aus einem RDF-Graphen eine oder mehrere Teilmengen nach diesen Bedingungen ab. Das Ergebnis lautet in diesem Fall:
Result: =============================== X =============================== <http://www.rock-am-ring.com/> ===============================
Die Ausgabe der Ergebnisse kann in Tabellen und in RDF erfolgen.
2.8 Umsetzung des Semantic Web
Bisher gibt es noch nicht viele semantische Umsetzung von Webseiten. Die hier aufgeführten Bespiele sind teilweise noch in der Entwicklungsphase:
- Swoogle ist eine semantische Suchmaschine, die im Web nach RDF- und HTML-Dokumenten sucht.
- Deutsches Forschungsprogramm Rund um das Thema Semantic Web
- Soziales Netzwerk
- Projekt mit dem Ziel der öffentlichen Administration der Europäischen Union mit Semantic Web Services
2.9 WWW <-> Semantic Web
Zusammenfassend kann man sagen, dass das Semantic Web noch in den Kinderschuhen steckt, aber ein enormes Potential besitzt, das Web zu revolutionieren. Dabei bietet es einige Lösungsansätze, um Herr über die Unmengen an Informationen und Daten im weltweiten Netz zu werden.
Letztendlich ergänzen sich das WWW und das Semantic Web. Das Semantic Web ist als eine Erweiterung des WWW anzusehen, dass ein Auffinden und Strukturieren von Daten und Informationen vereinfachen soll und diese sinngemäß verknüpft und miteinander austauscht.
Problematisch ist allerdings das Beschreiben der vorhandenen Daten mit semantischen Inhalten. Wie eingangs erwähnt, umfasst das Internet knapp 185.000.000 Seiten. Gerade einmal 2%[5] sind davon semantisch.
Neu erstellte Webseiten lassen sich mittels RDF/OWL-Editoren (z.B. SemanticWorks) mit semantiscehn Daten versehen. Bei bereits existierenden Seiten ist dies allerdings nicht so einfach: Abhilfe könnte da eine Software liefern, die Webseiten in semantische Seiten ummodeliert. Das Handling und die Zuverlässigkeit solcher Wandlungssoftware ist jedoch eher Fragwürdig.
Eine weitere Methode bestände in der Nutzung der Synergieeffekte des "Mitmachnetzes". Die Internetuser sollen dazu mobilisiert werden, ihre Daten selbst, unter Verwendung eines bereitgestellten Softwarepaketes, semantisch zu machen. Erste Impulse wurden bereits duch das Theseus-Programm vermittelt. Der Anwender als Entwickler- dies hat bereits einmal sehr gut funktioniert- beim Web 2.0.
3 Klassifizierungssysteme
Unter dem Begriff Klassifizierung versteht man das Zusammenfassen von Objekten zu Klassen.
Die Zuordnung bei der Klassifikation ist so aufgebaut, dass jede Klasse nur eine einzige Oberklasse haben darf. Um die jeweiligen Klassen zu beschreiben, werden Kommentare der Klasse hinzugefügt. Die unterschiedlichen Klassen werden meistens miteinander verknüpft.
3.1 Systematik
3.1.1 Top-down
Beim Top-down Klassifizierungsverfahren werden folgende 3 Schritte abgearbeitet:
1. Klassen vorgeben
2. Merkmale auswählen
3. Klassengrenzen ziehen
Bei der Klassifizierung wird eine feste Anzahl von Klassen definiert, es müssen zusätzlich noch die jeweiligen Grenzen festgelegt werden.
Zur Festsetzung entscheidener Merkmale werden folgende Verfahren angewendet:
- Ranking von Merkmalen
- durch Bestimmen der Korrelation
- mit Hilfe der Informationstheorie
- Merkmalsauswahlverfahren
- Filter
- Wrapper
- Hauptkomponentenanalyse, PCA
3.1.2 Bottom-up
Beim Bottom-up Verfahren wird genau entgegengesetzt dem Top-down Klassifizierungsverfahren vorgegangen.
3.1.3 Problematik
Folgende Schwierigkeiten können beim Klassifizieren auftreten:
Unsaubere Kriterien
Um Objekte klassifizieren zu können ist es notwendig, dass klare Kriterien definiert werden, die entscheiden, ob ein Objekt zu einer bestimmten Klasse gehört. Falls dies nicht präzise genug erfolgt, ist es nicht möglich diese Objekte zu einer Klasse zusammenzuführen. Bei der Klassifizierung passiert dieser Fehler recht häufig.
Welche Parameter entscheiden, ob ein bestimmtes Musikstück einer Musikrichtung zugeordnet werden kann?
Aus diesem Grund ist es wichtig, dass möglicht viele Kriterien so detailliert wie möglich erfasst werden.
Falsche Merkmale
Viele Probleme treten dadurch auf, dass Merkmale nicht korrekt zugeordnet bzw. miteinander verknüpft werden.
Es ist beispielsweise nicht möglich einen Kinderwagen der Klasse KFZ zuzuordnen nur weil dieser vier Räder hat.
Dadurch entsteht ein nicht logischer Zusammenhang zwischen den Objekten. Somit ist keine korrekte Klassifizierung möglich.
Fließende Übergänge
Die Abgrenzung von verschiedenen Klassen kann in der Praxis problematisch sein, da nicht immer klare Grenzen definiert sind. So ist es beispielsweise schwierig die Klassengrenzen zum beispiel „warme Länder“ festzulegen.
Es können jedoch künstliche Trennlinien eingeführt werden, die eine Abgrenzung ermöglichen.
Nichttrennbarkeit
Wenn zwei Objekte viele gleiche Eigenschaften haben, oder wenn die Merkmale nicht aussagekräftig genug sind, ist es schwierig diese voneinander klar abzugrenzen.
Ausreißer
Die Qualität der Merkmale ist nicht immer garantiert. Somit ergibt sich eine Fehlerquote die schwer zu identifizieren ist.
Restobjekte
Bei der Klassifizierung ist es so gut wie unmöglich alle Objekte zuzuordnen. Es bleiben am Ende meistens einige Objekte übrig, die nicht klar weiterverwendet werden können. Dies lässt die gesamte Klassifikation an Qualität verlieren.
3.2 Arten von Klassifizierungssystemen
3.2.1 Thesaurus
Nach Din 1463:
“Ein Thesaurus [..] ist eine geordnete Zusammenstellung von Begriffen und ihren […] Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient.“[6]
Ein Thesaurus muss sich zwischen zwei Polen orientieren: zum einen muss er speziell auf die Bedürfnisse konstruiert sein, andererseits soll er aber auch von verschiedenen Systemen gleichartig eingesetzt werden können.[7]
3.2.2 Verzeichnis
Verzeichnisse dienen der übersichtlichen Darstellung von Informationen. Informationen werden bei Verzeichnissen stark strukturiert dargestellt.
Ein Beispiel für eine Verzeichnisstruktur:
3.2.3 Ontologien
Unter dem Begriff Ontologie versteht man die automatisierte Verknüpfung bzw. Weitergabe von gespeicherten Informationen. Der bekannteste Definitionsversuch von Gruber bezeichnet die Ontologie als explizite formale Spezifikation einer gemeinsamen Konzeptualisierung. Die Ontologie verwendet sogenannte Metadaten um Informationen identifizieren zu können. Sie stellt Beziehungen und auch Ableitungsregeln zwischen Informationen mithilfe der sogenannten standardisierenden Terminologie her. Nach Ron Weber unterscheidet man drei Stufen von Ontologien.
1. allgemeine, Bereichsübergreifende (top level ontologies) Daten- und Klassenmodelle
2. auf bestimmte Anwendungsbereiche bezogene (domain ontologies) Daten- und Klassenmodelle
3. bekannte konzeptuelle Daten- und Klassenmodelle
In der Informatik wird die Ontologie hauptsächlich für Kommunikation, Repräsentation sowie Wiederverwendung von Wissen verwendet.[8]
3.2.4 Taxonomien
Die Taxonomie dient der Klassifikation von Daten. Es werden Metadaten erfasst, die es ermöglichen Informationen miteinander zu verbinden. In den Taxonomien werden alle Klassen, Objekte und Beziehungen festgehalten. Die Taxonomien sind nach der Baumstruktur aufgebaut und gehen mit jeder Abzweigung weiter in die Tiefe der Klassifizierung.
3.3 Einsatzmöglichkeiten
Klassifikationen werden in vielen unterschielichen Bereichen eingesetzt:
Allgemeine Bibliotheksklassifikationen
dient der allgemeinen Ordnung der Bibliotheksbestände
Patentklassifikationen
dienen der Ordnung von Patentdokumenten
Proficl@ss
zur Klassifikation von Produkten verschiedener Branchen in einem einheitlichen Klassifikationssystem
4 Anwendungsbeispiel: eCl@ss - Klassifizieren mit semantischen Attributen
eCl@ss ist ein hierarchisches System zur Gruppierung von Materialien, Produkten und Dienstleistungen nach einem logischen Schema in einer Detaillierung entsprechend der produktspezifischen Eigenarten, die sich mittels normenkonformer Merkmale beschreiben lassen.
Das eCl@ss-System besteht aus den folgenden Elementen:
Klassen
Die Klassen oder Warengruppen erlauben es, Produkte zu gruppieren und auf diese Weise zu ordnen.
Schlagworte
Durch den einzelnen Klassen zugeordnete Schlagworte wird die Suche nach Produkten vereinfacht und standardisiert (z.B. Warengruppe "Stühle" wird auch bei Suchbegriffen wie "Sitz" oder "Bürostuhl" gefunden).
Merkmale
Merkmale sind zusätzliche Produktattribute, die nur für Produkte einer speziellen Klasse sinnvoll verwendet werden können, beispielsweise die Leistung bei Glühlampen oder der Durchmesser bei Röhren. Das Ziel ist die Einbringung dieser Merkmale in die Normung, d. h. DIN/ISO, DKE/IEC[9]
eCl@ss hat derzeit im Release 6.0 insgesammt 32.592 Klassen die sich wie folgt gliedern:
26 Sachgebiete
559 Hauptgruppen
4.953 Gruppen
27.053 Untergruppen
Zusätzlich verfügt eCl@ss derzeit über 51.329 Schlagworte.
5 Fazit
Wie das Anwendungsbeispiel "eCl@ss" zeigt, lassen sich gerade im Bereich des e-Procurement semantische Technologien bestens einsetzen. Bei den elektronischen Beschaffungsprozessen müssen die Produkte zwangsläufig hierarchisch Klassifiziert werden. Die Anwendung greift also auf einen bereits komplett durchstrukturierte Datensatz zurück (im Gegensatz zum Semantic Web, bei dem lediglich 2% der Daten und Informationen im WWW semantisch sind). Somit ist es möglich, gezielt nach Bedeutungen zu suchen, um ein bestimmtes Produkt oder eine Dienstleistung aufzufinden.
Durch die Klassifikation von Daten erhöht sich die Qualität aller gespeicherten Informationen. Da diese miteinander in Beziehung gesetzt werden und somit zusammenhänge geschaffen werden. Da das System plattformunabhängig ist, kann es in jeglichen Datenbanken eingesetzt werden.
Eine Umfrage aus dem Jahr 2002 des Fraunhofer Instituts zeigt die Akzeptanz von Semantischen Klassifizierungssystemen in der Praxis. Laut dieser Studie setzen 34,9% der befragten Unternehmen eine Standardproduktklassifikation ein. Dies wirkt auf den ersten Blick nicht viel, jedoch muss beachtet werden, dass die Umstellung auf ein semantisches Klassifizierungssystem ein weiter Weg für die Unternehmen ist.[12]
6 Abkürzungsverzeichnis
| Abkürzung | Bedeutung |
|---|---|
| Abb | Abbildung |
| ARPE | Advanced Research Project Agency |
| ASCII | American Standard Code for Information Interchange |
| bzw. | beziehungsweise |
| CERN | Europäische Organisation für Kernforschung (Conseil Européen pour la Recherche Nucléaire) |
| DIN | Deutsche Industrie Norm |
| DKE | Deutsche Kommission Elektrotechnik |
| eCl@ss | electronic Classification |
| EDV | Elektronische Datenverarbeitung |
| Electronic Mail | |
| ER | Entity-Relationship |
| FTP | File Transfer Protocol |
| HTML | Hypertext Markup Language |
| HTTP | Hypertext Transfer Protocol |
| IEC | International Electrotechnical Commission |
| ISO | International Organization for Standardization |
| KFZ | Kraftfahrzeug |
| NCSA | National Center for Supercomputing Application |
| OWL | Web Ontology Language |
| PCA | Principal Component Analysis |
| RDF | Resource Description Framework |
| RDFS | RDFSchema |
| RDFSchema | Resource Description Framework Schema |
| SPARQL | SPARQL Protocol and RDF Query Language |
| SQL | Structured Query Language |
| URI | Uniform Resource Identifier |
| US | United States (of America) |
| WAIS | Wide Area Information Server System |
| WWW | World Wide Web |
| XML | eXtensible Markup Language |
6.1 Abbildungsverzeichnis
| Abbildung Nr. | Abbildungsbezeichnung |
|---|---|
| 1.1 | Webseiten weltweit - Stand: Januar 2009 |
| 2.1 | Entwicklung Internetanschlüsse weltweit |
| 2.1.1 | "Information Management: A Proposal" by Tim Berners-Lee |
| 2.1.2 | Meilensteine in der Entwicklung des Internets |
| 2.2.1 | Logo Web 2.0 |
| 2.4.1 | Logo Semantic Web |
| 2.5.1 | Tim Berners-Lee |
| 2.7.2.1 | Graph of a data Model |
| 2.7.3.1 | Darstellung RDFSchema |
| 2.7.4.1 | Teilsprachen OWL |
| 3.1 | Klassifikation in 5 Klassen |
| 3.2.2.1 | Verzeichnisstruktur |
| 4.2.1 | Klassenstruktur von eCl@ss |
| 4.2.2 | ER-Diagramm der Ecl@ss-Strukturen |
| 4.2.3 | Beispiel einer Produktklassifizierung nach eCl@ss |
6.1.1 Tabellenverzeichnis
| Tabelle Nr. | Quelle |
|---|---|
| 1 | Trippels of a data Model http://www.w3schools.com/rdf/RDFvalidationresult.htm |
6.1.2 Literatur- und Quellenverzeichnis
- ↑ vgl. "Internet-Verbreitung - Fast jeder fünfte Erdenbürger ist online", sueddeutsche.de (2007) http://www.sueddeutsche.de/computer/54/323920/text/
- ↑ vgl. "Verbreitung von Internet-Anschlüssen wächst", MacGadget (2009) http://www.macgadget.de/News/2009/01/08/Verbreitung-von-Internet-Anschlüssen-wächst
- ↑ vgl. "Das Unvollendete" von Mark Frauenfelder, Technology Review 11/2004, Report http://www.heise.de/tr/Das-Unvollendete--/artikel/52516/1/0
- ↑ vgl. "RDFS Example" http://www.w3schools.com/rdf/rdf_schema.asp
- ↑ Vgl. "Das Internet soll klüger werden", spiegel.de (2008) http://www.spiegel.de/netzwelt/web/0,1518,561831,00.html
- ↑ vgl. http://www.bui.haw-hamburg.de/pers/ulrike.spree/Thesauru/thesauru5.htm
- ↑ vgl. http://wwwai.wu-wien.ac.at/~koch/lehre/inf-sem-ws-00/fuchs/Thesaurus%20Einleitung.htm
- ↑ vgl. http://www.gi-ev.de/no_cache/service/informatiklexikon/informatiklexikon-detailansicht/meldung/ontologien-57/
- ↑ vgl. http://www.eclass.de
- ↑ vgl. eCl@ss zur Produktklassifikation bei Preisvergleichsdiensten (Stefan Kuhlins und Holger Ströbel Universität Mannheim)
- ↑ vgl. http://www.eclass.de/user/documents/broschuere_eclass_leitfaden.pdf
- ↑ vgl.Boris Otto, Helmut Beckmann, Oliver Kelkar, Sylvia Müller: E-Business-Standards: Verbreitung und Akzeptanz. Fraunhofer IRB Verlag, Stuttgart August 2002, ISBN 3-8167-6162-3 http://publica.fraunhofer.de/eprints/urn:nbn:de:0011-n-99428.pdf
| Hitzler et al. (2008) | Hitzler, Pascal; Krötzsch, Markus; Rudolph, Sebastian; Sure, York: Semantic Web Grundlagen, Springer-Verlag, Berlin Heidelberg, 2008 |
6.1.3 Relevante Links
- W3C
- Corporate Semantic Web – Corporate Semantic Web (FU Berlin)
- W3Schools
- W3C - Deutsch-Österreichisches Büro
- offizieler Internetauftritt der eCl@ss e.V.










