Anwendungsmöglichkeiten von Semantic Web bei Suchmaschinen

Aus Winfwiki

Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

1 Titel

  • Anwendungsmöglichkeiten von Semantic Web bei Suchmaschinen
  • Autoren: Thomas Erich, Marion Müller, Gunnar Lübke
  • Fachhochschule für Oekonomie und Management in Hamburg

2 Einleitung

2.1 Bestandsaufnahme aktueller Websuche

Die Menge heute im Internet verfügbarer Informationen ist beinahe unvorstellbar groß. Um dieser Informationsflut Herr zu werden bedient man sich Suchmaschinen. Der Grund dafür ist, dass jemand, der eine bestimmte Information benötigt, nicht wissen kann, wie die URL einer Internetseite lautet, die sein Informationsbedürfnis befriedigt. Eine Suchmaschine ist ein Computerprogramm, welches das Internet nach der Information durchsucht, an welcher der Auftraggeber der Suchanfrage interessiert ist. Nicht relevante Suchergebnisse empfindet der Anfragesteller i.d.R. eher als hinderlich. Irrelevante Ergebnisse im Kontext der Suchanfrage können ihn ablenken. Es soll allerdings nicht verschwiegen werden, dass es manchmal als angenehm empfunden wird, sich in Fluten des Internets treiben zu lassen, von einer interessanten Webseite zur nächsten, Suchergebnisse zu nutzen, an die der Anfragesteller zu Beginn gar nicht gedacht hat. Dieses Vorgehen, was den Begriff des Web surfen geprägt hat, soll allerdings nicht weiter betrachtet werden im Rahmen dieser Arbeit. Es wird davon ausgegangen, dass der Suchende eine Information möglichst schnell und effizient finden möchte. In der Regel erfolgt die Bedienung der Suchmaschine ebenfalls über eine Internetseite. Im günstigsten Fall erscheinen die relevanten Suchergebnisse an vorderster Stelle einer langen Liste von Suchergebnissen. Häufig gestaltet sich die Suche nach bestimmten Informationen jedoch schwierig. Einige Probleme die dabei auftreten können, sollen im Folgenden kurz erörtert werden.

2.2 Nutzungsprobleme von Suchmaschinen

2.2.1 Auswahl richtiger Suchbegriffe

Stichwörter bei der Suche erscheinen im völlig falschen Kontext. Der Autor der Webseite hat zwar die gesuchten Begriffe in seiner Webseite verwendet, jedoch in einem völlig anderen Zusammenhang. Die Ergebnisse sind für den Suchenden weitestgehend wertlos.

2.2.2 Mehrdeutigkeit von Worten in der Suchanfrage

Dieses Problemfeld beschreibt, dass das Suchprogramm nicht in der Lage ist, zwischen unterschiedlichen Bedeutungen von Worten zu unterscheiden, die aber exakt gleich geschrieben werden. Ein einfaches Beispiel zur Illustration wäre z.B. die Doppeldeutigkeit des Wortes Melone, welches einmal eine Obstsorte und zum anderen ein Kleidungsstück repräsentiert.

2.2.3 Unüberschaubarkeit aufgrund großer Treffermenge

Ein weiteres Problem bei der Nutzung von Suchmaschinen stellt die Menge der erhaltenen Suchergebnisse dar. Eine Treffermenge von mehreren 10.000 oder gar 100.000 Suchergebnissen überfordert den Steller der Suchanfrage leicht. In diesem Fall sollte versucht werden, die Treffermenge durch engere Eingrenzung von weiteren Stichworten oder auszuschließenden Stichworten einzugrenzen. Die Suchmaschinen selbst sind vielfach Manipulationsversuchen ausgesetzt, da bestimmte Suchbegriffe mit einem vorderen Ranking erhebliche wirtschaftliche Vorteile (Onlinehandel) versprechen. Daher sind die vermeintlich interessanten Suchergebnisse möglicherweise so weit hinten im Ranking, dass der Suchanfragesteller sich die Mühe einer Sichtung gar nicht mehr unterzieht.

2.2.4 Natürlichsprachliche Suche

Ein wünschenswertes Ziel bei der Bedienung einer Suchmaschine wäre die Formulierung einer Frage in der jeweiligen Landessprache, so wie man sie auch einem menschlichen Gegenüber stellen würde. Dies wäre ein großer Fortschritt, da dies die einfache Vermehrung von Wissen in allen Alters- und Gesellschaftsschichten befördern würde. Man müsste sich kaum Gedanken um das Stellen der Suchanfrage machen. Heute weit verbreitete Suchmaschinen für Internetrecherche liefern allerdings bei der Formulierung natürlichsprachlicher Suchanfragen nur sehr unbefriedigende Ergebnisse.

2.2.5 Kurzlebigkeit von Internetinhalten

Die Suchmaschine durchsucht das Internet ständig nach Inhalten um seinen Index zu aktualisieren und in großen Datenbanken abzuspeichern (Crawlen). Probleme ergeben sich hier vor allem bei dynamischen Inhalten, die erst beim Aufruf der Webseite erstellt werden und somit vom Suchroboter auch nicht erfasst werden können. Ein anderer Aspekt sind Webseiten, die sich sehr häufig ändern wie zum Beispiel Foreneinträge oder Nachrichtenseiten zu bestimmten Themen, die einem ständigen Wandel unterliegen.

2.2.6 Hoher Zeitaufwand für Informationsgewinnung

Stellt jemand eine Suchanfrage an eine Suchmaschine, so muss er sich zunächst Gedanken machen über die Auswahl der richtigen Stichworte. Nachdem er möglicherweise mit dem Suchergebnis zunächst nicht zufrieden ist, verfeinert er seine Suche. Bestenfalls erhält er am Ende dieses iterativen Prozesses die gesuchte Antwort auf seine Suchanfrage. Möglicherweise muss er jedoch seine anfängliche Auswahl revidieren und eine völlig neue Suchanfrage starten, wieder eingrenzen usw. Dieser Vorgang ist zeitaufwändig und könnte z.B. durch eine natürlichsprachliche, intuitiv formulierte Suchanfrage, die sofort zum gesuchten Ergebnis führt, erheblich verkürzt werden.

Für viele dieser Probleme könnte eine Suche, die die Bedeutung der benutzten Sprache berücksichtigt, eine Lösungsmöglichkeit darstellen. Ein Vergleich von herkömmlicher Websuche, welche Voraussetzungen für eine semantische Suche nötig sind und was heute bereits möglich ist, soll in dieser Arbeit erörtert werden.

Als eine Voraussetzung dafür wird das 2001 von Tim Berners-Lee, dem Erfinder des World Wide Web, postulierte Semantic Web angesehen.

2.3 Tim Berners-Lees Vision eines Semantic Web

Tim Berners-Lee
Tim Berners-Lee[1]

Tim Berners-Lee erfand 1989 das World Wide Web. Die erste Software, die den Grundgedanken des World Wide Web verfolgte, war das Datensuchprogramm Enquire (abgeleitet vom viktorianischen Ratgeber Enquire Within upon Everything). Nach Aussage von Tim Berners-Lee führte der erste Bit Programmcode von Enquire ihn zu etwas viel größerem: zu einer Vision, die einen dezentralisierten und organischen Fortschritt von Ideen, Technologien, ja der Gesellschaft einschließt. [2] Bei dem Grundgedanken des Web sollte ein Raum geschaffen werden, in dem Informationen zur Verfügung gestellt aber auch Informationen zu einem bestimmten Thema gesucht werden können. Die Suche nach Informationen ist jedoch nur so intelligent wie der Suchende selbst, da der Computer die Doppelbedeutung eines Wortes wie z.B. "Bank" nicht unterscheiden kann. Wichtige Grundlagen für eine erfolgreiche Suche sind somit die richtigen Suchbegriffe. Tim Berners-Lee´s Vision des Semantic Webs soll hier Abhilfe schaffen.

2.3.1 Lösungsansatz der Suchprobleme

"Das semantische Web basiert auf der inhaltlichen Beschreibung digitaler Dokumente in Form von Ontologien, die eine standardisierte Begrifflichkeit zur Beschreibung digitaler Inhalte bereitstellen und damit eine maschinell verstehbare Semantik realisieren. Damit sollte ein viel „tiefer gehendes“ Verständnis der Textinhalte möglich sein und somit auch eine präzisere Antwort auf eine Suchanfrage gegeben werden können."[3] Die Suchmaschine von morgen soll nicht nur über die Eingabe von Suchbegriffen funktionieren, sondern die Eingabe einer natürlichsprachlichen Anfrage zulassen.

2.3.2 Einführendes Beispiel Vergleich herkömmliche vs. semantische Suche

Im Internet sind eine Reihe von Suchmaschinen zu finden. Die bekanntesten Suchmaschinen sind Google, Yahoo und MSN. Bei einer Suchanfrage wird eine Vielzahl von Treffern erzielt. Die richtigen Informationen aus den Treffern zu filtern ist sehr zeitintensiv. Um die Trefferzahl einzugrenzen, versucht der erfahrene Anwender die Trefferzahl über die richtigen Suchbegriffe einzuschränken. Dies gelingt jedoch nur bedingt, Schreibfehler werden nicht korrigiert, eine Doppeldeutigkeit der Begriffe wird bei einer Suchanfrage nicht erkannt. Bei der semantischen Suchmaschine ist es das Ziel, die Frage natürlichsprachlich einzugeben. Der Rechner soll logische Zusammenhänge erkennen und das entsprechende Ergebnis liefern. Die Vorteile der semantischen Suchmaschine sollen anhand der Frage nach "Tom Tailor" aufgezeigt werden.


2.3.2.1 www.google.de

Gibt der Suchende bei Google den Suchbegriff "Tom Tailor" ein, erhält er folgendes Ergebnisse:

Google-Suche
Google-Suche[4]


Die ersten 5 Treffer geben keinen genauen Aufschluss darauf, was bzw. wer sich hinter Tom Tailor verbirgt. Über die ersten 5 Treffer kann vermutet werden, dass es sich bei "Tom Tailor" um Mode handelt. Erst der 6. Treffer verweist auf eine Wikipedia-Seite auf der Genaueres über das Unternehmen "Tom Tailor" zu finden ist.

2.3.2.2 www.powerset.com

Bei der semantischen Suchmaschine Powerset kann die Frage " Was ist Tom Tailor" wörtlich eingeben werden und es wird folgendes Ergebnis erzielt:


Powerset-Suche
Powerset-Suche[5]

Der Suchende erhält als Erstes eine Kurzzusammenfassung mit den wichtigsten Eckdaten des Unternehmens "Tom Tailor". Auf den ersten Blick ist das Ergebnis sehr überzeugend. Bei genauerer Betrachtung der weiteren Treffer ist jedoch zu erkennen, dass auch unzutreffende Ergebnisse geliefert werden. Dies ist jedoch auf den derzeitigen Entwicklungsstand des Semantic Web zurückzuführen. Um ein erfolgreiches Ergebnis bei einer Suchanfrage erzielen zu können ist es notwendig, die Dokumente mit den entsprechenden Metadaten zu ergänzen.

3 Suchmaschinen

3.1 Definition

Hinter dem Begriff Suchmaschine steht ein Programm, mit dem Dokumente in einem Computer, einem Netzwerk oder im World Wide Web gesucht werden können. Um eine Suchanfrage zu starten, ist die Eingabe eines Dateinamen oder eines Schlüsselbegriffs in der entsprechenden Eingabemaske notwendig. Bei Windows ist es die Suchfunktion im Explorer, im Internet ist es z.B. die Suchmaschine Google.
Bei einer Suchmaschinenanfrage wird der eigentliche Suchvorgang in 3 Arbeitsschritte unterteilt:

  • Durchsuchen des World Wide Webs mittels Webcrawler und Analyse der Dokumente
  • Verarbeitung der Ergebnisse
  • Erstellung einer Liste mit Fundadresse und Kurzinhalt

Die heutigen Möglichkeiten der Suchmaschinen wurden über mehrere Generationen entwickelt.

3.2 Historische Entwicklung

Aufgrund der zunehmenden Zahl von Inhalten war die Informationsweitergabe ein aussichtsloses Unterfangen. Der Wunsch nach einer Verzeichnisstruktur, in welcher alle Adressen sämtlicher Server und sogar deren Inhalte registriert werden, wurde immer größer. 1990 wurde von den Studenten Alan Emtage und Peter Deutsch an der McGill University School of Computer Science (Kanada) die Suchmaschine Archie entwickelt, die noch heute als Vorläufer der modernen Suchmaschinen gilt. Mit Archie sollte eine zentrale Datenbank entwickelt werden, in der sämtliche Dateien und Verzeichnisse der wichtigsten Anonymus-FTP-Server enthalten waren. Für die Abfrage über Befehlssätze benötigte der Benutzer lediglich eine Telnet-Verbindung zum Server. 1992 gehörte Archie zu den am häufigsten genutzten Internet-Tools.[6]

Durch den Erfolg von Archie animiert, entwickelten 1991 Mitarbeiter der University of Nevada in Reno mit Gopher ein ähnliches Werkzeug für den Vorläufer des WWW. Das in Gopher implementierte Tool Veronica (Very Easy Rodent-Oriented Netwide Index to Computerized Archives) durchsuchte monatlich sämtliche Gopher-Sites, die beim Haupt-Gopher-Server an der University of Minnesota angemeldet waren und erstellte einen Index. Für die Anwendung war es bereits möglich, boolesche Operatoren wie NOT, OR und AND zu verwenden.[6]

1993 wurde vom MIT-Studenten Mathew Grey für die Durchsuchung des WWW der Prototyp einer spider-basierten Suchmaschine namens WorldWideWebWanderer entwickelt. Mit der Technik wurde die Linkverfolgung ermöglicht. Anfänglich wurde dies jedoch nur zum Zählen der Web-Server genutzt. Durch eine Weiterentwicklung von Michael L. Mauldin war es jedoch möglich, ebenfalls den Datenbestand der einzelnen Web-Server zu durchsuchen. In der Zeit von 1993–1996 wurde das Netz zweimal pro Jahr durchsucht und katalogisiert.[6]

Mit Aliweb (Archie-Like Indexing of the Web) wurde im Oktober 1993 ein weiterer Suchdienst entwickelt. Die Betreiber von WWW-Servern wurden veranlasst, ihren Service in einer standardkonformen Datei zu beschreiben und auf ihrem Server abzulegen. Die Adressen dieser Dateien wurden an Aliweb übermittelt, dort verarbeitet und zu einem Index generiert, der sich vom Anwender durchsuchen ließ.[6]

Mit dem RBSE Spider wurde Ende Dezember 1993 die erste Suchmaschine online gestellt. Die Suchergebnisse wurden nach einem Ranking-System aufgelistet. Auf dieser technischen Entwicklung erfolgte die Entwicklung von zahllosen Suchmaschinen.[6]

1994 stellten die Studenten David Filo und Jerry Yang ihre beliebtesten Webadressen unter dem Namen Yahoo! online zur Verfügung.[6]

Die ersten kommerziellen Suchmaschinen Infoseek und AltaVista wurden 1995 online gestellt. Erst 1998 folgte der heute bekannte Suchdienst Google.[6]

3.3 Klassifizierung von Suchmaschinen

3.3.1 Indexbasiert (Volltextsuche)

Bei einer Volltextsuchmaschine handelt es sich um ein indexbasiertes Programm, das automatisch die Seiten des WWW durchsucht. Der Datenbestand wird automatisch aktualisiert und erweitert.[7] Damit der Anwender keine unüberschaubare und nicht auswertbare Trefferzahl als Ergebnis erhält, ist es wichtig die Suchbegriffe richtig auszuwählen und zu verknüpfen.

3.3.2 Webkatalog

Bei dem Webkatalog handelt es sich um eine verzeichnisbasierte Suchhilfe. Einer der bekanntesten Webkataloge ist Yahoo. Bei Yahoo sind Themen nach Kategorien aufgelistet. Der Anwender hat die Möglichkeit, durch das Anklicken der komplexen Linkstrukturen, sich durch die gewünschten Informationen zu navigieren.[7]

3.3.3 Metasuchmaschine

Eine Metasuchmaschine besitzt keine eigene interne Datenbank, sondern leitet die Suchanfrage an andere ausgewählte Suchmaschinen weiter und nutzt deren Datenbestand.[8] Bekannte Metasuchmaschinen sind z.B. Abacho und Metager.

3.4 Datenquelle für Suchanfragen

3.4.1 lokal

Suchmaschinen, die auf lokale Datenbeständen zugreifen, werden auch Desktop-Suchmaschinen genannt. Ihre Funktion ist es, Daten die auf einem lokalen Datenträger (z.B. Festplatte) gespeichert sind, zu indizieren um ein schnelles Auffinden zu ermöglichen. Die indizierten Daten werden in einer lokalen Datenbank gespeichert und können durch die Suchmaschine wieder aufgerufen werden. Einige Desktop-Suchmaschinen unterstützen auch Volltextindizierung von textbasierten Dateien (z.B. pdf, html, txt, etc.).

Zu den weitverbreiteten Desktop-Suchmaschinen zählen u.a. "Copernic Desktop Search"[9] und "Windows Search".[10]

Die Desktop-Suchmaschinen werden in dieser Fallstudie nicht weiter betrachtet.

3.4.2 Netzwerk

Eine weitere Datenquelle für Suchmaschinen sind Netzwerke wie z.B. das World Wide Web oder Unternehmensintranets. Gerade im World Wide Web ist die Menge der verfügbaren Daten so groß, dass Inhalte ohne den Einsatz von Suchmaschinen kaum auffindbar wären.

4 Technische Grundlagen des Semantic Web

4.1 Definition

Das Semantic Web basiert auf dem Resource-Description-Framework (RDF) und bildet einen Rahmen, der es erlaubt, Daten anwendungsübergreifend auszutauschen. Es wurde vom W3C, mit Hilfe von vielen Forschern und Partnern aus der Industrie, entwickelt.[11]

Anders als zum Beispiel XML oder SOAP, ist das Semantic Web weniger technisch orientiert, sondern beschreibt Konzepte, wie konkretisierende, technische Spezifikationen genutzt werden können und wie diese ineinander greifen. Ziel ist es, die Bedeutung von Ressourcen (z.B. Personen, Objekte, Konzepte, etc.) zu beschreiben, unabhängig davon, ob diese im Web physisch vorhanden sind (z.B. mit Hilfe einer URL). Das Web, das derzeit hauptsächlich Inhalte präsentiert, soll zukünftig die Rolle eines Kommunikationsmediums übernehmen, in dem maschinelle Agenten bestimmte Tätigkeiten für den Menschen ausführen. Dies soll nicht auf der Basis von künstlicher Intelligenz geschehen, sondern mit Hilfe von Regeln, die die Agenten selbstständig ausführen. Dabei soll das aktuelle Web nicht abgelöst oder neu definiert werden, sondern um zusätzliche Funktionen erweitert werden, so dass Anwender, die das Semantic Web nicht nutzen möchten, weiterhin ihren Browser wie bisher einsetzen können. Die zusätzlichen Bedeutungsdimensionen sollen nicht automatisch generiert werden. Vielmehr sollen die bestehenden Inhalte durch menschliche Hilfe mit Aussagen zu ihrer Bedeutung angereichert werden. Das Ziel des Semantic Web ist es, dem Menschen die Arbeit mit dem Computer zu erleichtern und die Nutzung des Webs zu vereinfachen. [12]

4.2 Semantic Stack

Eine Schichtendarstellung des Semantic Web (Semantic Stack) von Tim Berners-Lee zeigt die folgende Abbildung. Die einzelnen Schichten bauen aufeinander auf und können als eine Art Fahrplan für bereits bestehende und zukünftige Komponenten des Semantic Web angesehen werden. Ausgewählte Bausteine der Schichten werden im Folgenden kurz dargestellt.

Semantic Stack
Semantic Stack[13]

4.3 Konzeptnetze zu einem bestimmten Wissensgebiet (Ontologien)

Wein-OWL
Wein-OWL[14]

Der Begriff "Ontologie" stammt ursprünglich aus der Philosophie und steht für die Theorie der Objekte und deren Beziehungen. Die Objekte können verschiedene Eigenschaften besitzen, sie können z.B. real oder ideal, konkret oder abstrakt, abhängig oder unabhängig sein. [15]

Ontologien sind das Grundgerüst des Semantic Webs. Sie stellen ein Wissensnetz dar, das aus drei logischen Schichten besteht: Die erste Schicht besteht aus den abstrakten Konzepten. In diesem Beispiel wären z.B. "Wine", oder "Grape" Konzepte, sie stellen Oberbegriffe für bestimmte Objekte dar. Die zweite Schicht erweitert die Konzepte um individuelle Ausprägungen und Faktendaten. Hier wäre "Cabernet Sauvignon Grape", die zweite Schicht zu "Grape". Sie spezifiziert das Konzept "Grape" genauer. Man kann auch sagen, dass "Cabernet Sauvignon" ein Individuum ist, das von "Grape" abgeleitet ist. Die dritte Schicht stellt die Zusammenhänge zwischen den Konzepten dar. Diese Zusammenhänge werden auch "Relationen" genannt. In dem o.g. Beispiel wäre "Wine" subClassOf Potable Liquid, das wiederum subClassOf Consumable Thing ist. Das heißt, dass Wein grundsätzlich eine trinkbare Flüssigkeit ist und dass trinkbare Flüssigkeiten grundsätzlich verzehrbare Dinge sind. "Wine" hat zusätzlich noch zwei Attribute: "en"wine, oder "fr"wine, die voneinander disjunkt sind. [16]

Bei der Erstellung von Ontologien können leicht Fehler auftreten, wenn die Relationen nicht eindeutig definiert werden.

4.4 Beschreibungssprachen

4.4.1 XML

XML ist die Abkürzung für "eXtensible Markup Language" und ist eine Empfehlung des W3C für maschinenlesbare Dokumente. Die XML-Spezifikation ist eine Weiterentwicklung von SGML (Standard Generalized Markup Language), das in den frühen 80er Jahren entwickelt wurde. Markup-Sprachen dienen dazu bestimmte Teile von Textdokumenten mit zusätzlichen Informationen zu versehen. Die hinzugefügten Informationen werden als "Metadaten" bezeichnet. Wie auch HTML verwendet XML sogenannte "Tags" (durch "<" und ">" eingeklammerte Wörter) und Attribute (die durch die Form "name=Value" gekennzeichnet sind). Die Tags und Values dienen dazu, Daten voneinander abzugrenzen. Anders als bei HTML gibt es keine festgelegten Bedeutungen für Tags und Values. Der Tag "<p>" in einer HTML-Datei sorgt beispielsweise dafür, dass der Browser, der diese HTML-Datei aufruft, an dieser Stelle einen Absatz (paragraph) anzeigt. In einer XML-Datei kann das "<p>" auch für "Person", "Preis" oder andere beliebige Werte stehen. Im Vergleich zu HTML legt XML die logische Struktur eines Dokumentes fest und nicht seine Darstellung. Die Interpretation der Tags wird der Anwendung überlassen, die die XML-Datei verarbeitet. XML-Dateien werden als Textformat gespeichert und lassen sich daher mit gängigen Texteditoren lesen und editieren. Ein festgelegte Menge von Tags wird als Vokabular bezeichnet. Für XML existieren bereits Vokabulare für verschiedene Einsatzgebiete (z.B für den Austausch von Dokumenten zwischen Biologen und Chemikern).[17]

Eine XML-Datei beginnt normalerweise mit einer Deklaration, die diese Datei als XML-Datei kennzeichnet und die XML-Versionsnummer enthält. Darüber hinaus kann noch, wie in diesem Beispiel, die Zeichenkodierung festgelegt werden:

<?xml version="1.0" encoding="utf-8"?>

Die Daten sind in einer XML-Datei hierarchisch durch Elemente strukturiert. Ein Element besteht aus einem Start-Tag und einem End-Tag. Die Tags bestehen aus XML-Namen, die in spitze Klammern eingeschlossen sind. Die Definition eines Namens einer Person könnte wie in diesem Beispiel aussehen:

<person>Max Power</person>

Ein XML-Dokument hat immer nur ein Wurzel-Element, dessen start-tag direkt hinter der Deklaration stehen muss. Zusätzlich zu den Elementen gibt es Attribute. Sie können innerhalb eines Tags verwendet werden und erweitern die Elemente um zusätzliche Werte. Die Werte werden direkt hinter den Attribut-Namen, durch ein Gleichheitszeichen getrennt und in doppelte Anführungszeichen gesetzt, geschrieben. Beispiel:

<person title="Mr.">Max Power</person>

In verschachtelter Schreibweise würde das Beispiel so aussehen:

<person>
   <title>Mr.</title>
   <name>Max Power</name>
</person>

XML verwendet immer eine Baumstruktur um Daten darzustellen. Jeder Tag entspricht einem Knoten mit einem Namen und jedes verschachtelte Tag entspricht einem Kind-Knoten.

Beispiel:

<?xml version="1.0"?>
<adressbook>
   <person title="MR">
      <title>Mr.</title>
      <name>
         <givenname>Max</givenname>
         <familyname>Power</familyname>
      </name>
      <website>http://www.maxpower.org</website>
      <email>mailto:info@maxpower.org</email>
   </person>
</addressbook>

4.4.2 XML Schema

Mit einem XML Schema oder einer "Document Type Definition" (DTD) kann die Struktur von XML-Dokumenten vorgegeben werden. Sie definieren die erlaubte Struktur der Verschachtelung von Elementen, welche Attribute pro Element verwendet werden dürfen und die Stellen an denen Daten als Inhalte erlaubt sind.

Mit der DTD wird vorgegeben, welche Element- und Attributnamen erlaubt sind und welche Inhalte diese haben dürfen. Dies erlaubt es mit einem XML-Parser, die Gültigkeit der XML-Datei in Bezug auf ihre DTD zu überprüfen.

Das letztgenannte Beispiel würde gegen diese DTD gültig validiert werden:

<!ELEMENT adressbook (person+)>
<!ELEMENT person (name?, website*, email*)>
<!ELEMENT name (givenname?, familyname?)>
<!ELEMENT givenname (#PCDATA)>
<!ELEMENT familyname(#PCDATA)>
<!ELEMENT website (#PCDATA)>
<!ELEMENT email (#PCDATA)>
<!ATTLIST person title CDATA #REQUIRED>

In dieser Definition werden alle gültigen XML-Elemente und Attribute spezifiziert. Durch Anhängen von Modifikatoren (+, ?, *) kann bestimmt werden, wie oft die einzelnen Kind-Elemente auftreten dürfen oder müssen. Beispielsweise ist hier festgelegt, dass eine Person nur einen Namen, bliebig viele Websites und E-Mail Adressen haben darf.

Die zugelassenen Inhalte werden mit PCDATA (Parsable Character DATA) oder CDATA (Character DATA) beschrieben. PCDATA steht für "textueller Inhalt" und CDATA für "beliebiger Inhalt". Im unteren Teil der oben abgebildeten DTD wird das zulässige Attribut für "person" definiert. "title" darf CDATA enthalten und muss gefüllt sein (angezeigt durch #REQUIRED).[18]

4.4.3 URI

Ein Uniform Resource Identifier (URI) dient dazu, Ressourcen im Web eindeutig zu beschreiben. Es können sowohl abstrakte Begriffe (z.B. Wetter), wie auch real existierende Ressourcen (z.B. Personen) benannt werden. Eine URI besteht aus 3 Teilen:

<schema>:<schema-specific-part>#<fragment>
[19]

Häufig benutzte Schemata sind z.B. "http" für die Kennzeichnung von Dokumenten, die per "Hypertext Transfer Protocol" (HTTP) übertragen werden, oder ftp für Daten, die per "File Transfer Protocol" (FTP) übertragen werden, z.B.:

http://www.uwe-kern.de/winfwiki/index.php
ftp://ftp.oreilly.de/pub/scrsaver.exe

Ursprüglich existierten noch die Untermengen "Uniform Resource Locator" (URL) und "Uniform Resource Name" (URN). Der URL wird benutzt, um Ressourcen zu kennzeichnen, die im World Wide Web zu finden sind. Der URN dient zur Kennzeichnung von Ressourcen mittels eines frei definierbaren Namens. Ein Beispiel hierfür wäre die Kennzeichnung von Büchern mittels einer weltweit eindeutigen Nummer - der ISBN. Diese strikte Trennung findet in der Praxis mittlerweile kaum noch Anwendung. Das heißt, dass URIs nicht unbedingt auf existierende Web-Dokumente verweisen müssen.[20]

4.4.4 RDF

Das "Resource Description Framework" (RDF) ist eine formale Sprache, die dazu dienen soll, Inhalte im World Wide Web darzustellen. Besonders geeignet ist RDF zur Darstellung von Metadaten von Webressourcen, wie Titel, Autor, letztes Änderungsdatum, etc. RDF kann darüberhinaus auch dazu verwendet werden Informationen über Dinge darzustellen, die nicht direkt über das Web abrufbar sind, z.B. über Personen.

Die Struktur von RDF basiert auf XML und ist dafür bestimmt, Inhalte für Anwendungen in geeigneter Form bereitzustellen und einen Austausch zwischen Applikationen zu ermöglichen, ohne dass die ursprüngliche Bedeutung des Inhaltes verloren geht oder geändert wird. Aus diesem Grund bietet RDF das grundlegende Darstellungsformat für Inhalte im semantischen Web.

RDF basiert darauf, Dinge mit Hilfe von "Uniform Resource Identifiers" (URIs) darzustellen und Ressourcen mit einfachen Merkmalen und Werten von Merkmalen zu beschreiben. Dies ermöglicht es, Informationen als Graphen und Kanten darzustellen.

Als Beispiel könnte die Aussage, dass eine Person existiert, die durch http://www.w3.org/People/EM/contact#me identifiziert ist, Eric Miller heißt, den akademischen Titel "Dr." trägt, und eine e-mail Adresse "em@w3.org" besitzt in einem RDF-Graphen dargestellt werden:

Beispiel:

<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
             xmlns:contact="http://www.w3.org/2000/10/swap/pim/contact#">

  <contact:Person rdf:about="http://www.w3.org/People/EM/contact#me">
    <contact:fullName>Eric Miller</contact:fullName>
    <contact:mailbox rdf:resource="mailto:em@w3.org"/>
    <contact:personalTitle>Dr.</contact:personalTitle> 
  </contact:Person>

</rdf:RDF>

[21]

Ein RDF-Graph
Ein RDF-Graph[21]

Das Bild zeigt, dass RDF URIs benutzt zum Identifizieren von:

Ein weiteres Merkmal von RDF ist es, Aussagen in Tripeln zur Verfügung zu stellen. Ein Tripel besteht immer aus den Teilen Subjekt, Prädikat, Objekt. Die Aussage, dass in dem o.g. Beispiel die Person "Eric Miller" eine Mailbox mit einer bestimmten Adresse besitzt, lässt sich als Tripel wie folgt darstellen: {Eric Miller\has mailbox\em@w3.org)}. In RDF-Schreibweise hätte das Tripel das Format {http://www.w3.org/People/EM/contact#me, http://www.w3.org/2000/10/swap/pim/contact#mailbox, em@w3.org}

4.4.5 RDF Schema

RDF Schema (RDFS) bietet die Möglichkeit, ein festes Vokabular für RDF-Dokumente zu definieren. Der Vorteil von RDFS-Dokumenten (die prinzipiell syntaktisch korrekte RDF-Dokumente sind) ist, dass diese von allen Programmen verarbeitet werden können, die RDF unterstützen. Dabei kann aber ein Teil der RDFS-Semantik verloren gehen.[22]

4.4.6 OWL

Die Abkürzung OWL steht für "Web Ontology Language" und ist ein Teil der W3C-Empfehlungen für das semantische Web. OWL ist der Nachfolger von DAML+OIL (Darpa Agent Markup Language + Ontology Inference Layer).[23]

Verglichen mit XML und RDF ist OWL die Beschreibungssprache mit der größten Komplexität:

  • XML stellt eine Oberflächensyntax für strukturierte Dokumente zur Verfügung, versieht diese aber nicht mit semantischen Einschränkungen für die Bedeutung der Dokumente
  • XML Schema ist eine Sprache, die die Struktur von XML einschränkt und gleichzeitig XML um weitere Datentypen ergänzt
  • RDF ist ein Datenmodell für Objekte und Relationen zwischen diesen. RDF stellt eine einfache Semantik für diese Datenmodelle zur Verfügung, die dann in einer XML Syntax dargestellt werden können.
  • RDF Schema ist ein Wörterverzeichnis für die Beschreibung von Eigenschaften und Klassen der RDF Objekte mit einer Semantik für Verallgemeinerungshierarchien solcher Eigenschaften und Klassen.
  • OWL enthält einen noch größeren Wortschatz, um Eigenschaften und Klassen zu beschreiben, z.B. Relationen zwischen Klassen, Kardinalitäten oder aufgezählte Klassen.[23]

Es existieren 3 Unterarten von OWL:

  • OWL Lite ist für diejenigen Benutzer, die eine Klassifikationshierarchie und einfache Beschränkungen benötigen. OWL Lite unterstützt zum Beispiel nur Kardinalitäten zwischen 0 und 1
  • OWL DL unterstützt diejenigen Benutzer, die ein Höchstmaß an Ausdrucksstärke erreichen möchten und gleichzeitig nicht darauf verzichten möchten, die Möglichkeit zu haben, diese mit Hilfe von Inferenzmaschinen in endlicher Zeit auszuwerten. In OWL DL sind alle OWL Sprachkonstrukte vorhanden. Diese können aber nur unter bestimmten Bedingungen benutzt werden.
  • OWL Full unterstützt die Benutzer, die eine maximale Ausdrucksstärke benötigen und auf die syntaktische Freiheit von RDF verzichten möchten, ohne Garantien für die Möglichkeit der Auswertung.[23]

4.5 Abfragesprache SPARQL

SPARQL ist die Abkürzung für "SPARQL Protocol And RDF Query Language". Diese Abfragesprache, die der Datenbankabfragesprache SQL (Structured Query Language) nachempfunden ist, ist seit Januar 2008 eine offizielle Empfehlung des W3C.[24]

SPARQL wird benutzt, um Datenquellen abzufragen, die im RDF-Format vorliegen. Die Syntax und Semantik für die SPARQL-Abfragesprache wird mit Hilfe der Spezifikation für RDF-Dokumente definiert. Die Ergebnisse der Abfrage können auch als RDF-Graphen dargestellt werden.

Als Beispiel soll folgendes RDF-Tripel dienen:

<http://example.org/book/book1> <http://purl.org/dc/elements/1.1/title> "SPARQL Tutorial" .

Um den Titel des Buches abzufragen wäre eine Abfrage in folgendem Format nötig:

SELECT ?title
WHERE
{
  <http://example.org/book/book1> <http://purl.org/dc/elements/1.1/title> ?title .
}    

Die Abfrage, die auf den o.g. Daten ausgeführt wird, liefert genau 1 Ergebnis zurück:

title
"SPARQL Tutorial"
[25]

5 Darstellung aktueller Suchmaschinenprojekte

5.1 Öffentliche Suchmaschinen

5.1.1 Semager

Bei Semager handelt es sich um eine deutschsprachige Suchmaschine. Die Suchtechnologie basiert auf der Berechnung von Wortverwandtschaften über mathematische Methoden und Algorithmen. Die inhaltliche Übereinstimmung wird am Ende in einer Prozentzahl festgehalten. Gibt der Anwender z.B. den Suchbegriff "Kuchen" ein, kann er über das Auswählen von "verwandte Wörter finden" Begriffe mit inhaltlicher Übereinstimmung finden.[26] Die aufgelisteten Begriffe werden unterschieden in:

  • verwandte Wörter
  • abgehende Wortbeziehungen
  • eingehende Wortbeziehungen
  • Wörter mit gleichem Anfang
  • Tippfehler oder ähnlich geschrieben

"Backen" hat z.B. unter verwandte Wörter einen Übereinstimmungsprozentsatz von 81%.[27]

Das Prinzip der eingehenden und abgehenden Wortbeziehung kann an dem Beispiel einer Webseite verdeutlicht werden. Ähnlich wie ein Linkverweis von der Webseite "X" zur Webseite "Y" funktioniert, funktioniert auch die abgehende Wortbeziehung. Ein Wort kann eine Verbindung zu einem anderen Wort haben.

Startet der Anwender eine Suchanfrage, werden ihm zusätzlich zu den Treffern wortverwandte Begriffe zur weiteren Suche angezeigt. Die Begriffe werden nach dem Übereinstimmungsgrad aufgelistet.

Zusätzlich hat der Anwender die Möglichkeit, eigene Webseiten zu analysieren und deren Hauptbegriffe ermitteln zu lassen. [26]

5.1.2 Powerset

Die Firma Powerset hat im Mai 2008 eine Suchmaschine veröffentlicht, die im Gegensatz zu herkömmlichen Suchmaschinen wie Google, Suchanfragen in natürlicher Sprache versteht und Antworten auf ausformulierte Fragen geben kann. Derzeit können Suchanfragen nur in Englisch eingegeben werden. Bei der Verarbeitung der Suchanfrage analysiert der Suchdienst allerdings Wort für Wort und filtert nicht nur die Schlüsselbegriffe aus den entsprechenden Seiten aus. Der Suchraum von Powerset ist damit bedeutend kleiner und es dauert wesentlich länger eine einzelne Seite zu analysieren. Powerset indexiert zur Zeit nur Wikipedia-Dateien und die offene Datenbank Freebase. Die Suchalgorithmen gehen auf Forschungen der NASA sowie an den Instituten Xerox PARC und SRI International zurück.[28] [29]

5.2 Kommerzielle Suchlösungen

5.2.1 Conweaver

5.2.1.1 Einführung Conweaver

Die derzeitigen Suchmaschinen sind Volltextsuchmaschinen und suchen nur mit den ausgewählten Suchbegriffen. Bezeichnungsalternativen, sprachliche Varianten, Doppeldeutigkeit von Begriffen sowie die Benennung in einer Fremdsprache, bleiben bei einer Suchanfrage unberücksichtigt.

Das Fraunhofer Institut Integrierte Informations- und Publikationssysteme (Fraunhofer IPSI) in Darmstadt hat mit Conweaver eine semantische Suchmaschine entwickelt, mit der es möglich ist, über den Einsatz eines Wissensnetzes als Suchindex die gewünschten Informationen zu finden. Der Aufbau des Wissensnetzes erfolgt weitgehend automatisch.[30]

Die Software Conweaver wird von der gegründeten Conweaver GmbH angeboten.

5.2.1.2 Technik

Sämtliche heterogene Unternehmensdaten werden über eine XML-Schnittstelle zum Aufbau eines Wissensnetzes genutzt und verarbeitet. Die Speicherung des Wissensnetzes erfolgt auf einem SQL-Server. Das Wissensnetz dient als intelligenter Index für die semantische Suche. Über eine HTTP-Schnittstelle kann die semantische Suche ausgeführt werden.

Schema Vorgänge
Schema Vorgänge[31]

Unter einem Wissensnetz versteht man eine geordnete und formalisierte Zusammenstellung von Konzepten, individuellen Ausprägungen von Konzepten, Bezeichnungen und Beziehungen. "Durch die Darstellung eines inhaltlichen Zusammenhangs mit Hilfe von Relationen werden Konzepte und ihre individuellen Ausprägungen für Menschen und Maschinen erst verständlich und erhalten eine spezifische Bedeutung, eine Semantik (daher oft auch die Bezeichnung semantisches Netz für ein Wissensnetz)." [31]

Schema Wissensnetz
Schema Wissensnetz[32]

Zur Erstellung des Wissensnetzes setzt Conweaver bei unstrukturierten Daten Technologien der statistischen und linguistischen Informationsextraktion und Kategorisierung ein. Strukturierte Daten werden über Best-Practice-Verfahren integriert. Conweaver bietet ebenfalls die Möglichkeit der automatischen Terminologieextraktion aus Internet-Quellen. Ermöglicht wird dies über die maschinelle Übersetzung der Daten für den Aufbau und die Pflege multilingualer Wissensnetze und Methoden.[32]

Über eine Modulbibliothek können einzelne Analysemodule in einem sogenannten Analyseworkflow für die Erzeugung eines Wissensnetzes konfiguriert werden. Insgesamt stehen mehr als 200 Analysemodule zur Datenanalyse zur Verfügung. Die konfigurierten Analyseworkflows werden später eingesetzt, um das Wissensnetz in regelmäßigen Zeitabständen zu aktualisieren.

5.2.1.3 Beispiel: Analyseworkflow zur Extraktion von Personennamen aus Texten

"Der in der folgenden Abbildung gezeigte Analyseworklow besteht aus 11 Analysemodulen zur Extraktion von Personennamen aus Texten. Der Kern des Workflows wird von einem Named-Entity-Tagger (Modul: VarPersonenNER) gebildet, welcher, basierend auf Namenslisten, Personen erkennt und ihre Namen extrahiert. Mit Hilfe verschiedener Metriken - Kosinus und Assoziationsregeln - werden Paaren von Personen Ähnlichkeitswerte zugeordnet, die auf die Wahrscheinlichkeit einer Zusammenarbeit dieser Personen schließen lassen."[33]

Analyseworkflow
Analyseworkflow[33]

5.2.1.4 Semantische Suche

Bei einer Suchanfrage wird das Wissensnetz als integrierter Index genutzt, um die entsprechenden Informationen in den Datenbeständen zu finden. Durch die fach-, umgangs- und fremdsprachlichen Verknüpfungen von Individuen im Wissensnetz wird die Suche vereinfacht. Der Suchende muss nicht zwingend die bedeutungsspezifischen Begriffe und Sprachen kennen, um die entsprechenden Informationen zu finden. Durch die Hinterlegung von Bedeutungen bei Begriffen und Beziehungen und der logischen Formalisierung werden schlussfolgernde und sprachverstehende Suchen ermöglicht. So können sogar Informationen gefunden werden, wenn sie nur implizit in Dokumenten und Dateneinträgen vorhanden sind. Zur Übersicht können die Suchergebnisse als strukturierte Ergebnisliste aufbereitet werden. Der Suchende erhält dadurch einen schnelleren Überblick und einen schnelleren Zugang zu den gesuchten Informationen.[34]

Vergleich Ausgabe Suchergebnis Google vs. Conweaver
Vergleich Ausgabe Suchergebnis Google vs. Conweaver[34]


Über eine geführte Suche als Navigationsmöglichkeit erhält der Suchende die Möglichkeit, die Suche kontextspezifisch einzuschränken und zu erweitern. Über die Navigation können besonders unstrukturierte Datenquellen intelligent erschlossen werden. Weitere Leistungsmerkmale für die Suche sind die Trunkierung (Abkürzung von Suchbegriffen), Grundformreduktion, Schreibfehlertoleranz und der Einsatz von logischen Operatoren.[35]

5.2.2 Ontoprise

5.2.2.1 Einführung Ontoprise

Ein weiterer Software-Anbieter für die Erstellung eines Wissensnetzes ist die Firma Ontoprise GmbH. Allerdings wird im Gegensatz zu ConWeaver das Wissensnetz nicht in einem Analyseworkflow konfiguriert und danach automatisch erstellt, sondern es werden von Ontoprise folgende Einzellösungen angeboten, mit denen Ontologien verarbeitet, manuell erstellt, gepflegt und durchsucht werden können:

  • OntoBroker (Verarbeitung von bestehenden Ontologien)
  • OntoStudio (manuelle Erstellung von Ontologien)
  • SemanticGuide (Ratgeber mit geführter Suche)
  • SemanticMiner (Suchoberfläche)
  • Semantic MediaWki+ (kollaboriertes Wissensmanagement)

Die Programme und ihre Funktionen werden nachfolgend näher erläutert.

5.2.2.2 OntoBroker

Beim Programm OntoBroker handelt es sich um eine SemanticWeb-Middleware. Er ist die einzige kommerzielle Inferenzmaschine zur Verarbeitung von bestehenden Ontologien, die alle SemanticWeb-Empfehlungen des W3C unterstützt: OWL, RDF, RDFS, SPARQL und zusätzlich den Industriestandard F-Logic. Bestehende Datenbanksysteme wie Oracle, IBM und Microsoft können über vorhandene Konnektoren integriert werden. Der OntoBroker wird in 4 unterschiedlichen Editionen angeboten. Das Unterscheidungskriterium für die Auswahl der benötigten Edition sind die unterstützten Beschreibungssprachen.

Auf der Basis des OntoBroker können ontologie-basierte Anwendungen entwickelt werden, welche unter anderem folgende Vorteile bieten:

  • Einheitlich definierte Bedeutung (Semantik) der Informationen in einem Wissensmodell
  • Flexible Abbildung komplexer Zusammenhänge
  • Inhaltliche Integration heterogener Datenquellen

Dabei kann das Fachwissen und die Geschäftslogik getrennt von der Ausführungslogik modelliert werden. Anwender können die Logik flexibel anpassen und erweitern. Systematisch eingesetzt bilden Ontologien eine konzeptionelle semantische Schicht, die relevantes Fachwissen eines Bereiches oder Unternehmens beinhaltet und auf die von allen Anwendungen aus zugegriffen werden kann.[36]

5.2.2.3 OntoStudio

Beim Programm OntoStudio handelt es sich um eine Modellierungsumgebung zum Aufbau und zur Pflege von Ontologien. Es zeichnet sich durch umfassende Funktionen zur intuitiven Ontologie-Modellierung und durch eine Vielzahl an Importmöglichkeiten gängiger Strukturen, Schemas und Modelle aus. Importiert werden können UML 2.0, Datenbankschema (Oracle, MS-SQL, DB2, MySQL), Excel-Tabellen, Outlook-Emails und Ordnerstrukturen des Dateisystems. Mit einem Mapping-Tool können schnell und intuitiv heterogene Strukturen aufeinander abgebildet werden. Mit einem graphischen Regel-Editor ist es dem Fachanwender möglich, komplexe Abhängigkeiten zu modellieren und über eine integrierte Testumgebung zu überprüfen. Die Erstellung und Erweiterung von Ontologien kann gleichzeitig von mehreren Fachanwendern erfolgen.[37]

5.2.2.4 SemanticGuide

Das Programm SemanticGuide wird als Lösungsunterstützung von Problemen im Kundenservice und bei der Produktberatung eingesetzt. Es handelt sich hierbei um ein ontologie-basiertes Ratgebersystem, mit dem Einzelprozesse der Beratung automatisiert werden können. Im Semantic-Guide wird Expertenwissen in einer Wissensbasis zusammengestellt und den Mitarbeitern für die Beratung zur Verfügung gestellt. Somit können auch unerfahrene Mitarbeiter vom Expertenwissen profitierten.

Die interaktive Diagnose des SemanticGuide führt die Anwender zielgerichtet zur richtigen Problemlösung. Über die intelligente Suchfunktion erhält der Anwender eine Treffermenge, die über pro-aktive Rückfragen immer weiter eingeschränkt wird. Nicht beantwortbare Fragen, können dabei übersprungen werden.

Die generierte Wissensbasis kann über das Feedback der Nutzer kontinuierlich erweitert und optimiert werden.[38] Da jedem Nutzer die gleiche Wissensbasis zur Verfügung steht, werden Wissensasymetrien reduziert.

5.2.2.5 SemanticMiner

Das Programm SemanticMiner ist ein Programm zur intelligenten Suche. Mit Hilfe von Ontologien wird ein Wissensnetz des Unternehmens abgebildet. Über den SemanticMiner wird die moderierte Suche, die Optimierung der Suchergebnisse und der einheitliche Blick auf die Quellen ermöglicht. Das Programm ist als vorkonfigurierte Oberfläche oder in Form eines Webservices erhältlich. Diese lassen sich einfach in bestehende Portale und Intranets etc. integrieren.[39]

5.2.2.6 Semantic MediaWiki +

Das Programm Semantic MediaWiki+ soll Arbeitsgruppen bei der Bewältigung von wissensintensiven Prozessen unterstützen. Ziel ist es, Inhalte und Wissen über semantische Technologien auf Knopfdruck zu erschließen. Das einzelne Gruppenmitglied kann Informationen sammeln und Inhalte erstellen. Dieses Wissen kann von anderen Gruppenmitgliedern oder berechtigten Personen aufgerufen, ergänzt und überprüft werden.

Der Anwender hat folgende Funktionen zur Bearbeitung zur Auswahl:

  • Erstellung von Annotierung über eine grafische Oberfläche
  • Erstellung komplexer Suchanfragen über eine grafische Suchoberfläche
  • Erschließung der gesamten Wissensbasis des Wiki’s über einen grafischen Ontologie-Browser
  • Werkzeuge mit der Ontologien automatisch auf Inkonsistenzen, Lücken und Fehler untersucht werden können
  • Ausgewählte Teile der Ontologie können mit Hilfe von OntoStudio in unternehmenweite Ontologien eingebunden werden
  • Rechtevergabe[40]

5.3 Forschungsprojekte

5.3.1 Prototyp des Suchmaschinenkonzeptes SphereSearch

5.3.1.1 Motivation

Aufgrund der immer schneller wachsenden Anzahl an Informationen sehen sich Informationssuchende immer öfter mit dem Problem konfrontiert, dass die gewünschten Informationen nicht gefunden werden können. Das resultiert in den meisten Fällen daraus, dass viele Informationen zwar verfügbar und zugänglich sind (z.B. mit Hilfe des World Wide Webs), aber in der Fülle der anderen Informationen untergehen. Das Problem betrifft gleichermaßen Gesellschaft, Industrie und Wissenschaft. Besonders bemerkbar macht es sich bei der Nutzung des Webs. Der überwiegende Teil der Webseiten wurde auf die Darstellung optimiert. Inhaltliche Strukturen wurden dabei nur wenig berücksichtigt.
Wer eine Suchmaschine nutzt, lässt die Suche von einer Maschine ausführen, die keinen Nutzen aus der darstellungsoptimierten Struktur von Webseiten ziehen kann. Für die Maschine ist ein HTML-Dokument lediglich ein Haufen von Wörtern, die in keiner Beziehung untereinander stehen.[41]

Im geschäftlichen Umfeld hat sich das Format XML zum Umtausch strukturierter Informationen durchgesetzt. Im World Wide Web, oder in Intranets, in denen Daten in Struktur und Inhalt heterogener sind, gab es keine vergleichbare Entwicklung. Abhilfe soll das Konzept des Semantic Webs sein, in dem Informationen mit Hilfe von OWL annotierten und strukturierten XML-Dokumenten abgelegt sind. Die Bedingung für den Einsatz dieser Technologien ist jedoch ein Konsens über das verwendete Vokabular, d.h. die verwendeten Ontologien und die konsequente Annotation mit Hilfer dieser Ontologien. In der Realität sind die meisten Seiten im Web nach wie vor unstrukturierte HTML-Dokumente ohne semantische Annotationen. Trotz Einsatz von XML sind diese Dokumente sehr heterogen, bezogen auf Vokabular und Struktur.[41]

Die Anforderungen an eine bessere Suchmaschine leiten sich aus den o.g. Problemen ab:

  • "Sie soll Anfragen auf XML- und HTML-basierten Web-Dokumenten in einer einheitlichen Form mit Relevanz-Ranking ermöglichen."[41]
  • "Sie soll konzeptbewusste, kontextbewusste und abstraktionsbewusste Suche unterstützen. Für XML-Daten ist dies schon teilweise verfügbar, für HTML wäre es ein deutlicher Forschritt."[41]

5.3.1.2 Komponenten

SphereSearch nutzt Natural Language Processing Tools (NLP-Tools), um HTML-Dateien aufzubereiten. Dabei wird nur das Teilgebiet Named Entity recognition (NE) (Erkennung von Namen) für die Informationsextraktion benutzt. NE dient dazu, Personennamen, Ortsnamen, Organisationen, Datumsangaben und Geldbeträge (auch wenn es sich hierbei nicht um Namen handelt), etc. zu finden und zu klassifizieren.[42]

Als Beispiel soll der folgende Satz analysiert werden:

The shiny red rocket was fired on Tuesday.
It is the brainchild of Dr. Big Head. Dr.
Head is a staff scientist at We Build Rockets Inc

Eine Extraktion mit Hilfe von NE würde folgende Ergebnisse liefern: "rocket", "Tuesday, "Dr. Head", "We Build Rockets"[43]

In dem SphereSearch-Projekt wird auf die NLP-Tools GATE (General Architecture for Text Engineering), zusammen mit dem Informationsextraktionssystem ANNIE (a Nearly-New Information Extraktion System) zurückgegriffen. ANNIE besteht aus mehreren Modulen, die in einer Pipeline angeordnet sind.[44]

ANNIE-Pipeline
ANNIE-Pipeline[45]

Ein Modul in der Pipeline ist die Java Annotation Pattern Engine (JAPE). Diese Modul hat die Aufgabe, Grammatiken in (kaskadierte) endliche Automaten zu kompilieren. Dabei werden mit Hilfe von regulären Ausdrücken und dazu zugeordneten Aktionen dem Text Annotationen zugefügt. Ein Durchlauf besteht aus mehreren Phasen, die aufeinander aufbauen.[46]

Die nächste Stufe in der Verarbeitung ist die Gruppierung von Begriffen in sogenannte Synsets mit Hilfe von WordNet - einer semantischen Datenbank für die englische Sprache. Ein Synset steht für ein abstraktes Konzept (z.B. chair), und einer Menge aus natürlichsprachlichen Begriffen (Synonymen), die diesem Konzept zugeordnet sind. Begriffe, die in einer natürlichen Sprache verwendet werden, können mehrdeutig sein (z.B. chair im Sinne von Sitzmöbel, oder chair im Sinne von Lehrstuhl).[47]

5.3.1.3 Architekturüberblick

Sphere Search Module
Sphere Search Module[48]

Die Architektur des Systems besteht aus 2 Hauptkomponenten: Der Indexerstellung und der Anfrageausführung. Die Indexerstellung beinhaltet folgende Komponenten:

  • Crawler: Der Crawler ist für die Beschaffung der Quelldaten zuständig. Da die Quelldaten in unterschiedlichen Datenformaten vorliegen können, stehen hierfür verschiedene Adapter (z.B. PDF-Adapter, Web-Adapter, XML-Adapter) bereit.
  • Transformationskomponente: Diese Komponente konvertiert die Daten in das interne XML-Format
  • Annotationskomponente: Mit Hilfe von NLP-Technologien werden den XML-Daten Annotationen hinzugefügt.
  • Indexierer: Der Indexierer zerlegt die Dokumente und speichert sie in einer relationalen Datenbank.[49]

Die Anfrageausführung beinhaltet folgende Komponenten:

  • Client: Der Client ist die Benutzeroberfläche, die die Erstellung von Anfragen aus einem Web-Browser ermöglicht.
  • Auswertung: Ermittlung der Treffer, die zu der Anfrage passen, mit Hilfe der Datenbank
  • Ranking: Sortierung der potentiellen Treffer nach ihrer Relevanz[50]

Desweiteren stehen noch folgende datenspezifische Auswertungsmodule zur Verfügung:

  • WordNet-basierte Ontologie zur Auswertung von semantischen Ähnlichkeitsbedingungen
  • Geo-Server zur Auswertung von ortsspezifischen Ähnlichkeitsanfragen.[50]

5.3.1.4 Anfragesprache

In diesem Projekt sollte eine neue Anfragesprache konzipiert werden, die folgende Merkmale beinhaltet:

  • Ein Anfrage kann als reine Keyword-Abfrage formuliert werden. Alle weiteren Möglichkeiten, die SphereSearch bietet, sollen optional sein.
  • Kontextbewusstsein: Der Benutzer soll in der Lage sein, seine Anfrage weiter zu spezifizieren, sofern er Kenntnisse über die Struktur und den Kontext seiner Anfrage besitzt.
  • Konzeptbewusstein: Eine konzeptspezifische Formulierung und Auswertung soll gegeben sein. Ein Konzept kennzeichnet hier einen spezifischen Typ wie z.B. Ort, Person, Datum.
  • Abstraktionsbewusstsein: Semantische Ähnlichkeitsbedingungen sollen unterstützt werden.[51]

Die Anfragesprache ist einfach strukturiert. Die Anfrage

Welcher deutsche Professor hält eine Vorlesung über Datenbanken und ist an einem Projekt über XML beteiligt?

kann mit einer reinen Schlüsselwortanfrage wie folgt formuliert werden:

Q(professor, germany, course, databases, project, xml)

Obwohl die Anfrage ausgewertet werden kann, ist sie noch nicht optimal, da die Angabe fehlt, in welcher Relation die Begriffe untereinander stehen. Eine Optimierung der Anfrage zu einer kontextbewussten Anfrage könnte so aussehen:

A(professor, Germany)
B(course, databases)
C(project, XML)
[52]

5.3.1.5 Fazit

Die Sphere-Search Suchmaschine besitzt die Eigenschaften Konzeptbewusstsein, Kontextbewusstsein und Abstraktionsbewusstein. Diese Eigenschaften sind relevant für die Suchmaschinen der nächsten Generation um Suchen in den steigenden Datenmengen effizienter und einfacher durchführen zu können. Anders als in früheren Ansätzen, bei denen baumstrukturierte Dokumente einzeln betrachtet werden, werden bei SphereSearch alle Dokumente als ein Graph dargestellt. Das heißt, dass Ergebnisse nicht unbedingt auf ein Dokument beschränkt sein müssen, sondern sich über beliebige Teilgraphen erstrecken können. Die Experimente, die mit SphereSearch durchgeführt wurden zeigen, dass sich die Ergebnisqualität gegenüber herkömmlichen Suchmaschinen signifikant verbessert.[53]


5.3.2 Multimodales Dialogsystem für das semantische Web am Beispiel des Projekts SmartWeb

5.3.2.1 Überblick

SmartWeb ist ein Prototypensystem zur Nutzung von semantischen Technologien, welches vom Bundesministerium für Bildung und Forschung gefördert wurde. Beteiligt an diesem Projekt waren unter anderem große Industriekonzerne wie DaimlerChryler, Deutsche Telekom, BMW, Siemens u.a. Weiterhin war das Deutsche Forschungszentrum für künstliche Intelligenz beteiligt. Das Projekt wurde bereits 2007 beendet. Das herausragende Merkmal stellt die multimodale Dialogverarbeitung da. Unter Multimodalität versteht man einen medientechnischen Mix aus Kommunikationskanälen. Als Dialogmöglichkeiten mit dem System sind ein handelsüblicher Personal Digital Assistent (PDA, mobiler Kleincomputer) und die Steuerung über ein in ein Kraftfahrzeug bzw. Motorrad eingebautes System vorgesehen. Multimodalität bedeutet in diesem konkreten Fall, dass die Anfrage durch den Nutzer neben Sprache und Text auch Gesten, Haptik und Video (Fotos) beinhalten kann. Die Ausgabeseite kann zusätzlich zu Text auch Sprache, Haptik, Graphik, Video und Ton umfassen. [54]

Mobile Subsysteme von SmartWeb
Mobile Subsysteme von SmartWeb[55]

Die Abbildung illustriert die Anbindungsmöglichkeiten an den SmartWeb Server mit den mobilen Zugangsdiensten UMTS bzw. Wireless LAN. Da die eigentliche Weiterverarbeitung nach dem Client-Server-Prinzip auf dem SmartWeb Server stattfindet, reicht auch die Rechenleistung eines PDAs aus, um die komplexen Anfragen abzuarbeiten. Auf dem PDA-Client arbeitet lediglich eine Java-basierte Software und eine grafische Bedienoberfläche für das SmartWeb. [55]

Eine besondere Herausforderung bei der Realisierung semantischer Suchtechniken zur Internetsuche bereits zu einem so frühen Stadium, stellt die Tatsache dar, dass kaum Internetinhalte überhaupt um semantische Metadaten ergänzt worden sind. Da das Smart Web Projekt ein Prototypensystem darstellt, wurden zu Demonstrationszwecken Daten zur FIFA Fußballweltmeisterschaft 2006 um Metadaten für eine semantische Suche ergänzt. Eine Anfrage aus diesem Umfeld zeigt die folgende Abbildung bei der die Anfrage akustisch gestellt wurde und die Antwort ebenfalls akustisch erfolgt, ergänzt um textuelle und grafische Präsentation auf dem Display.

Natürlich sprachliche Anfrage mit einem PDA
Natürlich sprachliche Anfrage mit einem PDA[56]

5.3.2.2 Technische Hintergründe

Nachfolgend sollen kurz einige technische Hintergründe von SmartWeb beleuchtet werden. Dabei werden im wesentlichen jene betrachtet, wo die Nutzung neuer semantische Technologien im Vordergrund steht.

5.3.2.2.1 Ontologien

Ontologien wurden in allen Verarbeitungskomponenten verwendet. Die ontologische Infrastruktur basiert auf den Ontologien DOLCE und SUMO die noch um spezielle angepasste Ontologien für Mediendaten erweitert wurden. Der W3C-Standard EMMA (Extensible MultiModal Annotation Markup Language) wurde um Möglichkeiten zur Ausgabe multimodaler Systemausgaben erweitert.

5.3.2.2.2 Semantischer Mediator

Die Anfragen die an SmartWeb gestellt werden werden nicht über ein einziges Verfahren realisiert, sondern über einen semantischen Mediator. Dieser Mediator bedient sich je nach Art der Anfrage jeweils der Technik, die zur erfolgreichen Beantwortung der Anfrage am besten geeignet ist. Dabei kann z.B. zunächst eine herkömmliche syntaktische Suchanfrage bei einer herkömmlichen Suchmaschine den Beginn darstellen. Danach könnte beispielsweise Komposition von Webdiensten oder ein Aufruf eines Zugriffsagenten folgen.[55]

Zur Veranschaulichung des semantischen Mediators soll die nachfolgende Abbildung dienen.
Der semantiche Mediator in SmartWeb
Der semantiche Mediator in SmartWeb[57]
5.3.2.2.3 Steigerung der Erkennungsleistung beim Wortschatz

Bei der Benutzung eines mobilen Endgerätes für die Interaktion mit dem SmartWeb spielt die Sprache eine herausragende Rolle, da sie für die Nutzung eines Smartphones oder PDAs quasi die natürliche Kommunikationsart darstellt. Gewöhnliche Spracherkennungssysteme mit serverbasierter Spracherkennung unterliegen einer Limitierung des Wortschatzes, und dies bei einem eng umrissenen Anwendungsszenario mit entsprechendem eingeschränkten Vokabular (z.B. Navigationsgerät). Der Wortschatz für allgemeine Informationsgewinnung müsste daher erheblich größer ausfallen. Der Ansatz des Projektes, diesem Mangel zu begegnen, besteht in der Nutzung semantischer Technologien, indem beispielsweise Laute und Silben die erkannt worden sind, zu einer phonetischen Websuche in einem System von Graphen dieser Silben verwendet werden. Das System lernt dadurch ständig neue Worte und das Vokabular des Systems wird sukzessive erweitert. Bestehen solche Graphensysteme für verschiedene Sprachen, so ist eine mehrsprachige Kommunikation mit dem System möglich.

5.3.2.3 Anwendungsbeispiele

5.3.2.3.1 Suchanfrage außerhalb des aufbereiteten Datenbestandes

Im Rahmen einer Präsentation des Systems wurde eine komplexe Anfrage an das System gestellt, die sich nicht auf die Datenbasis FIFA Fußballweltmeisterschaft 2006 bezogen hat. Trotzdem lieferte SmartWeb die korrekte Antwort auf die Nutzeranfrage:

Überraschendes positives Ergebnis einer Suchanfrage
Überraschendes positives Ergebnis einer Suchanfrage[58]
5.3.2.3.2 Visuelle Erfassung von Objekten

Durch die Nutzung der in den PDA eingebauten Fotokamera erschließen sich besondere Möglichkeiten, eine Suchanfrage an SmartWeb zu richten. Dabei verzichtet der Nutzer auf das Eintippen oder Sprechen von schwierigen Objekten. Er fotografiert einfach das Referenzobjekt mit der eingebauten Kamera. Dabei ist es nicht erforderlich, einen bestimmten Aufnahmewinkel oder bestimmte Lichtverhältnisse einzuhalten. Das servergestützte Bilderkennungssystem erkennt das Bild anhand charakteristischer Merkmale, die es mit der Referenzdatenbank vergleicht. Eine Anwendungsmöglichkeit stellt das Fotografieren z.B. eines Kinoplakates dar. Das System erkennt automatisch anhand der Metadaten um welchen Film es sich dabei handelt und ergänzt das Ergebnis um nähere Informationen zu diesem Film.[57]

Semantische Informationsabfrage über kamerabasierte Objekterkennung
Semantische Informationsabfrage über kamerabasierte Objekterkennung[59]


5.3.2.4 Ergebnisse und Ausblick

Das Projekt SmartWeb hat zahlreiche Patentanmeldungen, Produktinnovationen und wissenschaftliche Publikationen hervorgebracht. Dies betrifft sowohl die Grundlagenforschung bis zur Entwicklung neuartiger Produkte. Es hat die Basis gelegt für das europäische Projekt Theseus mit 30 Konsortialpartnern. Mit diesem Projekt bzw. seinen Unterprojekten sollen mit Hilfe von semantischen Techniken innovative Technologien für das Internet der Dienste erschlossen werden.

5.3.3 THESEUS

2005 startete die Quaero-Initiative, eine deutsch französische Industriearbeitsgruppe, an einer europäischen Suchmaschine mit dem Titel QUAERO. Ziel des Projektes war, den Zugang und die Verteilung des online zur Verfügung stehenden Wissens zu verbessern. Im Laufe des Forschungsprojektes wurde festgestellt, dass die einzelnen Seiten unterschiedliche Arbeitsschwerpunkte herausgebildet und verfolgt haben. Daher wurde zum Jahreswechsel 2007/2007 entschieden, die Arbeitsschwerpunkte getrennt voneinander weiter zu verfolgen.[60] Der deutsche Forschungsteil, umbenannt in Theseus, und der französische Teil Quaero ergänzen sich jedoch und sind eng miteinander verzahnt. Das Projekt Theseus hat eine Laufzeit von 5 Jahren und wird durch das Bundesministerium für Wirtschaft und Technologie BMWi mit ca. 100 Mio Euro gefördert. Weitere 100 Mio Euro werden von beteiligten Partnern aus Industrie und Forschung zur Verfügung gestellt.

Im Vordergrund von Theseus steht die Entwicklung von semantischen Technologien, die nicht nur die Informationen ermitteln können, sondern auch deren inhaltliche Bedeutung erkennen und einordnen können. Mit Hilfe der Technologien sollen Computerprogramme intelligent nachvollziehen können in welchem Kontext Daten abgespeichert werden. Darüber hinaus sollen Computer durch die Anwendung von Regeln und Ordnungsprinzipien in der Lage sein, logische Schlüsse zu ziehen und selbständig Zusammenhänge zwischen unterschiedlichen Informationen aus mehreren Quellen erkennen und herstellen zu können.

Das Forschungsprojekt Theseus ist in folgende 6 Anwendungsszenarien unterteilt:[61]

Anwendungsszenarien Ziele
ALEXANDRIA Wissensplattform im Internet
Entwicklung einer Wissensplattform
Veröffentlichung und Weiterentwicklung von Nutzerwissen
Ordnungssysteme und Verwaltung großer Datenmengen über semantische Technologien
Automatische und manuelle Erzeugung von Metadaten[62]
CONTENTUS Technologien für die Mediathek der Zukunft Millionen
einfacher und medienübergreifender Nutzerzugriff auf Wissens- und Kulturgüter
automatische Aufbereitung und semantische Vernetzung großer Datenmengen
Enge Abstimmung mit der Initiative "Deutsche Digitale Bibliothek"
Vernetzung der Sammlungen von Bilbiotheken, Medienarchiven und Sendeanstalten über eine Multimediathek
Schaffung von semantischen und medienübergreifenden Recherchemöglichkeiten[63]
MEDICO Intelligente Recherche in Medizindatenbanken
Entwicklung Anwendung für eine einfache vernetzte Recherche in Medizindatenbanken
intelligente Zusammenführung von bild- und textbasierten Befunden
Zusammenstellung von Vergleichsbildern und Behandlungsbildern aus mehreren Datenbanken zur Feststellung von krankhaften Veränderungen
schneller und effizienter Zugriff auf medinzinisches Wissen
Behandlungsempfehlungen[64]
ORDO Ordnung für die digitale Welt
Entwicklung von neuen Diensten und Softwarewerkzeugen zur Ordnung und Priorisierung von Informationen und Suchergebnissen
automatische Erkennung von Konzepten und Zusammenhängen und Extrahierung der Fakten
Aufbau von Ordnungssystemen zur Modellierung, Verwaltung und Organisation von Daten[65]
PROCESSUS Wissen im Unternehmen besser nutzen
Zugang zu entscheidendem Wissen aus internen Daten, Mails etc.
schnellere Verknüpfung von Branchen und Prozesswissen zur Entwicklung neuer Produkte, Lösungen und Geschäftsmodelle
Einsparung von Recherche- und Entwicklungskosten
Qualitätsvorsprung im globalem Wettbewerb[66]
TEXO
Infrastruktur für internetbasierte Dienste
Entwicklung einer integrierten Online-Plattform für den Handel von Serviceleistungen
kleinere und mittleren Unternehmen soll dadurch die Möglichkeit geboten werden, ihre Dienstleistung weltweit anzubieten
Bündelung von Servicepaketen einzelner Anbieter zur Steigerung der Wettbewerbsfähigkeit
Einsparung von Zeit und Kosten zur Erstellung eines Angebotes[67]

Tabelle 1: Anwendungsszenarien THESEUS

Das Projekt THESEUS läuft bis 2012, daher ist es derzeit nicht möglich, eine Aussage über den Erfolg des Forschungsprojektes und den daraus resultierenden weiterverwendbaren Technologien zu treffen.

6 Kriterien zur Einteilung semantischer Suchansätze

6.1 Datenquellen

6.1.1 Nachträgliche Erschließung implizit vorhandener Bedeutung

Dieser Fall liegt vor, wenn bei der Erstellung der Inhalte nicht explizit auf die Belange des Semantic Web eingegangen wurde. Dies dürfte momentan noch für die ganz überwiegende Anzahl der Internetinhalte gelten.

6.1.2 Auswertung explizit vorhandener semantischer Informationen

Hierbei wurden bei der Erstellung der Webinhalte zu einem bestimmten Thema bereits Techniken zur semantischen Annotation wie URI, RDF wie im Kapitel 4 genannt, eingesetzt und es wurde bereits eine Ontologie (Konzeptnetz zu einem Themenbereich) erstellt.

6.2 Semantische Reichhaltigkeit

Je reichhaltiger die Daten um semantische Metadaten ergänzt werden, desto ähnlicher werden die Suchergebnisse den Suchergebnissen, die man von einer Datenbank erwarten würde. Das heißt, dass im umgekehrten Fall einer unvollständigen Auszeichnung die Suchunschärfe zunimmt. Man bezeichnet dieses auch als Sparse Annotation.

6.3 Datenaufbereitung

  • Automatische maschinelle Aufbereitung der Daten
  • Halbautomatische Datenaufbereitung
  • Aufbereitung der Daten durch persönlichen Einsatz von Menschen

Viele Ressourcen die im Web vorhanden sind, können nicht, oder nur unzureichend durch maschinelle Prozesse mit Daten angereichert werden, die für das semantische Web nötig sind. Daher ist es nötig, Ressourcen manuell zu prüfen und diesen Annotationen hinzuzufügen. Wegen der unüberschaubaren Anzahl der im Web vorhandenen Ressourcen können kleine Personengruppen diese Aufgabe nicht erfüllen. Es ist also nötig, möglichst viele Nutzer dazu zu animieren, Inhalte im Web mit Informationen anzureichern. Da das Annotieren von Inhalten für die meisten Menschen innerhalb kurzer Zeit langweilig werden würde, müssen Lösungen gefunden werden, die den Benutzer freiwillig dazu bringen, sich mit der Annotation von Inhalten zu beschäftigen und die das Interesse anderer Nutzer wecken, so dass sich die Anzahl der beteiligten Nutzer ständig erhöht.

Die Carnegie Mellon Universität hat ein Projekt gestartet[68], das dazu dienen soll Aufgaben, die schlecht von Maschinen ausgeführt werden können, von Menschen im Rahmen von Spielen lösen zu lassen. Ein Spiel im Rahmen von gwap ist das ESPGame.

Das Spiel sucht aus den registrierten Mitspielern per Zufallsgenerator zwei aus, die gegeneinander spielen werden. Diese beiden Spieler sind einander anonym und können nicht miteinander kommunizieren. Ein Spiel dauert 2,5 Minuten und es besteht darin, dass beiden Spielern gleichzeitig das gleiche Bild präsentiert wird. Beide Spieler haben die Aufgabe, den Inhalt des Bildes mit einzelnen Wörtern zu beschreiben. Wenn beide Spieler das gleiche Wort eingeben haben, erhalten beide Spieler Punkte und das nächste Bild wird eingeblendet. Wenn ein Spieler keine Worte für ein Bild findet, kann er dieses Bild auch überspringen, indem er "pass" klickt. Das nächste Bild wird dann angezeigt, wenn der Mitspieler, auch "pass" geklickt hat.

ESPGame
ESPGame[68]

Ein ähnliches Konzept verfolgt auch google mit dem "Google Image Labeler"[69] zum Beschreiben von Bildern, die unter pictures.google.com angezeigt werden.

Google Image Labeler
Google Image Labeler [69]

6.4 Suchanfrage

  • Anfrage ohne Verwendung einer Abfragesprache
  • Verwendung einer Abfragesprache wie z.B. SPARQL

7 Fazit

7.1 Vorteile

7.1.1 Schneller finden

Eine wesentliche Hoffnung, die sich mit einer funktionierenden semantischen Suche verbindet, ist es schneller an relevante Ergebnisse zu gelangen. Die Suche im Semantic Web basiert auf logischen Schlüssen innerhalb von Ontologien. Diese Information kann verwendet werden, um eine bessere Reihenfolge der Suchergebnisse zu erzielen bzw. möglichst ausschließlich relevante Suchergebnisse zu erhalten.

7.1.2 Erhöhung der Anzahl der gefundenen Ergebnisse

Durch die Anreicherung der Internetinhalte durch Metadaten kann sich die Zahl der gefundenen Ergebnisse deutlich erhöhen. Dies liegt darin begründet, dass ein besseres Verständnis bzw. überhaupt ein Verständnis der verwendeten Suchmaschine existiert, wie die Daten miteinander in Beziehung stehen. Diese Beziehungen können bei einer rein syntaktischen Suche nicht mit ausgewertet werden.

7.1.3 Finden von sonst isolierten Informationen

Herkömmliche Websuche arbeitet auf der Basis der Indexierung einzelner Webseiten. Verbindungen einzelner Seiten können nur über Hyperlinks realisert werden. Durch die Anreicherung der Metadatenschicht der Inhalte wird automatisch auch in Webseiten gesucht, die eigentlich nicht miteinander verlinkt sind. Dadurch erhält man Ergebnisse, die bei einer rein syntaktischen Suche verborgen geblieben wären.

7.1.4 Anreicherung des Suchergebnisses mit weiteren Informationen

Durch die Verknüpfung des Suchergebnisses mit relevanten Daten aus dem Umfeld des Suchergebnisses wird es einfach möglich oder überhaupt erst ermöglicht, dem Nutzer weitergehende Informationen zu seiner Suchanfrage anzubieten. Dies wurde beim Projekt SmartWeb dargestellt.

7.1.5 Multimodalität

Wie im Projekt Smart Web gezeigt wurde, ergeben sich durch eine multimodale Mediennutzung ganz neue Anwendungsfelder, die ohne die Nutzung der Techniken des Semantic Web gar nicht oder nur in eingeschränktem Maße möglich wären. Beispielhaft sei hier noch einmal die Spracheingabe für eine Suchanfrage genannt.

7.2 Nachteile

7.2.1 Sinkende Ergebnisbreite

Durch eine funktionierende semantische Suche geht ein wesentlicher Aspekt bei der Internetrecherche verloren. Das finden von Informationen nach denen gar nicht explizit gesucht wurde. Dies wird in der Literatur als Serendipity Effekt bezeichnet. Sinkt die Ergebnisbreite der Suchtreffer in dem Sinne, dass unschärfere Treffer nicht mehr in die Ergebnismenge einbezogen werden, so profitiert der Abfragesteller nicht mehr von zufälligen Treffern die eventuell eine Quelle für Kreativität, Inspiration und Innovation darstellen können. [70]

7.2.2 Sinkende Vertraulichkeit

Bei der Suche nach Informationen im Internet hinterlässt der Nutzer Spuren, die durch die Betreiber der Dienste ausgewertet werden können. Insbesondere die Werbebranche ist immer daran interessiert auf den Nutzer zugeschnittene Werbung, die seinen Interessen entspricht zu platzieren. Der Suchmaschinenbetreiber Google, der inzwischen verschiedenste Webservices anbietet, wird hier immer als einer der Ersten genannt. Datenschützer hegen Bedenken, dass die Dienste mit den verschieden Daten dazu verwendet werden, komplett Profile der Nutzer zu erstellen und diese gewinnbringend einzusetzen. Während bei der syntaktischen Suche eine gewisse Verschleierung durch die Mehrdeutigkeit der menschlichen Sprache verbleibt, ist dies bei der Verwendung von semantischen Konzepten wie z.B. URI-Repräsentationen nicht mehr der Fall. Dieses bedeutet, dass der Anwender von semantischen Technologien sich das bessere Finden von Informationen eventuell durch ein weiteres Stück Aufgabe von Anonymität im Internet erkauft. [70]

7.2.3 Sinkende Verlässlichkeit

Tendenziell wird sich möglicherweise eine Verminderung der Validität der gefundenen Information einstellen. Bei der Nutzung herkömmlicher Suchmaschinen ergibt sich eine breitere Streuung der Ergebnismenge. Damit steigt die Wahrscheinlichkeit, bei den Ergebnissen Quellen aus ganz unterschiedlichen Bereichen zu erhalten. Durch die Verzahnung der Information mit den Metadaten werden die Suchtreffer nur noch aus einer wesentlich geringeren Grundgesamtheit ausgewählt. Somit sinkt die Chance, vielversprechende Treffer aus ganz unterschiedlichen Bereichen zu erhalten, die eben gerade nicht mit einer Semantik verbunden sind, deshalb aber nicht notwendigerweise keine Relevanz für die entsprechende Suchanfrage beinhalten müssen.[70]

7.2.4 Größe des Webs

Um eine funktionierende semantische Suche zu realisieren, die den gesamten Inhalt des Internets oder zumindest einen großen Teil der darin enthaltenen Informationen mit semantischen Metadaten anreichert, erscheint schwierig bis unmöglich. Jeder Webmaster müsste sich mit dem Thema Semantic Web auseinandersetzten und bei der Seitengestaltung semantische Annotation mit berücksichtigen.

7.3 Ausblick

Das Semantische Web befindet sich momentan noch in einer sehr frühen Phase seiner Entwicklung. Es ist noch nicht großflächig fertiggestellt.[71] Bislang existieren im Bereich der semantischen Suche vor allem Prototypensysteme einzelner Unternehmen sowie Pilotprojekte. Die Möglichkeit einer umfassenden Realisierung der Ergänzung der Internetinhalte um semantische Metadaten wird zukünftig aber als relativ groß eingeschätzt. Mit herkömmlichen Suchmaschinen kann die immer größer werdende Flut von Informationen nicht mehr bewältigt werden. Positiv bewerten kann man für die Realisierung, dass einzelne Inseln der semantischen Auszeichnung bereits zu verbesserten Ergebnissen führen, so dass sich im Laufe der Zeit ein immer größerer Durchdringungsgrad des Internets mit semantischen Informationen ergeben könnte. Die technologischen Mittel stehen zur Verfügung. Damit das Semantic Web ein Erfolgsmodell wird, muss der Bekanntheitsgrad und die großflächige Nutzung der Technologien noch erheblich zunehmen. Zu beachten ist gerade bei der derzeitigen Häufung der Datenschutzskandale in jedem Fall der Schutz der Daten des Einzelnen, damit es nicht zu einem gläsernen Internetnutzer kommt.

8 Abkürzungsverzeichnis

AbkürzungBedeutung
ANNIEa Nearly-New Information Extraktion System
AliwebArchie-Like Indexing of the Web
BMWiBundesministerium für Wirtschaft und Technologie
CDATACharacter DATA
DAML+OILDarpa Agent Markup Language + Ontology Inference Layer
DCDublin Core
DOLCEDescriptive Ontology for Linguistic and Cognitive Engineering
DTDDocument Type Definition
EMMAExtensible MultiModal Annotation Markup Language
FIFAFédération Internationale de Football Association
FTPFile Transfer Protocol
GateGeneral Architecture for Text Engineering
HTMLHypertext Markup Language
HTTPHypertext Transfer Protocol
JAPEJava Annotation Pattern Engine
LANLocal Area Network
OWLWeb Ontology Language
PCDATAParsable Character DATA
PDAPersonal Digital Assistant
NENamed Entity recognition
NLPNatural Language Processing
RDFResource Description Framework
RDFSResource Description Framework Schema
XMLeXtensible Markup Language
SGMLStandard Generalized Markup Language
SOAPSimple Object Access Protocol
SQLStructured Query Language
SPARQLSPARQL Protocol and RDF Query Language
SUMOSuggested Upper Merged Ontology
UMTSUniversal Mobile Telecommunications System
URNUnivorm Resource Name
URIUniform Resource Identifier
URLUniform Resource Locator
VeronicaVery Easy Rodent-Oriented Netwide Index to Computerized Archives
WWWWorld Wide Web
WSDLWeb Service Description Language
W3CWorld Wide Web Consortium

9 Abbildungsverzeichnis

Abb.-Nr.Abbildung
1Tim Berners-Lee
2Screenshot Google
3Screenshot Powerset
4Wein-OWL
5Semantic Stack
6RDF Graph
7Schema Vorgänge
8Schema Wissensnetz
9Analyseworkflow
10Vergleich Ausgabe Suchergebnis Google vs. ConWeaver
11ANNIE-Pipeline
12Sphere Search Module
13Mobile Subsysteme von SmartWeb
14Natürlich sprachliche Anfrage mit einem PDA
15Der semantische Mediator im SmartWeb
16Überraschendes positives Ergebnis einer Suchanfrage
17Semantische Informationsabfrage über kamerabasierte Objekterkennung
18ESPGame
19Google Image Labeler

10 Tabellenverzeichnis

Tabelle Nr.Quelle
1Abfrageergebnis SPARQL
2Anwendungsszenarien THESEUS

11 Fußnoten

  1. Vgl. Jacobs (2007), [1]
  2. Vgl. Berners-Lee/Fischetti (1999), S. 11
  3. Vgl. Acatech (2008), S. 20
  4. Vgl. o.V. Google 1 (2009) [2]
  5. Vgl. o.V. Powerset (2009), [3]
  6. 6,0 6,1 6,2 6,3 6,4 6,5 6,6 Vgl. Koch (2007), S. 12 ff.
  7. 7,0 7,1 Vgl. Koch (2007), S. 22
  8. Vgl. Sroka (2008), S. 10
  9. Vgl. o.V. Copernic (2009)[4]
  10. Vgl. o.V. Windows Search (2009) [5]
  11. Vgl. Herman (2009) [6]
  12. Vgl. Dostal et al. (2004), S. 30-31
  13. Vgl. Berners-Lee (2006)
  14. Vgl. o.V. Mysite (2009): [7]
  15. Vgl. Corazzon (2009) [8]
  16. Vgl. Dirsch-Weigand et al. (2006), S.3
  17. Vgl. Bos (1999) [9]
  18. Vgl. Hitzler et al. (2008), S. 22, 23
  19. Vgl. Dostal et al. (2004), S. 32, 33
  20. Vgl. Hitzler et al. (2008), S. 26
  21. 21,0 21,1 21,2 Vgl. Manola, Miller (2004) [10]
  22. Vgl. Hitzler et al. (2008), S.67
  23. 23,0 23,1 23,2 Vgl. McGuinness, van Harmelen (2004) [11]
  24. Vgl. Scheir (2008), S.24
  25. Vgl. Prud'hommeaux, Seaborne (2008) [12]
  26. 26,0 26,1 Vgl. o.V. Semager 1 (2009), [13]
  27. Vgl. o.V. Semager 2 (2009), [14]
  28. Vgl. Bonnert 1 (2008), S. 40,
  29. Vgl. Bonnert 2 (2008)[15]
  30. Vgl. Dirsch-Weigand (2006), S. 1 [16]
  31. 31,0 31,1 Vgl. o.V. Conweaver (2008), S. 3, [17]
  32. 32,0 32,1 Vgl. o.V. Conweaver (2008), S. 6, [18]
  33. 33,0 33,1 Vgl. o.V. Conweaver (2008), S. 8, [19]
  34. 34,0 34,1 Vgl. o.V. Conweaver (2008), S. 5, [20]
  35. Vgl. o.V. Conweaver (2008), S. 5 und 6, [21]
  36. Vgl. o.V. Ontoprise 1 (2009) [22]
  37. Vgl. o.V. Ontoprise 2 (2009) [23]
  38. Vgl. o.V. Ontoprise 3 (2009) [24]
  39. Vgl. o.V. Ontoprise 4 (2009) [25]
  40. Vgl. o.V. Ontoprise 5 (2009) [26]
  41. 41,0 41,1 41,2 41,3 Vgl. Graupmann (2007), S. 14
  42. Vgl. Graupmann (2006), S. 29
  43. Vgl. Graupmann (2006), S. 30
  44. Vgl. Graupmann (2006), S. 31
  45. Vgl. Graupmann (2006), S. 32
  46. Vgl. Graupmann (2006), S. 32-33
  47. Vgl. Graupmann (2006), S. 35
  48. Angelehnt an: Graupmann (2006), S. 37
  49. Vgl. Graupmann (2006), S. 37
  50. 50,0 50,1 Vgl. Graupmann (2006), S. 38
  51. Vgl. Graupmann (2006), S. 73
  52. Vgl. Graupmann (2006), S. 74
  53. Vgl. Graupmann (2006), S. 147-148
  54. Vgl. Vollmar/Reuse (2008), S. 300
  55. 55,0 55,1 55,2 Vgl. Vollmar/Reuse (2008), S. 304
  56. Vgl. Vollmar/Reuse (2008), S. 301
  57. 57,0 57,1 Vgl. Vollmar/Reuse (2008), S. 305
  58. Vgl. Vollmar/Reuse (2008), S. 303
  59. Vgl. Wahlster (2007) o. Seitenangabe
  60. Vgl. o.V. Theseus 1 (2009) S.3, [27]
  61. Vgl. o.V. Theseus 2 (2009) S.6-7, [28]
  62. Vgl. o.V. Theseus 2 (2009) S.8-9, [29]
  63. Vgl. o.V. Theseus 2 (2009) S.10-11, [30]
  64. Vgl. o.V. Theseus 2 (2009) S.12-13, [31]
  65. Vgl. o.V. Theseus 2 (2009) S.14-15, [32]
  66. Vgl. o.V. Theseus 2 (2009) S.16-17, [33]
  67. Vgl. o.V. Theseus 2 (2009) S.18-19, [34]
  68. 68,0 68,1 Vgl. o.V. Gwap (2009) [35]
  69. 69,0 69,1 Vgl. o.V. Google 2 (2009) [36]
  70. 70,0 70,1 70,2 Vgl. Dostal et al.(2004), S. 35
  71. Vgl. Scheir (2008), S. 11

12 Literatur- und Quellenverzeichnis

Acatech (2008) Acatech: Wie arbeiten die Suchmaschinen von Morgen?, Hrsg.Friedemann Mattern, 1. Auflage, Fraunhofer IRB Verlag, Stuttgart 2008
Berners-Lee/Fischetti (1999) Berners-Lee, Tim; Fischetti, Mark: Der Web-Report, 1. Auflage, Econ, Berlin 1999
Berners-Lee (2006) Berners-Lee, Tim: Artificial Intelligence and the Semantic Web, Keynote at The Twenty-First National Conference on Artificial Intelligence (AAAI 2006), http://www.w3.org/2006/Talks/0718-aaai-tbl/, Stand 18.07.2006
Bonnert 1 (2008) Bonnert, Erich: Semantische Suchmaschine mit NASA-Technik, C´t 2008 Heft 12, Heise Zeitschriften Verlag, Hannover 2008
Bonnert 2 (2008) Bonnert, Erich: Semantische Suchmaschine gestartet, http://www.heise.de/newsticker/Semantische-Suchmaschine-gestartet--/meldung/107759, Heise online vom Heise Zeitschriften Verlag, Hannover, Stand 13.05.2008
Bos (1999) Bos, Bert: http://www.w3c.de/Misc/XML-in-10-points.html, Stand 27.03.1999
Corazzon (2009) Corazzon, Raul: History and Theory of Ontology, http://www.formalontology.it/, Stand 21.01.2009
Dirsch-Weigand et al. (2006) Dirsch-Weigand, Andrea; Schmidt, Ingrid; Rein, Birgit; Stenzel, Richard; Kamps, Thomas: Conweaver - Automatisierte Wissensnetze für die semantische Suche, Fraunhofer Institut Integrierte Publikations- und Informationssysteme, http://www.conweaver.de/PDF/conweaver_dgi_final.pdf, Fraunhofer Institut Integrierte Publikations- und Informationssysteme, Darmstadt 2006
Dostal et al. (2004) Dostal, Wolfgang; Jeckle, Mario; Melzer, Ingo; Zengler Barbara: Semantic Web in: OBJEKTspektrum, S. 30-35, Ausgabe 05/2004, Sigs Datacom GmbH, Troisdorf 2004
Graupmann (2007) Graupmann, Jens: Semantische Suche - Intelligente Suchmaschinen durch innovative und zukunftsweisende Konzepte und Technologien, 1. Auflage, VDV Verlag Dr. Müller, Saarbrücken 2007
Herman (2009) Herman, Ivan: W3C http://www.w3.org/2001/sw/, Stand 01.01.2009
Hitzler et al. (2008) Hitzler, Pascal; Krötzsch, Markus; Rudolph Sebastian, Sure, York: Semantic Web Grundlagen, 1. Auflage, Springer-Verlag, Berlin Heidelberg 2008
Jacobs (2007) Jacobs, Ian: Über das World Wide Web Consortium, Bilder: Sam Ogden, http://www.w3c.de/about/overview.html, Stand 23.11.2008
Koch (2007) Koch, Daniel: Suchmaschinenoptimierung, 1. Auflage, Addison Wessley Verlag, München 2007
Manola, Miller (2004) Manola, Frank; Miller, Eric: RDF-Primer http://www.w3.org/TR/2004/REC-rdf-primer-20040210/#example1, Stand 10.02.2004
McGuinness, van Harmelen (2004) McGuinness, Deborah L.; van Harmelen, Frank: OWL Web Ontology Language, http://www.w3.org/TR/owl-features/, Stand 10.02.2004
o.V. Conweaver (2008) o.V.: Die semantische Suchmaschine, Whitepaper, http://www.conweaver.de/PDF/ConWeaver_Whitepaper.pdf, Stand 28.09.2008
o.V. Copernic (2009) o.V.: Copernic, http://www.copernic.com/en/products/desktop-search/, Stand 21.01.2009
o.V. Google 1 (2009) o.V.: http://www.google.de/search?hl=de&q=Tom+Tailor&meta=, Stand 17.01.2009
o.V. Google 2 (2009) o.V.: http://images.google.com/imagelabeler/, Stand 21.01.2009
o.V. Gwap (2009) o.V.: http://www.gwap.com/gwap/, Stand 21.01.2009
o.V. Ontoprise 1 (2009) o.V.: OntoBroker, http://www.ontoprise.de/deutsch/start/produkte/ontobroker/, Stand 06.01.2009
o.V. Ontoprise 2 (2009) o.V.: OntoStudio, http://www.ontoprise.de/deutsch/start/produkte/ontostudio/, Stand 06.01.2009
o.V. Ontoprise 3 (2009) o.V.: SemanticGuide, http://www.ontoprise.de/deutsch/start/produkte/semanticguide/, Stand 06.01.2009
o.V. Ontoprise 4 (2009) o.V.: SemanticMiner, http://www.ontoprise.de/deutsch/start/produkte/semanticminer/, Stand 06.01.2009
o.V. Ontoprise 5 (2009) o.V.: Semantic MediaWiki+, http://www.ontoprise.de/deutsch/start/produkte/semantic-mediawiki/, Stand 07.01.2009
o.V. Mysite (2009) o.V.: Wine OWL, http://mysite.verizon.net/jflynn12/VisioOWL/Wine.vsd, Stand 21.01.2009
o.V. Powerset (2009) o.V.: http://www.powerset.com/explore/go/What-is-Tom-Tailor%3F, Stand 17.01.2009
o.V. Semager 1 (2009) o.V.: http://www.semager.de/blog/impressum/was-ist-semager/, Stand 13.01.2009
o.V. Semager 2 (2009) o.V.: http://www.semager.de/keywords/?q=Kuchen&lang=de, Stand 13.01.09
o.V. Theseus 1 (2009) o.V.: Was ist Theseus?, http://www.theseus-programm.de/sites/theseus-projekt.de/files/was_ist_theseus_d.pdf, Theseus Pressebüro, Stand 16.01.09
o.V. Theseus 2 (2009) o.V.: Das Theseus-Forschungspgroramm: http://www.theseus-programm.de/sites/theseus-projekt.de/files/THESEUS-Broschuere.pdf, Hrsg. Bundesministerium für Wirtschaft und Technologie, Stand 16.01.09
o.V. Windows Search (2009) o.V.: Windows Search, http://www.microsoft.com/windows/products/winfamily/desktopsearch/default.mspx, Stand 21.01.09
Prud'hommeaux, Seaborne (2008) Prud'hommeaux, Eric; Seaborne, Andy: SPARQL Query Language, http://www.w3.org/TR/2008/REC-rdf-sparql-query-20080115/#sparqlSyntax, Stand: 15.01.2008
Scheir (2008) Scheir, Peter: Assoziative Suche für das Semantic Web: Dissertation zur Verleihung des akademischen Grades Doktor der Technischen Wissenschaften an der Technischen Universität Graz, Graz 2008, http://www.know-center.tugraz.at/content/download/1429/7615/file/Dissertation_Peter_Scheir.pdf, Stand 18.01.2008
Sroka (2008) Sroka, Blasius: Informationsbeschaffung im Internet, 1. Auflage, GRIN Verlag, München 2008
Vollmar/Reuse (2008) Vollmar, Roland; Reuse, Bernd: Informatikforschung in Deutschland: 1. Auflage, Springer-Verlag, Berlin Heidelberg New York 2008
Wahlster (2007) Wahlster, Wolfgang: Hauptergebnisse des Projekts: http://smartweb.dfki.de/Vortraege/PSS3_Folien_WW/SmartWeb_Hauptergebnisse_des_Projekts.pdf, Stand 30.12.2008
Persönliche Werkzeuge