Semantische Suchmaschinen
Aus Winfwiki
| Name des Autors / der Autoren: | Fabian Bedtke und Lars Jotzo |
| Titel der Arbeit: | "Semantische Suchmaschinen" |
| Hochschule und Studienort: | FOM Essen |
Inhaltsverzeichnis |
1 Abbildungsverzeichnis
| Abbildungs-Nr. | Abbildung |
|---|---|
| 1 | |
| 2 | Powerset, Startseite |
| 3 | Powerset, What did Quentin Tarantino direct |
| 4 | Powerset, Ergebnisseite |
| 5 | Powerset, What is Google's market capitalization? |
| 6 | Wolfram Alpha, 2, 3, 5, 7 |
| 7 | Wolfram Alpha, H2SO4 |
| 8 | Wolfram Alpha, uncle's uncle's brother's son |
| 9 | Wolfram Alpha, Katrina |
| 10 | Wolfram Alpha, Katrina Hurricane |
| 11 | Wolfram Alpha, population density USA vs. Germany |
2 Einleitung
Die Zahl der Webseiten im Internet steigt stetig. Dieser Inhalt muss von Suchmaschinen indiziert werden, um dort einen Überblick gewähren zu können. Herkömmliche Suchmaschinen von Anbietern wie Google oder Microsoft haben sich in diesem Bereich schon bewährt. Durch die steigende Anzahl von Webseiten stoßen diese Suchmaschinen irgendwann an ihre Grenzen. Da heutige Suchmaschinen nach den eingetippten Schlüsselwörtern suchen, können sie die natürliche Sprache nicht verarbeiten. Dieses Problem sollen semantische Suchmaschinen lösen. Diese Fallstudie beschäftigt sich mit den Grundlagen semantischer Suchmaschinen sowie deren Historie, technische Entwicklung und der vorhandenen Anbieter auf dem Markt.
3 Hintergrund
3.1 Definition
Semantik: „Steht im allgemeinen für ‚Bedeutung von Wörtern ,Phrasen oder Symbolen‘. In der Linguistik steht Semantik für die Wissenschaft der Bedeutung in verschiedenen Sprachformen. In der Informatik, und insbesondere im Bereich Semantic Web, versteht man unter Semantik die Bedeutung von Worten bzw. Zeichen(-ketten) und ihre Beziehung untereinander.“ [1]
Semantische Suche: „Spezifisches (multidimensionales) Indexierungsverfahren, das auf der Basis semantischer Netze funktioniert. Semantische Netze beschreiben Begriffsrelationen durch bedeutungstragende Attritube […].“ [2]
3.2 Entwicklung
3.2.1 Historie
Durch das stetige Wachsen des Internets und die unüberschaubare Menge von Informationen war es für die Nutzer des Internets immer schwieriger die richtigen Informationen zu finden. Eine mögliche Lösung des Problems wäre eine Verzeichnisstruktur in der die Informationen des Internets gesammelt und sortiert sind. Im Jahr 1990 kamen zwei Studenten (Alan Emtage und Peter Deutsch) an der McGill University School of Computer Science in Kanada auf die Idee, die Suchmaschine Archie zu entwickeln. Sie gilt als Vorläufer der heutigen Suchmaschine. Archie war eine Datenbank in der Dateien und sowie deren Verzeichnisse von FTP Servern enthalten waren. Die Abfrage lief über Telnet. Im Jahr 1992 war der Vorgänger der heutigen Suchmaschine das häufigste genutzte Internetwerkzeug. Inspiriert von Archie wurde im Jahr 1991 an der University of Nevada in Reno Gopher entwickelt. Gopher analysierte die Gopher-Sites, welche an dem Hauptserver der Universität registriert waren, und erzeugte daraus einen Index. Gopher war in der Lage mit booleschen Operatoren umzugehen. 1993 wurde vom Studenten Mathew Grey für das Durchsuchen des Internets ein spider-basierendes Suchmaschinenwerkzeug entwickelt (WorldWideWebWanderer). Diese Technologie ermöglichte es Links weiter zu verfolgen und die Webserver zu zählen. Michael L. Mauldin kam auf die Idee, dass man durch die Weiterentwicklung des Tools in der Lage sein könnte, einzelne Webserver auf deren Inhalt zu durchsuchen. Im Oktober 1993 wurde ein weiterer Suchdienst entwickelt – Aliweb (Archie-Like Indexing oft he Web). Die Betreiber der Webserver wurden damals dazu veranlasst, die Informationen über den Inhalt ihrer Server in einer Datei abzuspeichern und diese Aliweb zugänglich zu machen. Aliweb generierte dann aus den Informationen einen Index. Dezember 1993 ging dem RBSE Spider eine Suchmaschine in Betrieb, welche ihre Ergebnisse nach einen Ranking-System listete. Ihr Ansatz gilt als Grundlage zahlreicher Suchmaschinen. 1994 kamen die Studenten David Filo und Jerry Yang auf die Idee, ihre beliebtesten Webadressen unter Yahoo zur Verfügung zu stellen. 1995 gingen mit Infoseek und Altavista die ersten kommerziellen Suchmaschinen in Betrieb. 1998 folge der Suchmaschinenanbieter Google. [3]
3.2.2 Aktuelle Situation
Zur Zeit existieren zahlreiche kleine semantische Suchmaschinen. Diese sind noch im Entwicklungsstadium. Die Hoffnung der Zukunft ist, dass sich diese Suchmaschinen zu größeren Entwickeln und neue größere Anbieter in den Suchmaschinenmarkt bringen, um dort dem Riesen Google ein wenig Marktmacht zu nehmen. Microsoft verfügt über die semantische Suchmaschine Powerset. Auf der Webseite von Powerset wirbt Microsoft damit „Microsoft brings you a better to search - Bing“. [4] Das Unternehmen scheint daher ein wenig von der Suchmaschine Powerset zurückgetreten zu sein. Eine weitere semantische Suchmaschine ist Wolfram Alpha. Auf diese Suchmaschine wird im Absatz Praxisbeispiele und Tests noch genauer eingegangen. Die Suchmaschine ist im Internet erreichbar, aber befindet sich noch in Entwicklung. Gewisse Anfragen bringen leider keine noch keine sinnvollen Ergebnisse. [5]
3.2.3 Forschungen
3.2.3.1 Theseus
Ursprünglich stammt THESEUS aus der deutsch-französischen Industriearbeitsgruppe Quaero aus dem Jahre 2005. Im Verlauf des Projektes stellten sich nationale Differenzen ein. Im Jahr 2007 entschloss man sich auf Wunsch der Franzosen dazu, das Projekt getrennt weiter fortlaufen zu lassen. Der deutsche Teil des Projektes wurde in THESEUS umgenannt. Nach wie vor finden regelmäßig Arbeitsgruppen statt, welche dem Informationsaustausch zwischen den beiden Projekten dienen. Beide Projekte ergänzen sich komplementär.[6]
„THESEUS ist ein vom Bundesministerium für Wirtschaft und Technologie (BMWi) initiiertes Forschungsprogramm mit dem Ziel, den Zugang zu Informationen zu vereinfachen, Daten zu neuem Wissen zu vernetzen und die Grundlage für die Entwicklung neuer Dienstleistungen im Internet zu schaffen.“ [7]
Die Forschung hat das Augenmerk darauf gelegt, Inhalte nicht anhand von Buchstabenkombinationen zu ermitteln (herkömmliches Verfahren), sondern darauf die Bedeutung der Inhalte zu analysieren. Dies soll mit Hilfe der Anwendung von Regeln und Analyse von Ordnungsprinzipien geschehen. Daraus sollen sich logische Zusammenhänge ermitteln lassen, welche es dann ermöglichen, Informationen aus unterschiedlichen Quellen miteinander zu kombinieren. Ziel ist es auch die Nutzer in den Prozess mit einzubinden. So sollen diese einen semantischen Werkzeugkasten angeboten bekommen, welcher den Nutzer aktiv in den Erschaffungsprozess einbinden soll. Das Forschungsprogramm hat eine Dauer von fünf Jahren (bis 2012) und wird vom Bundeswirtschaftsministerium mit ca. 100 Millionen Euro und weiteren 100 Millionen Euro von der Wirtschaft gefördert. [6]
THESEUS verwendet verschiedene Mechanismen. Eine Basistechnologie beruht auf einer Funktion, welche automatisiert Metadaten von Audio-, Video, 2D und 3D-Bilddateien erzeugt und diese anwendungsspezifisch kombiniert und eine semantische Analyse und Weiterverarbeitung durchführt. Ein weiterer Schwerpunkt des Projektes ist die Weiterentwicklung des maschinellen Lernens. [8] Weitere Basistechnologien des Projektes sind:
- Ontologien: Der Bereich der Ontologien im Projekt beschäftigt sich mit der Entwicklung von neuartigen Werkzeugen für das Verwalten von Ontologien in Applikationen.[8]
- Maschinelles Lernen: Dieser Forschungsbereich setzt das Augenmerk auf die Entwicklung von Methoden, welche statistisch maschinell lernen. Es soll erreicht werden aus den vorhandenen Beziehungen neues Wissen zu gewinnen. Dieses Verfahren wird auch später eingesetzt , um ein System zu entwickeln, welches automatisiert Textdokumente annotiert. Das Ablegen der Informationen wird über Rich Structures erreicht. Diese Variante gilt als effizient und ermöglicht späteres suchen und clustern. Ein weiteres Einsatzgebiet der Textannotierung ist die Beschreibung von Web-Diensten. [8]
- Situationsbewusste Dialogverarbeitung: Ziel ist es Funktionselemente bereitzustellen, welche bei der Interaktion zwischen Mensch und Maschine unterstützen sollen. Diese multimodalen Schnittstellen sollen mithilfe von Sprache und Gestik angesprochen werden können. Der Anwender soll seine Anfragen intuitiver und freier formulieren können. [8]
- Innovative Benutzeroberflächen und Interfaces: Hier steht die Entwicklung von graphischen Oberflächen, welche die Beziehung zwischen Daten, Metadaten und Dokumenten besser zum Ausdruck bringen. Die Suchergebnisse werden als „Wissensnetze“ dargestellt, welche die Beziehungen der Treffer untereinander aufzeigt. Dies ermöglicht einen besseren Überblick und präzisere Informationen.[8]
- Evalutation: Die Evaluation beschäftigt sich mit der Erforschung von Methoden und Tools, deren Aufgabenfeld da drinnen liegt die erforschten und entwickelten Technologien zu testen und zu evaluieren. Ein weiterer Punkt ist die Usability und die Evaluierung der Informationsdarstellung. [8]
3.3 Technnologien
3.3.1 Standardisierung
Die Basis des Semantic Webs ist das RDF (Resource Description Framework). Es dient als Grundlage dafür, Informationen anwendungsübergreifend auszutauschen. [9]
Das Semantic Web setzt nicht den Fokus auf eine technische Orientierung (wie z.B. XML oder SOAP). Es legt den Fokus auf die Beschreibung der Inhalte. Das Internet soll immer mehr zu einem Kommunikationsmittel werden, welches einzelne Tätigkeitsfelder vom Menschen abnehmen soll. Dies soll mit Regeln realisiert werden, welche ineinander greifen und nicht wie man vermutet durch eine Form der KI (künstlichen Intelligenz). Vorhandene Technologien sollen auch ersetzt werden, sondern lediglich erweitert werden. Ziel ist es, die Nutzung des Webs z.B. durch gezielte Suchergebnisse zu vereinfachen. [10]
3.3.2 Technische Verfahren
3.3.2.1 Ontologien
Ontologien sind ein Teil des Grundgerüstes des Semantic Webs. Sie werden dafür genutzt, um die Beziehungen der einzelnen Objekte untereinander darzustellen. Dieses Informationsnetz besteht aus drei Schichten. Die erste Schicht enthält die abstrakten Konzepte. Dort findet man die Oberbegriffe zu den Objekten z.B. Wein. Die zweite Schicht erweitert die vorangegangene Schicht um spezifische Informationen und Fakten. Die letzte Schicht dient dann dazu, die Beziehungen zwischen den Konzepten (Relationen) darzustellen. Wenn die Relationen nicht eindeutig definiert sind, können bei den erstellten Ontologien Fehler auftreten. [10]
3.3.2.2 XML
XML (eXtensible Markup Language) dient dazu, Teile von Textdokumenten um zusätzliche Informationen zu erweitern. Das W3C empfiehlt XML. Die erweiterten Informationen werden als Metadaten bezeichnet. XML verwendet genauso wie HTML sogenannte Tags. Während die Tags in HTML definiert sind, haben die Tags in XML keine fest definierte Bedeutung. HTML setzt den Fokus auf die Darstellung eines Dokuments, während XML die logische Struktur eines Dokuments festlegt. Die Definition der Tags wird dem Anwender überlassen. [11]
3.3.2.3 RDF
Das RDF (Resouce Desciption Framework) wurde dazu entwickelt, um Inhalte im Web darzustellen. Eine Stärke von RDF ist die Darstellung der Metadaten von Inhalten. Ein weiteres Einsatzgebiet ist die Darstellung von Metadaten von Inhalten, welche nicht direkt über das Internet erreichbar sind z.B. Daten zu Personen. Die logische Struktur von RDF ist ähnlich zur der von XML. Der Fokus wurde auf die Bereitstellung von Informationen für Applikationen sowie den korrekte Informationsaustausch zwischen den Anwendungen untereinander gelegt. RDF stellt Informationen mithilfe von URIs (Uniform Resource Identifiers) da. Die Inhalte werden mit Merkmalen und dazugehörigen Werten definiert. Dieses Verfahren ermöglicht es, Inhalte als Graphen und Kanten darzustellen. [12]
3.3.2.4 URI
Uniform Resource Identifier werden zur Beschreibungen der Inhalte im Web verwendet. Es dürfen sowohl abstrakte Begriffe, als auch real existierende Inhalte/Begriffe z.B. Personen verwendet werden. Ein URI ist in drei Elemente unterteilt.
<schema>:<schema-specific-part>#<fragment>
Klassische Schemata sind heutige Webadressen z.B. www.google.de
Diese fallen in die Untergruppe der URL (Uniform Resource Locator). [14]
4 Praxisbeispiele und Tests
4.1 Auswahl von semantischen Suchmaschinen
Für den weitern Verlauf dieser Seminararbeit wurden folgende Suchmaschinen mit semantischem Funktionsumfang ausgewählt: Google, Powerset und Wolfram Alpha.
Die Suchmaschinen wurden aus folgendem Grund ausgewählt:
- Google: Mit einem Marktanteil von fast 90 Prozent am Markt der Internet-Suchmaschinen ist Google Marktführer.[15] Die Seminararbeit wird zeigen, in welchem Umfang der Marktführer die semantische Erkennungen einsetzt.
- Powerset: Als derzeit stärkster Gegenspieler von Google hat Microsoft die Firma Powerset aus San Francisco im Jahre 2008 aufgekauft um die semantische Technik in die Microsoft Internet-Suchmaschine blink zu integrieren.[16] Die Seminararbeit wird zeigen welches Potential in Powerset steckt.
- Wolfram Alpha: Als neuste und vermutlich am wenigsten bekannte Suchmaschine wird das Beispiel eines Mathematikers zeigen, welche Möglichkeiten der Einsatz einer semantischen Suchmaschine derzeit mitbringen kann.
4.2 Bewertungskriterien
Um die in den nachfolgenden Punkten dieser Seminararbeit detailliert aufgeführten semantischen Suchmaschinen gut vergleichen zu können, wurden folgende Bewertungskriterien ausgewählt:
- Zielgruppe (Auf welche Zielgruppe ist die Suchmaschine ausgerichtet, z.B. für private Suchanfragen oder für Mathematiker)
- Sprachunterstützung und Syntax (Versteht die Suchmaschine z.B. nur englische Wörter oder auch andere Sprachen)
- Datenbestand / Datenquellen (Welcher zugrundeliegende Datenbestand wird abgefragt z.B. es wird nur der Datenbestand von Wikipedia berücksichtigt oder es wird das ganze Web berücksichtigt)
- Datenaufbereitungsart (In welcher Art und Weise werden neue Quellen hinzugefügt z.B. vollautomatisiert, halbautomatisiert oder komplett von Menschenhand)
- Verbreitung der Suchmaschine (Wie häufig wird die Suchmaschine genutzt)
- Qualität der Erkennung im Hinblick auf:
- Mathematik (Erkennt die Suchmaschine mathematische Aufgaben)
- Naturwissenschaft (Erkennt die Suchmaschine z.B. die atomare Zusammensetzung eines Wasserstoffmolekühls)
- Allgemeine Logik (Erkennt die Suchmaschine z.B. eine Stammbaumlogik)
- Lexikalisches Wissen (Kann die Suchmaschine z.B. Auskunft über den Zeitpunkt der Geburt von Mozart geben)
- Nachrichten / Tagesthemen (Kann die Suchmaschine z.B. Auskunft darüber geben, was am 11.09.2001 passierte)
- Boulevardwissen (Kann die Suchmaschine z.B. Auskunft darüber geben, welche Affären Boris Becker hatte)
4.3 Google
4.3.1 Beschreibung
Google ging am 7. September 1998 als Testversion online. Mit einem Marktanteil von fast 90 Prozent aller weltweiten Suchanfragen ist Google Marktführer unter den Internet-Suchmaschinen.[17]
Den Einstig in das Themengebiet semantische Suche hat das Unternehmen 2006 mit dem Kauf der Rechte am sogenannten Suchalgorithmus Orion getan. Der Algorithmus wurde vom israelischen Doktoranden Ori Alon an der australischen Universität in New South Wales entwickelt. Der Algorithmus versucht, den Kontext einer Frage mittels Algorithmen einzuordnen, um sinnvollere Ergebnisse zu erzielen, die in direktem Zusammenhang mit dem jeweiligen Suchbegriff stehen. Bereits Ende 2005 hat die Universität ein Patent auf die Suchmethode angemeldet. Auch Microsoft und Yahoo sollen an dem Patent interessiert gewesen sein. Ori Alon arbeitetete später in der Google Hauptniederlassung Mountain View, Kalifornien.[18]
Am 24.03.2009[19] ist dann die neue Technik auf der Webseite integriert worden. Laut Google soll die Neuerung besser verstehen, was den Nutzer wirklich interessiert.
2009 wird Ori Allon zum Leiter des Search Quality Teams für Google und erklärt, dass die neu eingeführte Technik aus einem "Klacks" semantischer Suche, gemischt mit extrem schnellen Data-Mining on-the-fly besteht. "Dies ist ein neuer Ansatz für die Verfeinerung von Anfragen, weil verwandte Konzepte und Entitäten schon gefunden werden, während Sie gesucht werden. Das alles geschieht in Echtzeit und nicht vorgefertigt“. Weitere semantische Techniken möchte Google zunächst jedoch nicht einsetzen, da eine volle konzeptuelle Analyse von Dokumenten das Erzeugen von Verfeinerungen erheblich verlangsamen würde. Nach Einschätzung von Google müssten dafür noch einige Innovationen geschaffen werden, um dies in ein paar Millisekunden hinzubekommen. Eine vollständige semantische Suche in dieser kurzen Zeit ist zurzeit noch nicht möglich. Eine Suchanfrage sei mehr als die Summe ihrer Begriffe und hat eine unterliegende Bedeutung. Bei einer simplen Anfrage wie "Angela Merkel" oder "Barack Obama" ist es für eine Suchmaschine ein leichtes, die Ergebnisse zu gewichten, sollte die Frage jedoch lauten „Welche Medikamente sollte ich nach meiner Augen-Operation nehmen?“, dann ist das bedeutend schwieriger. Um dies richtig zu beantworten, müsste die Suchmaschine die Bedeutung verstehen. Google wird von den Kritikern oft vorgeworfen, dass es bei der Suche hauptsächlich immer noch mit dem alten Konzept der Schlüsselwörter arbeite. Für die Zukunft arbeitet Google schrittweise an Verbesserungen der semantischen Suchtechnik. Mit Orion kann Google nun jedoch besser erlernen, welchen Kontext die Anfrage hat, was das verwandte Konzept ist und wie diese im Verhältnis zueinander stehen. Es ist also davon auszugehen, dass dies nur die erste von vielen anderen Erweiterungen ist, die dabei hilft das Suchmaschinenverständnis bei Google zu verbessern. Offiziell weist Google die Neuerung Namens Orion nur sehr dezent am unteren Ergebnissrand als „Verwandte Suchvorgänge“ aus. Bei Anfragen die länger als drei Suchbegriffe sind hat Google darüber hinaus die Anzahl der ausgeworfenen Seitenauszüge ("Snippets") erhöht, um dem Suchenden eine schnellere Beurteilung der relevanten Resultate zu ermöglichen.[20]
4.3.2 Test
Die Semantik bei Googles Suchalgorithmus Orion beschränkt sich auf die Funktion während der Eingabe „on-the-fly“ Entitäten zu finden. Das alles geschieht nach Aussage von Google in Echtzeit und nicht vorgefertigt.
Weiter soll an dieser Stelle nicht auf die Internet-Suchmaschine von Google eingegangen werden, da vermutlich jeder der den Weg zu diesem Wiki gefunden hat schon einmal über Google etwas gesucht hat und diese Funktion damit zwangsläufig kennt.
4.4 Powerset
4.4.1 Beschreibung
Die Firma Startup-Firma Powerset wurde 2005 in San Francisco gegründet. Am 12.05.2008 war der semantische Suchdienst der Firma Powerset erstmalig im Internet verfügbar. Der Suchmaschine wurde in den US Medien in den ersten Wochen das Potential zugesprochen, als "Google-Killer" oder Übernahmeziel für Microsoft am Markt aufzutreten.[21]
Zwei Monate später wurde die Suchmaschine dann auch von Microsoft aufgekauft. Zu dem Kaufgrund nannte Microsoft das Potential der Mitarbeiter von Powerset[22]. Es wurde von Microsoft geplant, das KnowHow von Powerset in die Entwicklung von Windows Live Search einfließen zu lassen. Mit Hilfe der neu eingekauften Technik sollte die Treffergenauigkeit künftiger Suchanfragen erhöht werden. Microsoft gibt an, dass fünf Prozent der Suchanfragen Bestandteile natürlicher Sprache enthalten, die von den Suchalgorithmen zuvor nicht vollkommen korrekt verarbeitet werden konnten. Durch die Implementierung dieser Powerset-Technologie ist es nun möglich, auch Suchanfragen korrekt zu verstehen die natürliche Sprache enthalten. Das Ziel ist es die Nutzer an die neue Art des Suchens zu gewöhnen und sie somit an die eigene Suchmaschine zu binden.[23]
Im Juni 2009 wurde dann in die Microsoft Internet-Suchmaschine „Live Search“ im Rahmen einer Generalüberholung die neue Technik implementiert und unter dem Namen Bing neu veröffentlicht. Weiterhin ist die Suchmaschine von Powerset unter www.powerset.com zu erreichen. Bei der semantischen Suchmaschine von Powerset wird anders als bei anderen Internet-Suchmaschinen (z.B. Google) jedoch nicht versucht, alle Webseiten des Internets zu indexieren, sondern nur den englischsprachigen Webauftritt von Wikipedia sowie die offene Datenbank Freebase als Quelle berücksichtigt. Eine Erweiterung der zu indexierenden Quellen ist von Powerset geplant gewesen wird jedoch zurzeit nur im Rahmen der Internet-Suchmaschine bing weiter verfolgt. Der Suchdienstes geht dabei so vor, dass Wort für Wort analysiert wird was eine wesentlich längere Suchmaschine mit sich bringt. Durch diese Einschränkungen ist der Suchraum jedoch erheblich kleiner, was der längeren Dauer zur Analyse jeder einzelnen Seite zugute kommt. Laut Aussage von Barney Pell, einer der Powerset-Gründer kann die Analyse einer einzelnen Seite einen Prozessor mehrere Sekunden beschäftigen.
Die verwendeten Suchalgorithmen gehen auf Forschungen der NASA sowie an den Instituten Xerox PARC und SRI International zurück. Powerset hatte sehr gute Beziehungen zu diesen Firmen, da Mitarbeiter der Firmen zu den Gründern von Powerset gehören.[24]
4.4.2 Test
Die Suchmaschine auf www.powerset.com gibt sowohl Antworten auf einzelne Suchbegriffe als auch auf ausformulierte Fragen. Die Beantwortung von ganzen Fragen erfolgt in einer klaren Antwort. Darüber hinaus wird zusätzlich eine Zusammenfassung der zur Frage gefundenen Informationen und die dazugehörigen wichtigsten Quellen im Internet ausgegeben.
Wenn auf der Startseite die Frage „What did Quentin Tarantino direct“ eingegeben wird erhält der suchende folgende Seite:
Über die Ergebnisseite hat der Suchende nun direkt die Möglichkeit, zu den einzelnen Filmen zu springen.
Tut der Suchende dies erscheint wie abgebildet der Wikipedia Artikel. Das Besondere an Powerset ist die Box rechts neben dem Artikel, welche dem Suchenden hilft schneller, die benötigten Informationen auf der angezeigten Seite zu finden. Der Suchende hat damit die Möglichkeit, den Artikel zu durchsuchen, direkt zu einzelnen Themen zu springen, sich Bilder oder andere Visualisierungen zu dem Artikel anzusehen und vieles mehr.
Eine andere Frage könnte sein „What is Google's market capitalization?“, auf diese Frage zeigt Powerset folgende Informationen an:
Insgesamt ist Powerst im Umfeld von Wikipedia und Freebase eine effektive Suchmaschine mit vielen Extras.
4.5 Wolfram Alpha
4.5.1 Beschreibung
Seit März 2009 arbeitet Stephen Wolfram, der Entwickler der Software Mathematica mit einem ca. einhundertköpfigen Team, an der Entwicklung eines neuen Suchdienstes. Der Unterschied zu anderen Suchmaschinen soll bei Wolfram Alpha darin bestehen, dass nicht Ergebnislisten ausgegeben werde, sondern Fragen direkt beantwortet werden (z.B. "Was ist die 300ste Stelle von Pi?"). Im Unterscheid zu Google werden nicht die relevantesten Seiten herausgesucht sondern, die Antworten berechnet. Damit dies möglich werden kann kombiniert das System Techniken aus den Bereichen Parsens natürlicher Sprache und formale Modelle aus verschiedenen Wissenschaftlichen und anderen Bereichen.[25]
Genannt wird der Suchmaschinen Typ eine "rechnende Wissensmaschine" (computational knowledge engine). Am 17.05.2009 startete der Webdienst bei dem die meisten Rohdaten der Ergebnisse aus einem händisch aufbereiteten und gepflegten Bestand kommen. Technisch werden dabei Informationen zu Temperaturen, Aktienkursen etc. aus Systemen in Echtzeit von anderen Quellen des Webs bezogen. Bei einigen Anfragen wird dabei die IP-Adresse des Suchenden mit einbezogen, um etwa bei der Ansicht einer Himmelskarte die aktuelle Sternenkonstellation bezogen auf den Standort des Suchenden mit zu berücksichtigen. Bei Berechnungen und Darstellungen greift die Suchmaschine auf Algorithmen und Werkzeuge der Software Mathematica zurück.[26]
Der Webdienst ist unter www.wolframalpha.com zu erreichen.
4.5.2 Test
Bei dem Webdienst wird die Anfrage wie bei herkömmlichen Suchmaschinen in das Textfeld auf der Webseite eingegeben. Der Unterschied besteht vielmehr in der Ausgabe des Ergebnisses. So besteht das Ergebnis nicht aus einer Liste von Links deren Inhalt einen oder mehrere der Suchbegriffe enthält, sondern aus einer Zusammenfassung der passenden Fakten. Darüber hinaus werden Quellenangaben und abhängig vom Thema Schaubilder, Diagramme und Karten angezeigt. Dies klappt gut bei Fragen nach Fakten zu Mathematik, Technik, Naturwissenschaften, Linguistik oder auch Wirtschaft, die sich mit Zahlen, Tabellen, Schaubildern oder Formeln beantworten lassen.[27]
Praxis Tests:
Eingabe: "2, 3, 5, 7" Wird als Folge von Primzahlen erkannt fortgesetzt.
Ausgabe:
Beispiel: "H2SO4" Zeigt u.a. eine dreidimensionale Darstellung eines Schwefelsäure-Moleküls
Ausgabe:
Beispiel: "uncle's uncle's brother's son" klärt entfernte Verwandtschaftsverhältnisse per Stammbaum
Beispiel: "Katrina" Berechnung wie viele heute lebende Personen in den USA vermutlich diesen Namen tragen
Ausgabe:
Beispiel: "Katrina Hurricane" Eine Karte zeigt nun den Weg des Sturms und seine Stärke, dargestellt durch die Breite der Spur.
Ausgabe:
Bespiel: "population density USA vs. Germany"
Ausgabe:
Ganze Sätze wie z.B. "Wolfram Alpha isn't sure what to do with your input." Kann die Suchmaschine nicht interpretieren. Der Grund hierfür ist, dass neben der Schwierigkeit, des Computers natürliche Sprache zu erkennen nicht das ganze Web indexiert wird, sondern nur ausgewählte Quellen. Drüber hinaus ist die Suchmaschine weder zu Suchen nach Urlaubsschnäppchen, Kochrezepten, Gerüchteküchen, etc. gedacht noch geeignet.[28]
5 Vergleich
5.1 Bewertung der getesteten Suchmaschinen
Die erste getestete Internet-Suchmaschine Google setzt als Markführer unter den Suchmaschinen die semantische Suchtechnik erstaunlicher Weise am wenigsten ein. Google setzt damit jedoch die typisch schlank gehaltene Oberfläche fort und auch in Sachen Geschwindigkeit setzt Google im Vergleich zur Konkurrenz weiterhin Maßstäbe. Die semantischen Ergänzungen bei Google beschränken sich auf die Funktion während der Eingabe in Echtzeit Entitäten zu finden und vorzuschlagen.
Powerset dagegen präsentiert sich mit einem deutlich weitergehenden semantischen Umfang, jedoch auch mit einem im Vergleich zu Google sehr reduzierten Quellbestand. So greift Powerset lediglich auf die Daten der englischen Wikipediaseite sowie Freebase zurück. Diese Aufgabe bewältigt Powerset jedoch sehr gut und versteht in diesem Zusammenhang sowohl die Eingaben von Einzelnen Suchbegriffen als auch ganze als Frage formulierte Suchanfragen. Ist der gesuchte Wikipedia Artikel gefunden unterstützt Powerst mit einer Toolbox am rechten Rand neben dem Artikel beim schellen Auffinden der gesuchten Information. Dabei hat der Suchende die Möglichkeit, den Artikel zu durchsuchen, direkt zu einzelnen Themen zu springen, sich Bilder oder andere Visualisierungen zu dem Artikel anzusehen und einiges mehr. Außerdem hilft eine Beschlagwortung weitere relevante Artikel schnell zu finden.
Zuletzt wurde dann die erst Mitte 2009 veröffentlichte Suchmaschine Wolfram Alpha des Mathematikers Stephen Wolfram getestet. Diese Suchmaschine greift auf einen komplett händisch eingepflegten Datenbestand zurück und hat Ihren Schwerpunkt bei mathematischen und statistischen Auswertungen. So ist die Suchmaschine beispielsweise in der Lage, die atomare Zusammensetzung eines Wasserstoffmoleküls zu erkennen und grafisch darzustellen oder die Route des Hurrikans Kathrina zu zeigen. Dagegen bringt eine Suche nach Urlaubsfotos, Pris Hilton oder Kochrezepten kein Ergebnis.
5.2 Bewertungsmatrix
| Powerset | Wolfram Alpha | ||
| Zielgruppe | Die Allgemeinheit | Lexikonfragen | Mathematikfragen / Statistikfragen |
| Sprachunterstützung und Syntax | Kann mit nahezu alle Sprachen umgehen | Englisch | Englisch in eingeschränkter Syntax |
| Datenbestand / Datenquellen | Nahezu alle Webseiten | Wikipedia (EN) u. Freebase | Proprioritär |
| Datenaufbereitungsart | Vollautomatisiert | Halbautomatisiert | Komplett von Menschenhand |
| Verbreitung der Suchmaschine | > 90 % | gering | gering |
| | |||
| - Mathematik | Rudimentär (nur Berechnung) | Rudimentär (nur Berechnung) | Sehr gut (Berechnung u. Grafik) |
| - Naturwissenschaft | Nur Suchergebnisausgabe | Gut | Sehr gut |
| - Allgemeine Logik | --- | --- | Sehr Gut |
| - Lexikalisches Wissen | Nur Suchergebnisausgabe | Sehr gut | Nein |
| - Nachrichten / Tagesthemen | Nur Suchergebnisausgabe | Eingeschränkt | --- |
| - Boulevardwissen | Nur Suchergebnisausgabe | Eingeschränkt | --- |
6 Fazit
Das Thema der semantischen Suchmaschinen ist zurzeit aktueller den je und den weiteren technischen Innovationen wird ein großes Potential vorausgesagt. Es wird spannend, welche Suchmaschinen sich in den nächsten Jahren mit dieser Technik am Internet-Suchmaschinenmarkt etablieren können. Meiner Meinung wird die semantische Suchmaschine der Zukunft eine Kombination aus allen dreien in dieser Arbeit vorgestellten Suchmaschinen sein.
In einer solchen Suchmaschine würde der User im ersten Schritt während der Eingabe Vorschläge zu dem eingegebenen Suchbegriff bekommen die in einem direkten Zusammenhang mit der Eingabe stehen (ähnlich wie bei Orion von Google). Im zweiten Schritt würde er dann das Ergebnis Lexikon ähnlich mit Grafiken und Beispielen angezeigt bekommen (wie bei den Suchergebnissen von Wolfram Alpha). Die Lexikon ähnliche Darstellung wäre jedoch ergänzt um die Links anderer Webseiten. Im Dritten Schritt wäre dann der ganze Auftritt durch eine Toolbox am Rand abgerundet, welche dazu dient den Benutzer unterstützen, durch die Ergebnisse zu navigieren und weitere wichtige Details schneller zu finden (wie bei Powerset).
Es wird auch interessant welche Rolle Google in 10 Jahren auf diesem Markt spielt. Auch wenn Google momentan nicht die innovativsten semantischen Ergänzungen bietet gehe ich doch davon aus, dass Google mit der bisherigen Strategie alles sehr übersichtlich und einfach zu halten und Neuerungen erst dann einzuführen wenn Sie ausgereift sind auf dem richtigen Weg ist. Die beste Suchmaschine wird schließlich (ausgehend von der genannten Vision) nicht an der Summe der einzelnen Innovationen gemessen, sondern an dem besten Zusammenspiel des Ganzen.
7 Fußnoten
8 Literatur
- ↑ Semantic Web: Grundlagen, Pascal Hitzler, Markus Krötzsch, Sebastian Rudolph, York Sure, 1. Auflage, Springer-Verlag, Heidelberg 2008, Seite 13
- ↑ Wissenschaftliches Arbeiten in Bibliotheken: Einführung für Studierende, Harald Jele, 2. Auflage, Oldenbourg Wissenschaftsverlag, München 2003, Seite 122
- ↑ Vgl. Suchmaschinen-Optimierung: Website-Marketing für Entwicklter, Daniel Koch, 1. Auflage, Addison Wessley Verlag, München 2007, S. 12 ff.
- ↑ Vgl. http://www.powerset.com
- ↑ Vgl. http://www.spiegel.de/spiegel/print/d-65330443.html
- ↑ 6,0 6,1 Vgl. http://www.theseus-programm.de/was-ist-theseus/default.aspx
- ↑ http://www.theseus-programm.de/was-ist-theseus/default.aspx
- ↑ 8,0 8,1 8,2 8,3 8,4 8,5 Vgl. http://www.theseus-programm.de/basistechnologien/default.aspx
- ↑ Vgl. http://www.w3.org/2001/sw/
- ↑ 10,0 10,1 Vgl. Dostal, Wolfgang; Jeckle, Mario; Melzer, Ingo; Zengler Barbara: Semantic Web in: OBJEKTspektrum, Ausgabe 05/2004, Sigs Datacom GmbH, Troisdorf 2004, S.30 ff.
- ↑ Vgl. http://www.w3c.de/Misc/XML-in-10-points.html
- ↑ Vgl. http://www.w3.org/TR/2004/REC-rdf-primer-20040210/#example1
- ↑ Vgl. Dostal, Wolfgang; Jeckle, Mario; Melzer, Ingo; Zengler Barbara: Semantic Web in: OBJEKTspektrum, Ausgabe 05/2004, Sigs Datacom GmbH, Troisdorf 2004, S.32 ff.
- ↑ Vgl. Hitzler, Pascal; Krötzsch, Markus; Rudolph Sebastian, Sure, York: Semantic Web Grundlagen, 1. Auflage, Springer-Verlag, Berlin Heidelberg 2008, S. 26
- ↑ Vgl. http://www.webhits.de/deutsch/index.shtml?/deutsch/webstats.html
- ↑ Vgl. Erich Bonnert http://www.heise.de/newsticker/meldung/Semantische-Suchmaschine-gestartet-207133.html
- ↑ Vgl. http://www.webhits.de/deutsch/index.shtml?/deutsch/webstats.html
- ↑ Vgl. http://www.heise.de/newsticker/meldung/Google-kauft-Suchalgorithmus-von-israelischem-Studenten-116496.html
- ↑ Vgl. http://googleblog.blogspot.com/2009/03/two-new-improvements-to-google-results.html
- ↑ Vgl. Thomas Cloer http://www.computerwoche.de/netzwerke/web/1891019/
- ↑ Vgl. Erich Bonnert http://www.heise.de/newsticker/meldung/Semantische-Suchmaschine-gestartet-207133.html
- ↑ http://www.bing.com/community/blogs/search/archive/2008/07/01/powerset-joins-live-search.aspx
- ↑ Vgl. http://www.heise.de/newsticker/meldung/Microsoft-uebernimmt-Suchspezialisten-Powerset-182878.html
- ↑ Vgl. Erich Bonnert http://www.heise.de/newsticker/meldung/Semantische-Suchmaschine-gestartet-207133.html
- ↑ Vgl. Jo Bager http://www.heise.de/newsticker/meldung/Google-Killer-vom-Mathematica-Schoepfer-205099.html
- ↑ Vgl. Peter König http://www.heise.de/newsticker/meldung/Wolfram-Alpha-ist-online-Update-219303.html
- ↑ Vgl. Peter König http://www.heise.de/newsticker/meldung/Wolfram-Alpha-ist-online-Update-219303.html
- ↑ Vgl. Peter König http://www.heise.de/newsticker/meldung/Wolfram-Alpha-ist-online-Update-219303.html












