Semantic Media Wiki
Aus Winfwiki
Inhaltsverzeichnis
|
1 Titel
| Namen der Autoren: | Björn Adloff, Patrick Badia, Daniel Kirch, Oliver Scharnowski |
| Titel der Arbeit: | "Semantic MediaWiki" |
| Hochschule und Studienort: | FOM Essen |
2 Abkürzungsverzeichnis
| Abkürzung | Bedeutung |
|---|---|
| CSS | Cascading Style Sheets |
| DAML | Darpa Agent Markup Language |
| DNS | Domain Name System |
| GPL | General Public License |
| HTML | Hyper Text Markup Language |
| HTTP | HyperText Transfer Protocol |
| IIS | Internet Information Server |
| IP | Internetprotokoll |
| OIL | Ontology Inference Layer |
| OWL | Web Ontology Language |
| OWL DL | Web Ontology Language Description logic |
| PHP | Hypertext Preprocessor urspr. Personal Home Page |
| RDF | Ressource Description Framework |
| RDFS | Ressource Description Framework-Scheme |
| RSS | Really Simple Syndication |
| SMW | Semantic Media Wiki |
| SQL | Structured Query Language |
| SMW | Semantic MediaWiki |
| SP | Service Pack |
| URL | Uniform Resource Locator |
| URI | Unified Ressource Identifiers |
| W3C | The World Wide Web Consortium |
| www | world wide web |
| XHTML | Extensible Hypertext Markup Language |
| XML | Extensible Markup Language |
3 Einleitung
Das Semantic Web stellt eines der aktuellsten Forschungsgebiete in der IT-Landschaft, der Weiterentwicklung des heutigen Webs und dessen Anwendungen dar. Aus diesen Forschungen werden die Grundideen des Semantic Webs in neu geschaffene Anwendungen integriert um heutige Probleme des Webs zu lösen. Ein Problem des heutigen www ist es, dass es eine Vielzahl und Fülle von Informationen gibt, die für den Benutzer oft problematisch abgerufen oder wiedergefunden werden können. Das Semantic Web wird in der Zukunft das WWW schrittweise erweitern und für den Benutzer stark vereinfachte Dienste z.B. im Bereich des E-Buisness, des E-Government, etc. anbieten. Gerade im Bereich der Informationssuche und des Wissensmanagements werden für den Benutzer neue Webdienste errichtet, wie z.B. Wikis und Wissensdatenbanken.
3.1 Ziel der Arbeit
Das Ziel dieser Arbeit ist der Vergleich zwischen den Systemen Media Wiki und die Erweiterung SMW. Zuerst wird eine Einführung in das Thema Semantic Web gegeben. Danach wird ausführlich das MediaWiki vorgestellt und die Erweiterung SMW. Als Beispiel wurde ein MediaWiki installiert mit der dazugehörige Erweiterung SMW. Dies soll die Auswirkung von SMW auf MediaWiki verdeutlichen, wie z.B. bei der Einstellung von Artikeln oder bei der Suche. Diese Arbeit soll die positiven Aspekte der semantischen Erweiterung beim arbeiten mit dem SMW aufzeigen, jedoch auch die Schwächen des Systems aufzeigen.
3.2 Vorgehensweise
Im Rahmen der Fallstudie werden Konzepte zur Realisierung semantischer Informationen in einem MediaWiki durch den Einsatz von SMW aufgezeigt. Dabei erfolgt eine kurze Erläuterung der Grundlagen des Semantic Webs. Im Anschluss werden Konzepte zur Einbindung der semantischen Informationen vorgestellt. Daraufhin erfolgt eine Bewertung und Vorstellung des Systems im Hinblick auf Stärken und Schwächen des SMW. Zum Schluss gibt das Fazit einen zusammenfassenden Überblick über den Stand der Entwicklungen des SMW und unsere persönliche Bewertung des Systems.
4 Semantic Web
Durch die Anreicherung der im Web verfügbaren Daten mit Meta-Information (Semantik), ist es einer Anwendung (WebAgent) möglich die relevante Information zu berechnen. Die mühsame Arbeit des Berechnens wird (wieder) an die Maschine delegiert. Das Denken und Verstehen verbleibt beim Menschen[1].
4.1 Semantik
Die Semantik ist ein Teilgebiet der Sprachwissenschaft (Linguistik) und befasst sich mit Bedeutung und Sinn der Sprache.
Sie behandelt, wie Sinn und Bedeutung komplexer Begriffe von einfachen Begriffen abgeleitet werden können:
- Sinn ist der Inhalt, der sich aus Zusammensetzung aus Relation von Zeichen, Wörtern und Sätzen untereinander im System der Sprache ergibt
- Bedeutung ist der Inhalt, der sich aus der Relation zwischen Zeichen und dem bezeichneten Objekt ergibt[2]
Gottlob Frege zeigte in einer Abhandlung 1892 mit dem Beispiel über den Morgen- und den Abendstern auf, wie Sinn und Bedeutung sich unterscheiden. Beide beziehen sich auf das gleiche Objekt und haben somit die gleiche Bedeutung, aber sie meinen jedoch zweiunterschiedliche Dinge, genauso wie Sonnenaufgang und –untergang[3].
Wichtig ist hierbei das Teilgebiet der Semiotik, dass neben Syntax und Semantik auch die Pragmatik behandelt. Dies ermöglicht, dass im Web eine triadische- bzw. Tripelstruktur implementiert werden kann, um es "semantisch" zu machen
[4].
Die Syntax behandelt die Beziehungen der Zeichen untereinander. Die Semantik bezieht sich auf die festgehaltenen Zeichen und referenziert mit den Gegenständen der Außenwelt. Die Pragmatik erläutert die Beziehung der Zeichen, wie der Interpretierende sie wahrnimmt.
Alle drei Bereiche sind für das „Semantische Web“ von größter Bedeutung, da sie die Basis für die Programmierung schaffen, um Interoperable Systeme zu ermöglichen.
Wie in den Schaubildern beschrieben stecken über die Syntax hinaus außerdem die Interpretationen der Programmierer und Anwender.
Erläuterung des rechten Schaubildes:
Der Referent denkt an seinen Vogel, inklusive aller Merkmale, die seinen Vogel für ihn ausmachen. Er publiziert z.B. auf einer Website per Zeichenkette, dass er einen Vogel besitzt. Diese Zeichenkette ist eine Syntax mit der er auch eine Bedeutung zuweist. Ein Dritter, der nun auf seiner Website liest, dass er einen Vogel besitzt, entnimmt der Syntax die Bedeutung zum realen Objekt.
Aufgrund der gerade aufgezeigten Bereiche könnte man das Semantische Web auch als Semiotisches Web bezeichnen, dass eine Abstraktionsebene höher liegt. Dieser Ausdruck wäre in der Tat korrekt, da er das Gesamtgebilde zutreffender beschreibt[5].
4.2 Web
Die Menge heute im Internet verfügbarer Informationen und Medien werden größtenteils anhand von so genannten Auszeichnungssprachen wie HTML, XHTML und XML zur Verfügung gestellt. Diese Informationen werden über einen Webserver mit IP-Adresse veröffentlicht und mittels Domain Name System(DNS) zu einer für den Menschen verständlicheren Zeichenkette(URL) adressiert. Durch die einfach handhabbaren Auszeichnungssprachen ist es einem großen Nutzerkreis möglich, Informationsinhalte nahezu jedem zur Verfügung zu stellen. Blogs, Wikis und Communities bieten sogar schon vorgefertigte Plattformen um Informationen im Web zu publizieren. Das Netz als Medium wächst stetig.
4.3 Probleme des Web
Eine gigantische Informationsfülle, in Form von Milliarden Dokumenten, die nur zu Teilen von Suchmaschinen indexiert sind, zeichnet das derzeitige Web aus.
Nach Ansicht von Experten verdoppelt sich die Anzahl der neuen Dokumente im Web alle 6 Monate. Ein Ende des exponentiellen Wachstums ist derzeit nicht absehbar[6].
Ein größter verwendeter Datenspeicher im Web ist den HTML-Seiten zuzuschreiben. HTML bietet allerdings nur limitierte Möglichkeiten zur Auszeichnung von Daten.
HTML beschreibt anhand von eingebauter Syntax:
- Wie Informationen dargestellt werden sollen
- Wie Informationen miteinander Verknüpft werden können
Der Mensch hat Probleme in diesem scheinbar unendlichen Datenspeicher die richtigen Dokumente zu finden, zu benutzen und damit umzugehen.
Ein Problem beim Suchen via Suchmaschine ist es Synonyme in einem Ablauf suchen zu lassen. Ein weiteres Problem ist es Homonyme, also gleich geschriebene Wörter mit unterschiedlichen Bedeutungen zu finden.
Ein Jaguar ist für die Suchmaschine zugleich ein Tier, ein Militärflugzeug, ein Auto und eine Schere.
Problematisch ist es auch, die im Web bereitgestellten Informationen einer maschinellen Bearbeitung hinzufügen zu wollen, um sie Drittanwendungen zwecks Verarbeitung zur Verfügung zu stellen und sie verarbeiten zu lassen. Dies ist mit heute konventionellen Technologien schwierig und nur mit großem Aufwand von Suchalgorithmen möglich.
Für die maschinelle Bearbeitung ist es daher wichtig neue Wege zu gehen. Der Mensch hat im Gegensatz zur Maschine Kontextwissen zur Erforschung seiner Ziele im Datengerüst. Er kann im Gegensatz zur Maschine Einordnen und Deuten.
Der Mensch weiß,...
- ...was ist wichtig, was nicht
- ...was ist Information, was Werbung
- ...was Bedeutet diese Information
- ...wie glaubhaft ist diese Information
- ...was gehört zusammen
- ...was ist redundant
4.4 Semantische Technologie
Das world wide web Consortium, kurz W3C, wurde u.a. von Tim Berners Lee, von dem Mitbegründer des www, gegründet[7]. Das W3C erarbeitet in Kooperation mit einer großen Zahl Wissenschaftlern an Standards und formalen Strukturen, um Daten so zu definieren, dass sie für weitere Automatisierungseffekte innerhalb des Webs sorgen sollen[8].
Diese eingebaute Systematik hilft dem menschlichen Benutzer innerhalb der Webstrukturen mit leichter auffindbaren und konsolidierten Daten, sowie der maschinellen Bearbeitung für Drittanwendungen.
Die erstellten Daten werden, aufgrund eingebauter Semantik, in maschinenlesbare und- verständliche Form gebracht. Maschinen können dadurch anwendungs- und maschinenübergreifende Software-Agenten einsetzen, um so Daten zu einem brauchbaren Inhalt zusammenzuführen.
Vom Grundgedanken ausgehend, werden Sätze von Beziehungen als Kontextinformation, auch Metadaten genannt, mit in die Webmodule eingebaut. Diese Module verschmelzen aufgrund der Beziehungen zu einer Identifikation, d.h. das ein Feld „PLZ“ gleich dem Feld „Postleitzahlen“ nicht nur von der Bedeutung sondern auch von der Syntax her identisch ist.
Dies bietet den Vorteil, dass die Maschinen die Daten besser verarbeiten können und erleichtert die Integration aus vielen verschiedenen Datenquellen und deren Fortbearbeitung.
Um die Semantik zu realisieren, bedarf es der Erweiterung vorhandener und dem Einsatz neuer Technologien.
4.4.1 XML
Mit Einführung der Technologie der Extensible Markup Language (XML)-Dokumente werden Daten nicht nur dem Menschen bereitgestellt, sondern es wird das Ziel verfolgt, dass Anwendungen miteinander kommunizieren können.
Das Tagging, so wie es bei der HTML-Programmierung zu Strukturierung der Daten innerhalb der Dokumente üblich ist, wird beibehalten.
Tagnamen bzw. Elementnamen werden allerdings frei gebildet und stellen somit die Erweiterung von XML gegenüber HTML dar[9].
Die freie Wählbarkeit bringt jedoch Probleme mit sich:
Frei wählbare Namen konvergieren zu eindeutigen Bezeichnungen und würden die Interoperabilität in Frage stellen. Die Lösung ist, URI als Bestandteil von XML-Seiten zu integrieren. Die Verantwortung für die Eindeutigkeit wird an den URI-Eigentümer übergeben. Der Namensraum bekommt somit eine gewisse Präzision. Im folgenden Abschnitt werden URI genauer behandelt.
4.4.2 URI
Unified Ressource Identifiers sind eine Form der Bezeichner innerhalb von XML-Dokumenten, die sich auf ein bestimmtes Objekt beziehen um es zu identifizieren.
So mag der Name VW-Golf für den Einen „Wagen“ als beschreibender Bezeichner stehen, für den Anderen ein „Auto“. Beide beziehen sich auf dasselbe semantisch entsprechende Konzept.
Ob es sich dabei um abstrakte Begriffe oder real existierende Objekte handelt, ist hierbei unwichtig.
Die Syntax ist untergliedert in drei verschiedene Teile[10]:
<schema>:<schema-specific-part>#fragment </p>
Mit <schema> wird der Namensraum definiert, ob es sich z.B. um eine http oder ftp Adresse handelt. Mit < schema-specific-part> werden die URL oder URI-Adressen angegeben, mit #fragment kann ein beschreibender Teilbereich zu der URL bzw. URI angeben werden.
Ein Beispiel für ein Fragment könnten bestimmte Markenprodukte in einem Onlineshop sein.
URLs oder URIs sind eine Möglichkeit auf eindeutige Objekte anhand von offiziellen Internetauftritten zu verweisen, ähnlich wie ISBN-Nummern sich auf ein eindeutiges Objekt beziehen.
Zur Vermeidung von Redundanz durch verschiedene URI, welche die gleiche Bedeutung haben, aber auf verschieden Ressourcen verweisen, wird OWL benötigt.
URIs und URLs sind grundlegende Bestandteile des gegenwärtigen Webs und bilden mit weiteren Technologien die Basis für das Semantische Web.
4.4.3 RDF
Das Resource Description Framework hat mehrere Formen, aber die gebräuchlichste Form ist eine Ansammlung von XML-Untermengen mit fest vorgeschriebener Semantik, die dazu verwendet wird Informationen strukturiert darzustellen.
RDF ist eine formale Sprache, die geeignet ist zur Beschreibung aller möglichen Web-Ressourcen. Dies ermöglicht ein hohes Maß an Interoperabilität. Die Interoperabilität wird in den RDF-Dokumenten anhand einer Beschreibung maschinenverarbeitbarer Semantik innerhalb der Syntax und den Daten ermöglicht. Verankert sind syntaktische Konventionen des semantischen Modells anhand den Daten Objekt, Eigenschaft und Aussage und erlaubt somit die Assoziation einfacher Semantik mit den verwendeten Elementen.
In der Fachliteratur der Informatik werden die Begriffe Resource, Property und Statement verwendet. Diese sind gleichbedeutend mit dem englischsprachigen Satzbau S.P.O. (subject, predicate, object):
- Resource sind Objekte, die über die URI adressiert werden können
- Properties sind Eigenschaften, welche der Ressource zugeschrieben werden
- Statements sind die Ressource, die Property und die dazugehörigen Werte.
Durch Verknüpfung von Statements entstehen sogenannte Graphen aus Ressourcen und ihren Eigenschaften. [11]
Einer Resource können mehrere Properties zugeschrieben werden, so dass anhand der gebildeten Sätze Zusammenhangs- bzw. Bedeutungsnetze gebildet werden können.
Gleichartige Zusammenhänge, Eigenschaften und Werte können in Container und Kollektionen (Collections) gruppiert werden, die den Verwendern der Informationen Arbeit und Zeit ersparen. So können beispielsweise alle Nachnamen von Personen als gemeinsame Menge dargestellt werden.
Des Weiteren erlaubt RDF unter anderem die Schachtelung von Statements, die sogenannte Reification, so dass Statements über Statements wiederverwendet werden können, wo dann Bezug auf das jeweilige Statement genommen wird[12].
Beispiel für Statement über Statement:
<rdf:Description rdf:ID=“93245“> <uni:name>Harald Sack</uni:name> <rdf:Description>
^
|
<rdf:Statement rdf:about=“StatementAbout93245“> <rdf:subject rdf:resource=“93245“/> <rdf:predicate rdf:resource=“&uni;name“/> <rdf:object>Harald Sack</rdf:object> <rdf:Statement>
Das folgende Schaubild illustriert wie RDF URIs zum identifizieren benutzt:
- individuals, z.B. Eric Miller wird identifiziert über http://www.w3.org/People/EM/contact#me
- Zusammenhänge, z.B. Person wird identifiziert über http://www.w3.org/2000/10/swap/pim/contact#Person
- Eigenschaften über diese Zusammenhänge ,z.B. über die Mailbox, identifiziert über http://www.w3.org/2000/10/swap/pim/contact#mailbox
- Werte über die Eigenschaften, z.B. mailto:em@w3.org Als Wert der Eigenschaft der Mailbox (RDF unterstützt Zeichenketten wie "Eric Miller", aber auch Werte aus Ganz- und Gleitkommazahlen)
4.4.3.1 RSS
Really Simple Syndication ist eine Technik, die Besuchern einer Website mittels RSS Reader über Änderungen der Website informiert, ohne dass der Besucher die Website besuchen muss. Dies findet Anwendung in News-Publikationen, WebLogs, Wikis und Websites, die häufigen Änderungen unterlegen sind.
Wie der Eigenname RSS schon sagt, handelt es sich um Syndication. Das bedeutet es handelt sich um aggregierte Nachrichten, die dem Benutzer des RSS-Readers zur Verfügung gestellt werden.
Hierbei werden sogenannte gewünschte RSS-News-Feeds vom Leser abonniert und chronologisch aufbereitet zur Verfügung gestellt. Der Leser weist im Prinzip maschinelle Agenten an, die ihm die aktuellen Daten, oftmals mit Hilfe von RDF transportiert, zur Verfügung stellen. Dies ist mit dem sichtbaren Web allein nicht möglich[13].
4.4.3.2 RDF-Abfragesprachen
RDF-Beschreibungen lassen sich anhand spezieller Abfragesprachen für Auswertungen nutzen.
Die bekannteste, allerdings noch nicht standardisierte Script-Abfragesprache ist RDF-Query Language(RDF-QL). Sie besitzt starke Ähnlichkeiten zur Syntax der Datenbank-Abfragesprache SQL[14].
RDFQL kann auf Dublin Core angewendet werden.[15]
Bei Anfragen werden nicht nur die Bezeichner, sondern auch die über die Bedingungen und Regeln ableitbaren Aussagen berücksichtigt.
Anhand eingebauter Technologien können physikalisch getrennte Datenbanken anhand RDF-Gateways übergreifend abgefragt werden.
Dadurch wird diese Technologie sehr mächtig.
4.4.3.3 Dublin Core Metadata Initiative
DublinCore ist Standard für bibliographische Anlagen. Es ist eine Dokumentation über Bücher in Bibliotheken mit klar geregelten semantischen Beschreibungen, wie z.B. Buchtyp, Sprache, Genre etc.
DublinCore ist ein international anerkanntes Werkzeug zur Pflege und Suche von Büchern. Es kommt aufgrund der restriktiv gebildeten Terme, die 1995 von Experten zu diesem Thema in Dublin/Ohio auf einer Tagung gebildet wurden[16], sogar ohne Übersetzung aus und ist dank der XML-Technologie bereichs- und maschinenübergreifend.
4.4.3.4 SPARQL
Mit dem Satz:
„Zu versuchen, das semantische Web ohne SPARQL zu nutzen ist wie der Versuch, relationale Datenbanken ohne SQL zu benutzen,“[17] erklärte Tim Berners-Lee die zentrale Bedeutung von SPARQL für das semantische Web.
SPARQL ist eine Abfragesprache zum Ausgeben von Daten, die spezialisiert ist auf den Umgang mit RDF Datasets. RDF Datasets sind eine Menge von RDF-Graphen, die über ein URI identifiziert werden können.
Im Hintergrund sind verankerte Metadaten über Graphen, die für Auswertungen verwendet werden können. SPARQL geht über die reine Anfrage auf Tripel oder Aussagenebene hinaus und ermöglicht es, die Quadrupelstruktur auszunutzen, welche viele Speichersysteme anbieten[18]. Dies ermöglicht somit die Auswertung von Daten auf Webseiten.
Abfrage[19]:
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT ?name ?mbox
WHERE
{ ?x foaf:name ?name .
?x foaf:mbox ?mbox }
Abfrage Ausgabe:
name mbox "Johnny Lee Outlaw" <mailto:jlow@example.com> "Peter Goodguy" <mailto:peter@example.org>
4.4.4 Metadaten Schema
"Ressource Description Framework-Scheme“ ist ein schemenspezifiziertes Datenmodell, über welches RDF Statements entworfen werden können:
- abstrakter Datentyp(Klasse) wird geboten
- Hierarchisches Klassenmodell und Vererbung wird benutzt
- Syntax für gemeinsamen Datenaustausch ist gegeben
RDF-Schemata bieten eine Beschreibungssprache zur Definition strukturierter Vokabularien. Strukturierte Vokabularien sind Zusammenhänge zwischen denen bestimmte Begriffe beschrieben sind.
RDFs erlaubt Klassendefinitionen[20]:
- Klasseninstanziierung in RDF via <rdf:type>
- Festlegung von Eigenschaften, Restriktionen und Gültigkeiten
- Festlegung von Hierarchiebeziehungen mit Unter- und Oberklassen
Das RDF-Schema beschreibt das Ordnungssystem der Klassen und welche Verbindungen zwischen diesen bestehen können[21].
4.4.5 Ontologie
Eine Ontologie ist ein formal definiertes Beziehungssystem mit Inferenz- und Integritätsregeln. Der Begriff kommt aus der Philosophie und stellt Begriff des Seins in den Vordergrund, also wie die Dinge an sich sind.
Ontologie ist in der Informatik ein Verfahren der Wissensmodellierung über die Systematik grundlegender Typen von Entitäten (Gegenstände, Eigenschaften, Prozesse) und deren struktureller Beziehungen zueinander[22].
Allgemeiner fällt unter den Gegenstandsbereich der Ontologie eine Systematik grundlegender Typen von Entitäten (Gegenstände, Eigenschaften, Prozesse) und deren struktureller Beziehungen und zeichnet somit das Geflecht der Ressourcen, Attribute und Beziehungen zueinander auf.
Es dient als Wissensbasis, ein hierarchisch geordnetes Beziehungssystem mit bestimmten Regeln in die Computertechnologie einfließen zu lassen[23].
Ontologie behandelt folgende Eigenschaften:
- Inverse Properties z.B. mag <-> wird gemocht
- Verschiedenheit von Instanzen z.B. Person A != Person B
- Disjunktheit von Klassen z.B. Klasse Getränk zu Person
- Klassenbeschreibung z.B. Klasse „Kaffeeliebhaber“ besteht aus der Klasse Person, die für den Property mag den Wert „Kaffee“ besitzen.
Ontologien werden entwickelt und eingesetzt, um [24]...
- ...Datenaustausch zwischen Programmen zu ermöglichen
- ...verschiedene Wissenspräsentationsformen zu vereinheitlichen
- ...Theorien abzubilden
- ...Semantik von strukturierten und semi-Inhalten auszudrücken
- ...Kommunikation zwischen Menschen zu unterstützen und zu erleichtern
4.4.6 OWL
Die Web Ontology Language, kurz OWL, und ist nur eine von vielen Beschreibungssprachen für Terme in Anwendungssystemen. Sie ist 2004 vom W3C empfohlen worden und baut auf dem RDF-Schema auf[25].
Ähnlich wie bei RDF behandelt OWL Sprachkonstrukte, geht aber noch darüber hinaus.
OWL besteht aus 3 Elementen: Klassen, Properties und Individuals[26].
OWL enthält zusätzlich zu RDF-Schema weitere Sprachkonstrukte.
Logische Axiome, Lokalität globaler Eigenschaften, Disjunktheit, Kombinationen von Klassen sowie Kardinalitäten und Kardinalitätsrestriktionen können mit Hilfe von OWL ausgedrückt werden.
OWL ist in Kombination mit RDF-Schema ein grundlegendes Format zur Repräsentation von Taxonomien und Ontologien.
OWL gibt es in drei verschiedenen Versionen[27]:
- OWL Lite = Teilmenge von OWL DL
- OWL DL = Description logic, ist eine formal definierte Semantik, Entscheidbarkeit, Vollständigkeit und Korrektheit
- OWL full = Vereinigung von OWL Syntax und RDF, ist eine Metamodellierung(Schachtelung)und gibt keine Garantie für Berechenbarkeit
OWL basiert technisch auf RDF und DAML+OIL.
Die zwei führenden Sprachen für Ontologien DAML+OIL wurden zusammengelegt
Denn man hat bei den zuvor separat entwickelten Systemen gemeinsame Parallelen entdeckt. Schließlich wurden beide Sprachen zusammengefasst und als W3C-Standard zur Beschreibung von Ontologien definiert
[28].
4.5 Informationslösung Semantic Web
Eine der Grundideen des Semantic Web ist es, Methoden der künstlichen Intelligenz so anzuwenden, dass sie die kognitiven Aufgaben übernimmt, die ein Mensch bei der Verarbeitung von Informationen aus dem Web erfüllen würde. Dazu bedarf es die im Web primär für Menschen repräsentierten Informationen in formalere, maschinenverarbeitbare Daten zu verwandeln[29]. Diese Grundidee und derer konzeptioneller Umsetzung soll in den folgenden Abschnitten verdeutlicht werden.
4.5.1 Informationen Verknüpfen
Semantische Meta-Daten einem RDF-Dokumente zu verknüpfen, um es maschinenverständlich zu machen, nennt man semantische Annotation.
Durch den Annotierungsprozess in ein Dokument erhält man Metadaten. Metadaten beschreiben, für den menschlichen Betrachter nicht sichtbar, das Dokument mit seinen semantischen Eigenschaften.
Der Vorteil liegt darin, dass bei Datenweitergabe nur ein Dokument weitergegeben werden muss. In diesem Dokument werden die Daten für den menschlichen Betrachter aufbereitet und gleichzeitig die Meta-Informationen für die Maschinenweiterverarbeitung eingebettet.
Es muss dabei darauf geachtet werden, dass ein Web Browser die Meta-Daten nicht am Bildschirm anzeigt, damit es nicht zu einer Verwirrung für den menschlichen Betrachter kommt.
Daten aus dem zu annotierenden Dokument können aber nicht in allen Fällen direkt als Meta-Daten weiterverwendet werden, sondern müssen erst nach den Erfordernissen der für die Annotation verwendeten Ontologie angepasst werden.
Wird zum Beispiel eine Telefonnummer im Format(+49 201 123456) für den menschlichen Betrachter publiziert, muss darauf geachtet werden, dass bei den Annotationen getrennte Properties verwendet werden um es maschinenverständlich zu gestalten. In den Meta-Daten wird die Telefonnummer mit dem formalen ontologischen Format (0049/201/123456) eingebettet.
Ähnlich verhält es sich mit Angaben in einem Datumsformaten, die für den menschlichen Betrachter nicht zwingend erforderlich sind. Beispielsweise Sekunden, Millisekunden und Zeitzonen in Bezug auf Beginn und Ende einer Theatervorstelllung, welche jedoch für die Einhaltung der verwendeten Ontologie der Metadaten unumgänglich sind[30].
Für die Person, die das Dokument samt Annotationen erstellt, bedeutet dies ein Mehraufwand, von dem sie selbst oft nicht profitiert.
Daher sind Anwendungen gefordert, die diesen Prozess vereinfachen.
So wird die Bereitschaft zum Erstellen von Dokumenten mit semantischen Annotationen gefördert.
4.5.2 Maschinen setzen Informationen in einen logischen Zusammenhang
Information so zu strukturieren, dass Software-Agenten und Suchmaschinen sie eigenständig sortieren und interpretieren können, ist Kern des Semantischen Webs. Über die Auszeichnung gleicher Inhalte mit standardisierten Identifikationen und der Einteilung dieser in genormter Ontologie wird dies verwirklicht.
Aufgrund standardisierter Identifikationen für Objekte sollten diese sich auf jeder Internetseite gleichen. So wird zum Beispiel das Feld „Postleitzahl“ in einem Formular maschinenlesbar als Information „Postleitzahl“ gekennzeichnet. Benannt werden auf einer Website, die ein Adressverzeichnis enthält, auch diejenigen Zeilen, die ein Postleitzahlenfeld beinhaltet. Das Selbe passiert auch mit dem PLZ-Feld auf der Homepage von „Gelbe Seiten“.
Mit Straßennamen und Telefonnummern wird ebenso verfahren. Vor-und Zunamenfeld werden auch standardisiert . Alle diese nun maschinenlesbar gemachten Informationen haben gemein, dass sie Teil der Ontologie „Adressen“ sind. Werden nun noch Ontologien erstellt, welche den Namen einer „Ortschaft“ tragen, in denen die Adressen abhängig von ihrer Postleitzahl eingeordnet werden, so erlaubt diese Technologie einem entsprechenden Browser spezifische Anfragen nach Diensten oder Anbietern.
Ziel ist es eine Koexistenz zu schaffen, Informationen für den Mensch lesbar und für Maschinen in eine Verständliche Form zu bringen.
5 MediaWiki
Das Wort Wiki ist ein Synonym für WikiWiki was das hawaiianische Wort für „schnell“ ist. Bei Wikis handelt es sich um einen Web-Dienst, durch den die Benutzer schnell, einfach und gemeinschaftlich mit dem Web-Browser erstellen und die Inhalte sofort am Bildschirm ändern können.[31] Es gibt derzeit mehrere Wiki-Softwarepakete, das MediaWiki ist eines davon. Die in einem Wiki erstellten Beiträge werden mit einer Syntax erstellt die derzeit noch keinem wiki-übergreifenden Standard entspricht. [32]
"MediaWiki ist ein freies Wiki-Softwarepaket, das ursprünglich für die Wikipedia geschrieben wurde."[33] Das Software Paket unterliegt der GNU General Public License (GPL). Die Software wird inzwischen in vielen Wiki-Projekten eingesetzt. Die aktuell zur Verfügung stehende Version ist 1.13.3 und ist über den Webauftritt des MediaWikis[34] kostenlos zu beziehen.
Inzwischen gibt es zu dem in PHP geschriebenen Projekt eine Vielzahl von sogenannten Extensions die den Funktionsumfang des MediaWikis erweitern. Das MediaWiki ist in über 100 Sprachen erhältlich. Eine Besonderheit des MediaWikis ist es, dass es für den Einsatz in Wikifarmen optimiert ist. [35]
5.1 Zweck von MediaWikis
Wie bereits in 5 erwähnt, können in einem MediaWiki die Inhalte von den Benutzern angesehen, aber auch bearbeitet werden (wenn es die Konfiguration zulässt).
„Die Grundidee des 1995 von War Cunninham entwickelten Wiki-Konzepts ist die Unterstützung der Aufbereitung und Veröffentlichung von Wissen in einer gemeinschaftlichen Weise […]. Jeder Interessiert soll daran mit wenig Lern- und Schreibaufwand teilnehmen und sein Wissen einbringen können […].“ [36]
5.2 Einsatzgebiete
Inzwischen gibt es neben den bekannten Wiki-Projekten (z.B. wikipedia.de) auch viele weitere Wikis die entweder nicht sehr bekannt sind, oder nicht zugänglich sind. So zum Beispiel Unternehmens-Wikis.
In Betrieben können Betriebe öffentliche Wikis als Informationsquellen nutzen und diese Informationen den eigenen Mitarbeitern z.B. im Intranet zur Verfügung stellen. [37]
5.3 Funktionsweise
Das MediaWiki ist ähnlich wie vergleichbare Wiki-Software aufgebaut. Die erstellten Seiten können Kategorisiert werden. Die Besonderheit hierbei, ist dass auch eine mehrfach Einordnung in Kategorien möglich ist. Dies ist vergleichbar mit dem Tagging von Blogs. Das MediaWiki unterstützt außerdem die Abonnierung von RSS- / Atom-Feeds für eine Kategorie. Diese zeigen die neuen Artikel oder die mit den letzten Änderungen.[38]
Die Artikel können je nach Konfiguration durch die Benutzer mit oder ohne vorherige Registrierung bearbeitet werden. Um auch erkennen zu können welche Veränderungen an einem Artikel durchgeführt wurde besteht die Möglichkeit sich für jeden Artikel die verschiedenen Versionen der Autoren anzusehen.[39]
Bsp.: Der Benutzer Tester1 hat den Artikel "MediaWiki" erstellt und hat dort einen Text zum MediaWiki verfasst. Der Benutzer Tester2 ergänzt diesen Artikel um weitere Informationen.
Durch einen Klick auf "Versionen/Autoren" ist es möglich zu erkennen, wann er diese Version erstellt hat, ob er einen Kommentar hinterlassen hat oder ob es sich dabei um eine größere oder kleinere Veränderung gehandelt hat.
In dieser Versionsübersicht ist die Funktion des Vergleichens verfügbar. Die beiden Versionen werden dann gegenübergestellt und die Veränderungen werden farblich gekennzeichnet.
Für evtl. Diskussionen erstellt das MediaWiki (abhängig von der Konfiguration) zu jedem Artikel eine dazugehörige Diskussionsseite. Diese ist mit dem Artikel verknüpft und dient zur Klärung oder Besprechung von Fehlern bzw. nötigen Veränderungen an dem Artikel.
Die Administratoren im MediaWiki können Artikel auch sperren, so dass diese von anderen Benutzern nicht mehr verändert werden können. Das könnte notwendig sein, wenn es differenzierte Meinungen zu einem Artikel gibt und die Benutzer ihre Einträge ständig überschreiben. So kann ein Administrator versuchen die Situation zu schlichten bzw. zu vermitteln.
Ein weiteres Privileg der Administratoren ist es, Artikel zu löschen oder gelöschte Artikel wieder herzustellen. Administratoren haben nicht nur die Funktion zum Artikel erstellen sondern auch bestehende zu löschen, oder bereits gelöschte Artikel wiederherzustellen. Eine Möglichkeit dass ein Benutzer ohne Administrationsrechte einen Artikel löschen kann besteht nicht. Dieses Problem ist auf der Seite von Wikipedia mit Seiten für Löschwünsche gelöst worden. Auf diesen Seiten werden die sogenannten Löschkandidaten festgelegt und von einem Administrator kann dann ggf. dem Löschwunsch nachgekommen werden. [40]
5.4 Installation
Die Funktionsweise des MediaWikis soll in diesem Kapitel erläutert werden. Alle Beschreibungen beziehen sich auf die Version 1.13.3 des MediaWikis, in dem keine Erweiterungen installiert wurden.
Um ein MediaWiki installieren zu können, muss ein Web-Server (z.B. Apache) zur Verfügung stehen auf dem mindestens PHP 5.0 oder höher installiert ist. Die Entwickler des MediaWikis empfehlen die Version 5.1. Außerdem benötigen wir ein Datenbankserver benötigt der entweder ein MySQL-Server Version größer gleich 4.0 oder ein PostgreSQL-Server Version größer gleich 8.1 ist. PostgreSQL wird seit der MediaWiki Version 1.8 unterstützt.
Ebenfalls von den Entwicklern des MediaWikis empfohlen mindestens 256MB RAM und 40MB Festplattenspeicher zur Verfügung zu haben. Für die Email-Funktionalitäten des MediaWikis sollte auf dem Server Sendmail zur Verfügung stehen [41]
.Zur Installation des MediaWikis muss das bereits erwähnte Paket heruntergeladen und in einem Verzeichnis auf dem Webserver entpackt werden (z.B. http://localhost/wiki). Beim aufrufen der URI zeigt das MediaWiki automatisch das Installationsskript und führt eine Überprüfung der Systemanforderungen durch und bietet einige grundlegende Einstellungen für das MediaWiki. Hierzu gehören:
- Name des Wikis
- Email-Adresse als Absenderadresse für durch das Wiki versandte Emails
- Möglichkeit zur Auswahl einer Lizenz unter der die Inhalte im Wiki veröffentlicht werden
- Den Benutzername und das Passwort des Wiki Administrators
- Einstellungen zum chaching
- Emailfunktionalitäten des Wikis
- Konfiguration der Datenbank
Nach dem festlegen dieser Einstellungen werden die Datenbank und die Tabellen im Datenbankserver erstellt und die LocalSettings.php wird generiert. Ggf. muss diese in das Stammverzeichnis des Wikis verschoben werden.
In der LocalSettings.php werden die globalen Konfigurationen, die sogenannten Wiki Globals des MediaWikis gespeichert. Sie kann wie jede andere PHP – Datei mit einem beliebigen Texteditor bearbeitet werden. Dies ist z.B. zur Installation einer Erweiterung erforderlich, oder um im Nachhinein Veränderungen an den Grundeinstellungen durchgeführt werden sollen.Bereits jetzt ist das MediaWiki einsatzbereit und es könnte mit der Erstellung von Inhalte begonnen werden. Hierzu empfiehlt es sich jedoch vorher noch einige Konfiguration des MediaWikis vorzunehmen. Hierzu dient ein Großteil der Spezialseiten. Diese Spezialseiten können dazu dienen Einstellungen zu verändern oder bestimmte Funktionen des Wikis zu verwenden z.B. die ISBN-Suche.
5.4.1 Technik
Das MediaWiki nutzt die Skriptsprache PHP und eine Datenbank. Hierbei kann es sich um eine Datenbank vom Typen MySQL oder PostgreSQL handeln. Die Implementierung der PostgreSQL Funktion ist in vielen Erweiterungen noch nicht ausgereift.
5.4.1.1 PHP
"PHP is a widely-used general-purpose scripting language that is especially suited for Web development and can be embedded into HTML."[42] "Die Programmiersprache PHP ist eine Skriptsprache, die hauptsächlich zur Erstellung dynamischer Webseiten oder ganzer Webanwendungen verwendet wird."[43]
5.4.1.2 MySQL / PostgreSQL
Sowohl MySQL als PostgreSQL sind OpenSource Datenbankserver. Die MySQL Unterstützung ist seit der ersten Version vom MediaWiki vorhanden, während die PostgreSQL Unterstützung erst später hinzugekommen ist. Bei Datenbankserver sind OpenSource und können kostenlos von den jeweiligen Seiten bezogen werden. MySQL steht momentan in der Version 6.0[44] und PostgreSQL in der Version 8.2 [45] zum Download zur Verfügung.
Die Datenbank wird zur Speicherung aller Inhalte, Benutzer(-rechten), etc. benötigt. Das Installationsskript von MediaWiki legt 38 Tabellen an. Die erstellten Tabellen sind auf der Abbildung Nr. 8 zu sehen.5.4.2 Arbeiten mit MediaWikis
Sich in einem MediaWiki zurecht zu finden, ist auf den ersten Blick eher als schwierig anzusehen. Nach kurzer Zeit finden sich jedoch auch "Neulinge" schnell im MediaWiki zurecht. Das MediaWiki unterscheidet die folgenden Benutzergruppen:
- (alle)
- Benutzer
- Bestätigte Benutzer
- Bots
- Administratoren
- Bürokraten
Die einzelnen Benutzerrechte sind in der Nachfolgenden Tabelle aufgeführt.
| Gruppe | Rechte |
|
(alle) |
|
|
Benutzer |
|
|
Bestätigte Benutzer |
|
|
Bots |
|
|
Administratoren |
|
|
Bürokraten |
|
Tabelle 1: Benutzergruppen und Rechte in einem MediaWiki
Als Gruppe "(alle)" bezeichnet das MediaWiki alle nicht angemeldeten Benutzer. In der Standardkonfiguration können nicht angemeldete Benuztzer Artikel erstellen und bearbeiten, sowie sich an Diskussionen beteiligen. Identifiziert wird der Benutzer anhand seiner IP Adresse. Die Gruppe Benutzer steht für Benutzer die sich registriert haben. Sie verfügen über weitere Rechte gegenüber denen der Gruppe "(alle)". Sie könne z.B. Dateien hochladen und diese in den Artikeln verknüpfen.
5.5 Anpassbarkeit
Wie bereits in den oberen Abschnitten erwähnt kann das MediaWiki an die Bedürfnisse angepasst werden. Dazu gehört zum einen die Veränderung der Konfiguration, zum anderen die Installation von Erweiterungen. In diesem Kapitel wird speziell auf die Implementierung von Erweiterung eingegangen. Eine sehr große Auswahl an Erweiterungen ist auf der Seite von MediaWiki zu finden. [46] Bei der Auswahl ist darauf zu achten, dass dort auch Erweiterungen angeboten werden die sich zum aktuellen Zeitpunkt noch im Beta-Status befinden.
5.5.1 Erweiterungen (Extensions)
Es gibt eine Vielzahl an Erweiterungen für das MediaWiki. Bei der Auswahl ist es ggf. erforderlich, dass die installierte MediaWiki-Version mit der Erweiterung kompatibel ist. Außerdem benötigen einige der Erweiterungen bestimmte Funktionen bzw. Tools auf dem Webserver. Hierzu zählen unter anderem Erweiterungen die für Bildbearbeitung zuständig sind.
Erweiterungen werden i.d.R. installiert in dem ein Erweiterungspaket heruntgerladen und in das Verzeichnis ./wikiverzeichnis/extension/ entpackt werden. Hinzu kommt noch ein Eintrag in die LocalConfig.php. Somit ist eine Installation einer Erweiterung sehr einfach gehalten.
5.5.2 Spezielle Erweiterung im Bereich Semantic Web
Die wohl bekannteste Erweiterung für das MediaWiki im Bereich der semantik ist das SemanticMediaWiki (SMW). Das SMW wird im Kapitel 6.5 näher erläutert. Das SMW bringt wiederum eigene Erweiterungen mit die den Funktionsumfang erhöhen.
5.6 Nachteile vom eigentlichen MediaWiki
Die Nachteile beim MediaWiki liegen zum einen in der Art in der Informationen im Wiki gespeichert werden. Hierbei handelt es sich wie bereits erwähnt um ein reines tagging wie es auch in Blogs und vielen weiteren Webanwendungen zur Verfügung steht, zum anderen in der umständlich Syntax zum erstellen von Artikeln. Durch ein reines Tagging fehlen die semantischen Informationen zu den Artikeln. So wird das MediaWiki beim Suchen von Informationen über einen Golf nicht unterscheiden können, ob der PKW gemeint ist, oder die Sportart. Selbst das Hinzufügen von Schlagworten ist hier in der Regel nicht hilfreich, trotz der zur Verfügung stehenden Volltextsuche.
Die Syntax ist für Einsteiger zunächst schwer zu erlernen, ein Vorteil bietet die Unterstützung von HTML-Codes, die aber wiederum das Design des MediaWikis verändern können.
6 Semantic Web im Wiki
Wie in den vorigen Kapiteln beschrieben gibt es im www eine Vielzahl und Fülle von Informationen, die für den Benutzer oft problematisch abgerufen oder wiedergefunden werden können. Das Semantic Web wird in der Zukunft das www schrittweise erweitern und für den Benutzer stark vereinfachte Dienste z.B. im Bereich des E-Buisness, des E-Government, etc anbieten [47]. Gerade im Bereich der Informationssuche und des Wissensmanagements werden für den Benutzer neue Webdienste errichtet, wie z.B. Wikis und Wissensdatenbanken.
Die Verknüpfung von Semantic Web Technologien und Wikis hat das Ziel soziale Intelligenz und künstliche Intelligienz zu verbinden.
Ziel dieses Kapitels ist es einen Überblick über die Verknüpfung von Semantischer Technologie mit Wikis zu schaffen mit besonderem
Augenmerk auf eine der Hauptaufgaben des Semantic Web: Das Bereitstellen von gesammelten Informationen.
Wikis spielen in der heutigen Zeit eine wichtige Rolle im Bereich des Wissensmanagement, denn es wird heute soviel Wissen gesammelt als jemals zuvor. Daraus stellt sich die Frage, wie man diese Informationsmengen organisieren und sinnvoll zusammenführen kann [48].
Andererseits gibt es heute noch viele Menschen, die sich aufgrund technischer Hürden nicht aktiv an der Wissenssammlung von Wikis beteiligen. Dies liegt zum einen an der Syntax aktueller Wikis, die häufig einen Anfänger überfordern und abschrecken. Zum anderen sind Wikis nicht für alle Arten von Wissen gleichermaßen geeignet. Meistens werden Texte nur in HTML-Format gespeichert und können in dieser Form nicht weiterverwendet werden.
Das Ziel eines jeden Wikis ist das Sammeln und Bereitstellen von Informationen. Typischerweise wird das gesammelte Wissen von Autoren bestimmten Lesern zur Verfügung gestellt. Die Bereitstellung dieser Daten beschränkt sich aufgrund des Formates auf die Wiedergabe in einem Browser. Diese Aufgaben werden heute von allen gängigen Wiki-Systemen problemlos erfüllt. Doch die eigentlichen Anforderungen an ein Wiki sieht man erst auf den zweiten Blick: Das Wissen von größeren Wikis ist nicht nur die Summe der einzelnen Seiten, sondern die Verknüpfung, bzw. der logische und soziale Zusammenhang der Informationen auf diesen Seiten. Ein Beispiel was dies sehr gut verdeutlicht:
Man könnte sich die Frage stellen, welches die zehn größten deutschen Städte sind, die von einer Bürgermeisterin regiert werden. Diese Information wird sicherlich in der deutschen Wikipedia erhalten sein, jedoch werden die gesuchten Informationen über dutzende HTML-Seiten verstreut sein und damit parktisch unzugänglich. Es entsteht also eine weitere Anforderung an Wiki zusätzlich zu einer Volltextsuche, inhaltliche Informationen zu durchsuchen und ggfs. zu Übersichtsseiten zusammenfassen zu können.
Bei dem Wikipedia-Beispiel fallen eine Menge an strukturierten Informationen in großen Mengen zu Städten und Personen (Bürgermeisterinnen) an (bei den Städten: Einwohnerzahlen oder Relationen wie liegt-in; bei Personen Lebensdaten, Amtsdaten oder Parteizugehörigkeit).
Um den Umgang mit diesen Informationen für den Benutzer in heutigen Wiki-Systemen komfortabler zu gestalten, werden meist zwei unterschiedliche Ansätze verfolgt: Zum einen werden von Hand Übersichtsseiten erstellt, die Wiki-Seiten nach dem jeweiligen Kriterium ordnen, was allerdings einen hohen Wartungsaufwand darstellt. Zum Anderen bieten die meisten Wikis schon heute Hilfsmittel wie Kategoriensysteme oder Erweiterungen für bestimmte Arten von Metadaten.
Ein weiteres Problem heutiger Wikis ist, die einmal eingegebenen Informationen an einer anderen Stelle weiterzuverwenden, d.h. die gesammelten Daten mit einer anderen Anwendung außer einem Browser z.B. wiederzugeben oder weiterzuverarbeiten. Die gesammelten Informationen liegen im HTML-Format vor , sind also durchaus gut dokumentiert und strukturiert, allerdings kann es manchmal sehr müßig sein bestimmte Informationen in einer Reihe von HTML-Seiten zu finden.
Diese beiden „neuen“, zusätzlichen Anforderungen können mit Hilfe von Wiki- Erweiterungen oder zusätzlichen Anwendungen eigentlich problemlos erledigt werden, wenn es möglich wäre, dass die Informationen vom Wiki so bereitgestellt würden, dass Sie ohne viel Aufwand von einem Computer sinnvoll interpretiert werden könnten. Und da genau das die Idee des Semantic Web ist, wäre es eine mögliche Lösung für die neuen Anforderungen an das Wiki mit Hilfe von Semantischen Technologien zu lösen.
6.1 Strukturierter Inhalt
Um die Anforderungen an ein Semantic Wiki zu bewältigen bedarf es die Qualität der Struktur der Wissensdaten, also die Struktur des eigentlichen Inhalts der Wiki-Seiten zu steigern. Deshalb ist es zunächst notwendig zu klären, was Strukturierter Inhalt (Content) bedeutet, welche Bedeutung Strukturierter Inhalt für Wiki und Semantic Web hat und mit Hilfe welcher Werkzeuge dieser erzeugt werden kann.
Inhalt ist Information in strukturierter, schwach strukturierter und in unstrukturierter Form, die in elektronischen Systemen zur Nutzung bereitgestellt wird. Es wird unterschieden in:
- Strukturierter Content sind Daten, die in einem standardisierten Layout aus datenbankgestützten Systemen bereitgestellt werden (z. B. formatierte Datensätze aus einer Datenbank).
- Schwach strukturierter Content sind Informationen und Dokumente, die zum Teil Layout und Meta-Daten mit sich tragen, jedoch nicht standardisiert sind (z. B. Textverarbeitungsdateien).
- Unstrukturierter Content besteht aus beliebigen Informationsobjekten, deren Inhalt nicht direkt erschlossen werden kann und die nicht eine Trennung von Inhalt, Layout und Metadaten besitzen (Bilder, GIFs, Video, Sprache, etc )
Inhalt setzt sich immer aus dem Wissens-Inhalt und zugehörige Meta-Daten zusammen. Diese Meta-Daten müssen für den Nutzer nicht unbedingt sichtbar sein. Sie dienen vorrangig der Verwaltung und Kontrolle des eigentlichen Inhalts, es ist also eine Aufgabe eine saubere Trennung von Layout- und Strukturinformationen vom eigentlichen Wissensinhalt zu schaffen.
Normale Wikis stellen kaum Anforderungen an die Struktur des verwalteten Inhalts, die Daten liegen meist im HTML-Format vor.
Semantic Wikis dagegen haben als Ziel, den Benutzer strukturierte Daten hoher Qualität erzeugen zu lassen, deshalb wird von Benutzern von Semantic Wikis des Einhaltens von Schemata verlangt.
Die Technologien und Standards für das Erstellen von strukturierten Daten mit hoher Qualität werden in den folgenden Abschnitten erläutert.
6.2 Semantische Technologien im Wiki
Das Semantic Web basiert auf Grundlagentechnologien, die als Semantische Technologien bezeichnet werden. Hierzu zählen Wissensrepräsentationssprachen für Ontologien sowie Methoden und Werkzeuge zur Erstellung, Wartung und Anwendung von Ontologien.
Die Semantische Technologie wurde ausführlich im Kapitel 4.4. behandelt[49]. In den folgenden Abschnitten werden hauptsächlich die Semantischen Technologien betrachtet und bewertet, die zur Repräsentation von Wissen in der Form von Ontologien dienen. Ziel dieser Hilfsmittel ist es strukturierter Daten mit hoher Qualität zu erstellen.
Die
XML ist eine wichtige Basistechnologie für die Erstellung strukturierter Dokumente. Diese werden mit Hilfe der einheitlichen und standardisierten Art und Weise, sowie durch die Möglichkeiten einer Meta-Sprache erreicht. Man kann sagen, dass XML eine standardisierte und weitverbreitete Meta-Sprache ist, die Maschinenlesbarkeit bietet[50]. Beides spricht für eine Verbesserung der Qualität der Struktur des Inhalts in heutigen Wiki. Aus der Sicht von Semantischer Technologie sind XML-Tags allerdings nicht besser geeignet als die in Wiki verbreiteten HTML-Tags.
Hierzu ein einfaches Beispiel:
I. <Fallstudie> Diese Fallstudie</Fallstudie> hat den Titel <Titel>Semantic Media Wiki</Titel>. II.<br/> <poli> Diese Fallstudie</poli> hat den Titel <hura>Semantic Media Wiki</hura>
Wie man an diesem Beispiel sieht sind XML-Tags nicht besser geeignet als die reale Sprache um von Maschinen interpretiert zu werden. Im Kapitel 4.1 ist erläutert das Wörter mehrdeutig sein können. Genauso verhält es sich in diesem Beispiel mit den XML-Tags, sie können auch mehrdeutig sein und deren Beziehung zueinander ist nicht eindeutig definiert. Für Menschen haben die Tags im ersten Beispiel eine Bedeutung, im zweiten Beispiel allerdings nicht. Für eine Maschine jedoch haben beide Beispiele ganz einfach dieselbe Struktur, unabhängig von der Wahl der Tags. Reine XML-Tags sind also für Maschinen „im Sinne von Semantik“ bedeutungslos[51].
XML fehlt die Möglichkeit, die Bedeutung von Annotationen auf eine Art zu kodieren, die von Maschinen verarbeitet werden können.
XML dient aus Sicht des Semantic Web als Grundlage und ist als primärer Standard anerkannt. Es wird zur Speicherung und zum Austausch strukturierten Informationen genutzt. Desweiteren dient es als syntaxtische Grundlage anderer Beschreibungssprachen, wie RDF(S) und OWL.
Mit einfachen Annotationen wie RDF-Tripeln lassen sich nur grundlegende semantische Eigenschaften ausdrücken. Neben Ontologie-Sprachen wie OWL ist für ein Semantic Wiki die Existenz einer Regelsprache notwendig, womit einfache Schlussfolgerungen ausgedrückt werden können. Die Schwierigkeit in Bezug auf Semantic Wikis liegt hierbei darin, eine Regelsprache zu entwickeln die einfach benutzbar ist und es auch normalen Wiki-Benutzern ermöglicht, Schlussfolgerungen zu spezifizieren.
6.3 Semantic Wiki
Zur Zeit existieren eine Reihe von semantischen Wikis mit unterschiedlichen Ansätzen, semantische Inhalte einzubinden, eventuell aufzubereiten und daraufhin wiederzugeben. Einige dieser Wikis werden in Kapitel 6.5 „Auswahl einer Wiki-Engine“ vorgestellt. Die Hauptaufgabe der meisten bereits vorhandenen semantischen Wikis zielt darauf ab, dass die verwendeten semantischen Technologien dem Anwender den Umgang mit den Informationen der Wikis erleichtern sollen. Hierzu werden semantische Informationen gesammelt, für eine interne Weiterverwendung aufbereitet und dem Benutzer wieder zur Verfügung gestellt. Eine Verarbeitung der semantischen Daten mittels externer Anwendungen gestaltet sich aber schwierig, denn die meisten Wikis stellen ihre Daten zwar im RDF/XML-Format zur Verfügung, allerdings existieren keine standardisierten Schnittstellen, um diese auszulesen. Dies verhindert meist eine externe Verarbeitung, beziehungsweise erfordert einen hohen Aufwand, da verschiedene Zugangsmöglichkeiten beachtet werden müssen.
6.3.1 Anforderungen
Zurzeit existiert keine Möglichkeit, über ein standardisiertes Verfahren auf semantische Inhalte eines Wikis zuzugreifen. Um ein Wiki um semantische Strukturen zu erweitern, bedarf es eine Reihe von Voraussetzungen bzw. Anforderungen, um die direkte Einbettung von RDF zu gewährleisten[52]:
- einen einfachen Formalismus zur semantischen Annotation von Links und von Wiki-Artikeln oder anderen Inhalten (hochgeladene Dateien...),
- eine semantische Suche, welche nicht nur nach Schlüsselwörtern, sondern auch nach semantisch zusammenhängenden Inhalten (z.B. Oberbegriffe des Suchwortes oder Suchbegriffe, welche eine bestimmte Eigenschaft erfüllen) suchen kann,
- zusätzlich eine automatische oder halbautomatische Extraktion von Metadaten aus den Wiki-Artikeln, um die Annotation zu erleichtern.
6.3.2 Organisatorische Standards
Folgende Standards sind neben den Technologien unabdingbar für die Erfüllung der Anforderungen an ein gut zu bedienendes Semantic Wiki. Die meisten Standards befinden sich momentan in der Forschung, stehen nur als Prototypen zur Verfügung oder existieren noch nicht:
Flexibilität:
Normale Wikis stellen kaum Anforderungen an die Struktur der verwalteten Daten. Semantic Wikis dagegen haben als Ziel, den Benutzer strukturierte Daten hoher Qualität erzeugen zu lassen. Dabei tritt leider bei Semantic Wikis der Zielkonflikt der unstrukturierten Daten (Daten ohne Schema, die leicht einzugeben, aber von geringer Qualität sind) und dem Erzwingen des Einhaltens von Schemata (schwer einzugeben, hoher Aufwand bei der Pflege der Ontologien) auf, die voneinander konvergieren.
Anfragesprachen:
Mit SPARQL ist ein Standard für Ontologie-Anfragesprachen entstanden, welcher sich in seiner Notation an SQL orientiert. Für normale Wiki-Benutzer dürfte diese Syntax aber weniger geeignet sein, weil die Formulierung von konkreten Anfragen für ungeübte Anwender oft zu schwierig ist. Eine deutlich vereinfachte Sprache, welche sich eventuell an der Wiki-Syntax orientiert, wäre besser geeignet.
Extraktion von semantischen Annotationen:
Die Erstellung von Annotationen in Semantic Wikis ist häufig eine zeitaufwändige und komplexe Aufgabe. Die automatische oder halbautomatische Extraktion von semantischen Annotationen aus Wiki-Seiten ist daher ein attraktiver Ansatz.
Visualisierung:
Eine nicht rein textuelle Visualisierung von möglicherweise komplexen semantischen Annotationen, einschließlich Regeln, wäre für viele potentielle Benutzer sehr wichtig. Die Visualisierung von Tabellen, Gantt-Diagrammen, UML-Diagrammen und von Terminbüchern ist für viele der oben erwähnten Anwendungsbereiche unabdingbar.
Personalisierung:
Viele der oben erwähnten Anwendungen verlangen eine Anpassung, oder Adaptation, der Inhalte sowie der semantischen Annotationen auf die Vorlieben und Eigenschaften einzelner Benutzer oder Benutzergruppen.
6.3.3 Theoretische Umsetzungsmöglichkeiten
Die Erweiterung von herkömmlichen Wikis um Semantische Strukturen überschneidet die Anwendungsbereiche „normaler“ Wikis in weiten Teilen. Semantic Wikis können allerdings dem Benutzer durch die explizite Repräsentation von Metadaten in vielen Anwendungsgebieten eine stärkere Unterstützung bieten. Beispiele durch verbesserte Navigation und Suche, kontextabhängiger Darstellung oder Personalisierung.
Zwei Umsetzungsmöglichkeiten wären die Anwendungsbereiche Wissensmanagement und Ontology Engineering, welche die unterschiedlichen Aspekte des Einsatzes von Semantic Wikis verdeutlichen:
6.3.3.1 Wissensmanagement
In den letzten Jahren werden zunehmend Wikis als Werkzeug zur Unterstützung des Wissensmanagements eingesetzt. Unter Wiki-Wissensmanagement sind Konzepte zu verstehen, welche die Möglichkeiten und Vorteile der Wiki-Technologie gezielt einsetzen, um wissens-bezogene Problemstellungen zu lösen. Im Fokus des Wiki-Wissensmanagements stehen dabei Problemstellungen, die den Aufbau und die Pflege einer gemeinsamen Wissensbasis der jeweilige Benutzer erfordern. Dies kann z.B. entscheidend bei der effizienten Erfüllung von Aufgaben sein, die während der Zusammenarbeit in Projekten, in Abteilungen, in Bereichen, in Funktionen oder in Prozessen ausgeführt werden müssen.
Der Begriff Wiki kann dementsprechend auch als Wissens- und Kompetenzintegration aufgefasst werden.
Wiki-Wissensmanagement erreicht die Integration von Wissen und Kompetenz zu einer gemeinsamen Wissensbasis dabei durch die gezielte Unterstützung der Zusammenarbeit der Benutzer im Hinblick auf gemeinsame und persönliche Zielsetzungen. Durch die Ausschöpfung der Wiki-Technologie wird erreicht, dass in kürzester Zeit eine Wissensgrundlage geschaffen wird, die sich im Laufe der Zeit weiterentwickeln kann. Die Nutzung der Wiki-Technologie fördert die Motivation unter den Benutzern ihr Wissen mit Anderen zu teilen und dieses dadurch zu einer gemeinsamen Wissensbasis zusammenwachsen kann. Eine Erhöhung der Motivation wird dadurch erreicht, dass
- alle Benutzer zu Wissensredakteuren werden,
- schnell gestartet werden kann,
- bestehende Inhalte sofort verändert und ergänzt werden können,
- Inhalte dadurch eine hohe Aktualität aufweisen, und
- Inhalte schnell zur eigenen Problemlösung und Aufgabenunterstützung eingesetzt werden können [53].
Das so in Wikis erfasste Wissen ist zwar leicht zu erstellen, aber zunehmend schwer wieder zu finden, denn oft ist das Wissen über eine Vielzahl von Wikis verteilt. Je besser Wissensmanagementssysteme funktionieren, desto schneller werden immer mehr Informationen erzeugt. Damit wird künftig die Möglichkeit der schnellen Informationsbeschaffung und Orientierung eine weitere wichtige Rolle einnehmen. Anderenfalls werden die passiven Nutzer (d.h. die Informationssuchenden) überfordert. Semantic Wikis bieten das Potential, diese Probleme zu lösen, ohne gleichzeitig die Flexibilität und Offenheit von Wikis zu verlieren:
Wo semantische Annotationen und damit Strukturen vorhanden sind, kann das System gezielt unterstützen, beispielsweise durch eine Visualisierung einer semantisch fokussierten Übersicht, durch Austausch von Annotationen bzw. Ontologien mit Geschwister-Wikis, oder durch eine semantische Suchfunktion.
Wo (noch) keine semantischen Annotationen vorhanden sind oder noch nicht alle Benutzer Annotationen nutzen, kann ein Semantic Wiki wie ein herkömmliches Wiki funktionieren. Wie bei einem normalen Wiki, bei dem häufig Kurzzeitnutzer Inhalte beitragen und die saubere Einbettung in das restliche Wiki von Langzeitnutzern übernommen wird, können bei einem Semantic Wiki Kurzzeitnutzer ohne lange Einarbeitungszeit Informationen beitragen, die dann von Langzeitnutzern semantifiziert werden[54].
6.3.3.2 Ontology Engineering
Das Entwickeln von Ontologien für das Semantic Web ist ein sehr aufwändiger Prozess, ähnlich der Softwareentwicklung. Ontology Engineering beschäftigt sich mit der Frage, wie der Vorgang der Ontologieentwicklung zu gestalten ist, um Ontologien erzeugen und nutzenbringend einsetzen zu können. Es einige Methoden zur Enwicklung von Ontologien, jedoch existiert zur Zeit keine universelle Methode um Ontologien zu entwickeln.
Semantic Wikis können den Prozess der Ontologieentwicklung dennoch entscheidend vereinfachen, d.h. sie dienen selbst als semantische Quelle. Ausgehend von einer durch den Domänenexperten erstellten textuellen Beschreibung der Domäne, die als Sammlung von Wiki-Seiten repräsentiert ist, kann das Wissen schrittweise und in enger Interaktion zwischen Domänenexperten und Informatikern formalisiert werden. Die so entstandene Ontologie kann dann beispielsweise in anderen Werkzeugen oder Anwendungen weiterverwendet werden[55].
6.4 Auswahl einer Wiki-Engine
Einen Standard wird es für Semantic Wikis genauso wenig wie für Wikis geben, weil jedes System eine eigene Richtung hat, und damit seine eigenen Stärken und Schwächen aufweist. Deswegen kann man bei der Auswahl eines Wiki nicht von "dem richtigen Wiki" sprechen. Bei der Auswahl eines Wiki steht immer die spätere Verwendung im Fokus.
Im Folgenden werden einige ausgewählte Semantic Wikis vorgestellt und deren wesentlichen Charakteristika aufgezeigt:
IkeWiki:
Das IkeWiki wird im Rahmen eines Projekts der Forschungsgesellschaft des Landes Salzburg als ein semantisches Wiki entwickelt, das Annotationen von Seiten und “semantische” Links ermöglicht. Es dient als Werkzeug zur kollaborativen Entwicklung von Ontologien und für das Wissensmanagement und ist in Java implementiert. Der Fokus liegt auf einer möglichst umfangreichen semantischen Unterstützung des Benutzers, dafür wird eine geringere Skalierbarkeit (erklären!) in Kauf genommen. IkeWiki unterstützt sowohl das Verwenden als auch das Bearbeiten von OWL-Ontologien.
Kaukolu:
OntoWiki:
Semantic MediaWiki:
Das Semantic MediaWiki konzentriert sich auf den Wikipedia -Anwendungsfall und legt dementsprechend Wert auf Skalierbarkeit und Abwärtskompatibilität. Es wird kein festes Schema für Annotationen verlangt, d.h. Benutzer können Annotationen hinzufügen, für die noch kein Schema definiert wurde.
Semantic MediaWiki wird gesondert im Kapitel 6.6 „Semantic MediaWiki als praktisches Beispiel“ genauer evaluiert[59].
6.5 Semantic MediaWiki als praktisches Beispiel
Das Beispiel Semantic MediaWiki wurde ausgewählt, weil es das Projekt ist, welches sich am weitesten in der Entwicklung und als beinahe produktives System befindet. Das Semantic MediaWiki wird permanent an dem Informatiklehrstuhl der Uni Karlsruhe weiterentwickelt[60].
6.5.1 Grundlagen
Wikipedia, so wie wir es kennen, ist die größte Enzyklopädie die frei editier bar ist. Aber der Inhalt ist nur schwer von Maschinen interpretierbar und schlecht strukturiert. Hier möchte das Projekt semantic MediaWiki ansetzten. Dies ist ein Open Source Projekt, die Installationsdateien kann man sich kostenfrei unter semantic-mediawiki.org heruntergeladen werden. Entwickelt wurde das Projekt von der Uni Karlsruhe[61]. SMW zu installieren ist eigentlich sehr einfach, wenn man schon eine MediaWiki Engine auf seinem Webserver laufen hat. Unter Sourceforge oder GPL kann man sich die Erweiterung kostenlos herunterladen. Nachdem die Dateien in das entsprechende Verzeichnis entpackt wurden, die Tabellen angepasst und die Datei LocalSettings.php angepasst wurde, ist man Fertig mit der Installation. Das Erscheinungsbild des eigenen Wikis hat sich danach nicht verändert. Lediglich bei dem erstellen der Artikel und bei der Suche hat sich etwas verändert [62].
Im folgenden Bild wird der grundsätzliche Aufbau eines Wiki Systems beschrieben, welches um die semantische Komponente erweitert wurde.
Grundsätzlich benutzt das SMW die MySQL Datenbank mit. In den neuen Tabellen werden nur die Zusätze der Artikel gespeichert. Der Webserver(Apache) ist nur als Beispiel zu sehen unter anderem funktioniert auch der IIS von Microsoft. Der Zugriff auf die Datenbank wird durch Scripte erledigt. Hier kann man z.B. PHP oder auch wie in der Grafik dargestellt, Java Script verwenden. Werden Inhalte aus dem Wiki-System vom User angefordert, generiert das Wiki-System HTML bzw. XHTML-Seiten daraus und schickt sie an den User. Diese wurden um Attribute und Relationen erweitert[63]. Attribute beschreiben die Bedeutung von Zeichen in Texten, die Relationen beschreiben die Verbindung zwischen den einzelnen Wiki-Seiten. Ein Beispiel für eine Relation wäre Auto. So lassen sich z.B. spätere Stücklisten für ein Auto leichter erstellen. Im Kapitel 6.6.2.1 findet sich ein Beispiel für Attribute im Fließtext zum Einstellen von Artikeln.
6.5.1.1 Zielsetzung Semantic MediaWiki
Entwickelt wurde Semantic MediaWiki von Markus Krötzsch und Denny Vrandecic in einem Projekt an der AIFB. Ziel des Projektes ist es die Suche in dem größten Wiki Projekt -Wikipedia.org- zu erleichtern. Die Entwickler wollen die größten Probleme beseitigen, diese sind in ihren Augen zum einen, dass der Inhalt in den meisten Beiträgen doppelt vorkommt, zum anderen ist Wikipedia frei editierbar. Deswegen ist es schwer für den Einzelnen den Inhalt des Systems zu überblicken und "Wildwuchs" in den Artikeln zu vermeiden. Dieses Problem macht es dem Nutzer schwer, den richtigen Inhalt in einem großen Wiki-System schnell zu finden. Auch wenn der Inhalt in Kategorien sortiert ist, fällt es schwer, Informationen zu finden. Möchte man z.B. alle Schriftsteller ausgegeben haben, die im Jahre 1904 gestorben sind, muss man sich alle Seiten von Schriftstellern erst einmal ansehen und diese speziellen Informationen aus einem Fließtext extrahieren. Dies ist sehr zeitaufwendig. Mithilfe von gespeicherten semantischen Informationen soll diese Suche einfacher und effektiver werden[64].
6.5.1.2 Realisation
Bei der Realisation bzw. Implementierung der SMW Extension, sollte man sich als erstes darüber Gedanken machen, wofür man das neue Wiki-System einsetzt bzw. welche Funktion das vorhandene System darstellt. So kann ein Wiki-System vielfältige Aufgaben erfüllen wie z.B. Wissensdatenbank, Wörterbuch, Dokumentationstool, Forum und das wohl bekannteste Beispiel, als Enzyklopädie. Zuerst müssen alle technischen Voraussetzungen, diese wurden in den vorangegangen Kapiteln beschrieben, erfüllt sein. Auch SMW in ein laufendes und mit Inhalt versehenes Wiki einzuführen, ist kein Problem. Hierbei muss man sich nur überlegen, ob man die semantischen Informationen manuell nachpflegt oder die Informationen automatisiert ausliest. Wenn man semantische Informationen manuell einpflegt besteht die Gefahr, dass Informationen unstrukturiert vorhanden sind und dem Benutzer die Suche erschweren. Deswegen wäre es eine Erleichterung für den Nutzer, dass diese Informationen automatisch von dem System generiert werden könnten, denn in einem Wiki- System existieren schon in Ansätzen semantische Informationen. Wenn man einen Artikel über einen Schriftsteller in einem Wiki vorliegen habe existiert meistens auch ein Link zu seinen geschrieben Büchern. Dann ist die semantische Information daraus, welches Buch der Schriftsteller verfasst hat. Demnach könnte man in einer Liste ausgeben lassen, welche Bücher er geschrieben hat. Dies geht aber nur bei Links, die nicht zur Navigation im Wiki-System verwendet werden [65]. Dies soll die folgende Grafik verdeutlichen, in welchem Fall semantische Informationen in einem Wiki System vorliegen.
Diese vorhandenen Informationen gilt es nun, für Maschinen lesbar zu machen. Die meisten semantischen Informationen liegen in den Kategorien, welche den Artikeln zugeordnet sind. Was in der folgenden Grafik verdeutlicht werden soll.
In diesem Beispiel liegt die Information, wie viele Einwohner die Stadt Essen hat in der Kategorie Städte. Die Information, dass Essen 2010 Kulturhauptstadt Europas ist liegt aber in der Kategorie Kultur. Wenn ein interessierter Besucher des Wikis wissen möchte, welche Kultur-Ausstellungen es in Essen gibt, müsste er zwei Seiten besuchen, weil die eine nicht explizit auf die andere verweist. Dieses Problem könnte man nur über eine zusätzliche Kategorie lösen oder über einen Backlink innerhalb beider Wiki-Seiten. Eine zusätzliche Kategorie würde aber keine zusätzlichen Informationen dem Benutzer bringen. Es würde nur eine Verknüpfung schon vorhandener Informationen stattfinden. Bei zu vielen Kategorien wird das Wiki-System unübersichtlich und schwer zu durchsuchen sein. Deswegen ist eine genaue Untersuchung der vorhandenen Struktur des Wiki-Systems wichtig[66].
6.5.1.3 Installation
Zu Demonstrationszwecken wurde ein vorhandenes MediaWiki -system um die SMW-Komponente erweitert. Darin wurden einige Testartikel erstellt um die vorangegangen Informationen in einem praktischen Beispiel zu verdeutlichen und um den Nutzen des Systems darzustellen.
Das Testsystem wurde in einer Virtuellen Maschine der Firma VMWare installiert. Als Betriebssystem wurde Windows XP Professionell SP3 verwendet. Auf diesem System wurde Xampp installiert. Xampp ist eine Sammlung von verschiedenen Software-Applikationen und ist kostenlos unter http://www.apachefriends.org/de/xampp-windows.html herunter zu laden. Folgende Komponenten enthält Xampp:
Apache HTTPD 2.2.11 + Openssl 0.9.8i(Webserver, notwendig für SMW) MySQL 5.1.30(Datenbankserver, notwendig für SMW) PHP 5.2.8(Skriptsprache, notwendig für SMW) phpMyAdmin 3.1.1(Tool um SQL Server zu verwalten, nicht notwendig für SMW) FileZilla (FTP Server, nicht notwendig für SMW) Mercury Mail (Transport System, nicht notwendig für SMW)
[67]
Die Dateien für SMW sind unter http://semantic-mediawiki.org/wiki/Help:Download kostenlos herunter zu laden. Nachdem das Archiv heruntergeladen wurde muss es in den Ordner "[wikipath]/extensions/" kopiert werden. Wenn dies geschehen ist, hat man in der Datei LocalSettings.php (liegt direkt im Wiki Ordner) folgendes zu verändern. Dies verdeutlicht der folgende Screenshot.
Die Zeilen, die mit der schwarzen Ellipse markiert wurden sind in diese Datei mit einem entsprechenden Editor hinzuzufügen. Localhost ist durch die Adresse des vorhanden Webserver zu ersetzten. Dann muss diese Datei gespeichert werden. Danach muss man den Browser öffnen und folgende Schritte ausführen [68].
Zuerst muss man in den Admin Bereich vom SMW. Diesen erreicht man über den Browser und muss die Adresszeile manuell eingeben, weil die Erweiterung im Wiki noch nicht vollständig installiert wurde. Danach muss der Button "Initialise or upgrade tables" gedrückt werden. Dabei werden die zusätzlichen Tabellen erstellt, worin die semantischen Informationen später gespeichert werden. Wenn dieser Prozess beendet wurde muss man "Start updating data" drücken. Bei diesem Prozess werden die vorhanden Tabellen aktualisiert. Diese Funktionen wurden alle in der Erweiterung SMW mit implementiert, so dass die komplette Umstrukturierung automatisch abläuft. D.h. im Hintergrund wird ein PHP Skript ausgeführt, welches diese Aktionen auf dem SQL Server ausführt. Deswegen braucht man für die Installation von SMW keine Programmierkenntnisse [69]. Wenn die Installation erfolgreich durchgeführt wurde, erscheint auf dem Bildschirm eine kurze Bestätigung. Natürlich kann das System mit vielen verschiedenen Parametern installiert werden, diese sind der Seite http://semantic-mediawiki.org/wiki/Help:User_manual zu entnehmen.
6.5.2 Bedienung
An der Bedienung des Media-Wiki hat sich nichts verändert. Die Syntax wurde nicht geändert, sondern nur um den oben genannten Quelltest ergänzt. Man kann nur Relationen und Attribute hinzufügen. Außerdem ist unter dem Menü-Punkt „Spezialseiten“ Semantic MediaWiki hinzugekommen. Dort kann man eine semantische Suche durchführen (dazu mehr in Kapitel 6.5.2.3) oder die Extension SMW administrieren. Als Beispiel nehmen wir an, dass ein großer PC Hersteller eine Wissensdatenbank auf dem System von MediaWiki schon besitzt. Dort enthalten sind alle Komponenten, die man für einen PC braucht wie z.B. Mainboard, Graphikkarte etc. Unter anderem ist dort auch vermerkt, welche Bauteile kompatibel sind. Es wurde einmal ein Artikel ohne semantische Informationen angelegt und einmal mit semantischen Informationen für ein Mainboard und für eine Grafikkarte. Der folgende Screenshot soll den Vergleich zeigen.
6.5.2.1 Einstellen von Artikeln
Um einen neuen Artikel einzustellen bzw. zu bearbeiten muss man den gewünschten Titel in das Suchfeld eingeben. Dann wird entweder der gewünschte Artikel erscheinen oder es wird eine Liste mit Vorschlägen angezeigt. Ein Beispiel ohne semantische Ausdrücke zeigen die beiden Bilder unten.
Dies ist ein kurzer Beispielartikel ohne semantische Informationen. Das Bild drunter zeigt den dazugehörigen Quelltext.
In den unteren beiden Bildern ist der gleiche Artikel mit semantischen Informationen versehen.
Alle semantischen Informationen sind durch rote Schrift gekennzeichnet. Das Bild zeigt den dazugehörigen Quelltext.
Ein anderer Vorteil ist die Factbox die bei jedem Artikel hinzugekommen ist. Diese zeigt alle semantischen Informationen an die in einem Artikel vorhanden sind, zusätzlich noch die Verlinkungen auf andere Wiki Artikel.
6.5.2.2 Suche
Es gibt mehrere Arten im SMW zu suchen. Alle Such-Arten findet man unter den Spezialseiten. Dann stehen die weiteren Links unter Semantic Media-Wiki. Als erstes ist da die Semantische Suche zu nennen.
6.5.2.2.1 Suche mit Queries
Die Suche erfolgt mit Queries. In diesem Beispiel zeigt er alle Artikel in denen die Attributskombination Mainbord::xyz vorkommt. Queries sind stark an SQL angelehnt. Ein Beispiel für eine komplexere Querie wäre:
If[[Mainboard::xyz]] [[kompatibel mit:= *]] [[anzahl USB Anschlüsse:: 2]]
In diesem Fall würde er alle Artikel anzeigen, die 2 USB Anschlüsse haben, mit beliebig vielen Geräte kompatibel sind und wo der Artikelbezeichnung des Mainboards xyz ist. Ein Beispiel dieser Suche zeigt der untere Screenshot. Doch Queries funktionieren nicht nur in der Suchabfrage sondern auch in den Artikelseiten selbst. Dies geschieht über die Ask-Anweisung. Ein gutes Beispiel dafür wären die hunderte von Listen die manuell in Wikipedia gepflegt sind. Diese könnte man automatisch generieren lassen. Dann würde sich die Liste selber aktualisieren. Ein Beispiel dafür wäre:
<ask format=" "> Hier könnte man z.B. einen Zeitstrahl ausgeben mit timeline oder eine Liste mit list [[Kategorie:Mainboard]] [[produziert am:= *]] </ask>
Die Ergebnisse lassen sich sortieren mit order [70].
Unter „ Anfrage“ kann man seine Suchbegriffe eingeben, unter „Zusätzliche Angaben“ kann man u.a.. den genauen Wert des Attributes eingeben. In unserem konkreten Beispiel haben wir nach dem Attribut kompatibel gesucht. Alle Suchergebnisse, in denen das Attribut vorkommt sind blau gekennzeichnet, alle anderen rot. Zusätzlich kann man noch eine Sortierung angeben, ob er die Ergebnisse aufsteigend oder absteigend anordnen soll. Grundsätzlich funktioniert diese Suche wie eine Abfrage, nur dass man weniger Möglichkeiten hat um die Suche einzuschränken, als bei einer richtigen Datenbank. Als zweites zu nennen ist die „Suche mittels Attribut“. Ein Beispiel zeigt der folgende Screenshot:
6.5.2.2.2 Suche mit Attributen
In dem Beispiel wurde nach einem bestimmten Produktionsdatum gesucht. Wobei man sich nicht an das Datumsformat im Beispiel halten muss, man kann auch z.B. 19 Dezember schreiben. Diese zusätzlichen Informationen müssen im Attribut hinterlegt werden. Die Ergebnisse stehen oberhalb der Suchfelder.
6.5.2.2.3 Das Wiki Browsen
Die letzte Suchfunktion in SMW ist „das Wiki Browsen“ hier wählt man einen Einstiegspunkt und bekommt alle semantischen Informationen auf einen Überblick. In dem Beispiel wurde der Einstiegspunkt Mainboard gewählt. Auch hier sind die semantischen Informationen wieder in rot dargestellt.
6.5.3 Kritische Betrachtung Semantic Wiki
6.5.3.1 Vorteile
Das MediaWiki, so wie das SMW sind kostenlos herunter zu laden. Die Installation von beiden Systemen gelingt mühelos und ist gut dokumentiert. SMW ist in einer breiten Anzahl von Verwendungsmöglichkeiten einzusetzen, nicht nur als Enzyklopädie. Da die Eingabe der semantischen Daten freiwillig erfolgt schreckt es den Benutzer nicht ab, ein öffentliches Wiki System zu nutzten.
Der Vorteil von SMW ist, dass es weniger Kategorien gibt aber dafür den gleichen Informationsgehalt. Man kann mehr Informationen in einem Artikel speichern und erleichtert so die spätere Suche. Dadurch dass man in der Suche eine einfache Syntax eingeben kann, kann man die Suche sehr speziell gestalten und minimiert die Suchergebnisse. Der Benutzer kann sachlogische Zusammenhange zwischen den Artikeln herstellen und somit die Suchzeit optimieren.
Ein weiterer Vorteil ist, dass man die Dateien in ein RDF exportieren kann, d.h. die Daten sind nicht nur an das Wiki gebunden sondern können auch von anderen Applikationen mit genutzt und weiterverabeitet werden.
6.5.3.2 Nachteile
Der erste Nachteil ist, dass der Benutzer zusätzlichen Syntax erlernen muss. Obwohl die Eingabe dieser Syntax freiwillig ist, ist dies doch mehr Aufwand für den Benutzer. Zusätzlich zu der Syntax muss der Benutzer verstehen was ein Attribut und was eine Relation ist, darüber hinaus was Ontologien sind. Auch besteht die Gefahr, dass wenn die semantischen Informationen von millionen Benutzern unterschiedlich gepflegt werden, die Informationen redundant oder mit falschen Informationen gepflegt werden. Dies würde bedeuten, dass die Informationen wertlos sind.
Die technischen Nachteile sind, dass die semantische Suchfunktion nicht automatisch mit durchgeführt wird, sondern man auch hierfür wiederum eine andere Syntax eingeben muss. Dies macht die semantische Suchfunktion für Benutzer ohne Programmierkenntnisse schwer zu verstehen. Dies sollte in der Zukunft vereinfacht werden.
6.5.4 Entwicklungsmöglichkeiten des Semantic Wiki
Das größte Enwticklungspotential wäre die semantischen Informationen automatisch zu extrahieren. Dies würde den Nachteil von schlecht gepflegten Artikeln minimieren und dem Benutzer die Eingabe weiter erleichtern. Auch muss die Suche nicht über eine eigene Syntax geregelt werden, sondern einfacher nach dem Prinzip „What you see is what you get“ d.h. nach dem Prinzip von Microsoft Office. Die könnte über eine grafische Benutzeroberfläche geschehen, in der die Syntax über Symbole mit einem Editor einzugeben sind. Durch die Einfachheit der Attribute und Relationen lassen sich nur schwer komplexe Zusammenhänge darstellen.
Zur Zeit wird das SMW-Projekt bisher in der Öffentlichkit kaum wahrgenommen. Deswegen wäre die Integration in Wikipedia.org ein großer Schritt, mit welchem das Projekt einer breiten Öffentlichkeit zugänglich gemacht würde.
7 Fazit und Ausblick
Das Fazit unserer Arbeit ist, dass die Erweiterung SMW sich momentan noch in einem Betastadium befindet. Dies ist auch der Grund warum Wikipedia.org die Erweiterung noch nicht eingeführt hat. Diese Art von Erweiterung wird jedoch für die Zukunft essentiell sein, denn die Datenmengen steigen stetig an. Die Verwaltung und Administration dieser Fülle von Datenmengen und Informationen benötigt immer mehr Ressourcen, menschliche sowie auch Hardware. Deswegen wird eine Unterstützung von Seite der Computer immer notwendiger. Das die Erweiterung SMW in der Zukunft bei Wikipedie.org eingeführt wird, steht für uns außer Frage. Es bedarf trotzdem die Akzeptanz bei den Benutzern. Man kann sagen, dass SMW auch jetzt schon eine sinnvolle Erweiterung des Systems ist. Die größte Hürde stellt jeodch die Bedienung dar, welche noch zu verbessern und zu vereinfachen ist.
Auch das grundsätzliche Konzept des Semantic Web an sich ist sehr viel versprechend. Hier würde das SMW die Grundidee des Sematic Webs unterstützen. Es würde die Suche und Wiederfinden von Informationen in der Zukunft revolutionieren. Wenn der Computer z.B. weiß, dass sich in einem Artikel Informationen wie Geburtsort und Geburtsdatum verbirgt, kann er bei der Suche nach diesen Informationen unterstützen. Wenn die semantischen Informationen manuell gepflegt werden, besteht die Gefahr von „Wildwuchs“ in den Artikeln. Dies wird nach unserer Meinung nur schwer zu unterbinden sein, hier bedarf es eine Reihe von organisatorischen Standards, an die sich die Benutzer zu halten haben.
Die Gefahr bei einer automatischen Extraktion der semantischen Informationen ist, dass der Computer entscheidet welche Informationen bei einer Suche im Wiki angezeigt bekommt. Es besteht keine Möglichkeit der Kontrolle ob diese Informationen richtig oder vollständig sind.
8 Anhang
8.1 Fußnoten
- ↑ http://www.sigs.de/publications/os/2004/05/dostal_melzer_OS_05_04.pdf S.1 in der Version vom 22.1.2009
- ↑ Vgl. Blumauer, Pellegrini (2006), S.54
- ↑ Vgl. https://www.tu-chemnitz.de/phil/english/chairs/linguist/independent/kursmaterialien/logling/frege_sinnundbedeut.pdf S.1,2 in der Version vom 18.02.2002
- ↑ Vgl. Blumauer, Pellegrini (2006), S.10
- ↑ Vgl. Blumauer, Pellegrini (2006), S.10
- ↑ Vgl. http://www.uni-koeln.de/rrzk/kompass/83/wmwork/www/k83_21.html in der Version vom 22.01.2009
- ↑ Vgl. http://www.w3c.de/Press/timbl_knighted.htm in der Version vom 16.01.2009
- ↑ Vgl. http://www.w3c.de/Misc/tbl-em-sw.html in der Version vom 16.01.2009
- ↑ Vgl. Blumauer, Pellegrini (2006), S.10
- ↑ http://www.samuel-greef.de/uni/semantic_web.pdf S.7 in der Version vom 28.09.2005
- ↑ Vgl. Blumauer, Pellegrini (2006), S.80
- ↑ Vgl. http://hnsp.inf-bb.uni-jena.de/sos/phd_seminar_0506/Sack_Ontologien.pdf S.52 in der Version vom 26.01.2006
- ↑ Vgl. http://www.dbis.informatik.uni-frankfurt.de/~tolle/Publications/2006/SW_Interest.pdf S.22/46 in der Version vom 16.06.2006
- ↑ Vgl. http://www.dbis.informatik.uni-frankfurt.de/~tolle/Publications/2006/SW_Interest.pdf S.37/46 in der Version vom 16.06.2006
- ↑ Vgl. http://www.db-thueringen.de/servlets/DerivateServlet/Derivate-9275/webtechnologien-07xxl.pdf S.79/94 in der Version vom 09.07.2006
- ↑ Vgl. http://www.inf-wiss.uni-konstanz.de/suche/tutorial/such_tutorial_advanced.html in der Version vom 22.01.2009
- ↑ http://www.w3c.de/Press/2008/sparql-pressrelease.de.html in der Version vom 22.01.2008
- ↑ http://www.dbis.informatik.uni-frankfurt.de/~tolle/Publications/2006/SW_Interest.pdf S.34/46 in der Version 16.06.2006
- ↑ http://www.w3.org/TR/rdf-sparql-query/ in der Version vom 22.01.2009
- ↑ Vgl. http://www.w3.org/TR/2004/REC-rdf-primer-20040210/#example1 in der Version vom 22.01.2009
- ↑ Vgl. www.dbis.informatik.hu-berlin.de/dbisold/lehre/WS0203/SemWeb/folien/3/Rosin_RDF_SCHEMA_v3.PPT in der Version vom 16.01.2009
- ↑ Vgl. http://www.imi.med.uni-erlangen.de/lehre/ss05/medinfwiss_08.pdf S.1 in der Version vom 16.01.2009
- ↑ Vgl. http://www.sigs.de/publications/os/2004/05/dostal_melzer_OS_05_04.pdf S.5/6 in der Version vom 22.01.2009
- ↑ Vgl. Blumauer, Pellegrini (2006), S.12
- ↑ Vgl. http://www.semaweb.org/dokumente/w3/TR/2004/REC-owl-guide-20040210-DE.html in der Version vom 22.01.2009
- ↑ Vgl. http://www.w3.org/TR/owl-features in der Version vom 22.01.2009
- ↑ Vgl. http://www.w3.org/TR/owl-features in der Version vom 22.01.2009
- ↑ Vgl. http://sunschlichter0.informatik.tu-muenchen.de/lehre/seminare/seminarSW-SS2002/extension/onto-lang.pdf S.2/6 in der Version vom 22.07.2002
- ↑ Vgl. Hitzler et al. (2008), Seite 11 ff.
- ↑ Vgl. http://seal.ifi.uzh.ch/fileadmin/User_Filemount/Publications/reif-bookChapter06_01.pdf S.1 ff. in der Version vom 22.02.2006
- ↑ Vgl. Hansen / Neumann (2005), Seite 428
- ↑ Vgl. Lange et al. (2007), Seite 56
- ↑ http://www.mediawiki.org/wiki/MediaWiki/de in der Version vom 05. Juni 2007
- ↑ http://www.mediawiki.org/wiki/Download
- ↑ Vgl. c’t 2007, Heft 9, Seite 170
- ↑ Hansen / Neumann (2005), Seite 428
- ↑ Vgl. Hansen / Neumann (2005), Seite 429
- ↑ Vgl. Lange et al. (2007) / Seite 459 ff.
- ↑ Vgl. Lange et al. (2007) / Seite 460
- ↑ Vgl. Lange et al. (2007) / Seite 55
- ↑ http://www.mediawiki.org/wiki/Manual:Installation_requirements in der Version vom 12.10.2008
- ↑ http://www.php.net in der Version vom 16.01.2009
- ↑ Sarah Voss (2006), Seite 33
- ↑ http://dev.mysql.com/downloads/mysql/
- ↑ http://www.postgresql.org/download/
- ↑ http://www.mediawiki.org/wiki/Extension_Matrix
- ↑ Vgl. Hitzler et al. (2008), Seite 11
- ↑ http://www.cul.de/data/wikiblogpr.pdf in der Version vom 02.01.2009
- ↑ Vgl. Hitzler et al. (2008), Seite 12
- ↑ Vgl. Hitzler et al. (2008), Seite 19 ff.
- ↑ Vgl. Hitzler et al. (2008), Seite 29 ff.
- ↑ Vgl. http://www.gi-ev.de/no_cache/service/informatiklexikon/informatiklexikon-detailansicht/meldung/semantic-wiki-174/
- ↑ Vgl. http://www.ifem.org/wiki-wissensmanagement-02.htm
- ↑ Vgl. http://www.gi-ev.de/no_cache/service/informatiklexikon/informatiklexikon-detailansicht/meldung/semantic-wiki-174/
- ↑ Vgl. http://www.gi-ev.de/no_cache/service/informatiklexikon/informatiklexikon-detailansicht/meldung/semantic-wiki-174/
- ↑ Vgl. http://ikewiki.salzburgresearch.at/
- ↑ Vgl. http://kaukoluwiki.opendfki.de/
- ↑ Vgl. http://ontowiki.net/Projects/OntoWiki#Overview
- ↑ Vgl. http://semantic-mediawiki.org/wiki/Semantic_MediaWiki
- ↑ Vgl. Markus Krötzsch et. al(2007)
- ↑ Vgl. Markus Krötzsch et. al(2007)
- ↑ Vgl.Mintberg/Spanneberg in:IX S.102(2008)
- ↑ Sarah Voss(2006)
- ↑ Vgl. Markus Krötzsch et. al(2007)
- ↑ Vgl. Sarah Voss (2007)
- ↑ Vgl. Sarah Voss (2007)
- ↑ http://www.apachefriends.org/de/xampp-windows.html
- ↑ http://semanticmediawiki.org/wiki/Help:User_manual
- ↑ http://semanticmediawiki.org/wiki/Help:User_manual
- ↑ Vgl. Mintberg/Spanneberg in ix:S103
8.2 Literatur und Quellenverzeichnis
| Hitzler et al. (2008) | Hitzler, P., Krötzsch, M., Rudolph, S., Sure, Y.: Semantic Web, Springer eXamen.press/ Heidelberg 2008 |
| Hansen / Neumann (2005) | Hansen, H. R., Neumann, G.: Wirtschaftsinformatik 1 - Grundlagen und Anwendungen, Lucius & Lucius / Stuttgart 2005 |
| Langer et al. (2007) | Lange, C., Angerstein, B. O., Basler, D.: Wikis und Blogs - Planen, Einrichten, Verwalten, Computer & Literatur / Böblingen 2007 |
| Pellegrini/Blumauer (2006) | Pellegrini, Tassilo; Blumauer, Andreas: Semantic Web, Wege zur vernetzten Wissensgesellschaft: 1. Auflage, Springer-Verlag, Berlin Heidelberg New York 2006 |
| Sarah Voss (2006) | Voss, S: Diplomarbeit: Extraktion semantischer Informationen aus WIKI-Systemen, Professur für Grafische Datenverarbeitung Fachbereich Informatik und Mathematik, Johann Wolfgang Goethe Universität / Frankfurt am Main 2006 |
8.3 Abbildungsverzeichnis
| Abb.-Nr. | Abbildung |
|---|---|
| 1 | Semiotische Beziehungen entnommen aus http://santana.uni-muenster.de/Linguistik/user/steiner/semindex/intro.html |
| 2 | Semiotisches Dreieck anhand eines Praxisbeispiels entnommen aus http://culturitalia.uibk.ac.at/hispanoteca/Lexikon%20der%20Linguistik/b/image003.jpg |
| 3 | Tim Berners Lee entnommen aus http://www.w3c.de/PubPraes/tim2.jpg |
| 4 | Beispielmodell über RDF-Graphen personenbezogener Daten entnommen aus http://www.w3.org/TR/2004/REC-rdf-primer-20040210/#example1 |
| 5 | Symbol für RSS entnommen aus http://www.premiumpresse.de/unsere-rss-P89.html |
| 6 | Logo der MediaWiki Software entnommen von http://www.mediawiki.org |
| 7 | Die Installation des MediaWikis war erfolgreich. |
| 8 | Tabellen des MediaWikis mit dem Suffix wik_. |
| 9 | Logo des IkeWiki entnommen aus http://ikewiki.salzburgresearch.at/ |
| 10 | Logo des Kaukalo Wiki entnommen aus http://kaukoluwiki.opendfki.de/ |
| 11 | Logo des OntoWiki Projekt entnommen aus http://ontowiki.net/Projects/OntoWiki#Overview |
| 12 | Logo des Semantic MediaWiki entnommen aus http://semantic-mediawiki.org/wiki/Semantic_MediaWiki |
| 13 | Grundsätzlicher Aufbau eines Wiki Systems entnommen aus ( Markus Krötzsch / Denny Vrandeci´c Max Völkel / Heiko Haller / Rudi Studer´(2007) Semantic Wikipedia aInstitut AIFB, Universität Karlsruhe (TH), Germany, bFZI, Karlsruhe, Germany ) |
| 14 | Semantische Informationen in einem Wiki System entnommen aus Diplomarbeit: Extraktion semantischer Informationen aus WIKI-Systemen von Sarah Voss |
| 15 | Extraktion semantischer Informationen. |
| 16 | LocalSettings. |
| 17 | Anlegen der Tabellen im SMW. |
| 18 | Sreenshot ohne SMW |
| 19 | Sreenshot ohne SMW |
| 20 | Sreenshot mit SMW. |
| 21 | Sreenshot mit SMW. |
| 22 | Suche in SMW. |
| 23 | Suche mittels Attribut. |
| 24 | Wiki browsen. |
8.4 Tabellenverzeichnis
| Tabellen-Nr. | Bezeichnung / Quelle |
|---|---|
| 1 | Benutzergruppen und Rechte in einem MediaWiki / Quelle: Installiertes MediaWiki Seite Spezial:Gruppenrechte |







