Data Mining – Anwendungsfelder und –beispiele
Aus Winfwiki
| Name des Autors / der Autoren: | Johannes Reissich, Harald Wissel, Stefan Houben |
| Titel der Arbeit: | "Data Mining - Anwendungsfelder und -beispiele" |
| Hochschule und Studienort: | Hochschule für Oekonomie & Management Düsseldorf |
1 Einleitung
Data Mining hat in den letzten Jahren durch das Internet immer mehr an Bedeutung gewonnen. Wurde es anfangs überwiegend auf Datenbanken angewendet, ist es mittlerweile möglich durch ausgeklügelte und selbstlernende Algorithmen Data Mining auch auf die meisten Bereiche des Internets anzuwenden. Sowohl im Finanzsektor als auch im Marketingbereich spielt Data Mining mittlerweile eine große Rolle. Ziel dieser Arbeit ist es aufzuzeigen in welchen Bereichen Data Mining eingesetzt werden kann und zu welchem Zweck. Es werden Arten des Data Mining erläutert, Vorgehensweisen aufgezeigt sowie der Nutzen verdeutlicht. Zusätzlich führt sie zwei Beispiele auf, um dem Leser die verschiedenen Herangehensweisen und Ziele der Daten Analyse zu veranschaulichen. Dabei geht diese Arbeit nicht auf die mathematischen Aspekte des Data Mining ein.
2 Data Mining
In der heutigen Zeit ist Speicherplatz nahezu unbegrenzt verfügbar und es werden vermehrt Daten gesammelt und gesichert. Zwangsläufig werden weltweit immer mehr Datenarchive über mehrere Jahre bzw. Jahrzehnte gefüllt. Es wird mittlerweile von einer Datenflut gesprochen. Gerade wissenschaftliche und wirtschaftliche Datenbanken wachsen exponentiell. Weltweit verdoppelt sich der Datenbestand schätzungsweise alle 20 Monate[1]. In all den Daten stecken wertvolle Informationen. Für statistische Datenanalysen wird eine Auswertung allerdings schnell sehr anspruchsvoll und komplex. Es können oft nur Stichproben analysiert werden, was eventuell dazu führt, dass mögliche Zusammenhänge unentdeckt bleiben.
Es wurde nach Methoden gesucht, die auch sehr große Datenbestände automatisch analysieren und Zusammenhänge, Trends und Ausreißer erkennen. Dies führte zu der Entwicklung einer eigenen Forschungseinrichtung, die sich aus der Statistik, der künstlichen Intelligenz, der Datenbankforschung und der grafischen Datendarstellung zusammensetzt[2]. Genau an dieser Stelle wird das Knowledge Discovery in Databases (KDD) bzw. das Data Mining angewendet.
Data Mining ist mittlerweile in vielen Firmen sehr verbreitet und gewinnt immer mehr Beachtung. Gerade in Zeiten wo der Wettbewerbsdruck kontinuierlich wächst, wird versucht Wettbewerbsvorteile zu erzielen. Dies geschieht u.a. durch Verbesserung der eigenen Prozesse, aber auch durch den Gewinn neuer Erkenntnisse. Dabei steigt die Bedeutung des Data Mining. Viele Unternehmen erfassen mittlerweile Terrabytes an Daten, in denen sich wertvolle Informationen verbergen. Es gibt Firmen, die generieren in einer Woche so viele Daten, dass ein Mensch es nicht schaffen würde, sie alle in seinem Leben zu lesen[3]. Diese werden oftmals in einem Data Warehouse (oder Datenlager) konsistent gesichert, was für Auswertungen mit Data Mining Methoden ideal ist. Hinzu kommt, dass es mittlerweile entsprechende Hardware gibt, die diese Datenmenge in einer absehbaren Zeit verarbeiten kann neben einer Vielzahl an etablierten Softwarelösungen.
2.1 Definition
Zu dem Begriff Data Mining gibt es viele verschiedene, teilweise widersprüchliche Definitionen. Er steht für eine zielgerichtete Suche nach wertvollen, zunächst nicht ersichtlichen Informationen in großen Datenbeständen. Dabei ist im Vorfeld nicht sicher, ob der Prozess neue Erkenntnisse liefern wird.
Einer anerkannten Definition zufolge, stellt Data Mining den nicht-trivialen Prozess der Identifikation valider, neuer, potentiell nützlicher und verständlicher Muster in großen Datenbeständen dar[4]. Die ermittelten Muster in den Daten müssen somit den Gütekriterien Validität, Neuheit, (potentieller) Nützlichkeit und Verständlichkeit genügen[5].Oft wird das Data Mining (DM) mit Knowledge Discovery in Databases (KDD) gleichgesetzt. Dies mag von der Zielsetzung und vom Ablauf der Prozesse her stimmen, allerdings ist das KDD übergeordnet anzusehen und DM nur eine Teilaufgabe des Prozesses. Das oberste Ziel beim KDD ist die Wissensentdeckung, während es bei DM eher um Daten allgemein geht. Bei DM stehen spezifische Algorithmen und Methoden im Vordergrund, um Trends, bestimmte Muster und Abhängigkeiten aufzudecken. Dem KDD hingegen stehen die verschiedenen Fähigkeiten, Techniken, Methoden und Abläufe im Vordergrund[6].
2.2 Anwendungsgebiete
Typische Anwendungsbereiche der Data Mining-Technologie sind derzeit verstärkt im Controlling und Marketing von Unternehmen zu beobachten, weiterhin ist Data Mining in den informationsintensiven Branchen wie Banken und Versicherungen, Telekommunikation und Handel zu finden[7].
Beispiele dazu sind:
- Im Marketing
- Marktsegmentierung ( z.B. gezielte Werbemaßnahmen )
- Warenkorbanalyse zur Preisoptimierung und Produktplatzierung
- Kundenbeziehungen in Customer-Relationship-Management Systemen
- Business Intelligence
- Payback
- Im Finanzsektor
- Rechnungsprüfung zur Betrugserkennung
- Bonitätsprüfung
- Im Internet
- Netzwerkanalysen in sozialen Netzwerken
- Web-Usage-Mining zur Analyse des Nutzerverhaltens
- Textmining zur Analyse großer Textbestände
- Spamfilter
2.3 Prozessablauf
Die Hauptaufgaben des Data Mining liegen in der Beschreibung und der Vorhersage der Datenanalyse. Bei der Beschreibung ist das Ziel, für den Anwender interpretierbare Muster in den Daten zu finden. Die Vorhersage betrachtet ausgewählte Variablen aus dem Datenbestand. Hierbei liegt der Schwerpunkt darin, bisher unentdeckte bzw. zukünftige Merkmalswerte anderer interessanter Variablen vorherzusagen oder abzuleiten[8].
Diese beiden Ziele lassen sich mit den folgenden Methoden umsetzen[9]:
- Klassifikation
Bei der Klassifizierung werden zunächst mindestens zwei Klassen bzw. Kategorien definiert. Diesen Klassen werden einzelne Objekte durch Vergleiche entsprechende Klasseneigenschaften und Objektmerkmale zugeordnet. Ein Klassifikator übernimmt dabei die Einteilung in die jeweilige Klasse. Anhand bestimmter, vorher festgelegter Regeln, wie z.B. die Häufigkeit eines Attributwertes, wird das Objekt eingeteilt. Die Eingruppierung der Daten kann manuell durch qualifizierte Personen erfolgen oder aber automatisiert. Eine manuelle Prüfung liefert die besten Klassifikationsergebnisse. Allerdings ist diese Methode sehr aufwändig und somit nur für kleine Stichproben geeignet. Aus diesem Grunde wird die Einteilung überwiegend automatisiert vorgenommen. Vorab wird eine Stichprobe gewählt, die als Trainigsdaten dient. Deren Daten werden manuell in Klassen eingeteilt und sind die Grundlage der anschließenden automatischen Klassifizierung. Diese übernehmen verschiedenste Werkzeuge, wie beispielsweise künstliche neuronale Netze oder Entscheidungsbaumverfahren.
Die folgende Abbildung zeigt eine Beispielanwendung einer Klassifizierung. Mit Hilfe eines Entscheidungsbaums wird eine Bonitätsprüfung durchgeführt. Der Kunde wird entsprechend seines Verschuldungsgrads und seines Einkommens klassifiziert[10].
Abb. 1 Bonitätsprüfung als Beispiel einer Klassifizierung
- Abhängigkeitsanalyse
Die Abhängigkeitsanalyse untersucht die Beziehungen zwischen den Merkmalen eines Objektes. Bei dieser Analyse werden Abhängigkeiten durch die Wenn-dann-Regeln beschrieben. Wenn Merkmal A zutrifft, dann tritt auch Merkmal B auf. Somit werden Beziehungen untereinander erstellt. Ein typisches Anwendungsfeld dieser Methode ist die Warenkorbanalyse.
Die untenstehende Abbildung zeigt ein Beispiel für das Kaufverhalten von Kunden in einem Supermarkt. Es wird die Abhängigkeit zwischen Artikeln untersucht, die häufig zusammen gekauft werden. Kunden die Bier kaufen, kaufen auch häufig Chips. Diese Erkenntnis kann bei der Warenplatzierung genutzt werden.
Abb. 2 Schnittmenge zweier Merkmalsträger als Beispiel einer Abhängigkeitsanalyse
- Abweichungsanalyse
Aufgabe der Abweichungsanalyse ist, auffällige Objekte zu finden die den Merkmalsausprägungen der meisten anderen nicht entsprechen. Diese Ausreißer müssen auf ihre Gültigkeit überprüft werden, um Messfehler auszuschließen. Abbildung 3 zeigt ein Beispiel für den Einsatz in einem Produktionsbetrieb. Produzierte Waren werden einer Qualitätskontrolle unterzogen und analysiert. Anhand der Auswertung können u.a. Rückschlüsse auf Einflussfaktoren der Produktion abgeleitet werden.
Abb. 3 Beispiel eines Ausreißers in einem Produktionsprozess
- Segmentierung
Bei der Segmentierung werden homogene Gruppen gebildet. Dabei soll eine Gruppe im Vergleich zu den anderen Gruppen signifikante Unterschiede aufweisen. Somit sollen die Datensätze innerhalb der Gruppe maximal ähnlich, zwischen den Gruppen aber maximal verschieden sein. Die Basis dieses Verfahrens liegt in der Festlegung der geeigneten Merkmale.
Die nachfolgende Abbildung ist ein Beispiel für die Kundensegmentierung bei einer Bank. Es werden Kunden in Gruppen unterteilt, abhängig von Einkommen und Verschuldung[11].
Abb. 4 Beispiel für Clustering bei einer einer Bank
- Prognose
Anhand einer Prognose werden mögliche Ziele definiert. Einer abhängigen Variablen werden eine oder mehrere unabhängige Variable angehangen. Diese Vorgehensweise wird im einfachsten Fall mit einer linearen Funktion beschrieben. Sie versucht die optimale Regressionsgerade zwischen den Variablen zu finden, sodass eine Variable die anderen erklären kann[12].
Einen Überblick der verschiedenen Aufgaben und deren Methoden liefert die folgende Abbildung[13]:
Abb. 5 Schaubild der einzelnen Aufgaben und deren Methoden
2.4 Auswertung und Dokumentation
Um in riesigen Datenbeständen mit den o.g. Methoden arbeiten zu können, wird überwiegend spezielle Software eingesetzt. Diese gibt es mittlerweile von vielen großen Herstellern wie beispielsweile Microsoft, SAP und Oracle. Der Anbietermarkt ist mittlerweile stark gewachsen, wobei es durchaus auch kostenlose Software gibt. Die jeweiligen Programme übernehmen dadurch auch gleichzeitig die Dokumentation. Die Veranschaulichung der Daten wird übernommen, die viel wichtigere Interpretation der gefundenen Muster jedoch verbleibt beim Anwender. Das setzt gut geschultes Personal voraus, was mit den eventuell gefundenen Erkenntnissen umzugehen weiß.
3 Anwendungsfelder
3.1 Finanzwirtschaft
Steigender Wettbewerbsdruck auf den Märkten sowie der technische Fortschritt, der eine Erfassung, Speicherung und Verarbeitung von großen Datenmengen erlaubt, macht es für Unternehmen sinnvoll, interne und externe Umfelder zu analysieren und diese gewonnenen Daten auszuwerten. Bei der Herausarbeitung von Wettbewerbsvorteilen nutzen Firmen möglichst viele der ihnen zu Verfügung stehenden Möglichkeiten. Von der Scannerkasse über eine digitale Erfassung und Pflege von Kundenkontaktdaten bis hin zur Auswertung von e-Commerce-Aktivitäten, um nur einige Möglichkeiten zu nennen, versuchen Firmen einen Informationsvorsprung zu gewinnen.
Abb.6 Triebfelder des Data Mining
Hierbei kommt das Data Mining verstärkt zum Tragen. In den vergangenen Jahren wurden in diesem Bereich eine Reihe von Softwaretools entwickelt, die es den Firmen erlauben, aus der enorm großen gewonnen Datenmenge Informationen für die Unternehmenssteuerung zu gewinnen. In vielen Bereichen, in denen Daten systematisch erfasst werden, kann Data Mining angewendet werden. Es basiert auf grundlegenden Prinzipien, welche auf alle Anwendungsfelder übertragen werden können. In der Finanzwirtschaft kann man folgende Felder als Beispiele sehen: Devisenkursprognosen zum Hedging, Lieferanten-Qualifikationen, Bonitätsprognosen von Kunden. Näher betrachtet werden an dieser Stelle die Aktienanalyse und die Bonitätsprüfung.
3.1.1 Aktienanalyse
Die fortschreitende Globalisierung und eine Erschließung breiterer Anlegerschichten gestalten die Aktienmärkte zunehmend komplexer. Das bisherige und immer noch gängigste Verfahren zur Analyse der Aktienmärkte ist eine ständige Kontrolle der Aktienkurse. Das Data Mining bildet in diesem Bereich einen neuen Ansatz. Es erlaubt neben der Kontrolle des Aktienkurses eine Analyse, in der neben dem Aktienkurs auch weitere Daten, wie beispielsweise Unternehmensdaten (Auftragseingang, Lohnentwicklung, Wechselkurse) berücksichtigt werden können. Gerade in diesem Zeitalter der elektronischen Datenerfassung, in der das Gros dieser Daten einfach zu beschaffen ist, ist es geradezu verlockend, eine zuverlässige Datenprognose mittels Data Mining zu erstellen. Die Deutsche Bank verfügt über ein „Risikozentrum“ in Berlin, an welchem 300 Mathematiker, Physiker, Rating – und Finanzmarktspezialisten Risiken der Bankaktivitäten überwachen. Allerdings ist sogar den Fachleuten bewusst, dass eine verlässliche Prognose in der Finanzwirtschaft nicht möglich ist. Ursula Walther, Professorin für Financial Risk Management, hat gesagt: „Die Finanzkrise hat uns gezeigt: Bei der Geldanlage gibt es nirgendwo absolute Sicherheit“[14]. Kritiker des Data Mining zur Aktienanalyse sagen, dass die Data Mining Software regelmäßig kausale Beziehungen aufdeckt, die völlig unbedeutend sind. „ […] selbst wenn Aktien innerhalb der letzten 50 Jahre jeden zweiten Donnerstag im Mai gestiegen sind, bedeutet das nicht, dass sie es diesen zweiten Donnerstag im Mai auch tun […]“[15]. Ihrer Meinung nach fallen die Voraussagen der Aktienanalysen in sich zusammen, wenn sie auf die wahren Gegebenheiten des Realmarkt treffen. Data Mining als Mittel der Aktienanalyse wird seit den 90ern eingesetzt, ist weiterhin auf dem Markt vertreten und es wird hinsichtlich der Zuverlässig- und Aussagefähigkeit weiter entwickelt.
3.1.2 Bonitätsprüfung
Große Versandhäuser, wie zum Beispiel Neckermann Versand AG, speichern und verfolgen Kundendaten mit dem Ziel Neukunden noch gezielter ansprechen zu können. Bei einem täglichen Bestelleingang zwischen 50000 und 130000 Bestellungen (Stand 2001) liegt die Anzahl der Neukunden bei ca. 8000. Da es für diese Kunden keine historischen Daten gibt, ist eine Bonitätsprüfung besonders schwierig. Zur Minimierung von Zahlungsausfällen und Kreditrisiken werden die Erfahrungen von Kunden mit ähnlichen Profilen genutzt. Analysiert werden hierbei aus einer repräsentativen Stichprobe von Kunden mit guter und schlechter Bonität die Variablen aus demografischen Informationen, Buchungsvorgängen und Saldoinformationen. Da es sich meist um geringe Beträge handelt, ist eine Schufa-Auskunft zu aufwändig und zu kostenintensiv. Überdies würden sich Kunden einem Versandhandel zuwenden, der auf diese tiefgreifende Bonitätsprüfung verzichtet. So kann es bei einem Online-Versandhandel wie der Neckermann AG dazu kommen, daß eine Privatperson, obwohl sie über eine gute Bonität verfügt, nur per Vorkasse oder Nachnahme bestellen kann, weil in dem Straßenzug, in dem diese Privatperson wohnhaft ist, mehrere Zahlungsausfälle von Kunden der Neckermann AG stattgefunden haben. Es existieren Unternehmen, die auf diese mittels Data Mining gewonnenen Bonitätsdaten zurückgreifen und eine Bonitätsprüfung auch online anbieten. Diese kostenpflichtigen Dienste greifen auf verschiedene, nicht näher identifizierbare Quellen zurück sowie auf Daten des Einwohnermeldeamtes und bieten Informationen zur Bonität von Firmen und Privatkunden. Im April 2010 trat die erste Novelle zum Bundesdatenschutzgesetz in Kraft. Seit dem dürfen sogenannte Positivdaten (Der Kunde wird sich vertragsgetreu verhalten) nicht mehr ohne Einwilligung des Kunden übermittelt werden. Bei den sogenannten Negativdaten (Der Kunde wird sich voraussichtlich nicht vertragstreu verhalten), die zur Ablehnung eines Kunden führen können, wurde eine inhaltliche Bewertung zu der bisher alleinigen Berechnung hinzugefügt. Damit soll eine Möglichkeit für Betroffene geschaffen werden, zu ermitteln, welche Informationen die Negativentscheidung begründen. Eine Studie der Firma SAF Forderungsmanagement GmbH kommt zu dem Ergebnis, dass mit dieser Novelle zukünftig den Unternehmen deutlich weniger Schlüsselinformationen zur Verfügung stehen werden. […] 46 Prozent der deutschen Betriebe nehmen diese Daten aber als Grundlage, um die Zahlungsfähigkeit ihrer Kunden einzuschätzen und Forderungsausfälle zu verhindern […][16]. Diese neue Gesetzeslage bedeutet für viele Firmen einen erheblichen Mehraufwand, besonders für die e-Commerce-Anbieter. Sie müssen für ihre Online-Dienste neue Anwendungen implementieren, die, sollte der Kunde abgelehnt werden, ihm ermöglicht, die Gründe für die Ablehnung zu erfragen. Dies hat zur Folge, dass Firmen größere und komplexere Datenbestände speichern, verarbeiten und sichern müssen[17].
3.2 Handel
Die Wirtschaft im Allgemeinen und im Besonderen der Handel sind von einem steigenden Wettbewerbsdruck gekennzeichnet. Deutschland der wettbewerbsintensivste Markt der Welt. Die altbewährte und immer noch meistangewandte Art des Marketings ist das ungezielte Massenmarketing, das bedeutet: Alle potentiellen Kunden erhalten die gleiche Werbung, die gleichen Kataloge, die gleichen Werbedurchsagen, die gleiche Plakatwerbung. Das Ergebnis ist ein genervter Kunde, die Rücklaufraten dieser Marketingkampagne sind fallend. Data Mining bietet die Möglichkeit eines gezielteren Marketings. Eine mögliche Individualisierung des Massenmarketings bedeutet dem potentiellen Kunden individuelle Angebote machen zu können. Sei es in Rahmen einer Zielgruppe oder sogar für eine einzelne Zielperson. Im optimalen Markt bedeutet dies eine Reduzierung der Werbekosten bei gleichzeitig steigendem Umsatz. Dies geschieht vor dem Hintergrund der Annahme, dass ähnliche Kundendaten für ein ähnliches Kundenverhalten stehen. Wird mittels Data Mining dieser Erfolg erzielt, kann sogar einen Schritt weiter gegangen und es kann analytisch eine Kundengruppe gefunden werden, die die höchste Reaktionswahrscheinlichkeit hat. Damit ließe sich die Profitabilität weiter erhöhen. Voraussetzung ist eine korrekte Anwendung der Data Mining Verfahren sowie eine sinnvolle Interpretation der Ergebnisse. Der Bezug des Data Mining kann auf die Branche erfolgen, auf das anzuwendende Data Mining Verfahren oder den zu analysierenden Mustertyp. Beim Branchenübergreifenden Bezug geht es vor allem um - Identifizierung von Kundengruppen zur gezielten Kundenansprache, Analyse des Kaufverhaltens, sortimentsbezogene Umsatzdaten und demografischen Daten zur Prognose zukünftigen Kaufverhaltens - Analyse der Daten zur Erstellung von Produktpaketen - Bonitätsprüfungen - Individueller Kundendialog mittels verschiedener Kommunikationskanäle Beim Bezug auf das Verfahren handelt es sich um Orientierung an den Verfahrensklassen, Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse. Der Bezug zum analysierenden Mustertyp unterscheidet zwischen Verhaltensmustern, Problemmustern und Prozessmustern.
3.2.1 Onlinehandel
Der Onlinehandel spielt weiterhin eine wachsende Rolle. Meist informieren sich Kunden zunächst in Internet über ein Produkt, bevor sie dieses dann im Geschäft kaufen. Ergibt sich die Möglichkeit das gesuchte Produkt online zu erwerben, so spart sich der Kunde noch die Zeit für den Weg ins Geschäft. Dies bietet den Herstellern gleichermaßen Chancen und Risiken. Viele Unternehmen bieten sowohl den Verkauf im Geschäft an und verfügen gleichzeitig über einen Onlineshop (zum Beispiel: Tchibo). Im Onlineshop angewendete Data Mining Analysen können beispielsweise für eine gezielte Bannerwerbung eingesetzt werden. Einer der bekanntesten e-Commerce Shops ist Amazon, die mittels Data Mining Analysen Kaufverhalten der Nutzer vergleichen und damit gezielt mittels Individualwerbung auf den Kunden zugeschnittene Werbung und Empfehlungen treffen können. Die Königsklasse ist für die Experten der Marketingbranche das Behavorial Targeting. Dabei werden nicht nur die Käufe, sondern auch die „Klickwege“ des Nutzers analysiert. […] Schaut sich ein User im August auf einer Sportbekleidungswebsite ein Fußballtrikot an, kann man ihn im Dezember auf einer anderen Site auf bestimmte Weihnachtsangebote des Trikotherstellers hinweisen […][18]. Weiterhin können Shops das Data Mining zur Beeinflussung des Kundenverhaltens nutzen. Schaut sich ein Kunde nur „Schnäppchen“ an, so kann die Einblendung der Werbung mit den Sonderangeboten unterdrückt werden. Angebote können so zum Beispiel bei gern gesehenen Kunden geschaltet werden. Analysiert man mittels Geocoding den Herkunftsort des Kunden, ist es möglich mittels seiner weiteren angegebenen Daten Rückschlüsse auf seine finanzielle Situation zu schließen. Entzieht sich der Kunde dem Behavorial Targeting, indem er keine Cookies zulässt, bietet sich den Onlineshops die Möglichkeit des Deep Packet Inspection (DPI). Es würde nicht nur das Kaufverhalten des Nutzers im Shop analysiert werden sondern es könnte das gesamte Surfverhalten, also die Besuche aller Internetseiten in Echtzeit überprüft werden und es kann ein noch genaueres Profil erstellt werden. Dabei sind die Betreiber der Onlineshops allerdings darauf angewiesen, dass die Internetprovider dies auch anbieten. In Deutschland ist dies noch nicht der Fall. Bei allen Analysen gibt es jedoch einen Faktor, durch den sich Fehler in die Erstellung des Userprofils einschleichen können. Bestellt der Nutzer die Ware nicht für sich, sondern für eine andere Person (beispielsweise als Geschenk), so wird dieser Kauf fälschlicherweise dem Käuferprofil zugeordnet und bei späteren Analysen mit einbezogen. Abhilfe schaffen könnte hier eine Angabe der abweichenden Lieferadresse oder im Beispiel von Amazon die Option „als Geschenk versenden“.
3.2.2 Bon- und Scannerauswertung
Täglich wird im Handel eine enorme Anzahl von Transaktionen (Käufen) getätigt. In der Regel geschieht dies anonym, der Kunde gibt weder seinen Namen noch andere Daten von sich preis. In diesem Fall hat das jeweilige Unternehmen die Möglichkeit einer Bonanalyse. Auf ihnen sind das Datum und Uhrzeit, die gekauften Waren, Zahlungsart und etwaige Couponaktionen fest gehalten. Es kann bei der Zahlung an der Kasse vorkommen, daß der Kunde nach der freiwilligen Angabe seiner Postleitzahl gefragt wird, die zusammen mit dem Bon eingebucht wird (zum Beispiel: Praktiker). Mit Data Mining wird unter anderem nach folgenden Kriterien analysiert:
- Welche Produkte werden zusammen gekauft?
- Welche Produkte werden in welcher zeitlichen Verteilung gekauft?
- Wie wirken sich Handzettelwerbung und Zweitplatzierungen auf den Absatz aus?
- Woran kann der profitable Kunde erkannt werden?
Ein weiterer Schritt in der Bon – und Scanneranalyse ist der „Personal Shopping Assistant“ (PSA). Ein kleiner mobiler Touchscreen-Computer, der mittels Scanner oder RFID den Kunden mit zusätzlichen Informationen über die Ware versorgt und anhand dieser Daten Einkaufsempfehlungen erteilen kann[19]. In den USA wird diese Technologie bereits in einigen Shopping Malls angeboten. Sie ermöglicht eine automatisierte Interaktion zwischen Kunde und Geschäft. Beispielsweise Preisänderungen in Echtzeit mittels elektronischen Preisschildes[20].
3.2.3 Payback System
Das Payback System ist eine Analyse des Kaufverhaltens von freiwilligen Teilnehmern dieses Systems. Der Betreiber Loyalty Partner in München hat Partnerunternehmen (wie Aral, DM, Galeria Kaufhof, Obi, Linda Apotheken, Vodafone und mehr) in dieses System mit einbeziehen können und kann durch diese branchenübergreifende Datenerfassung ein aufschlussreiches Personenprofil erstellen. Dabei wird neben Zeitpunkt des Kaufes und Art der Ware auch der exakte Ort festgehalten, immer gebunden an das Personenprofil[21]. Als Gegenleistung sammelt der Kunde Punkte bei jedem Einkauf, die er auf einer Online-Portalseite gegen Waren eintauschen kann. Verglichen mit dem Gewinn an Daten und der daraus erfolgenden Analyse ist der Kostenaufwand für Loyalty Partner vergleichsweise gering.
3.3 Web Mining
Web Mining beschreibt eine speziell auf das Internet und World Wide Web angewandte Form des Data Mining. Es untersucht das Web nicht nur nach versteckten Informationen aus unsortierten Texten, sondern analysiert das Nutzerverhalten und erkennt Strukturen. Einen wesentlichen Bestandteil von Web Mining bildet aber das Text Mining. Dies ermöglicht eine komplexe Analyse unsortierter Dokumente und Texte um unentdeckte Informationen und Zusammenhänge zu identifizieren[22].
Des Weiteren gehören Web-Analytics ebenfalls zum Web Mining. Dazu zählen Web-Controlling, Click- und Traffic-Analysen. Diese untersuchen wie oft, welche Seiten angeschaut werden, woher User stammen oder wonach diese per Suchmaschine suchen. Das geschieht alles anonym und mit allgemeinen Informationen. Damit können Webseitenbetreiber ihren Internetauftritt optimieren und die Effizienz erhöhen[23].
3.3.1 Textmining
Text Mining wird als eine zielorientierte Form der Textanalyse definiert. Dabei geht es um noch unbekannte aber wertvolle Informationen und Beziehungen zwischen Texten und Textfragmenten. Text Mining kann als eine abgewandelte Form von Data Mining gesehen werden welche auf Texte spezialisiert ist. Der Unterschied zwischen Data Mining und Text Mining ist vor allem die Grundlage. Text Mining arbeitet, wie der Name schon sagt, mit Texten und bezieht seine Informationen daraus. Wohingegen Data Mining, Informationen meist aus Datenbanken bezieht[24].

In Anlehnung an: http://wissensexploration.de/textmining-vs-datamining.php
Abb. 7 Data Mining Vs. Text Mining
Die Abbildung verdeutlicht noch einmal die Arbeitsweisen von Data Mining und Text Mining. Bei Data Mining werden strukturierte Daten aus einer Datenbank gewählt. Bei Text Mining müssen die Daten zunächst einmal aus Texten gewonnen und aufbereitet werden und können danach wie beim Data Mining weiterverarbeitet werden. Hürden bei Text Mining sind die Komplexität und die Mehrdeutigkeit der Sprache, je komplexer der Text desto aufwendiger ist die Phase der Aufbereitung. Die Texte werden morphologisch, syntaktisch und semantisch analysiert um eine geeignete Mustererkennung zu gewährleisten [25].
Unter der morphologischen Analyse versteht man die Untersuchung der Worte und ihrer Formen und deren Sinn. Zunächst wird der komplette Text in einzelne Wörter zerlegt (Tokenisierung). Anschließend wird versucht die Wörter auf ihre Stammform zu reduzieren z.B. “Bäumchen” oder “Bäume” wird auf “Baum” reduziert (engl. lemmatization). Zum Schluss wird bei der morphologischen Analyse festgestellt wo sich die Satzgrenzen befinden (durch Interpunktion beispielsweise).
Dann folgt die syntaktische Analyse. Diese untersucht den Satzbau sowie die Beziehungen der einzelnen Zeichen zueinander. Hierbei werden zuerst den Satzteilen und Worten ihre Wortarten zugewiesen (Substantiv, Verb, usw.). Das geschieht mit Hilfe von Lexika und Wörterbüchern. Danach wird eine so gennante “Phrase Recognition” durchgeführt. Vereinzelte Wörter werden zu Phrasen zusammengefasst. Es kann auch eine Namenserkennung von Personen oder Firmen stattfinden mit der “Named Equity Recognition”. Die letzte syntaktische Analyse ist das “Parsing”. Es stellt die grammatikalische Untersuchung dar.
Die semantische Analyse hat zur Aufgabe den Sinn und die Bedeutung des zusammenhägenden Textes zu identifizieren. Hier entstehen die zuvor genannten Hürden der Doppeldeutigkeit von Wörtern wie z.B. "Bar". Das kann eine Kneipe sein, eine Maßeinheit für den Druck oder eine Bezahlform(Bargeld). Dieses Problem muss semantisch gelöst werden[26].
Aufgabenfelder für Text Mining Anwendungen sind:
- Informationsextraktion
Mit Hilfe von Text Mining Tools kann man Schlüsselinformationen aus Texten extrahieren. Zu diesen Informationen können Namen, Orte, Zeitpunkte o.ä. gehören.
- Topic Tracking
Suchmaschinen wie Google oder Yahoo bieten eine solche Funktion an. Hierbei kann man sich für ein bestimmtes Thema einschreiben und sobald neue Informationen zu diesem Thema verfügbar sind wird man entsprechend benachrichtigt. Eine interessante Möglichkeit für Firmen etwas über die Reputation ihrer Produkte zu erfahren.
- Zusammenfassungen
Wie der Name schon sagt ist das Ziel eine Zusammenfassung eines großen oder mehrerer Text um einen groben Überblick zu schaffen.
- Kategorisierung
Texte werden ihrem Inhalt zufolge kategorisiert. Die zu Analysierenden Dokumente werden mit bekannten Beispiele vergleichen und so in Kategorien eingeteilt.
- Clusterbildung
Beim Clustering werden Sammlungen von Dokumenten in Cluster unterteilt und kategorisiert. Jedoch werden hier Kategorien neu gebildet und nicht mit bestehenden verglichen wie beim normalen Kategorisieren
- Concept-Linkage
Falls Gemeinsamkeiten bei Themen entdeckt werden, können dadurch Zusammenhänge gebildet werden. Wenn z.B. Migräne und Despression zusammenhängen, und Depression eine Verbindung zu Magnesiummangel hat. Dann könnte es sein das Migräne auf Magnesiummangel zurück zu führen ist [27].
3.3.2 Soziale Netzwerke
Soziale Netzwerke wie "Facebook", "Google Plus" oder "Wer kennt wen?" kennzeichnen sich als moderne Art des Austausches. Es werden Verabredungen darüber geplant, persönliche Vorlieben und Abneigungen darin kundgetan, Beziehungen zu anderen Menschen veröffentlicht und weitere private Informationen geteilt. Diese Daten bieten sich zum Sammeln und Analysieren an und werden von den Nutzern, freiwillig und kostenlos, zur Verfügung gestellt werden. Das geht so weit das Nutzer dank Smartphone und mobilem Internet Daten überall und jeder Zeit hochladen oder abrufen können. Angefangen von dem Lied das sie gerade hören, über der Meinung die sie zu einem bestimmten Thema haben, bis zu ihrem Standort an dem sie sich gerade aufhalten. Aufgrund dessen finden sich in Sozialen Netzen so viele, unterschiedliche und dynamische Daten, so dass es nicht leicht ist die passende Methode zu finden um sie richtig zu filtern. Die gefilterten Daten können zu verschiedenen Zwecken dienen wie z.B. der Forschung oder Geschäftszwecken. Wichtig ist beim Mining in sozialen Netzwerken die Privatsphäre des Individuums zu wahren auch wenn das heißt das die Daten dadurch teilweise unvollständig sind[28].
Eine beliebte Anwendungsart für Data Mining in diesem Bereich ist die Gruppen Identifizierung. Dabei wird die Vernetzung der Personen analysiert, welche vermehrt miteinander kommunizieren. Sobald erkennbar wird zu welchen Personengruppen ein Individuum angehört, kann man bestimmen wo die Interessen dieses Individuums liegen. Auch wenn es Mitgliedern möglich ist Gruppen in sozialen Netzwerken wie Facebook zu erstellen, braucht die Interessengruppe der die Person angehört nicht real zu existieren, sondern kann das Ergebnis der Analyse sein. Diese gewonnenen Daten werden gerne zu Marketing- und Werbezwecken verwendet, welche speziell an die Person angepasst sind[29].
In Anlehnung an: Einführung in die Netzwerkanalyse: Grundlagen, Methoden, Forschungsbeispiele von Dorothea Jansen, 2006 (S. 130, Abb. 6.1)
Abb. 8 Soziogramme
Eine weitere Analysemöglichkeit ist die Zentralität des Individuums zu ermitteln. Dabei wird die Popularität einer Person, sowie die Aufmerksamkeit die andere Personen ihr widmen, betrachtet. Hiermit lässt sich bestimmen, wieviel Einfluss ein User auf sein Umfeld ausübt. Personen die sehr zentral eingestuft sind, können die Meinungen ihrer Freunde, Bekannten und Verwandten beeinflussen und lenken. Zentralität wird in 4 Soziogramme aufgeteilt, Sternnetze, Kreis, Doppelsterne und Ketten. In der Abbildung ist zu erkennen das beim Sternnetz das Individuum “A” zentral liegt und alle anderen nur peripher. Dies ist eine der 2 Extremformen, da hierbei nur eine Person Zentral ist. In Punkt 2 sind alle Individuen gleichgestellt und niemand ist hervorgehoben. Das stellt die zweite Extremform dar, da hier alle exakt gleichwertig sind. Beim Doppelstern sind die Individuen “C” und “G” die, mit den meisten Verbindungen, sind miteinander jedoch nur über “E” verbunden. “C” und “G” haben die kürzesten direkten Wege zu den Vier, ihnen direkt verbundenen Individuen. “E” hat jedoch den kürzesten Weg insgesamt zu allen Individuen. Bei der Kette weist “E” die höchste Zentralität auf. “A” und “I” haben die geringste Zentralität da sie jeweils am Ende der Kette sind[30].
3.3.3 Spamfilter
Der Nutzen eines so gennanten Spamfilter sollte jedem E-Mail Benutzer bekannt sein. Er sorgt dafür, daß keine Unerwünschten Werbe-Mails im Postfach landen und filtert den E-Mail Verkehr. Die Algorithmen und Funktionen des Spamfilters sind jedoch nicht jedem E-Mail Benutzer bekannt. Bei der Filterung von Spam wird vorwiegend das im Punkt 3.3.1. vorgestellte Text Mining angewandt. Die einfachste Art zu Filtern ist das so genannte “Blacklisting”. Dabei wird ein bestimmter Begriff vom Benutzer auf die Schwarze Liste gesetzt und alle Mails, die entweder im Betreff oder Inhaltlich diesen Begriff enthalten, landen im Filter. Dabei wird Text Mining angewandt und die Mail zunächst Analysiert. Der Text wird in Worte und aufgeteilt und diese werden dann Kategorisiert. Diese Worte werden dann mit Begriffen auf der Schwarzen Liste abgeglichen.
Aufwendiger wird es sobald der Spamfilter automatisiert auf Spam Mails reagieren muss. Denn der User kann nicht alle Begriffe auf die Schwarze Liste setzen, bzw. es müssen einige Mail mit bestimmten Begriffen gefiltert werden, andere mit dem gleichen Begriff sind wiederum erwünscht. Die meisten Spamfilter basieren auf dem Bayes’schen Filter (oder auch Bayes Filter genannt). Dieser besitzt durch seinen ausgeklügelten Algorithmus eine künstliche Intelligenz und lernt mit jeder Spam Mail dazu. Bevor so ein Filter in einem Unternehmen oder bei einem Mailanbieter eingesetzt werden kann muss zunächst die E-Mail Korrespondez eine Woche lang analysiert und bewertet werden. Auf diesem Weg “lernt” der Filter welche Mails erwünscht sind und welche nicht. Diese Informationen werden in einer Datenbank gesichert und zukünftige Mails können damit abgeglichen werden [31].
4 Anwendungsbeispiel Betrugserkennung mit Data Mining bei Leasingverträgen der Mercedes-Benz Bank
4.1 Beschreibung
Die Automobile Finanzdienstleistung der Daimler-Benz AG beginnt 1967 mit den ersten Leasingaktivitäten. Zwölf Jahre später, 1979, wird die Mercedes Leasing GmbH gegründet. Acht Jahre später folgt das Finanzierungsgeschäft, die Mercedes-Benz Finanz AG. Weitere 5 Jahre später folgt die Mercedes-Benz CharterWay GmbH – das Fuhrparkmanagement für Nutzfahrzeuge. 1997 steigt Mercedes-Benz mit der debis Car Fleet Management GmbH in die das Flottenmanagementgeschäft ein. Im Jahr 2002 erhält die Daimler-Chrysler Bank die Vollbanklizenz und bezieht 2003 ein eigenes Firmengebäude mit Sitz auf dem Pragsattel, Stuttgart. Sechs Jahre später wird die Daimler-Chrysler Bank zur Mercedes-Benz Bank umbenannt. Diese stetig steigende Entwicklung und die Tatsache, daß mittlerweile jedes zweite Neufahrzeug des Konzerns über diese Bank geleast oder finanziert wird, was einem Neugeschäft von 327.088 Verträgen p.a. entspricht, bringen eine Notwendigkeit hervor, mögliche Betrugsfälle schneller und effizienter erkennen zu können. Von 1998 bis 2008 ist das Volumen der Vertragsbestände von 6,733 Mio. Euro auf 17,243 Mio. Euro angestiegen. Mittels Data Mining und einem dazu gehörigen automatisierten Verfahren soll erreicht werden, die Zeitspanne der Prüfung potentieller Betrugsfälle zu verkürzen und die Erfolgsrate der Erkennung dieser Fälle zu erhöhen. Die Mercedes-Benz Bank gibt diese Studie bei dem unabhängigen Beratungs- und Analystenhaus „mayato“ in Auftrag.
4.2 Prozessphasen
Es gibt keine Garantie, dass ein Data-Mining Projekt erfolgreich abgeschlossen werden kann. Eine mangelhafte Datenqualität, fehlendes Verständnis des Business oder ineffizient hohe Entwicklungskosten können ein solches Projekt scheitern lassen. Klar definierte Prozessphasen des Data-Mining-Prozesses erhöhen die Wahrscheinlichkeit des Gelingens eines solchen Projektes. Ebenso ist eine Integration aller betroffenen Fachabteilungen wichtig, um das technische und das betriebswirtschaftliche Wissen vereinen zu können. Die Daimler AG, SPSS und weitere namhafte Teilnehmer eines Förderprojekts der Europäischen Union entwickeln den Cross-Industry Standard Process for Data-Mining (kurz: CRISP-DM).Dabei handelt es sich um sechs Phasen, die nicht linear, sondern teilweise sogar mittels Rücksprünge in vorherige Phasen wiederholt durchlaufen werden müssen.
4.2.1 Business Understanding
Zu allererst wird ein Problem und das Unternehmensziel definiert. In diesem Beispiel handelt es sich um eine automatisierte Vereinfachung zur Erkennung von Betrugsfällen bei Leasing-Verträgen, eine einfache Bedienbarkeit (durch den Betrugsbeauftragten) und eine intuitiv verständliche Ergebnisdarstellung. Weiterhin werden Kriterien zum Erreichen des Ziels benötigt und eine projektbegleitende Einschätzung des Projekterfolges, um das Projektrisiko zu minimieren. Zum Business Understanding gehört das Verständnis, welches Auftragsvolumen und damit welche automobile Wertschöpfung mit den Financial Services erwirtschaftet werden. Es verdeutlicht die Relevanz für das Unternehmen (vgl. Punkt 4.1). Zusätzlich geht es darum, die Wünsche des Kunden an die Mercedes-Benz Bank zu erkennen und damit ein weiteres Bestehen und / oder Wachstum am Markt gegenüber der Konkurrenz zu sichern. Bei dieser Studie sind das:
- Leasing und Finanzierung
- Privatkunden
- Privatleasing Plus (attraktive Raten incl. Versicherung)
- Plus3-Finanzierung (Rückgabe, Anschlussfinanzierung oder Kauf des Fahrzeuges möglich)
- Firmenkunden
- Saisonraten-Finanzierung (angepasste Rate an den Saisonverlauf)
- Service-Leasing (Leasing inklusive Service-Leistungen)
- Miete (Kurz- und Langzeitmiete zzgl. Management – und Serviceleistungen)
- Privatkunden
- Fuhrparkmanagement
- Händlerfinanzierung
- Versicherungen
- Banking (rund um das Auto)
- Tagesgeldkonten
- Festzinsprodukte
- Sparpläne
- Fonds
- Zertifikate
Allein dieser recht vereinfacht dargestellten Auflistung der angebotenen Leistung ist zu entnehmen, dass eine ungeheuer große und qualitativ sowie quantitativ unterschiedliche Datenmenge anfällt, die mitunter auch nicht ohne vorherige Bearbeitung miteinander vergleichbar ist. Führt die Analyse und der folgende Prozess zur Entfremdung der Kundenansprüche, würde dieses Produkt auf dem Markt nicht mehr akzeptiert werden. Dazu gehört ebenso die Produktpallette der Mercedes-Benz Bank sowie die angebotene Fahrzeugpallette und deren Einsatzgebiet (Privat – oder Firmenkunden) zu analysieren. In dieser Studie handelt es sich um 7 Fahrzeugtypen. Die Hauptziele dieses Projektes sind
- die Prüfung der Datenbasis auf analytische Verwendbarkeit
- eine Dokumentation häufiger Betrugsmuster
- eine Erkennung bisher unbekannter Betrugsmuster
- eine Prognose zukünftiger Betrugsfälle
4.2.2 Data Understanding
Im zweiten Schritt werden die Datenquellen ermittelt und eine Selektion der Analyseebene getroffen. Die Selektion der Trainingsmenge wurde aus dem Quellsystem SAP BW (SAP Business Information Warehouse, heute SAP Business Intelligence) gewählt, gesammelt und zusammengeführt. Notwendig sind sowohl eine gute Datenqualität als auch ein ausreichend analytisch nutzbares Datenvolumen (Anzahl Attribute & Historie). Diese wurden auf 5 verschiedenen Ebenen gesammelt:
- Ebene 1 : gesamter Kundenstamm
- Ebene 2 : Kundensegment
- Ebene 3 : Geschäftspartner
- Ebene 4 : Vertragsebene
- Ebene 5 : Transaktionsebene
Die Analyseebene ist die 4te Ebene, die Vertragsebene. Dazu wurde eine Übersicht über die Verfügbaren Variablen erstellt, die Einfluss auf die jeweilige Ebene haben. In Zahlen bedeutet das folgendes:
- Stammdaten Kunde : 52 Variablen
- Bonitätsinformation Kunde: 33 Variablen
- Stammdaten Finanzierungsverträge: 91 Variablen
- Stammdaten Leasingverträge: 87 Variablen
Dabei müssen die jeweiligen Korrelationen erhalten bleiben um ein praxisnahes Ergebnis liefern zu können. Zentrale Einflussfaktoren wie Fahrzeugtypen und der Anteil der Anzahlung am Kreditbetrag werden mit einbezogen. Zwischen der ersten und zweiten Prozessphase findet Datenaustausch statt, die zwischen der ersten und zweiten Ebene hin – und her pendeln können bis es zum korrekten Verständnis kommt.
4.2.3 Data Preparation
In der dritten Prozessphase werden die gewonnenen Datensätze nach mehreren aufgestellten Kriterien gefiltert und daraus abschließend Kennzahlen berechnet. Die bisherigen aufgeführten Phasen sind dabei die aufwändigsten. Diese nehmen ca. 80 Prozent der gesamten Projektzeit in Anspruch.
4.2.4 Modelling
Die vierte Phase beschreibt das eigentliche Data Mining. Zunächst wird eine Modelliermethode gewählt (z.B. künstliche neuronale Netze, Entscheidungsbäume, Clusterverfahren, Regression oder Regelinduktion) und ein Test-Design erstellt. Anschließend werden Test- und Trainingsdaten erstellt und mit deren Hilfe ein Modell gebaut, welches mit reellen Daten aus dem produktiven System gefüttert und mit Hilfe von Parametern justiert wird. Bei diesem Beispiel geht es um die Betrugsmustererkennung mit Self-Acting Data Mining anhand der erstellten Trainingsmenge. Self-Acting Data Mining ist ein Produkt der Firma mayato und beschreibt das automatisierte Durchsuchen großer Datenmengen entgegen dem bisherigen Auswerten, bei dem nur ein geringer Teil der Daten zur Analyse hinzugezogen wird. Erreicht werden soll dies durch Algorithmen, die den Analyseprozess vereinfachen und beschleunigen sollen – und damit auch kosteneffizienter gestalten.
4.2.5 Evaluation
In der fünften Phase, der Evaluation findet eine Bewertung der gewonnen Ergebnisse aus der Datenanalyse statt. Die Ergebnisse werden dabei mit den im Business Understanding festgelegten Kriterien verglichen. Damit finden ein Rückschritt und ein Austausch mit der ersten Phase statt. Mögliche Nachbesserungen müssen somit eventuell in mehreren oder gar allen Prozessphasen vorgenommen werden. In der vorliegenden Studie erfolgt eine manuelle Prüfung der vom System als betrugsverdächtig gekennzeichneten Verträge. Dabei wurden einige der vorher vermuteten Einflussfaktoren nicht bestätigt, hingegen unbekannte Einflussfaktoren und Zusammenhänge aufgedeckt (zum Beispiel starke Unterschiede bei den Charakteristischen Fahrzeugtypen zwischen Leasing– und Finanzierungsverträgen sowie das Produktarten und Vertragslaufzeiten wichtiger sind als angenommen wurde. Stark unterschiedliche Einflussfaktoren wiesen private und gewerbliche Leasing– und Finanzierungsverträge auf.) Zur Validierung des Modells wurden folgende Kennzahlen festgelegt.
- Anteil der zu prüfenden Verträge bei 100% Erkennungsrate: 74%
- Anteil der zu prüfenden Verträge 98% Erkennungsrate: 48%
In der Modellanwendung wurde mit folgenden Zahlen gearbeitet:
- Anzahl der analysierten Verträge: 23000
- davon manuell geprüfte Verträge: 49
- davon auffällige Verträge: 9
- davon als Betrugsfälle identifiziert: 3
4.2.6 Deployment
Das entwickelte Modell wird auf aktuelle Verträge (Leasing / Finanzierung) angewandt. Eine sinnvolle Anwendung der Ergebnisse und eine Instandhaltung und Pflege der Modelle wird erstellt. Dazu gehören ebenso eine Pflege und Überwachung der Modelle – bei einer eventuell notwendigen Anpassung an sich verändernde Geschäftsprozesse. Beispielsweise Änderungen der Finanzierungsverträge, Gesetzesänderungen, Währungsänderungen, und vieles mehr. Ein Abschlussbericht und eine Präsentation für nicht involvierte Abteilungen und Personen sollten ebenfalls nicht in einem solchen Projekt fehlen[32].
4.3 Abschlusskommentar
Zur Erklärung des in dieser Studie genutzten CRISP-DM Schemas anhängend folgendes Schaubild. Das dargestellte CRISP-DM ist die entwicklelte Version 1.0 und ist Industriestandard. An einer überarbeiteten Version 2.0 wird zur Zeit gearbeitet.
Abb. 9: Phasenmodell CRISP-DM
5 Anwendungsbeispiel Web Mining für Marketinganwendungen bei DaimlerChrysler
5.1 Beschreibung
Untersuchungen des Internets mittels Methoden des Data Mining bezeichnet man als Web Mining. Eine gezieltere Untersuchung über das Nutzerverhalten ist das Web Usage Mining – wird dieses auf die Auswertungen der Protokolldateien beschränkt, nennt man dies Logfileanalyse. Die DaimlerChrysler startete dieses Projekt, beschränkt auf die Analyse der Protokolldateien, um zu erkunden, welche Informationen darin zu finden sind und wie diese im Data Mining genutzt werden können. Diese Studie wurde über eine Dauer von acht Monaten geführt und von zwei Diplomanden sowie zwei Mitarbeitern von DaimlerChrysler durchgeführt. Genutzt wurde Data Mining Software (SPSS Clementine 5.1, IBM Intelligent Miner, Oracle, etc.) und verschiedene Eigenentwicklungen mangels vorhandener Web Mining Software. Untersucht wurden zwei interne und eine externe Seite ohne persönliche Anmeldung des Users mit reinen Informationsangeboten. Ausgewertet wurden Web Meta Daten und verschiedene Protokolldateien (Fehlerprotokolle, Cookie-Protokolle, Zugriffprotokolle).
5.2 Zielsetzung
Die Mitarbeiter von DaimlerChrysler, Abteilung Data Mining Solutions verfügte zum Zeitpunkt der Studie über eine große Erfahrung im Bereich Data Mining, allerdings noch nicht über spezielle Kenntnisse im Bereich des Web Minings. Daher teilte man die Zielsetzung in vier Projektphasen ein.
- Identifikation von Teilschritten des Gesamtprozesses und Erkennen von Problemen
- Prüfung der vorhandenen Software und Algorithmen auf Tauglichkeit
- Prüfung des Informationsgehaltes vorhandener Daten (Logfiles)
- Einschätzung des Potentials von Logfileanalysen für Marketingfragen im Konzern
5.3 Projektablauf
Die Durchführung und Planung der folgenden Phasen orientierte sich grundsätzlich am dreistufigen Webminer-Prozess, entwickelt 1996 an der Universität von Minnesota.
Abb. 10 Auf die Studie angewandter Web-Mining-Prozess
5.3.1 Projektziele
Untypisch für den normalen Ablauf bei Data Mining Prozessen ist hier, dass kein klares Geschäftsziel bei der Definition des Projektes vorlag. Vielmehr ging es darum, interessante Geschäftsprozesse zu finden, daher wurden die Geschäftsziele dieses Mal erst im Nachhinein betrachtet. Die Grundidee war, die drei vorliegenden Datenquellen nach Verhaltensmustern der Internetnutzer zu untersuchen, zu interpretieren und in konkrete Marketinganwendungen zu überführen.
5.3.2 Datenverständnis
Um die Ausgangsdaten bezüglich ihrer Herkunft und Inhaltes frühzeitig gezielt prüfen zu können, wurde eine Übersicht aller vorhandener Logfiles und eine grobe Beschreibung derer erstellt. Diese Übersicht war überdies ein Hilfsmittel zur Vermeidung von Fehlern während der Datenaufbereitung und der Modellierung. Die Beschreibung der Daten enthielt wenigstens den Aufzeichnungszeitraum, die Dateigröße (original) und das Format. Bei mehreren Servern (eventuell noch gespiegelt) wird darüber hinaus die Herkunft festgehalten. Die Beschreibung der Inhalte wurde die Grundlage der weiteren Schritte für die Analyse. Es wurde beispielsweise festgestellt, dass eine Häufung bestimmter IP Adressen von Besuchern der Seiten von Administratoren stammten oder anderen internen Nutzern. Diese Zugriffe wurden bei der Datenbereinigung ausgeschlossen
5.3.3 Datenaufbereitung
Die Datenaufbereitung wurde in vier Schritten vorgenommen:
- Datenreinigung
- Nutzeridentifikation
- Sitzungsidentifikation
- Transaktionsidentifikation
Die Datenreinigung hat von allen vier Phasen die höchste Individualität. Dies resultiert aus den einzelnen Analysezielen und vom konkreten Inhalt der Protokolldateien. Unterschiedliche im Einsatz befindliche Systeme erzeugen unterschiedlich ausgefertigte Protokolldateien. Diese mussten zunächst vereinheitlicht werden. Zu diesem Zweck wurde das Logfile in eine Datenbank eingelesen und in eine gut interpretierbare Form übertragen. Eine genaue Kenntnis der Meta-Daten der Webseiten ist dafür erforderlich. Weiterhin wurden Bilddateien, automatisch geladene Seiten und Skripte entfernt. Unvollständige Pfadangaben, erzeugt durch Zwischenspeicher im Cache oder durch den Rückwärtssprung in Browsern, wurden durch vollständige Pfadangeben ersetzt. Datensätze, die nicht vervollständigt werden konnten, wurden gelöscht. Das zieht eine negative Beeinflussung der Analyse nach sich, da z.B. bestimmte Nutzergruppen mit ähnlichen Navigationspfaden systematisch von der Analyse ausgeschlossen wurden. Die Nutzeridentifikation war etwas komplizierter, da kein Userlogin erforderlich war. Somit wurde versucht, diese Angabe mit IP-Adressen, Cookies und verschiedene Protokolldateien zur Identifikation zu ersetzen. Cookies wurden von den Nutzern allerdings nur zu 34% akzeptiert und konnten zur Analyse nicht genutzt werden. Erhebliche Schwierigkeiten bei der Identifikation einzelner Nutzer führten dazu, dass die Untersuchung auf einzelne Nutzersitzungen beschränkt wurde. Eine Nutzersitzung beinhaltet alle Seitenzugriffe, die während eines Besuches getätigt wurden. Als Timeout zwischen zwei Zugriffen wurde ein Wert von 25,5 Minuten gewählt. Die letzte Phase, die Transaktionsidentifikation unterscheidet sich von der Sitzungsidentifikation in ihrer Länge und ist vom Untersuchungsziel abhängig. Da das Untersuchungsziel vorher nicht genau bekannt war, wählte man zwei verschiedene Ansätze:
- eine neue Transaktion beginnt, wenn ein User zu einer vorher besuchten Seite zurückkehrt
- es wurde festgelegt, dass eine Transaktion einer Sitzung entspricht, weil eben der wiederholte Besuch einer Seite zu einem interessanten Ergebnis führen kann
Am Ende der Datenaufbereitung erhielt man jeweils 2 Dateien (siehe Schaubild) mit Transaktionsdaten für den jeweiligen Ansatz. In der Summe waren die 196.000 oder 224.000 Datensätze.
Abb. 11: Schematische Darstellung der Datenaufbereitung
5.3.4 Modellierung
Zur Erreichung der Projektziele wurden die Data Mining Methoden Segmentierung und Abhängigkeitsanalyse gewählt. Die Segmentierung wurde mit Hilfe des Kohonennetzes SPSS Software Clementine 5.1 durchgeführt, die Abhängigkeitsanalyse mittels des IBM Intelligent Miners. Bei der Abhängigkeitsanalyse wurden Algorithmen direkt auf die jeweiligen Transaktionsfiles angewandt. Das Ergebnis war eine Vielzahl von Regeln. Während der Modellierung wurde versucht, diese Regeln quantitativ einzugrenzen. Es wurde versucht mit Gütemaßen wie Confidence, Support und Interest zu arbeiten sowie inhaltlich begründete Eingrenzungen vorzunehmen. Bei der Segmentierung folgte man der Idee, die Daten der Transaktionen in teilweise homogene Gruppen zu zerlegen zur Erhaltung besserer Regelmengen. Drei Möglichkeiten der Segmentierung wurden angewandt:
- Segmentierung mit allen vorhandenen Werten
- Segmentierung allein mit hergeleiteten Werten (Zugriffszeit, Browserdaten, Verweildauer)
- Segmentierung allein mit Zugriffsdaten
Die Analyse führte allerdings zu keinem zufriedenstellen den Ergebnis, er ergab keine homogene Gruppe mit einem starken Unterschied zwischen den anderen Gruppen. Möglicherweise ist dies in der geringen Verfügbarkeit der Daten begründet. Innerhalb des Projektes einigte man sich darauf, nur das reine Navigationsverhalten zu betrachten. Für die damit erhaltenen großen Segmente führte man eine weitere Segmentierung mittels weiterer hinzugefügter Daten durch und erhielt am Ende Regelmengen unterschiedlicher Größe, die auf Ihre Eignung in der Ergebnisbewertung geprüft werden mussten.
Abb. 12: Datenmodellierung
5.3.5 Ergebnisbewertung
Die gebildeten Transaktionsgruppen enthielten für die Projektleiter die wenig überraschende Feststellung, dass Nutzergruppen mit einem ähnlichen Interessensgebiet ein ähnliches Nutzerverhalten aufweisen. Die Abhängigkeitsanalyse lieferte eine große Menge an Regeln, die nur schwer einzugrenzen waren und ein Finden von sich wiederholenden Mustern unmöglich machte. Beispielsweise wurden von 8,2% der Nutzer das Verlassen eines Forums eine bis vier Sekunden nach dem Betreten der Seite angeklickt. Daraus könnte man interpretieren, dass diese Besucher irrtümlich auf das Forum gelangt waren und die Seitennavigation daraufhin untersuchen oder den Inhalt des Forums interessanter gestalten. Dieses Ergebnis ist allerdings rein spekulativ. Die Gründe für die kurze Besuchszeit des Forums wurden nirgends festgehalten. Dies verdeutlicht die Problematik der Informationsgewinnung durch Logfileanalyse. In diesem Projekt ist es nicht gelungen, Muster oder Regeln zu finden und in eine konkrete Geschäftsidee umzusetzen, trotz der hohen Anzahl der Datensätze.
5.4 Zusammenfassung und Ausblick
Hinsichtlich der Zielsetzung dieses Projekts wurde der Informationsgehalt von Logfiles skeptisch betrachtet. Ganz besonders für bereits existierende Logfiles besteht eine Informationslücke, die nicht mehr zu schließen ist. In dieser Analyse war der schwierigste Teil die Pfadvervollständigung, die Nutzeridentifikation sowie die Eingrenzung der enormen Regelmengen. Diese Problematik wird auch in Fachliteratur bestätigt. Bestehende Logfiles wird bezüglich des Informationsgehaltes nach dieser Studie keinerlei Potential beigemessen. Anders verhält es sich mit Logfiles von Online-Shops, da hier eine eindeutige Nutzeridentifikation stattfindet und die Daten können über einen längeren Zeitraum betrachtet werden, da sie eindeutig zuzuordnen sind. Die Entwicklung des Internets sowie die rasante technische Entwicklung erschweren die Aufzeichnung und Analyse von Daten. Eine möglich Lösung wäre hier eine Entwicklung neuer Konzepte der Datenaufzeichnung und Speicherung[33].
6 Schwierigkeiten in der Praxis
Data Mining ist stark von der vorliegenden Datenqualität abhängig. Der Einsatz einer Data Mining Software setzt zwar nicht zwingend ein Data Warehouse voraus, dies bringt jedoch einige Vorteile mit sich. So sind die Daten eines Data Warehouses schon bereinigt und verfälschen das Ergebnis der Auswertung nicht negativ. Weiterhin muss das gelieferte Ergebnis der Analyse richtig gedeutet werden. Dies ist nur mit fundiertem Hintergrundwissen der Prozesse und Vorgänge möglich. Der Umgang und die Handhabung der Data Mining Tools sind nicht trivial und erfordern ein Verständnis der verwendeten Algorithmen und deren Parametrisierung.
Daneben ist auch der ethische Aspekt ein besonders brisantes Thema, da beim Data Mining auch Daten über Menschen ermittelt und ausgewertet werden. Da Menschen oftmals in Klassen und Gruppen eingeteilt werden, muss der Anwender sich seiner Verantwortung bewusst sein. Da der Anwender durch seine Analyse entscheidet, ob jemand Kreditwürdig ist, ein besonderes Angebot erhalten soll oder aber sein Kaufverhalten durchleuchtet wird. An dieser Stelle sind Entscheidungen hinsichtlich Geschlecht, Nationalität, Religion usw. nicht nur moralisch unangebracht sondern verboten. In medizinischen Anwendungen sind diese Attribute jedoch legitim.
Kunden- und personenbezogene Daten dürfen nur dann verarbeitet und ausgewertet werden, wenn dies der Gesetzgeber erlaubt oder durch die Einwilligung der betroffenen Personen. Ansonsten ist es illegal und verboten. Erlaubt ist es beispielsweise in Online-Shops, um den Kauf abzuwickeln und zur steuerrechtlichen Vorlage. Für weitere Zwecke, wie die Marktforschung, muss eine Einwilligung erfolgen. Zudem hat jeder das Recht, eine Auskunft der gespeicherten Daten anzufordern, diese zu berichtigen oder löschen zu lassen. Geregelt ist dies im §6a des BDSG, A15 der europäischen Datenschutzrechtlinie, die folgendes besagt:
- Entscheidungen, die für den Betroffenen eine rechtliche Folge nach sich ziehen oder ihn erheblich beeinträchtigen, dürfen nicht ausschließlich auf eine automatisierte Verarbeitung personengestützter Daten gestützt werden, die der Bewertung einzelner Persönlichkeitsmerkmale dienen.
- Dies gilt nicht, wenn
- die Entscheidung im Rahmen des Abschlusses oder der Erfüllung eines Vertragsverhältnisses oder eines sonstigen Rechtsverhältnisses ergeht und dem Begehren des Betroffenen stattgegeben wurde oder
- o die Wahrung der berechtigten Interessen des Betroffenen durch geeignete Maßnahmen gewährleistet und dem Betroffenen von der verantwortlichen Stelle die Tatsache des Vorliegens einer Entscheidung im Sinne der Absatzes 1 mitgeteilt wird [….]
7 Fazit
Diese Arbeit beinhaltet nur einen groben Überblick der einzelnen Verfahren und Anwendungsgebiete. Ein großer Nachteil des Data Mining liegt in dessen Komplexität. Der Umfang dieses Forschungsgebietes ist sehr mächtig und erfordert ein umfassendes Verständnis der zu analysierenden Daten. Ohne dieses Hintergrundwissen ist eine Auswertung und Interpretation der Ergebnisse nicht möglich. Weiterhin sind Kenntnisse in den Bereichen Datenbanken, Statistik, Algorithmen und Informatik Voraussetzung, um Data Mining sinnvoll einzusetzen.
Das Hauptkriterium einer erfolgreichen Analyse liegt in der Datenqualität. Wenn die Datenbasis nicht sauber aufbereitet ist, wird eine Auswertung schnell unbrauchbar oder fehlerhaft und zieht womöglich falsche Schlussfolgerungen nach sich. Was unter Umständen zu gravierende Folgen führen kann.
Am Anfang einer Untersuchung ist nicht sichergestellt, dass diese auch erfolgversprechend verlaufen wird. Der Prozess an sich, ist nur schwer nachvollziehbar und es kann vorkommen, dass Erkenntnisse gewonnen werden, die vorher nicht erwartet bzw. gewollt waren. Daneben kann auch der Fall eintreten, dass eine ausgiebige und zeitintensive Analyse zu keinem Ergebnis führt. Um dies zu verhindern kommt es auf die Wahl der richtigen Methode und das korrekte Einstellen der Parameter an.
Gerade in der heutigen Zeit, wo sich einzelne Produkte kaum qualitativ voneinander unterscheiden, kann der Data Mining Einsatz Vorteile erzielen. Sei es in der Herstellung, der optimalen Warenplatzierung oder in der Forschung. Daraus können Wettbewerbsvorteile erzielt und genutzt werden, die es eventuell ermöglichen, sich von den Konkurrenten am Markt abzusetzen.
Der Einsatz von Data Mining wird immer populärer und viele Firmen werden zukünftig eigene Abteilungen aufbauen oder schon bestehende ausbauen. Die Chance, die eigenen Prozesse zu optimieren oder aber bisher unbekannte Zusammenhänge aus seinen Daten zu entdecken, wird nicht ungeachtet bleiben.
Die immer leistungsstärkere Hardware wird auch sehr komplexe und rechenintensive Vorgänge zügiger durchlaufen können. Softwarelösungen werden immer intelligenter und einfacher zu bedienen. Somit wird vielen Anwendern der Zugang zu dieser Art der Forschung ermöglicht. Durch die Weiterentwicklung neuer Algorithmen werden selbst Terabyte große Datenbänke effizient zu bearbeiten sein.
Zukünftig werden auch bisher nur schwer zu verarbeitende Daten untersucht. So wird es beispielsweise möglich, Image-Mining zu betreiben. Hierbei werden Bilder aufgrund des Bildinhaltes suchbar gemacht, indem sie als Text in eine Datenbank gespeichert werden. Dadurch soll es möglich sein, über Datenbankabfragen Gesichter oder Fingerabdrücke zu erkennen. Weitere interessante Gebiete sind das Video- und Audio-Mining. Gerade dem Audio-Mining, insbesondere der Spracherkennung, wird in Zukunft sehr große Bedeutung bei der Implementierung neuer Benutzeroberflächen zukünftiger IT-Systeme zukommen. Der hohe Rechenaufwand ist jedoch nicht zu unterschätzen. Deswegen sollten zum gegenwärtigen Zeitpunkt die Möglichkeiten nicht überbewertet werden[34].
8 Fußnoten
- ↑ Vgl. Mertens/Wieczorrek, 2000, S.18
- ↑ Vgl. Fayyad/Piatetsky-Shapiro/Smyth, 1996, S.4 f.
- ↑ Vgl. Adriaans/Zantinge, 1996, S.2
- ↑ Vgl. Fayyad/Piatesky-Shapiro / Smyth, 1996, S.6 und Fayyad/Piatesky-Shapiro / Smyth, 1996, S.30
- ↑ Vgl. Fayyad/Piatesky-Shapiro / Smyth, 1996, S.6 und Knobloch, 2000, S.14
- ↑ Vgl. De Ville, 2001, S.24
- ↑ Vgl. Küppers, 1999, S.142-146
- ↑ Vgl. Fayyad/Piatesky-Shapiro / Smyth, 1996, S.12
- ↑ Vgl. Alpar; Niederreicholz, 2000, S.9 ff.
- ↑ Vgl. Grob; Bensberg, 1999, S.10
- ↑ Vgl. Grob; Bensberg, 1999, S.11
- ↑ Vgl. http://www.tecchannel.de/server/sql/1754421/bi_methoden_teil_3_data_mining_im_detail/index1.html
- ↑ Vgl. Alpar; Niederreicholz, 2000, S.12 f.
- ↑ Vgl. http://www.tagesspiegel.de/wirtschaft/sicher-ist-nichts/6019938.html
- ↑ Vgl. http://www.investor-verlag.de/vergessen-sie-data-mining/104063902
- ↑ Vgl. http://www.business-wissen.de/unternehmensfinanzierung/kreditwuerdigkeit-neuer-datenschutz-wirkt-sich-auf-bonitaetspruefung-aus/
- ↑ Vgl. Wiedmann/Buckler, 2003
- ↑ Vgl. http://www.focus.de/digital/computer/chip-exklusiv/tid-17119/online-werbung-webshops-sammeln-massenhaft-daten_aid_477099.html
- ↑ Vgl. http://www.rfidatlas.de/index.php?option=com_glossary&func=view&Itemid=52&catid=39&term=Personal+Shopping+Assistant+%28PSA%29
- ↑ Vgl. http://wissrech.ins.uni-bonn.de/research/pub/garcke/Math-Handel080805.pdf
- ↑ Vgl. http://www.bild-der-wissenschaft.de/bdw/bdwlive/heftarchiv/index2.php?object_id=31119574
- ↑ Vgl. http://www.computerwoche.de/software/bi-ecm/1755558/
- ↑ Vgl. http://www.computerwoche.de/software/bi-ecm/592002/index5.html
- ↑ Vgl. http://wissensexploration.de/textmining-definition.php
- ↑ Vgl. http://wissensexploration.de/textmining-vs-datamining.php
- ↑ Vgl. http://wissensexploration.de/textmining-dokumentaufbereitung.php
- ↑ Vgl. http://wissensexploration.de/textmining-aufgaben.php
- ↑ Vgl. Weyer, 2011
- ↑ Vgl. Aggarwal, 2011, S. 335 bis 339
- ↑ Vgl. Jansen, 2006, S. 129 f.
- ↑ Vgl. http://support.gfi.com/manuals/de/me12/me12manual_de.1.11.html#9000332
- ↑ Vgl. http://www.mayato.com/de_DE/presse/downloads-links/projektberichte.html?download=18%3Abetrugserkennung-mit-self-acting-data-mining
- ↑ Vgl. Hippner, 2002
- ↑ Vgl. Kretschmar/Dreyer, 2004, S.95 ff.
9 Literatur- und Quellenverzeichnis
| Adriaans, Pieter / Zantinge, Dolf (1996) | Data Mining, Amsterdam 1996 |
| Aggarwal, Charu C. (2011) | Social Network Data Analytics, Springer US 2011 |
| Alpar, Paul / Niedereichholz, Joachim (2000) | Data Mining im praktischen Einsatz, Wiesbaden 2000 |
| Business-Wissen.de o.V. (2010) | http://www.business-wissen.de/unternehmensfinanzierung/kreditwuerdigkeit-neuer-datenschutz-wirkt-sich-auf-bonitaetspruefung-aus/ , 2010 |
| Csizi, Veronika (2012) | http://www.tagesspiegel.de/wirtschaft/sicher-ist-nichts/6019938.html , 2012 |
| De Ville, Barry (2001) | Microsoft Data Mining – Integrated Business Intelligence for E-Commerce and Knowledge Management, US 2001 |
| Fayyad, Usama / Piatetsky-Shapiro, Gregory / Smyth, Padhraic (1996) | Advances in knowledge discovery and data mining, MIT Press, 1996 |
| Garcke, Jochen / Griebel, Michael / Thess, Michael | http://wissrech.ins.uni-bonn.de/research/pub/garcke/Math-Handel080805.pdf |
| GFI Software o.V. (2012) | http://support.gfi.com/manuals/de/me12/me12manual_de.1.11.html#9000332, 2012 |
| Gotter, Lukas (2008) | http://wissensexploration.de, 2008 |
| Green, Alexander (2010) | http://www.investor-verlag.de/vergessen-sie-data-mining/104063902 , 2010 |
| Grob, Heinz Lothar / Bensberg, Frank (1999) | Das Data-Mining-Konzept, Münster 1999 |
| Hippner, Hajo (2002) | Handbuch Web Mining im Marketing, Braunschweig/Wiesbaden 2002 |
| Hoferer, Dominik (2010) | http://www.focus.de/digital/computer/chip-exklusiv/tid-17119/online-werbung-was-das-web-ueber-sie-weiss_aid_477098.html , 2010 |
| Jansen, Dorothea (2006) | Einführung in die Netzwerkanalyse: Grundlagen, Methoden, Forschungsbeispiele, Wiesbaden 2006 |
| Knobloch, Bernd (2000) | Der Data-Mining-Ansatz zur Analyse betriebswirtschaftlicher Daten,Bamberger Beiträge zur Wirtschaftsinformatik, Nr.58, Bamberg 2000 |
| Kretschmar, Oliver / Dreyer, Roland (2004) | Medien-Datenbank und Medien-Logistik-Systeme: Anforderungen und praktischer Einsatz, München 2004 |
| Küppers, Bertram (1998) | Data Mining in der Praxis – Ein Ansatz zur Nutzung der Potentiale von Data Mining im betrieblichen Umfeld, Frankfurt 1998 |
| Manhart, Dr. Klaus (2008a) | http://www.tecchannel.de/server/sql/1754421/bi_methoden_teil_3_data_mining_im_detail/index1.html , 2008 |
| Manhart, Dr. Klaus (2008b) | http://www.computerwoche.de/software/bi-ecm/1755558/ , 2008 |
| Mertens, Peter / Wieczorrek, Hans W. (2000) | Data X Strategien. Data Warehouse Data Mining und operationale Systeme in der Praxis, Berlin/Heidelberg 2000 |
| Müller, Sebastian (2008) | Social Network Analysis: IT-gestützte Analyse von Sozial- und Interaktionsstrukturen, Norderstedt 2008 |
| Petersohn, Helge (2005) | Data Mining: Verfahren Prozesse, Anwendungsarchitektur, München 2005 |
| RFID Atlas | http://www.rfidatlas.de/index.php?option=com_glossary&func=view&Itemid=52&catid=39&term=Personal+Shopping+Assistant+%28PSA%29 |
| Schwarz, Monika / Neckel, Peter (2009) | http://www.mayato.com/de_DE/presse/downloads-links/projektberichte.html?download=18%3Abetrugserkennung-mit-self-acting-data-mining, 2009 |
| Varwig, Cornelia (2007) | http://www.bild-der-wissenschaft.de/bdw/bdwlive/heftarchiv/index2.php?object_id=31119574 |
| Weyer, Johannes (2011) | Soziale Netzwerke: Konzepte und Methoden der sozialwissenschaftlichen Netzwerkforschung, 2. Auflage, München 2011 |
| Wiedmann, Klaus-Peter / Buckler, Frank (2003) | Neuronale Netze im Marketing-Management, 2. Auflage, Wiesbaden 2003 |
| Xu, Guandong / Zhang, Yanchun / Li, Lin (2010) | Web Mining and Social Networking: Techniques and Applications, Springer US 2010 |
10 Abbildungsverzeichnis
| Abb.-Nr. | Abbildung |
|---|---|
| 1 | Bonitätsprüfung als Beispiel einer Klassifizierung |
| 2 | Schnittmenge zweier Merkmalsträger als Beispiel einer Abhängigkeitsanalyse |
| 3 | Beispiel eines Ausreißers in einem Produktionsprozess |
| 4 | Beispiel für Clustering bei einer einer Bank |
| 5 | Schaubild der einzelnen Aufgaben und deren Methoden |
| 6 | Triebfelder des Data Mining |
| 7 | Data Mining Vs. Text Mining |
| 8 | Soziogramme |
| 9 | Phasenmodell CRISP-DM |
| 10 | Auf die Studie angewandter Web-Mining-Prozess |
| 11 | Schematische Darstellung der Datenaufbereitung |
| 12 | Datenmodellierung |





