|
Data Mining-Modelle beantworten Fragen wie:
· Wie kreditwürdig ist dieser Kunde?
· Was sind die Eigenschaften meiner Kunden?
· Welche Produkte werden von Kunden eher zusammen gekauft?
· Wie viel Produkte werde ich erwartungsgemäß nächsten Monat verkaufen?
Vermutlich haben Sie Kontakt mit einer Data Mining-Anwendung gehabt. Wenn Sie online ein Buch oder Musik erstanden haben, und eine Empfehlung wie “Andere Kunden, die dieses Produkt gekauft haben, kauften auch… ” bekamen, oder wenn Ihre Kreditkartenunternehmen Sie bittet, eine verdächtige Transaktion zu bestätigen, oder Ihr Gemüsehändler personalisierte Kassenzettel ausdruckt, dann haben Sie Kontakt mit einer Data Mining-Anwendung gehabt. Bis zum heutigen Tage war die Entwicklung solcher Anwendungen auf die größten Probleme der größten Unternehmen beschränkt – jenen Unternehmen, die sich die dünn gesäten Analyse-Talente und hohen Entwicklungskosten leisten konnten, die bisher erforderlich waren, um eine Data Mining-Anwendung zu erstellen. So, wie die OLAP-Technologien von Microsoft den OLAP-Markt wachsen ließen, sollen die Data Mining-Technologien Unternehmen und Abteilungen zugänglich gemacht werden, die solche Anwendungen bisher nicht erstellen konnten.
Die SQL Server 2005 Data Mining-Tools können dazu verwendet werden, einen Datensatz nach Mustern zu untersuchen, um anschließend optional Vorhersagen anhand dieser Muster zu erstellen. Das ist das ganze Geheimnis von Data Mining: Untersuchen, Finden von Mustern, und Vorhersagen anhand dieser Muster erstellen.
Während der SQL Server 2000 mit den Verfahren der Entscheidungsbäume und der Clusteranalyse nur über eingeschränkte Data-Mining-Funktionalität verfügte, umfasst der der SQL Server 2005 wesentlich mehr Mining-Funktionen.
Hierzu gehören zum Beispiel Decision-Trees, Time-Series, Clustering, Time Series, Sequence-Clustering, Association-Rules, Naïve Bayes, neurale Netzwerke und Text-Mining.
Data Mining-Werkzeuge lösen viele verschiedene Probleme. Eine grobe Einteilung von Unternehmensproblemen wird in der folgenden Tabelle aufgeführt:
| Analyseproblem |
Beispiele |
Microsoft-Algorithmen |
| Klassifizierung: Einteilen von Fällen in vordefinierte Klassen wie "Gut" kontra "Schlecht" |
- Analyse der Kreditwürdigkeit
- Abwanderungsanalyse
- Kundenbindung
|
- Decision Trees
- Naive Bayes
- Neural Nets
|
| Segmentierung: Entwickeln einer Taxonomie zum Gruppieren |
- Kundenprofilanalyse
- Mailing-Kampagne
|
- Clustering
- Sequence Clustering
|
| Zuordnung: Fortgeschrittenes Zählen von Korrelationen |
- Warenkorbanalyse
- Fortgeschrittene Datenuntersuchung
|
- Decision Trees
- Association Rules
|
| Zeitreihenvorhersage: Zukunftsvorhersage |
- Umsatzvorhersage
- Aktienkursvorhersage
|
|
| Vorhersage: Vorhersage für den Wert eines neuen Falls (z.B. neuer Kunde) basierend auf den Werten ähnlicher bestehender Fälle (bestehende Kunden) |
- Angabe von Versicherungsprämien
- Vorhersage für das Kundeneinkommen
- Vorhersage der Temperatur
|
|
| Abweichungsanalyse: Entdecken von Unterschieden zwischen Fällen oder Segmenten |
- Aufdecken von Kreditkartenbetrug
- Netzwerkeinbruchanalyse
|
|
|
Der Microsoft SQL Server 2005 wird mit den meisten gebräuchlichen Data Mining-Algorithmen ausgeliefert:
|
|
Microsoft Decision Trees ist häufig der Ausgangspunkt für Datenuntersuchung. Es handelt sich hier vor allen Dingen einen Klassifizierungs-Algorithmus, der sehr gut zur Entwicklung von Vorhersagemodellen für diskrete und kontinuierliche Attribute geeignet ist. Wenn der Algorithmus ein Modell erstellt wird untersucht, wie jedes in einen Datensatz eingegebene Attribut das Ergebnis des vorhergesagten Attributs beeinflusst. Das Ziel ist es, eine Kombination von eingegebenen Attributen und deren Status zu finden, die es erlaubt, das Ergebnis des vorhergesagten Attributs zu prognostizieren.
|
| Microsoft Naive Bayes erstellt schnell Mining-Modelle, die zur Klassifizierung und Vorhersage dienen. Es werden Wahrscheinlichkeiten für jeden möglichen Status des eingegebenen Attributs anhand jedes Status des vorhersagbaren Attributs errechnet. Der Algorithmus unterstützt nur diskrete (nicht kontinuierliche) Attribute und betrachtet alle eingegeben Attribute als unabhängig für das vorgegebene vorhersagbare Attribut ein. Da der Naive Bayes-Algorithmus sehr schnell rechnet, wird er gerne für die erste Datenuntersuchungsphase verwendet, sowie für Klassifizierung und Vorhersage. |
|
Naive Bayes Viewer
|
|
Microsoft Clustering verwendet iterative Techniken, um Auszüge aus einem Datensatz in Cluster zu fassen, die ähnliche Eigenschaften besitzen. Mit diesen Clustern können Daten auf Beziehungen hin untersucht werden. Ebenso können anhand des Cluster-Modells Vorhersagen erstellt werden.
|
| Microsoft Association basiert auf einem a priori-Algorithmus, und bietet effektive Unterstützung zum Auffinden von Mehrfachkorrelationen innerhalb großer Datensätze. Der Association-Algorithmus durchsucht die Transaktionen innerhalb einer Datenbank, um herauszufinden, welche Elemente in den Transaktionen eines einzelnen Benutzers am wahrscheinlichsten gemeinsam auftreten. Zusammenhängende Elemente werden in Itemsets gruppiert, und es werden Regeln generiert, die zur Vorhersage dienen. Microsoft Association wird am häufigsten für Warenkorbanalysen verwendet. Jede relationale oder OLAP-Analyse, die häufig "distinct counts" ausführt, ist ein geeigneter Kandidat für eine Association-Analyse. Der Microsoft Association-Algorithmus reagiert empfindlich auf die Wahl der Algorithmus-Parameter, deshalb empfiehlt sich bei kleineren Problemen Microsoft Decision Trees als der bessere Algorithmus für Warenkorbanalysen. |
|
Associaton-Rules Viewer
|
Microsoft Sequence Clustering kombiniert Sequenzanalyse und Clustering für das Untersuchen von Daten und Vorhersagen. Das Sequence Clustering-Modell beachtet die Reihenfolge, in der Ereignisse auftreten. Zusätzlich berücksichtigt der Clustering-Algorithmus andere Attribute bei der Clusterbildung, was die Entwicklung eines Modells ermöglicht, das sequenzielle und nicht sequenzielle Informationen korreliert. Der Sequence Clustering-Algorithmus kann für Clickstreamanalysen verwendet werden, die den Verkehrsfluss auf einer Website analysieren; so kann herausgefunden werden, welche Seiten am engsten mit dem Verkauf eines Produkts verbunden sind, und es kann vorhergesagt werden, welche Seiten als nächste besucht werden.
|
|
Sequence Clustering Viewer
|
Microsoft Time Series erstellt Modelle für die Vorhersage einer oder mehrerer kontinuierlicher Variablen, wie etwa Aktienkurse. Der Time Series-Algorithmus basiert seine Vorhersage allein auf den Trends, die aus den Trainingsdaten während der Entwurfsphase des Modells abgeleitet wurden. Microsoft Time Series verwendet eine AutoRegression Trees-Technik, ist sehr einfach zu handhaben und generiert extrem genaue Modelle. Ein gesamter Zweig in der statistischen Analyse ist ausschließlich Time Series gewidmet. Die meisten anderen Data Mining-Produkte bieten viele Techniken wie ARMA, ARIMA, und Box-Jenkins, unter denen der Statistiker die für das Modell passenste heraussuchen muss. Microsoft hat sich für eine Herangehensweise entschieden, die Time Series-Analyse einem breiten Publikum zugänglich macht, und das mit exzellenten und genauen Ergebnissen.
|
|
Time Series Model
|
|
Microsoft Neural Net, wie auch Decision Trees und Naïve Bayes, wird hauptsächlich für das Untersuchen von Daten, die Klassifizierung und Vorhersage verwendet. Neural Net ist eine Technik der künstlichen Intelligenz, die alle möglichen Datenbeziehungen untersucht. Da es sich um eine sehr gründlich arbeitende Technik handelt, ist das der langsamste der drei Klassifizierungs-Algorithmen.
|
|