Data Mining

Aus MittelstandsWiki
Version vom 30. September 2006, 09:57 Uhr von HKlumbies (Diskussion | Beiträge)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Von Hans Klumbies

Data Mining (DM) setzt sich aus einer Reihe von Technologien zusammen, mit deren Hilfe Unternehmen Informationen, die Entscheidungen beeinflussen, aus Datenbanken extrahieren können. Diese Technologien setzen sich aus statistischen Modellen und Verfahren der künstlichen Intelligenz zusammen. Sie ermöglichen die Analyse und Prognose von Handlungen und Trends. Data Mining liefert dem Management verborgene Erkenntnisse und Zusammenhänge, die bisher nicht beachtet worden sind, weil sie entweder für wichtige Beschlüsse als unbedeutend betrachtet oder für nicht analysierbar gehalten wurden. Folgende Technologien unterscheidet man beim Data Mining:

  1. Künstliche neuronale Netze sind nicht lineare Verfahren der Voraussage, die der biologischen Verarbeitung von Informationen nachgeahmt wurden und selbständig lernende Eigenschaften besitzen.
  2. Kohonen Netze bilden ein Segmentierungsverfahren, das auf den Eigenschaften neuronaler Netze basiert und selbständig Cluster innerhalb eines Sets von Daten bildet.
  3. Die lineare Regression ist ein klassisches lineares Prognoseverfahren zur Deutung von Verhaltensweisen beim Einsatz von unabhängiger Variablen.
  4. Genetische Algorithmen basieren auf der Basis der biologischen Evolution und dienen der Ermittlung der besten Lösung innerhalb eines Lösungsgebiets.
  5. CHAID - Chi-squared Automatic Interaction Detection – ist eine Methode, die eine Menge von Datensätzen hinsichtlich einer abhängigen Variable aufteilt.
  6. Regelbasierte Systeme sind Techniken, die zur Extraktion und dem Wahrheitsnachweis von Regeln mit dem Befehl „Wenn-Dann“ dienen.

Die Anwendung der unterschiedlichen Methoden hängt stark von der Aufgabenstellung ab. Neuronale Netze, lineare Regression und CHAID kommen bei Fragestellungen mit Prognosecharakter zum Einsatz. Kohonen-Netze und regelbasierte Systeme sind beim Clustering die erste Wahl. Eine eindeutige Zuordnung der Instrumente nach Aufgabenstellung ist jedoch nicht möglich. Oftmals werden mehrere Data Mining-Lösungen für dieselbe Aufgabenstellung entwickelt, wobei dann diejenige eingesetzt wird, die im Test am besten abschneidet. Selbst die Kombination verschiedener Methoden innerhalb einer Lösung ist möglich.