Was ist Data Mining und wie kann es kleinen Unternehmen helfen?

Veröffentlicht am 31.3.2023 von Ines Bahr, Brian Westfall und Rosalia Pavlakoudis

Der Artikel wurde ursprünglich am 06.06.2019 veröffentlicht.

Was ist das Erfolgsrezept vieler erfolgreicher Internetfirmen? Auf diese Fragen geben viele Experten „Data Mining“ als Grund an. Doch was ist Data Mining eigentlich genau und wieso hat es ein so großes Potential?

Was ist Data Mining und wie kann es kleinen Unternehmen helfen Header

Was ist das Erfolgsrezept vieler erfolgreicher Internetfirmen? Und warum werden sie auch in Zukunft den Markt dominieren? Bei der Antwort auf diese Fragen geben viele Experten „Data Mining“ als Grund an. Doch was ist Data Mining eigentlich genau und wieso hat es ein so großes Potential?

  • Wenn dir auf Amazon oder in einem Onlineshop personalisierte Produktempfehlungen angezeigt werden, stehen mit großer Wahrscheinlichkeit Data Mining-Algorithmen dahinter, die Muster und Korrelationen im Kaufverhalten erkennen. Eine solche Personalisierung wird von einem Großteil der Verbraucher gewünscht oder sogar erwartet, auch wenn viele von ihnen gleichzeitig Bedenken haben, ob die Unternehmen verantwortungsvoll mit ihren Daten umgehen.
  • Meta (Facebook) wurde zu einem milliardenschweren Unternehmen, weil das Unternehmen mithilfe von Data Mining-Methoden der riesigen Nutzerbasis extrem gezielte und vor allem konvertierende Werbung zeigt.

88 % der Suchanfragen über Desktop-PCs weltweit werden über Google ausgeführt, da dieser Dienst relevantere Suchergebnisse liefert als die Mitbewerber – aufgrund von Data Mining.

Auch kleinen Unternehmen stehen viele Daten zur Verfügung: Rechnungen, Bestandsunterlagen und Tabellenkalkulationen ohne Ende. Mithilfe dieser Informationen schafft man es doch gewiss an die Spitze, oder?

Und genau an dieser Stelle wird klar, dass die Bezeichnung „Data Mining“ trügerisch ist. Schnell bekommt man den Eindruck, dass man sich nur genug anstrengen muss, um erfolgreich zu sein. In den ganzen Daten muss sich doch irgendwo der berühmte Topf mit Gold befinden, bzw. die Informationen, die sich zu Geld machen lassen.

Aber so läuft es leider nicht. Doch das heißt nicht, dass Data Mining keine Option für kleine Unternehmen wäre: Ganz im Gegenteil, genau wie für Amazon und Google ist Data Mining auch für ihre Zukunft ausschlaggebend.

Wir sehen uns nachfolgend an, wie Data Mining wirklich vonstattengeht und wie die Ergebnisse eingesetzt werden können. Zudem stellen wir auch einige erschwingliche Data Mining-Tools vor, die kleine Unternehmen in Betracht ziehen sollten.

Was ist Data Mining einfach erklärt?

Das Gabler Wirtschaftslexikon beschreibt Data Mining in seiner Definition als „die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden“.

Einfach erklärt nutzen Data Mining-Methoden Statistiken und Modellierung, um große Mengen unterschiedlicher Daten zu analysieren und mögliche Muster und Verbindungen festzustellen.

Wie funktioniert Data Mining?

Bei dem Begriff „Data Mining“ könnte man zunächst denken, dass es darum ginge, neue Daten zu suchen. Tatsächlich werden aber bereits vorhandene Daten auf Bezüge, Muster und Trends untersucht.

Dabei wird meistens in drei Schritten vorgegangen:

Schritt 1: Datenquellen identifizieren

Befindet man sich in einem Einzelhandelsgeschäft, werden bei jedem Kauf mit einer Geldkarte Daten wie der Kundenname, der Zeitpunkt des Kaufs und die erworbenen Produkte in einem Kassensystem gespeichert. Bei einem Onlineshop werden ebenfalls Informationen zu jeder Person erfasst, die die Website besucht: Kamen die Besucher über Twitter, YouTube oder eine andere Quelle und welche Seiten haben sie sich angeschaut? Das sind äußerst nützliche Informationen! Wenn diese bisher noch nicht gesammelt werden, sollten sie schleunigst in einer Tabelle oder einer Software festgehalten werden. Anschließend untersucht man Quellen auf mögliche Muster.

Schritt 2: Zu analysierende Datenpunkte aus Quellen auswählen

Am besten wäre es, wenn man einfach nur zwei riesige Datenbanken in einen Computer speisen müsste und dieser sämtliche möglichen Korrelationen lernen würde, aber die Technik ist noch nicht ganz so weit. Software benötigt Anweisungen und muss wissen, wo sie nach Mustern suchen soll. Es hat sich daher als bewährte Vorgehensweise herauskristallisiert, bestimmte Datenpunkte festzulegen, bei denen nach einem Kausalzusammenhang gesucht wird. Der monatliche Umsatz und die Anzahl der Kunden mit dem Vornamen Daniel stehen sehr wahrscheinlich nicht in Korrelation. Die Uhrzeit und die Zahl der Personen, die sich zu diesem Zeitpunkt im Laden befinden, hingegen schon.

Schritt 3: Ein Modell anwenden und testen, das Datenpunkte am besten verknüpft

Bei diesem Punkt schalten die meisten Leute ab, daher wollen wir es mit einem einfachen Data Mining-Beispiel in Microsoft Excel verdeutlichen. Stellen wir uns einen Eiswagen vor: Wir wollen herausfinden, inwieweit das Wetter sich auf den Verkauf von Eistüten auswirkt. Über 30 Tage hinweg werden die Höchsttemperatur und die Anzahl der verkauften Eistüten festgehalten:

Excel-Diagramm mit Verteilung der Verkäufe nach Temperatur
Zahl der verkauften Eistüten nach Temperatur in Microsoft Excel (Quelle)

Auf den ersten Blick sieht es so aus, als ob sich hier ein Trend abzeichnet. Wichtiger ist jedoch, dass eine bloße Betrachtung nicht ausreicht, um einen quantifizierbaren Zusammenhang zwischen diesen Datensätzen herzustellen.

Fügt man jedoch eine Trendlinie hinzu – eine gerade Linie in Excel, mit der in diesem Fall gezeigt wird, dass sich die Anzahl der verkauften Eiswaffeln mit dem Wetter ändert – so lassen sich andere Aussagen treffen. Hierbei wird folgendes Modell angewendet:

Excel-Diagramm mit klar steigender Verkaufszahl bei höherer Temperatur
Regressionsanalyse in Microsoft Excel (Quelle)

Jetzt können wir deutlich sehen, dass mit Ausnahme weniger Ausreißer der Verkauf von Eis bei gutem Wetter zunimmt. Es geht aber noch besser. Wir können auf diese beiden Datensätze auch eine einfache Formel anwenden (=CORREL), um einen sogenannten Korrelationskoeffizient zu erhalten: eine Zahl, die sich in der Statistik zwischen +1 und -1 bewegt und Auskunft über die Abhängigkeit zweier Datensätze voneinander gibt. +1,00 zeigt eine perfekte positive Korrelation an (steigt die Temperatur um ein Grad, so wird auch ein weiteres Eis verkauft) und -1,00 eine perfekte negative Korrelation (steigt die Temperatur um ein Grad, so wird ein Eis weniger verkauft). Der Wert 0,00 zeigt an, dass es keinerlei Zusammenhang gibt.

Der Korrelationskoeffizient für die hier vorliegenden Temperatur-/Eisdaten liegt bei 0,67, was auf eine kleine positive Korrelation schließen lässt.

Und das ist im Grunde schon Data Mining. Wir haben uns zwei unterschiedliche Datensätze genommen und ein Muster gefunden, das sie verbindet. Nun könnten wir dem Modell weitere Daten zum Testen hinzufügen und sicherstellen, dass es weiterhin richtig ist.

An dieser Stelle soll jedoch noch einmal betont werden, dass es sich hier um ein sehr vereinfachtes Beispiel handelt. Ausschlaggebender wäre es, wenn wir uns anstelle von 30 Tagen mit 30.000 Tagen beschäftigen würden. Hinzu kommen noch weitere Faktoren, die Einfluss auf die Zahlen haben, etwa ob es an den einzelnen Tagen geregnet hat oder ob auf einmal das Schokoladeneis ausgegangen war. Und die beste Linie ist auch keine Gerade, sondern eine wilde Kurve. Spätestens an dieser Stelle wird klar, warum Software für Data Mining unabdingbar ist.

Wie nutze ich Data Mining zu meinem Vorteil?

Verborgene Muster in den Geschäftsdaten zu finden kann faszinierend sein, aber letztendlich ist die ganze Arbeit umsonst, wenn man das dadurch erhaltene Wissen nicht auch zur Geschäftsoptimierung einsetzt. Wir stellen daher einige Möglichkeiten vor, wie Unternehmen Data Mining-Methoden als Wettbewerbsvorteil nutzen können.

  • Saisonalität identifizieren: Mithilfe von Data Mining lassen sich die besten Zeiten für Preiserhöhungen bzw. Preisreduzierungen ermitteln. Data Mining-Algorithmen analysieren die aktuelle Nachfrage, den Bestand, die Preise der Konkurrenz und weitere Faktoren und passen den Preis von Produkten oder Dienstleistungen per dynamischem Preismanagement automatisch an.
  • Höhere Ausgaben fördern: Über das Data Mining lässt sich herausfinden, welche Artikel häufig zusammen gekauft oder angesehen werden. So können Onlineshops das Cross-Selling oder Upselling fördern, indem automatisiert Vorschläge für verwandte oder ergänzende Produkte oder Dienstleistungen angezeigt werden, etwa eine Laptoptasche zusätzlich zum neuen Laptop oder eine hochwertigere Alternative zum gewählten Modell.
  • Bessere Mitarbeiter einstellen: Arbeitgeber setzen immer häufiger Data Mining ein, um beim Recruiting mithilfe von CV Parsing den Auswahlprozess zu beschleunigen oder herauszufinden, welche Eigenschaften die Bewerber haben, die später zu leistungsstarken Mitarbeitern werden. Auch für die Personalplanung ist Data Mining sinnvoll, etwa um den zukünftigen Personalbedarf zu prognostizieren.
  • Marketinganstrengungen verbessern: Durch das Data Mining von Kundendaten lassen sich neue Marketingstrategien wie E-Mail- und Social Media-Kampagnen für verschiedene Kundensegmente entwickeln. 
  • Kosten senken: Data Mining kann nicht nur zum Verdienen, sondern auch zum Sparen eingesetzt werden. Die Routenplanungssoftware von UPS plant beispielsweise die Routen so, dass möglichst selten links abgebogen werden muss: Auf diese Weise müssen die Fahrzeuge seltener in der Abbiegespur warten und das Unternehmen konnte laut eigenen Angaben jährlich bis zu 38 Millionen Liter Sprit sparen.

Data Mining-Tools für kleine Unternehmen

Schon überfordert? Das ist verständlich. Data Mining ist hochkomplex und so mag es auf den ersten Blick erscheinen, als sollten sich nur hochqualifizierte Datenanalysten in großen Unternehmen damit auseinandersetzen.

Dieser Schein trügt jedoch. Der Markt für Business Intelligence- und Analysesoftware soll bis 2026 um geschätzte 12 % wachsen und damit steigt auch die Zahl der Data Mining-Tools, die für kleine Unternehmen erschwinglich sind.

Die folgenden drei Tools sind Beispiele für Data Mining-Tools für kleine Unternehmen, die besonders gut bewertet wurden:

1. Alteryx Designer: Visuelle Data Mining-Analysen und Automatisierung

Was ist Data Mining: Analyse-Dashboard mit Diagrammen in Alteryx Designer
Analyse-Dashboard in Alteryx Designer (Quelle)
  • Gesamtbewertung: 4,8/5
  • Preis-Leistungs-Verhältnis: 4,1/5
  • Funktionen: 4,7/5
  • Bedienkomfort: 4,5/5
  • Kundenbetreuung: 4,4/5

Alteryx Designer bietet umfassende Funktionen zum Vorbereiten, Zusammenführen und Analysieren von Daten aus den unterschiedlichsten Quellen wie Dokumenten, Tabellenkalkulationen, RPA-Bots oder cloudbasierten Quellen. Die Daten können mit Geodaten sowie mit geografischen oder firmografischen Daten angereichert werden. Module zur No-Code-/Low-Code Automatisierung erleichtern die Erstellung von Workflows zur Analyse von Geschäftsprozessen. Dazu kommen prädiktive und präskriptive Analysen, die über Trends und Muster in den Daten Aufschluss geben. Dabei lassen sich die Prozesse in einem visuellen Arbeitsbereich verfolgen und die Ergebnisse können an Tools wie Tableau oder Salesforce ausgegeben werden. Machine Learning-Funktionen helfen beim Erstellen von Prognosemodellen und das Tool ist für Unternehmen der verschiedensten Größen skalierbar.

Preisstruktur von Alteryx Designer

Alteryx bietet verschiedene Produktpakete an: Alteryx Designer kann z. B. mit Alteryx Server für die teamübergreifende Zusammenarbeit, Alteryx Intelligence Suite für das automatisierte Machine Learning und NLP oder Alteryx Designer Cloud für die cloudbasierte Self-Service-Datenanalyse kombiniert werden. Die genauen Preise sind auf Anfrage verfügbar.

Mehr erfahren

2. XLSTAT: Datenanalyse und Statistik in Excel

Data Mining-Methoden: Verschiedene Diagramme in XLSTAT
Diagramme in XLSTAT (Quelle)
  • Gesamtbewertung: 4,6/5
  • Preis-Leistungs-Verhältnis: 4,5/5
  • Funktionen: 4,6/5
  • Bedienkomfort: 4,6/5
  • Kundenbetreuung: 4,5/5

XLSTAT ist eine Datenanalyse- und Statistiklösung für Microsoft Excel, die ohne Programmieraufwand als Add-on direkt in Excel integriert wird. Neben Funktionen für verschiedene Data-Mining-Methoden (etwa Korrespondenzanalysen und Hauptkomponentenanalysen) bietet sie zahlreiche statistische Werkzeuge sowie Tools zum Vorbereiten und Visualisieren von Daten sowie verschiedene Modellierungs- und Clustering-Methoden. Durch eine Schnittstelle mit der Open-Source-Software R können Nutzer eigene R-Skripte für komplexe statistische Auswertungen direkt in Excel entwickeln. Dazu kommen Machine Learning-Tools, Sensometrie-Tools und Tools für unterschiedliche Prognosemethoden. Der Funktionsumfang kann durch optionale Zusatztools erweitert werden, etwa 3DPlot für die Visualisierung mit dreidimensionalen Diagrammen.

Preisstruktur von XLSTAT

XLSTAT wird in den Versionen Premium, Basic+ und Basic angeboten, die jeweils einen unterschiedlichen Funktionsumfang für die Datenvorbereitung, -analyse und -modellierung bieten. Dazu kommen die „Applied Solutions“, die auf bestimmte Tätigkeitsbereiche zugeschnitten sind, etwa „Quality“ für Qualitätskontrolle und Risikoanalyse, „Marketing“ zur Analyse von Konsumverhalten und -trends oder „Life sciences“ für die biologische und medizinische Forschung. Für Studierende oder Personen, die in der Forschung und Lehre tätig sind, stehen preisgünstige Lizenzen zur Verfügung.

Mehr erfahren

3. IBM SPSS Statistics: Statistische Analyse mit Machine Learning und Data Mining-Algorithmen

Data Mining-Algorithmen: Statistikdaten-Editor in IBM SPSS Statistics
Statistikdaten-Editor in IBM SPSS Statistics (Quelle)
  • Gesamtbewertung: 4,5/5
  • Preis-Leistungs-Verhältnis: 4,1/5
  • Funktionen: 4,5/5
  • Bedienkomfort: 4,0/5
  • Kundenbetreuung: 4,1/5

Die SPSS-Softwareplattform von IBM bietet eine umfassende Bibliothek mit Machine Learning-Algorithmen für beliebig komplexe statistische Analysen und richtet sich an Nutzer mit jedem Kenntnisstand. Zur Auswahl stehen die unterschiedlichsten Funktionen für erweiterte Statistiken, Regressionsanalysen, Prognosen, Datenaufbereitung, Entscheidungsbäume, neurale Netze, Clusteranalysen und mehr. Daten können automatisiert in unterschiedlichen Diagrammen visuell aufbereitet und in mehrere Dateiformate exportiert werden. Fehlende Daten oder ungültige Werte werden bei der Datenaufbereitung automatisch erkannt. Dabei ist die Drag-and-Drop-Oberfläche ohne Programmiererfahrung nutzbar, wobei es auch möglich ist, eigene Erweiterung mit R und Python zu erstellen oder Erweiterungen aus der vorhandenen Bibliothek auszuwählen. Für eine bessere Datensicherheit lassen sich die Daten lokal speichern statt in der Cloud.

Preisstruktur von IBM SPSS Statistics

IBM SPSS Statistics ist wahlweise im monatlichen oder jährlichen Abonnement oder mit zeitlich unbegrenzter Lizenz oder Lizenz mit fester Laufzeit erhältlich. Dabei stehen in der Abonnementversion Add-ons für benutzerdefinierte Tabellen und erweiterte Statistiken, Vorhersagen und Entscheidungsbäume sowie komplexe Stichproben und Tests zur Verfügung. Für die Lizenzen mit unbegrenzter oder fester Laufzeit sind vier Versionen mit je unterschiedlichem Funktionsumfang auswählbar. Akademische Einrichtungen, Forschende und Studierende erhalten vergünstigte Versionen und die für den ganzen Campus verwendbare Campus Edition.

Mehr erfahren

Bei der Wahl einer Data-Mining-Software immer auf DSGVO-Konformität prüfen

Man befindet sich hier in einem Graubereich, da der Begriff Data-Mining in der DSGVO nicht explizit erwähnt wird und lediglich als Teilgebiet des Profiling gesehen werden kann. Grundsätzlich betrifft die DSGVO personenbezogene und nicht anonymisierte Daten. Trotzdem sollte die Erhebung und Verarbeitung von Daten in diesem Fall immer individuell auf DSGVO-Konformität überprüft werden.

Willst du mehr erfahren? Dann wirf einen Blick auf unser Data-Mining-Software-Verzeichnis, um weitere Produkte zu entdecken.


Methodik:

Um für diesen Artikel infrage zu kommen, mussten die folgende Kriterien erfüllt sein:

1. Die Tools entsprechen unserer Definition von Software für das Data Mining:

Data-Mining-Software wird zur Untersuchung großer Datenmengen verwendet, um Muster aufzudecken und Vorhersagemodelle zu erstellen. Data-Mining-Techniken werden in großem Umfang bei Anwendungen der künstlichen Intelligenz eingesetzt und sind der erste Schritt bei maschinellen Lernprozessen.

2. Die Tools bieten die folgenden Hauptfunktionen:

  • Datenextraktion
  • Datenvisualisierung

3. Die Tools haben in den vergangenen zwei Jahren mindestens 20 verifizierte Nutzerbewertungen auf GetApp erhalten (19. März 2021 bis 19. März 2023).

4. Die Tools sind in deutscher Sprache verfügbar.

5. Für diese Liste wurden die besten Tools auf GetApp ausgewählt, die alle obenstehenden Kriterien erfüllen.


Dieser Artikel kann auf Produkte, Programme oder Dienstleistungen verweisen, die in deiner Region nicht verfügbar sind oder die durch die Gesetze oder Vorschriften des Landes eingeschränkt sein können. Wir empfehlen, sich direkt an den Softwareanbieter zu wenden, um Informationen über die Produktverfügbarkeit und Rechtskonformität zu erhalten. Gender Hinweis: Aus Gründen der besseren Lesbarkeit wird bei Personenbezeichnungen und personenbezogenen Hauptwörtern auf dieser Website die männliche Form verwendet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für alle Geschlechter. Die verkürzte Sprachform hat nur redaktionelle Gründe und beinhaltet keine Wertung.


Artikel teilen

Über die Autoren

Ines ist Senior Content Analyst für GetApp. Spezialisiert auf Studien und Digitalisierungs-Tipps für KMU. Masterstudium in Medien und Kommunikation, lebt in Barcelona.

Ines ist Senior Content Analyst für GetApp. Spezialisiert auf Studien und Digitalisierungs-Tipps für KMU. Masterstudium in Medien und Kommunikation, lebt in Barcelona.


Brian ist stellvertretender Hauptanalyst für GetApp.

Brian ist stellvertretender Hauptanalyst für GetApp.


Rosalia ist Content Analyst für GetApp und unterstützt KMU mit Einblicken in IT-Themen und Softwares. Masterabsolventin der HHU Düsseldorf, lebt in Barcelona.

Rosalia ist Content Analyst für GetApp und unterstützt KMU mit Einblicken in IT-Themen und Softwares. Masterabsolventin der HHU Düsseldorf, lebt in Barcelona.