Dr. R. Block (Copyright 2015) - www.statistik-coaching-data-mining.de - Statistik-Coaching zum Data Mining von Merkmalsinteraktionen



Die Erfassung von Merkmalsinteraktionen in der Abhängigkeitsanalyse

Hinweise und Tipps zur Durchführung des C
ARs - Mining  
C
lass Association Rules - Mining


"Weil alles mit (fast) allem 
(zumindest ein wenig) zusammen hängt."


CARs - Mining:

Data Mining von Merkmalsinteraktionen


Plädoyer für eine "Konfigurations-Statistik" - für Analysen mit dem Fokus auf Merkmalsinteraktionen:
Denn Merkmalsinteraktionen sind der Schlüssel zum Verstehen und Interaktionsanalysen sind der Königsweg dahin.




 1. Ausgangssituation und Problemstellung


und sitzen nun vor einem Berg von Daten, wissen aber nicht so recht, welches Auswertungsverfahren das richtige für Ihre
Fragestellung und Ihre Daten ist. 




Bei Ihrer Aufgabe sind Sie mit folgenden Rahmenbedingungen konfrontiert:



 Wenn zumindest ein Teil der hier aufgeführten Aussagen auf Ihre Problemstellung zutrifft, dann sind Sie auf dieser Seite goldrichtig.


Ich möchte im Folgenden sowohl den
Laien und Anfänger in Sachen statistischer Auswertung als auch den Fortgeschrittenen mit einem vergleichsweise neuen Auswertungsansatz vertraut machen, der unter dem Namen  CARs - Mining  firmiert.
CARs-Mining steht  für Class Association Rules - Mining und umfasst als Obergriff Ansätze wie "Predictive Association Rules", "Associative Classification" und spezielle Varianten der "Subgroup Discovery" (zur genauen Begriffsklärung und Abgrenzung später mehr). CARs - Mining ermöglicht das Data Mining von Merkmalsinteraktionen.

Dieser Ansatz ist von seinen mathematischen/statistischen Grundlagen her sehr einfach und gleichzeitig leicht durchzuführen. Gleichwohl produziert dieses Verfahren Ergebnisse, die von ihrem Erkenntniswert her weit über das hinaus gehen, was die komplexeren klassischen statistischen Modelle selbst im besten Fall zu leisten vermögen. Die Ergebnisse des CARs - Mining in Form von WENN-DANN-Regeln schließlich sind selbst Laien leicht verständlich.


Das Grundprinzip des CARs - Mining ist einfach zu beschreiben:

  • Finde ALLE Subgruppen (d.h. Merkmalsausprägungen und Merkmalsinteraktionen), die von der durchschnittlichen Verteilung der Zielgröße bedeutsam abweichen.
  • Sortiere anschließend die gefundenen Subgruppen in Hinblick auf ihre Erklärungskraft für die Zielgröße und
  • lösche all die Subgruppen, die redundant sind.
  • Nutze schließlich die "besten" gefundenen Subgruppen als Klassifikations-REGELN für die Zielgröße.


Das Besondere des CARs - Mining ist die Offenlegung ALLER BEDEUTSAMEN Merkmalsausprägungen UND Merkmalsinteraktionen für die "Erklärung" bzw. Beschreibung einer Zielgröße, ohne dass es vorab einer näheren Spezifizierung bedarf. Dies ermöglicht einen sehr differenzierten Einblick in die Zusammenhangsstruktur der Daten bei Abhängigkeitsanalysen.  
Dabei steht nicht DIE EINE - vermeintlich beste - Lösung im Fokus, sondern es werden verschiedene (aber vergleichbar erklärungskräftige) Lösungen identifiziert. Frei nach dem Motto: "Viele verschiedene Wege führen nach Rom." 

Das CARs - Mining eignet aber sich nicht nur in besonderer Weise zur Identifizierung von Merkmalsinteraktionen, sondern es ermöglicht auch die Entscheidung darüber, ob Interaktionseffekte für eine hinreichende Beschreibung/ Klassifizierung der Zielgröße notwendig sind ober ob einzelne Merkmalsausprägungen/ Haupteffekte ausreichen.

Ich persönlich halte das Verfahren des CARs - MINING für ein universelles und unverzichtbares Instrument bei jeder Form von Abhängigkeitsanalyse, unabhängig vom Anwendungskontext, Setting oder Forschungsdesign. Zumindest aber sollte es durchgängig als ergänzendes Kontroll-Verfahren eingesetzt werden. 
Denn: Merkmalsinteraktionen sind der Schlüssel zum Verstehen, Interaktionsanalysen sind der Königsweg dahin.


Die Vorteile des CARs - Mining im Überblick:

  • Bei großen Datenmengen ("Big Data") ebenso effizient und effektiv wie bei sehr kleinen Datensätzen (integriert die "Qualitative Comparative Analysis" als Spezialfall).
  • Leicht verständlich.
  • Robuste Ergebnisse.
  • Kategoriale oder metrische Zielgröße erlaubt.
  • Automatische Identifikation von Merkmalsinteraktionen.
  • Bietet Entscheidungsgrundlage dafür, ob Interaktionen oder Haupteffekte für die Erklärung der Zielgröße hinreichend sind (Ockhams Razor-Prinzip).
  • Zufallskritische Absicherung der gefundenen Subgruppen möglich.
  • Zuordnung von Effektgrößen zu Subgruppen möglich.
  • Einfache Ergebnisausgabe in Form von WENN-DANN-Regeln.

Einziger Nachteil aus meiner Sicht ist die Voraussetzung, dass letztlich nur kategoriale erklärende Variablen in die Analyse eingehen können. Aber für die Diskretisierung - die Einteilung einer metrischen Variablen in Klassen - liegen mittlerweile ja genügend intelligente Verfahren vor (wie z.B. die "supervised discretization" nach dem Entropy-MDL-Ansatz), so dass die Vorteile dieses Ansatzes die Nachteile bei weitem überwiegen. 




 2. Statistik -  Coaching


Ich möchte auf dieser Seite ein Mittler sein zwischen den Entwicklern neuer, intelligenter Auswertungsprogramme und den häufig überforderten Anwendern von statistischer Software bei der Bearbeitung Ihrer spezifischen Problemstellungen. Diese Seite soll neugierig machen und zur weiteren Auseinandersetzung mit dem Ansatz motivieren und ist so konzipiert, dass Sie in die Lage versetzt werden, selbständig Auswertungen nach dem CARs - Mining - Ansatz durchzuführen.

Sollte diese Einschätzung zu optimistisch sein und Sie Fragen und Beratungs- oder Unterstützungsbedarf (auch als Gruppe) haben, scheuen Sie nicht, mit mir Kontakt aufzunehmen (ein Formular zur Kontaktaufnahme finden hier).


   Im Ruhrgebiet würde man den Begriff  Statistik - Coaching  mit
   "Hier wird Sie geholfen"  übersetzen. Also -  keine Hemmungen!
 






Für Anfänger:

Ich werde auf dieser Seite den o.g. Ansatz u.a. anhand von * mehreren Beispieldatensätzen vorstellen
, * Hinweise und Tipps zur Durchführung des CARs - Mining geben, auf entsprechende * Open Source-Software verweisen, eine * kleine Einführung in die Nutzung der Freeware R-Project von CRAN geben und die * Durchführung des CARs - Mining mit der Freeware WEKA vorstellen.

Für Fortgeschrittene:
Darüber hinaus werde ich u.a. die dem CARs - Mining zugeordneten Verfahren der  Subgroup Discovery, der Associative Classification und der Predictive Association Rules auf  *Gemeinsamkeiten und Unterschiede hin untersuchen, den Ansatz systematisch im * Data Mining und Knowledge Discovery verorten, das komplementäre * Verhältnis von klassischer Statistik und Data Mining diskutieren,  * das wachsende allgemeine Unbehagen an der klassischen Statistik thematisieren, die * forschungsmethodischen
Gründe für die Sinnhaftigkeit und Notwendigkeit von Interaktions-Analysen gerade in den den Sozialwissenschaften benennen und die Leistungsfähigkeit des CARs - Mining  mit * anderen Data Mining-Ansätzen zur Interaktionsanalyse vergleichen (Decision Tree mit CART, Rule Induction mit RIPPER und SEE5).


Inhalte der Seite:

                                Für Fortgeschrittene                                                               Für Anfänger                                                                          
 



Navigation und Inhaltsverzeichnis der Seite:

Nummer zur Navigation Kapitel Inhalte Zielgruppe
1 Ausgangssituation
und Problemstellung
Welches Auswertungsverfahren für welche Daten? speziell für Anfänger
2 Statistik-Coaching Anleitung für selbständige Auswertungen, Beratungsbedarf, Kontaktaufnahme, Navigation und Inhaltsverzeichnis
3 Illustrierendes Beispiel
zum CARs - Mining
Kleine fiktive Daten-Datei speziell für Anfänger
4 Beispiel 2:
Komplexe 3-Weg Interaktion
Im Vergleich:
CARs - Mining, CART- Entscheidungsbaum, Rule Induction mit SEE5 und RIPPER

5 Beispiel 3:
Haupteffekte reichen aus
Im Vergleich:
CARs - Mining, CART- Entscheidungsbaum, Rule Induction mit SEE5 und RIPPER, logistische Regression, lineare Diskriminanzanalyse

6 Hinweise und Tipps
zur Durchführung von CARs - Mining
Diskretisierung der unabhängigen Merkmale, optionale Diskretisierung der Zielgröße, Imputation von fehlenden Werten, Qualitätsmaße im CARs - Mining,  Suchalgorithmen, Visualisierung der Ergebnisse, "Wer nur einen Hammer als Werkzeug hat ..." , CARs - Mining und verwandte Verfahren, Fazit
7 Freeware
zum CARs - Mining
Auflistung mit Link
8 Kleine Einführung in die Nutzung der Software R-Project von CRAN Hinweise zur Installation und zum Arbeiten mit der Freeware R-Project speziell für Anfänger
9 CARs - Mining mit WEKA Anleitung zur Durchführung des CARs - Mining mit der Freeware WEKA speziell für Anfänger
10 Zum Verhältnis von klassischer Statistik und Data Mining Intelligente Auswertungen ohne "Statistik", Tabellarische Auflistung der Unterschiede
11 Die Analyse von Interaktionen
im Data Mining
Was sind Merkmals-Interaktionen?,  CARs - Mining im Rahmen des Data Mining, Unterschiede zwischen und Gemeinsamkeiten von Associative Classification, Subgroup Discovery und Predictive Association Rules, Validierung eines Modells speziell für Fortgeschrittene
12 Warum diese Seite? "Standards" als Innovationshemmnis, Exkurs: Das Unbehagen an der klassischen Statistik, New Curriculum, New Statistics - There is life beyond 0.05, Kleiner Exkurs zu Kausalität und Korrelation, Erklärung und Beschreibung  
13 Plädoyer für eine "Konfigurations"-Statistik Argumente für die Analyse von Merkmalsinteraktionen, Configurational Comparative Method, Treatment Heterogeneity, Realistic Evaluation, David Berliner und der "Schmetterlingseffekt"
14 Links und Quellenverzeichnis
Basisliteratur zu Associative Classification, Subgroup Discovery und Supervised Association Rules,  Literaturverzeichnis, Bilderverzeichnis
15 Impressum Impressum, Angaben zur Person, Kontaktdaten, Kontaktformular


Ich bitte vorab den denglishen Sprachstil auf dieser Seite zu entschuldigen. Aber für viele Begriffe der hier dargestellten Data Mining-Ansätze gibt es keine etablierten deutschsprachigen Übertragungen. Und da ich mich nicht als Übersetzer sondern als Mittler dieser Auswertungsansätze verstehe, sehe ich mich leider gezwungen in Denglish zu schreiben.





 3. Illustrierendes Beispiel
zum CARs - Mining


Zur Erinnerung - das Grundprinzip des CARs - Mining lautet:
"Finde ALLE Subgruppen (d.h. Merkmalsausprägungen und Merkmalsinteraktionen), die eine bedeutsame Abweichung in der Verteilung der Zielgröße aufweisen."

Zur Veranschaulichung des Verfahrens folgende kleine fiktive Beispieldatei mit 4 Merkmalen und 12 Fällen:

Problemstellung:
Gesucht werden die Merkmalsausprägungen (der unabhängigen Variablen Geschlecht, Alter und Blutdruck), bei denen sich die Medikamente drug_a und drug_b als besonders wirksam erwiesen haben (Medikament als zu erklärende Zielgröße). Die Verteilung der Zielgröße besteht zu 50% aus drug_a und zu 50% aus drug_b.


12 obs. of  4 variables:
Geschlecht   Alter    Blutdruck    Medikament
 mann:6      jung:7   niedrig:3    drug_a:6 
 frau:6      alt :5   mittel :6    drug_b:6 
                      hoch   :3  
         

Geschlecht   Alter    Blutdruck    Medikament
mann         jung     mittel       drug_a
frau         alt      mittel       drug_b
frau         jung     hoch         drug_a
mann         jung     niedrig      drug_b
frau         alt      hoch         drug_a
mann         jung     mittel       drug_a
frau         alt      mittel       drug_b
mann         jung     niedrig      drug_b
mann         alt      mittel       drug_b
frau         jung     mittel       drug_a
frau         jung     niedrig      drug_b
mann         alt      hoch         drug_a

Zunächst soll die Zielgröße drug=drug_a untersucht werden.
Der Aufwand zur Durchführung des CARs - Mining mit der Software R beispielweise ist denkbar gering.

Befehlszeilen in R-Project von CRAN  mit der library(rsubgroup):
result1   <- DiscoverSubgroups(Datenmatrix, as.target("Medikament", "drug_a"))
result11 <- ToDataFrame(result1); result11



(Idealtypischer) Ablauf des CARs - Mining:
IF Blutdruck=mittel               -> THEN drug= drug_a
IF Blutdruck=niedrig              -> THEN drug= drug_a
IF Blutdruck=hoch                 -> THEN drug= drug_a
IF Blutdruck=mittel, Alter=jung   -> THEN drug= drug_a
IF Blutdruck=mittel, Alter=alt    -> THEN drug= drug_a
...usw.
          Beispiel: Kollabierte 4-Felder-Tabelle
als Basis der Berechnung der Qualität einer Regel (quality measure)
Zielgrösse
drug=drug_a drug=Rest
Regel/Subgruppe Blutdruck=mittel,
Alter=jung
3 0 3
Rest 0 3 3
3 3 6 (=n)

In der Ergebnisdatei sind dann all die Regeln/Subgruppen aufgeführt, die nach den definierten Kriterien besonders interessant sind, d.h. die besonders stark von der durchschnittlichen Verteilung der Zielgröße insgesamt abweichen und somit als Klassifikationsregeln zur "Erklärung" der Zielgröße herangezogen werden können.




Die Ergebnisausgabe:

In der Ergebnisdatei werden (hier) die besten 10 Regeln in der Reihenfolge ihrer "Qualität" aufgelistet. Da kein "Pruning" durchgeführt wurde, finden sich in der Liste auch redundante Regeln.

Die besten 10 Klassifikations-Regeln (= Subgruppen) für drug_a:

nr   quality    p    size                                 description
1      1.5    1.00    3                                Blutdruck=hoch
2      1.5    1.00    3                  Blutdruck=mittel, Alter=jung
3      1.0    1.00    2 Geschlecht=mann, Blutdruck=mittel, Alter=jung
4      1.0    1.00    2               Blutdruck=hoch, Geschlecht=frau
5      1.0    1.00    2                     Blutdruck=hoch, Alter=alt
6      0.5    1.00    1 Blutdruck=mittel, Alter=jung, Geschlecht=frau
7      0.5    1.00    1               Blutdruck=hoch, Geschlecht=mann
8      0.5    1.00    1                    Blutdruck=hoch, Alter=jung
9      0.5    1.00    1    Blutdruck=hoch, Alter=alt, Geschlecht=frau
10     0.5    1.00    1   Blutdruck=hoch, Alter=jung, Geschlecht=frau
Legende:
nr         = Nummer der Regel, geordnet nach Qualitätsmaß
quality    = Qualitätsmaß (hier in der Grundeinstellung Piatetsky-Shapiro-Index
)
p          = Anteil der Fälle mit der Zielgröße drug=drug_a an allen Fällen der Subgruppe (1.00 = 100%).
             Ist identisch mit der so genannten "Confidence".
size       = Anzahl der Fälle in der Subgruppe insgesamt. Ist identisch mit dem so genannten "Support".
descripton = Beschreibung der Subgruppe

Am erklärungskräftigsten (quality=1.5) sind sind die ersten beiden Regeln/Subgruppen mit den Ausprägungen  1.[Blutdruck=hoch] und 2.[Blutdruck= mittel,  Alter=jung]. Jede dieser beiden Subgruppen umfasst 3 Fälle (size=3) und weist zu 100% die Zielgröße drug=drug_a auf (p=1.00).
Da sich diese beiden Regeln/Subgruppen logisch ausschließen, decken sie alle 6 Fälle der Zielgröße drug_a  ab und sind damit ausreichend zur perfekten Klassifikation der Zielgröße. 



Die Ergebnisausgabe für drug_b sieht wie folgt aus:

Die besten 10 Klassifikations-Regeln (= Subgruppen) für drug_b:

nr   quality    p    size                                  description
1      1.5    1.00    3                              Blutdruck=niedrig
2      1.5    1.00    3                    Alter=alt, Blutdruck=mittel
3      1.5    1.00    3                  Blutdruck=niedrig, Alter=jung
4      1.0    1.00    2   Alter=alt, Blutdruck=mittel, Geschlecht=frau
5      1.0    1.00    2             Blutdruck=niedrig, Geschlecht=mann
6      1.0    1.00    2 Blutdruck=niedrig, Geschlecht=mann, Alter=jung
7      0.5    1.00    1   Alter=alt, Geschlecht=mann, Blutdruck=mittel
8      0.5    1.00    1             Blutdruck=niedrig, Geschlecht=frau
9      0.5    1.00    1 Blutdruck=niedrig, Geschlecht=frau, Alter=jung
10     0.5    0.60    5                                      Alter=alt

Am erklärungskräftigsten in Bezug auf die Zielgröße drug_b  erweisen sich diesmal 3 Regeln/Subgruppen (jeweils quality=1.5). Die Regel 3 ist allerdings redundant zu Regel 1 - sie weist die gleichen Kennwerte bei gleichzeitig einem Parameter/Merkmal mehr auf - und ist deshalb verzichtbar (und würde beim Pruning auch gelöscht werden). Auch hier läßt sich mit 2 Regeln/Subgroups eine fehlerfreie, perfekte Klassifikation der Zielgröße drug_b realisieren.



Schlussfolgerungen aus dem CARs - Mining:

Demnach ist das Medikament drug_a genau für die Personen indiziert, die einen hohen Blutdruck haben ODER einen mittleren Blutdruck verbunden mit einem geringen Alter (für das Medikament drug_b gilt niedriger Blutdruck ODER mittlerer Blutdruck mit hohem Alter). Das Merkmal Geschlecht hätte demnach für die Indikation keinerlei substanzielle Bedeutung.

Das Ergebnis lässt sich in Form eines Entscheidungsbaums wie folgt zusammen fassen:  


Zu diesem Ergebnis würde man zugegebenermaßen auch mit anderen Verfahren gelangen, wenn vielleicht auch nicht auf so transparente und konzeptionell einfache Art und Weise. Die besonderen Qualitäten des CARs - Mining zeigen sich aber speziell bei komplexen Interaktionen mehrerer  Merkmale innerhalb eines Datensatzes. Das Alleinstellungsmerkmal dieser Modellklasse ist es, selbst 3- oder 4-Weg-Interaktionen problemlos identifizieren zu können (siehe dazu unten  "Beispiel 2: Komplexe 3-Weg Interaktionen").




4. Beispiel 2:  
Komplexe 3-Weg Interaktionen

Download der Datendatei  
R-Project-Format: MDR2.RData
WEKA-Format:     MDR2.arff
SPSS-Format:        MDR2.sav
txt-Format:            MDR2.txt

Die obige Datendatei  MDR2 ist eine leicht modifizierte Version der MDR-SampleData, die der Open Source Software "Multifactor Dimensionality Reduction" von Moore u.a. (2006) beigefügt ist. Die Software ist speziell für die Analyse von "gene-gene and gene-environment interactions" konzipiert und dementsprechend versteckt sich in der MDR-Beispieldatei eine komplexe 3-Weg Interaktion zur Erklärung der Zielgröße outcome1=1.
Die ursprüngliche Datei wurde von mir dahingehend verkompliziert, dass 2 metrischen Variablen (m1 als Noise- oder Störvariable in Form einer Gleichverteilungsvariablen ohne Bezug zur Zielgröße und m18 als Noise-Variable in Form einer Normalverteilungsvariablen), die Variable m14 noch einmal redundant als m24 und 2 fehlende Werte
eingefügt wurden. Die Art der 3-Weg Interaktion ist aus der Plotweb-Grafik weiter unten zu entnehmen.

Datendatei MDR2:


Plotweb: Visualisierung der 3-Weg-Interaktionen von m3-m8-m19

   Software R-Project, library(bipartite)

Die Zielgröße outcome1=1 setzt sich aus Fällen von 8 verschiedenen Kombinationen der Merkmale m3, m8 und m19 zusammen (blaue Linien von unten nach oben; die Breite der Linien entspricht der Anzahl der Fälle). Der Großteil der Fälle der Zielgröße 1 speist sich allein aus 6 Merkmalskonfigurationen (von links m3.3_m8.1_m19.1 bis m3.2_m8.1_m19.2). In jeder dieser 6 Konfigurationen dominieren die Fälle der Zielgröße 1; Fälle der Klasse 0 sind nur in vergleichsweise geringer Häufigkeit vertreten (goldene Linien von oben in die einzelnen Konfigurationen unten). So lässt sich anschaulich zeigen, dass der Datensatz derart aufgebaut ist, dass die Zielgröße 1 am besten durch 6 Konfigurationen der 3-Weg-Interaktion der Merkmale m3, m8 und m19 erklärbar ist. Diese 6 sich gegenseitig ausschließenden Konfigurationen decken 195 der insgesamt 200 Fälle der Zielgröße outcome1=1 ab. Alle 6 Konfigurationen zur Beschreibung der Zielgröße 1 erweisen sich bei einer Irrtumswahrscheinlichkeit von alpha=.05 als signifikant (hypergeometrischer Homogenitätstest, lokales Signifikanzniveau, siehe unten).

Numerische Verteilung
der  3-Weg-Interaktionen von m3-m8-m19:


m3 m8 m19     N
 outcome1
 (1 / 0)
hypergeometr. Test
      p-Wert
Konfig. 1 1 1 3 12 / 1 0.003045509
Konfig. 2 1 2 2 48 / 12 5.374803e-07
Konfig. 3 1 3 1 22 / 2 2.272462e-05
Konfig. 4 2 1 2 47 / 17 6.538334e-05
Konfig. 5 2 2 1 47 / 14 6.101061e-06
Konfig. 6 3 1 1 19 / 0 2.557732e-06
Software R-Project, library(FactoMineR)





Ergebnis des CARs - Mining zum Datensatz MDR2

Im Vorfeld der Analyse wurden die metrischen unabhängigen Variablen nach dem Entropy-MDL-Ansatz diskretisiert  (Fayyad/Irani 1992, 1993, zur Erklärung siehe unten Kapitel 6) und die fehlenden Werte im Datensatz im Rahmen einer Random Forests-Analyse (Breiman 2001, siehe ebenso Kapitel 6 unten) imputiert. Beim CARs - Mining zum MDR2-Datensatz fanden das Qualitätsmaß "Chi-Quadrat", der Suchalgorithmus "SD-Map" und das "Post-Pruning" redundanter Regeln/Subgroups Anwendung. Gesucht wurden die 100 besten Regeln/Subgruppen.

Befehlszeilen in R-Project von CRAN  mit der library(rsubgroup):

result1    <- DiscoverSubgroups(Datenmatrix, as.target("outcome1", "1"),   
                   new("SDTaskConfig", qf="chi2", method="sdmap", k=100, minsize=10, maxlen=3,
                   attributes=c(colnames(Datenmatrix)), postfilter="sig-improve-set"))                                        
result11 <- ToDataFrame(result1); result11


Im Ergebnis zeigen sich insgesamt 19 Regeln/Subgruppen, geordnet nach der Höhe des Qualitätsmaßes. 

Alle bereinigten Klassifikations-Regeln (= Subgruppen) für outcome1= 1:

nr    chi2  p    size  description       nZiel CohenW adj.RESIDUEN

1    25.21 0.80   60   m3=1, m19=2, m8=2  48   0.25   5.0          = Konfig.2
3    20.88 0.77   61   m19=1, m3=2, m8=2  47   0.23   4.6          = Konfig.5
4    19.85 1.00   19   m3=3, m8=1, m19=1  19   0.22   4.5          = Konfig.6
6    17.63 0.92   24   m8=3, m19=1, m3=1  22   0.21   4.2          = Konfig.3
8    16.57 0.73   64   m8=1, m19=2, m3=2  47   0.20   4.1          = Konfig.4
12   14.91 0.79   39          m6=3, m7=2  31   0.19   3.9
17   11.26 1.00   11   m8=3, m9=3, m19=1  11   0.17   3.4          
18   11.26 1.00   11   m22=3, m7=3, m3=1  11   0.17   3.4
20   10.30 0.83   23    m9=3, m3=1, m7=2  19   0.16   3.2
21   10.24 0.85   20    m3=3, m6=2, m8=1  17   0.16   3.2
22   10.24 0.85   20  m4=1, m12=2, m19=1  17   0.16   3.2
30    9.56 0.92   13   m19=3, m3=1, m8=1  12   0.15   3.1          = Konfig.1

31    9.56 0.92   13   m6=3, m3=2, m10=2  12   0.15   3.1
35    9.31 0.88   16   m4=1, m5=3, m19=1  14   0.15   3.1
36    8.92 0.66   71          m3=1, m7=2  47   0.15   3.0
38    8.54 0.92   12 m10=3, m12=1, m15=2  11   0.15   2.9
39    8.54 0.92   12    m8=3, m9=3, m3=1  11   0.15   2.9
50    8.32 0.87   15  m4=1, m24=3, m19=1  13   0.14   2.9
51    8.32 0.87   15  m4=1, m14=3, m19=1  13   0.14   2.9
Software R-Project, library(rsubgroup)

In der Ergebnisdatei sind folgende Spalten nachträglich ergänzt, um die Interpretation und die Visualisierung der Ergebnisse zu erleichtern:
Alle 19 Regeln/Subgruppen erweisen sich mit kleiner Effektgröße als signifikant (lokales Signifikanzniveau mit einer Irrtumswahrscheinlichkeit von alpha=.05). Alle 6 Dreiweg-Konfigurationen der Merkmale m3, m8 und m19 zur Erklärung der Zielgröße outcome1=1 werden durch das CARs - Mining identifiziert, wobei die von den Fallzahlen her stärker besetzten Konfigurationen 2-6 den größten Erklärungswert zugewiesen bekommen. Diese 5 sich gegenseitig ausschliessenden Konfigurationen decken 183 der insgesamt 200 Fälle der Zielgröße outcome1=1 ab. Darüber hinaus liefert das CARs - Mining Hinweise auf weitere lokale Muster zur Erklärung der Zielgröße 1.

Die Auswertungsergebnisse lässen sich in Form eines Streudiagramms (Scatterplot) leicht visualisieren:

Scatterplot:
Nummern der Regeln/Subgroups nach quality (chi^2) und p



Im Scatterplot  werden die Nummern der Regeln/Subgruppen (Ziffern im dreieckigen Symbol) aus der Ergebnisdatei in ein Streudiagramm mit den Achsen "quality (chi^2)" und "p" (Anteil der Fälle mit der Zielgröße innerhalb einer Subgruppe) projiziert. Die kleineren beigestellten roten Zahlen geben die Anzahl der Fälle wieder, auf die innerhalb der Regel/Subgruppe die Zielgröße outcome1=1 zutrifft (nZiel). So lässt sich leicht erkennen, wieviele Fälle der Zielgröße insgesamt (steht im Tabellenkopf: 200) durch eine Regel/Subgruppe abgedeckt werden. Die horizontale und vertikale rote Linie repräsentieren den Mittelwert aller generierten Regeln/Subgruppen in Bezug auf das Qualitätsmaß und die p-Werte .
Interessant sind in erster Linie die Regeln/Subgruppen mit überdurchschnittlicher bzw. deutlich separierter quality. Im Speziellen interessieren zudem die Regeln/Subgruppen, die neben einer hohen Diskriminanzkraft (quality) auch eine überdurchschnittliche bzw. deutlich separierte confidence/p aufweisen (= rechter oberer Quadrant). Dabei handelt sich um vergleichsweise "reine", "saubere" Regeln/Subgruppen, die sich fast komplett aus Fällen der Zielgröße zusammen setzen.

Die Visualisierung der Auswertungsergebnisse zeigt 6 überdurchschnittlich erklärungskräftige und - von den übrigen - leicht separierte Subgruppen (nach dem Qualitätsmaß Chi^2  die Regelnummern 1, 3, 4, 6, 8, 12). Bis auf die letzte Subgruppe handelt es sich dabei durchweg um solche der 3-Weg-Interaktion der Merkmale m3, m8, m19. Zwei dieser Subgruppen (Nummer 4 und 6) weisen zudem eine besonders hohe Konzentration der Zielgröße auf (rechter oberer Quadrant, p-Werte).

Dieses Beispiel macht noch einmal die besondere Stärke des CARs - Mining  deutlich:
Komplexe Mehrweg-Interaktionen werden problemlos exploriert. Dabei steht nicht DIE EINE - vermeintlich beste - Lösung im Fokus, sondern es werden verschiedene (aber vergleichbar erklärungskräftige) Lösungen identifiziert. Frei nach dem Motto: "Viele verschiedene Wege führen nach Rom." 

Wie im folgenden zu sehen sein wird, erweist sich das CARs - Mining bei der Analyse dieser so genannten lokalen Muster oder Konfigurationen als konkurrenzlos leistungsfähig: Wir vergleichen die Ergebnisse des CARs - Mining mit denen dreier anderer prominenter Modelle des Data Mining: dem CART-Entscheidungsbaumverfahren und den Algorithmen SEE5 und RIPPER als Vertreter der sogenannten Rule Induction (zur systematischen Einordnung dieser Modelle im Rahmen des Data Mining siehe Kapitel 10 und 11 weiter unten).





Ergebnis des CART-Entscheidungsbaumverfahrens zum Datensatz MDR2

Der generierte Entscheidungsbaum sieht wie folgt aus:

Software R-Project, library(rpart)

Das Entscheidungsbaumverfahren kann nur EINE 3-Weg-Interaktion, nämlich die Konfiguration 6 mit den Ausprägungen  m3=3, m8=1, m19=1, identifizieren. Dafür wird die Stör-Variable m1 (eine Zufalls-Gleichverteilungsvariable) mehrfach zur Abbildung der inhärenten Datenstruktur herangezogen.

Dieses Beispiel macht einmal mehr deutlich, dass Entscheidungsbäume nur im Glücksfall komplexe Merkmalsinteraktionen abbilden können. Aufgrund ihres DIVIDE AND CONQUER-Algorithmus identifizieren Decion Trees de facto keine Variablen-Interaktionen sondern lediglich hierarchische, homogene Segmente von Fällen. Durch das Optimierungskriterium von Entscheidungsbäumen ("minimize node impurity hierarchically") werden Merkmalsinteraktionen
eher zerstört als erkannt. Deshalb sind CART-Entscheidungsbäume für komplexe Interaktionsanalysen in Wirklichkeit weniger gut geeignet.




Ergebnis der Rule Induction mit SEE5 zum Datensatz MDR2

SEE5 identifiziert insgesamt 17 Regeln/Subgroups, von denen sich wiederum die folgenden 4 auf die Erklärung der Zielgröße outcome1=1  beziehen:

Rule 14: (19, lift 1.9)    = Konfig. 6
    m3 = 3
    m8 = 1
    m19 = 1
    ->  outcome1=1  [0.952]

Rule 15: (61/14, lift 1.5) = Konfig. 5
    m3 = 2
    m8 = 2
    m19 = 1
    ->  
outcome1=1  [0.762]

Rule 16: (64/17, lift 1.5) = Konfig. 4
    m3 = 2
    m8 = 1
    m19 = 2
    ->  
outcome1=1  [0.727]

Rule 17: (143/61, lift 1.1)
    m3 = 1
    ->  
outcome1=1  [0.572]
Software R-Project, library(C50)

Mit diesen 4 Regeln können immerhin 3 der tatsächlich 6 vorhandenen 3-Weg-Interaktionen der Merkmale m3, m8 und m19 offen gelegt werden. Damit erweist sich SEE5 immerhin deutlich besser als das CART-Entscheidungsbaumverfahren, reicht bei weitem aber nicht an das Ergebnis des CARs - Mining heran. Interessanterweise identifiziert SEE5 aber nicht die Konfiguration 2  [m3=1, m19=2, m8=2], die beim CARs - Mining (Subgroup Discovery) - gut nachvollziehbar - den größten Erklärungswert besitzt.




Ergebnis der Rule Induction mit RIPPER zum Datensatz MDR2

Mit RIPPER lassen sich folgende 3 Regeln eruieren:
Number of Rules : 3

(m1 <= 0.237832) => outcome1=0 (96.0/39.0)
(m19 = 3)             => outcome1=0 (31.0/9.0)
Rest => outcome1=1 (272.0/120.0)
Software R-Project, library(RWeka)

Damit erkennt RIPPER keine einzige der 6 vorhandenen 3-Weg-Konfigurationen. Dafür wird die Noise-Variable m1 zur Klassifikation herangezogen.
Dieses Ergebnis ist umso verwunderlicher, da RIPPER die Konfigurationen im ursprünglichen MDR-Datensatz tendenziell erkennt. Aber minimale Änderungen der Ausgangsdaten genügen offensichtlich, dass dieser Ansatz der Rule Induction die zugrunde liegende Datenstruktur völlig verkennt. Zur Erinnerung:  Es wurde/wurden gegenüber dem Original-MDR-Datensatz lediglich 1 Wert der Zielgröße outcome1 von 0 auf NA (fehlender Wert) gesetzt, 2 Noise-Variablen und 1 fehlender Wert in der unabhängigen Variable m4 hinzugefügt und 1 Variable doppelt gesetzt. Damit zeigt sich RIPPER als nicht sonderlich stabil.




 5. Beispiel 3:  
Haupteffekte reichen aus


Download der Datendatei  
R-Project-Format: Iris.RData
WEKA-Format:      iris.arff
SPSS-Format:        Iris.sav
txt-Format:            Iris.txt

Das CARs - Mining eignet sich nicht nur in besonderer Weise zur Identifizierung komplexer Merkmalsinteraktionen, sondern es ermöglicht auch die Entscheidung darüber, ob Interaktionseffekte für eine hinreichende Beschreibung/Klassifizierung der Zielgröße notwendig sind ober ob einzelne Merkmalsausprägungen/ Haupteffekte ausreichen. Um dies zu veranschaulichen, wird im folgenden auf den bekannten Iris-Datensatz von Fisher zurück gegriffen. Mit diesem Datensatz kann zugleich gezeigt werden, dass das CARs - Mining selbst bei durchgängig metrischen unabhängigen Merkmalen qualifizierte Ergebnisse zu produzieren vermag - eine intelligente Diskretisierung vorausgesetzt.
Die Validierung aller unten aufgeführten Modelle basiert auf den so genannten "Trainingsdaten" (den Basisdaten). Es wurden keine gesonderten Testdaten generiert (zu den Gründen siehe Kapitel 6). 


Iris-Datensatz von Fisher:
150 obs. of  5 variables:
 Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species 
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50 
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50 
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50 
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                 
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                 
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  

Zielgröße ist im weiteren die Ausprägung versicolor des Merkmals Species, das entsprechend dichotomisiert wurde..





Ergebnis des CART-Entscheidungsbaumverfahrens zum Datensatz IRIS

Der generierte Entscheidungsbaum sieht wie folgt aus:
Rule:
(Petal.Length >= 2.4) and (Petal.Width < 1.8)  => outcome1=versicolor (.91/ 36%)


=== Confusion Matrix ===
   a   b     <-- classified as
  95   1 |   a = Rest
   5  49 |   b = versicolor

Kappa statistic = .91

Software R-Project, library(rpart)
 
Das Entscheidungsbaumverfahren generiert 1 Regel mit 2  Variablen zur Erklärung der Zielgröße versicolor. Damit können damit 49 von 50 versicolor-Fällen richtig zugeordnet werden, bei insgesamt 6 Fehlzuordnungen.





Ergebnis der Rule Induction mit SEE5 zum Datensatz IRIS

Insgesamt fördert SEE5 4 Klassifikations-Regeln zu Tage. 1 Regel wird zur "Erklärung" der Zielgröße versicolor benötigt:

Rule 4: (48/1, lift 2.9)

    Petal.Length > 1.9
    Petal.Length <= 4.9
    Petal.Width <= 1.7
    ->  outcome1= versicolor  [0.960]
Evaluation on training data (150 cases):
Rules    
----------------
No      Errors
 4       4( 2.7%)  


=== Confusion Matrix ===

    (a)   (b)     <-classified as
    ----  ----
     99     1    (a): class Rest
      3    47    (b): class versicolor

    Kappa statistic = .94
Software R-Project, library(C50)

In dieser Regel Nummer 4 werden  2 Variablen und 3 Bedingungen benannt. Damit können damit 47 von 50 versicolor-Fällen richtig zugeordnet werden, bei insgesamt 4 Fehlzuordnungen.





Ergebnis der 
Rule Induction mit RIPPER zum Datensatz IRIS


Auch RIPPER benötigt 1 Regel zur "Erklärung" der Zielgröße versicolor:


Number of Rules : 2

(Petal.Length >= 3.5) and (Petal.Width <= 1.6) and (Petal.Length <= 4.9) => outcome1=versicolor (44.0/0.0)
 => outcome1=Rest (106.0/6.0)

=== Summary ===
Correctly Classified Instances         144               96      %
Incorrectly Classified Instances         6                4      %
Kappa statistic                          0.9072
Mean absolute error                      0.0755
Root mean squared error                  0.1943
Relative absolute error                 16.9532 %
Root relative squared error             41.2077 %
Coverage of cases (0.95 level)         100      %
Mean rel. region size (0.95 level)      85.3333 %
Total Number of Instances              150    

=== Confusion Matrix ===
   a   b   <-- classified as
 100   0 |   a = Rest
   6  44 |   b = versicolor
Software R-Project, library(RWeka)

Auch in dieser 1 Regel werden  2 Variablen und 3 Bedingungen benannt, wenn auch mit leicht anderen Grenzen gegenüber SEE5. Damit können 44 von 50 versicolor-Fällen richtig zugeordnet werden, bei insgesamt 6 Fehlzuordnungen. Das ist eine minimal schlechtere Klassifikationsleistung als bei SEE5, wie auch anhand der Kappa-Statistik ersichtlich.





Ergebnis des CARs - Mining zum Datensatz IRIS

Hier wurden im Vorfeld der Analyse wieder die metrischen unabhängigen Variablen nach dem Entropy-MDL-Ansatz diskretisiert  (Fayyad/Irani 1992, 1993). Als Qualitätsmaß wurde die "Chi-Quadrat-Statistik" sowie der Suchalgorithmus "SD-Map" benutzt und das "Post-Pruning" für die Kürzung redundanter Regeln/Subgroups eingesetzt.

Befehlszeilen in R-Project von CRAN  mit der library(rsubgroup):
result1    <- DiscoverSubgroups(Datenmatrix, as.target("Species", "versicolor"),   
                   new("SDTaskConfig", qf="chi2", method="sdmap", k=100, minsize=10, maxlen=3,
                   attributes=c(colnames(Datenmatrix)), postfilter="sig-improve-set"))                                        
result11 <- ToDataFrame(result1); result11

Das CARs - Mining legt 2 alternative Regeln/Subgruppen zur Erklärung der Zielgröße versicolor nahe:

Alle bereinigten Klassifikations-Regeln (= Subgruppen) für Species= versicolor:

nr  chi^2  p    size              description   nz1 CohenW adj.RESIDUEN Errors  Kappa

1  125.13 0.91   54   Petal.Width='(0.8-1.75]'  49   0.91  11.2           6      .91
2  120.14 0.98   45 Petal.Length='(2.45-4.75]'  44   0.89  11.0           7      .89
6   28.83 0.51   86 Sepal.Length='(5.45-7.05]'  44   0.44   5.4           50     .39
7   28.65 0.60   57  Sepal.Width='(-inf-2.95]'  34   0.44   5.4           39     .43

Zum Vergleich: aussortierte, zu Regel 2 redundante Regel 3
3  120.14 0.98   45 Petal.Length='(2.45-4.75]'  44   0.89  11.0           7      .89
                                        + Petal.Width='(0.8-1.75]'

=== Confusion Matrix zu Regel 1 ===
    (a)   (b)     <-classified as
    ----  ----
     95     5    (a): class Rest
      1    49    (b): class versicolor

    Kappa statistic = .91
Software R-Project, library(rsubgroup)

Zur Regel/Subgruppe 1 "WENN  Petal.Width='(0.8-1.75]'  DANN  outcome1= versicolor" findet man exakt das gleiche Klassifikations-Ergebnis in der Confusion Matrix wie beim Decision Tree (s.o.). Benötigt wird beim CARs - Mining - im Gegensatz zum Entscheidungsbaum - aber nur 1 Merkmal mit einer klassierten Ausprägung ( Petal.Width='(0.8-1.75]')). Außerdem ist zu erkennen, dass sich die Zielgröße outcome1= versicolor vergleichbar gut sowohl durch Petal.Width allein als auch durch Petal.Length "erklären" lässt. Ein Interaktioneffekt beider Variablen (siehe Regel 3 oben) bringt keinen Erklärungsgewinn gegenüber den einfachen Haupteffekten und wird deshalb beim PRUNING der Regeln aussortiert.

Scatterplot:
Nummern der Regeln/Subgroups nach quality (Cohen's w) und p



Die Visualisierung der Ergebnisdatei mittels Scatterplot zeigt: Die Regeln/Subgruppen mit den Nummern 1 und 2 weisen die mit Abstand höchste Diskriminanzkraft (quality) und zugleich höchste Confidence (p) auf  - siehe rechter oberer Quadrant. Beide Regeln besitzen eine hohe Effektgröße, sind hochsignifikant  und decken jeweils deutlich über 40 Fälle der Zielgröße mit insgesamt 50 Fällen ab. Damit sind beide Regeln ähnlich gut für die Klassifizierung der Zielgröße geeignet.

In der Logik von Ockhams Razor bietet das CARs - Mining für den Iris-Datensatz von Fisher das wohl am besten geeignete Klassifikations-Modell (in Relation zu CART, RIPPER und SEE5):  Ein vergleichbar guter Erklärungswert (siehe Kappa) bei gleichzeitig weniger Parametern (Anzahl der benötigten Merkmale für die Klassifikation).  Zudem werden Hinweise auf alternative Klassifikationsregeln gegeben (Petal.Width oder Petal.Length).

Damit eignet sich das CARs - Mining nicht nur in besonderer Weise zur Identifizierung von komplexen Merkmalsinteraktionen (siehe Beispiel 2 weiter oben), sondern es ermöglicht auch die Entscheidung darüber, ob Interaktionseffekte für eine hinreichende Beschreibung/ Klassifizierung der Zielgröße überhaupt notwendig sind ober ob einzelne Merkmalsausprägungen/ Haupteffekte ausreichen.


Aus diesen Ergebnissen lassen sich weit reichende, paradigmatische Schlussfolgerungen für die Auswertungspraxis und das Berichtswesen ziehen:

- Es sollte besser auf die Ausweisung von Statistiken lediglich zweidimensionaler, bivariater Zusammenhänge verzichtet werden.
In vielen (Forschungs-) Berichten ist es üblich, die Zielgröße jeweils mit allen erhobenen unabhängigen Merkmalen einzeln zu korrelieren (eine Art bivariate Grundauszählung) oder Gruppenunterschiede zu allen unabhängigen Merkmalen auszuweisen (z.B. wie eine "Table One" in medizinischen Berichten). Dieses Vorgehen verklärt mehr als es aufklärt, suggeriert es doch - wenn auch nicht unbedingt beabsichtigt -, eine einzelne Variable bzw. Ausprägung könne die interessierende Zielgröße hinreichend und besser als eine andere Variable "erklären", was aber erst noch zu beweisen wäre (die Moderatorvariablen und Supressoren lachen sich ins Fäustchen). Eine solche Schlussfolgerung auf der Basis bivariater Kennzahlen ist natürlich unsinnig und nicht haltbar angesichts der Vielzahl in der Berechnung nicht berücksichtigter Merkmale (Stichwort: "unbeobachtete Heterogenität").

- Statt dessen - oder zumindest ergänzend - sollten grundsätzlich Auswertungen des CARs - Mining berichtet werden. 
Diese ermöglichen eine begründete Entscheidung darüber, ob einzelne Merkmalsausprägungen/ Haupteffekte und/oder Interaktionseffekte relevant sind für eine hinreichende Beschreibung der Zielgröße. Damit wird das Problem "unbeobachteter Heterogenität" zwar nicht grundsätzlich gelöst, aber zumindest durch die Berücksichtigung aller erhobenen Merkmale abgeschwächt.





Zum Vergleich und zur Abschreckung -
die Ergebnisse der "klassischen" Statistikmodelle zu den Iris-Daten:

Logistische Regression: Lineare Diskriminanzanalyse:
Anova(GLM, type="II", test="LR")
Analysis of Deviance Table (Type II tests)

Response: outcome1
             LR Chisq Df Pr(>Chisq)   
Sepal.Length   0.1431  1    0.70524   
Sepal.Width   15.6969  1  7.434e-05 ***
Petal.Length   3.9518  1    0.04682 * 
Petal.Width    6.4089  1    0.01135 *
Coefficients
of linear discriminants:
                    LD1
Sepal.Length -0.0966345
Sepal.Width  -2.1366766
Petal.Length  1.0580824
Petal.Width  -2.3701409
=== Confusion Matrix === 
   a   b   <-- classified as   
  86  25 |   a = Rest
  14  25 |   b = versicolor

Errors = 39 
Kappa statistic = .38   

=== Confusion Matrix ===
   a   b   <-- classified as
  86  26 |   a = Rest
  14  24 |   b = versicolor

Errors = 40
Kappa statistic = .36
Software R-Project

Trotz ellenlanger Modellgleichungen (inklusive Intercept) bleiben die Zusammenhänge der Daten letztlich unterbelichtet und nur rund die Hälfte der Fälle der Zielgröße versicolor kann mit diesen Modellen richtig klassifiziert werden. Da hätte man auch direkt auf die Auswertung verzichten und eine Münze werfen können - das hätte annähernd das gleiche Ergebnis erbracht.




6. Hinweise und Tipps
zur Durchführung des CARs - Mining


Im folgenden werden einige spezielle Hinweise zur Umsetzung des CARs - Mining vorgestellt, die sich in der praktische Arbeit bewährt haben. Benutzt man z.B. die Freeware R-Project, dann lassen sich all diese Schritte mit etwas Geschick in einem kleinen Auswertungsskript zusammen definieren, so dass die Analyse dann automatisch an einem Stück durchgeführt werden kann. Es genügt, den interessierenden Datensatz und die Zielgröße zu definieren und binnen weniger Sekunden erhält man dann die Ausgabedatei mit entsprechender Visualisierung der Ergebnisse. Die meisten dieser Schritte lassen sich aber auch innerhalb der Data Mining - Freeware WEKA mit angewählten Menüs und Mausklicks umsetzen (vgl. Kapitel 9).



Diskretisierung der unabhängigen Merkmale

Bei der Durchführung von CARs - Mining müssen die unabhängigen Merkmale ein kategoriales Skalenniveau aufweisen, metrische Variablen sind nicht erlaubt. Deshalb müssen letztere vorab diskretisiert, in ein kategoriales Skalenniveau überführt werden. Stand der Technik im Data Mining ist die so genannte "supervised discretization" nach dem Entropy-MDL-Ansatz (Fayyad/Irani 1992, 1993). Diese Art der Diskretisierung heißt deshalb "supervised", weil die Diskretisierung der metrischen Variablen jeweils in Bezug auf die Zielgröße erfolgt. Bei diesem Verfahren handelt es sich um eine so genannte top-down Diskretisierung, bei der die unabhängigen metrischen Variablen rekursiv in soviel Intervalle unterteilt werden bis die Entropy (information gain) in Bezug auf die abhängige Variable maximal ist und zugleich kleiner ist als die so genannte Minimal Description Length. Diese Art der Diskretisierung kann zu unterschiedlich vielen Intervallen bei den einzelnen unabhängigen Variablen führen bis hin zu nur einem einzigen Intervall. In letzterem Fall erweist sich die abhängige Variable als ohne Erklärungswert für die Zielgröße. Im Data Mining wird die Entropy-MDL-Diskretisierung deshalb auch gern als Filterverfahren für die Selektion erklärungskräftiger Merkmale in Bezug auf die Zielgröße benutzt. Bei der Durchführung des CARs - Mining sollten sich dann aber keine konstanten unabhängigen Merkmale mehr in der Datei befinden, also solche, die nur eine Ausprägung bzw. ein Intervall aufweisen.

Im Rahmen der Software R-Project bietet beispielsweise die library(RWeka) eine Routine zur Entropy-MDL-Diskretisierung an. Befehlszeile in R-Project von CRAN  mit der library(RWeka) - X bezeichnet die zu diskretisierende unabhängige metrische Variable:
Datenmatrix2  <- Discretize(Zielmerkmal  ~ X , data=Datenmatrix, control=Weka_control(Y=FALSE, E=TRUE))

Häufig wird argumentiert, eine Diskretisierung führe zu einem erheblichen, nicht genau abzuschätzenden Informationsverlust. Dies mag in speziellen Fällen auch zutreffen. Generell aber begünstigt eine intelligente Diskretisierung eher die Stabilität und Robustheit von Auswertungsergebnissen gegenüber Ausreißern und leichten Veränderungen in den Ausgangsdaten. Nicht zufällig wohl war Gustav Lienert - der Grand Seigneur der bundesrepublikanischen Biometrie - ein großer Verfechter der mit klassierten Daten arbeitenden Binärdatenanalyse (1993). 




Diskretisierung der Zielgröße

Die Verfahren des CARs - Mining setzen in der Regel ein kategoriales Merkmal als Zielgröße voraus. Liegt die Zielgröße in metrischer Form vor, muss diese vorab diskretisiert werden. Die Umwandlung eines metrischen Merkmals in eine klassierte Zielgröße - die so genannte Diskretisierung - begreife ich nicht als Makel des Auswertungsansatzes, sondern im Gegenteil als besondere Chance für einem bewußten Umgang mit den auszuwertenden Daten.

Vielen Anwendern regressionsanalytischer Modelle beispielsweise ist gar nicht gegenwärtig, was genau sie da eigentlich modellieren. Im klassischen linearen Regressionsmodell wird immer ein gleichmäßiger Effekt der unabhängigen Merkmale über alle Bereiche der Verteilung der Zielgröße hinweg vorausgesetzt.
Dementsprechend beschränkt sich die klassische OLS-Regressionen auf die Modellierung durchschnittlicher Werte (des konditionalen Mittelwertes) der Zielgröße,  auch wenn die Problemstellung oder der zugrunde liegende theoretische Ansatz möglicherweise eher eine Modellierung oberer oder unterer Quantile der Zielgröße – nicht aber zwingend des konditionalen Mittelwertes – nahe legen.
Die Diskretisierung einer Zielgröße zwingt hingegen zu einer bewußten Auseinandersetzung mit dem Datenmaterial und zu einer bewußten Entscheidung darüber, welcher Bereich in der Verteilung der Zielgröße von Interesse ist und untersucht werden soll.

Und auch hier gilt wieder: Eine intelligente Diskretisierung der Zielgröße begünstigt eher die Stabilität und Robustheit von Auswertungsergebnissen gegenüber Ausreißern und leichten Veränderungen in den Ausgangsdaten.

Auch wenn einige Ansätze des CARs - Mining (wie die Subgroup Discovery) ausdrücklich metrische Zielgrößen zulassen, so würde ich aus den o.g. Gründen generell nur mit klassierten bzw. diskretisierten Zielgrößen arbeiten, getreu dem Motto: "Data Mining is Classification". Zudem ermöglicht eine klassierte Zielgröße die Anwendung der intelligenten Entropy-MDL-Diskretisierung metrischer unabhängiger Variablen (s.o.).

Für die Diskretisierung selbst lassen sich u.a. die klassischen Verfahren der Clusteranalyse heranziehen - aber besser die agglomerativ hierarchischen als die recht instabilen K-means-Ansätze. Wobei erstere aber wiederum bei großen Fallzahlen extrem rechen- und speicherintensiv geraten.
In der Regel reicht aber schon eine einfache Visualisierung der metrischen Zielgröße zur Bestimmung der relevanten Klassengrenzen aus.

Gewarnt werden muss vor einer quasi automatischen Klasseneinteilung in beispielsweise 3 oder 4 gleich große Intervalle oder 4 Klassen mit gleich viel Fällen. Bei solch einem Vorgehen kann die innere Datenstruktur zerstört werden - und Sie sollten die Auswertung lieber gleich lassen. Siehe dazu die folgenden Abbildungen.  


Histogramme mit integriertem Stripchart
und den Perzentilen (für 0%, 25%, 50%, 75% und 100% der Verteilung) als vertikale gestrichelte Linien:




Beispielsweise Quartile (d.h. jeweils 25% der Fälle) automatisch als Klassengrenzen für die Diskretisierung eines metrischen Merkmals heranzuziehen, ist bei den beiden Verteilungen in der oberen Reihe durchaus vertretbar. Bei extrem schiefen oder stark gruppierten Verteilungen ist dies nicht mehr praktikabel. Für die beiden unteren Beispiele wäre ein solches Vorgehen gerade im oberen Verteilungsbereich fatal: Es würden extrem unterschiedliche Fälle einer Klasse zugeordnet, wodurch die innere Datenstruktur zerstört würde. Hier müssen die Klassengrenzen aus der konkreten empirischen Verteilung abgeleitet werden. Visualisierung ist der Königsweg der Diskretisierung. Es sei denn, es liegen bestimmte externe Bezugsgrößen wie z.B. Normwerte vor.




Imputation von fehlenden Werten

Die Verfahren des CARs - Mining (Associative Classification, Subgroup Discovery, Predictive Association Rules) können in der Regel fehlende Werte in den Daten verarbeiten. Andererseits erleichert eine vollständige Datei die Arbeit ungemein, wenn man auf der Basis der Auswertungs-Ergebnisse z.B. weitergehende Kennzahlen und Statistiken berechnen möchte (siehe Beispiele oben). Ich favorisiere zur Imputation von fehlenden Werten ein intelligentes Verfahren, das aber selbst bei großen Datensätzen äußerst effizient ist: die so genannten "Random Forests" von Breiman (2001). Bei Random Forests handelt es sich um die Aggregierung einer Vielzahl von Entscheidungsbäumen, bei denen jeweils bootstrap samples der Daten gezogen werden und bei jedem Baumknoten nur ein random sample der unabhängigen Variablen in die Auswertung eingeht. Keiner weiß so ganz genau warum, aber dieser Ansatz erbringt letztich bessere Klassifikationsergebnisse als die einfachen Entscheidungsbäume.  
Eine entsprechende Routine zur Imputation von Daten mit Random Forests findet sich beispielsweise in der library(randomForest) der R-Project-Software. 
Der Aufwand zur Imputation aller fehlenden Werte einer Datei mit diesem Programm ist denkbar gering;  Befehlszeile in R-Project von CRAN  mit der library(randomForest) - outcome1 bezeichnet die abhängige Variable:
Datenmatrix <- rfImpute(outcome1 ~ ., Datenmatrix, ntree=300)





Qualitätsmaße beim CARs - Mining

Die Wahl eines geeigneten Qualitätsmaßes zur Bewertung der Regeln/Subgruppen bildet ein zentrales Element beim CARs - Mining. Und derer gibt es viele: confidence, lift, support, WRAcc, information gain, chi^2,  Laplace, Jaccard, binomial test, Piatetsky-Shapiro, etc.

Wie bereits geschildert, werden die Qualitätsmaße i.d.R. auf der Basis einer kollabierten 4-Felder-Tabelle berechnet.

          Kollabierte 4-Felder-Tabelle:
Zielgrösse
von Interesse Rest
Regel/Subgruppe von Interesse a b a+b
Rest c d c+d
a+c b+d n

Die Analyseansätze, die eher in der Tradition der Association Rules stehen (wie die Associative Classification mit beispielsweise CBA), favorisieren in der Regel Qualitätsmaße wie confidence (a/(a+b)) und support (a+b), die die Information von jeweils lediglich 2 Zellen der 4-Felder-Tabelle nutzen. Eine solche Analysestrategie ist suboptimal und kann in die Irre führen, da beispielsweise selbst sehr hohe confidence-Werte von Subgruppen keine Gewähr dafür bieten, dass sich diese wesentlich von der durchschnittlichen Verteilung der Zielgröße unterscheiden. Zugleich handelt es sich bei sehr hoher confidence häufig auch um sehr kleine Subgruppen.   

Aussagekräftiger sind grundsätzlich Qualitätsmaße, die die Information aller Zellen der 4-Felder-Tabelle berücksichtigen. So lässt sich die "Prägnanz" oder "Diskriminanzkraft" einer Subgruppe in Relation zum Rest der Verteilung beschreiben. Solche Maße sind aus der klassischen statistischen Kreuztabellenanalyse bekannt und können prinzipiell auch im CARs - Mining genutzt werden.
Eine prominenter Vertreter eines solchen Maßes ist die so genannte Chi-Quadrat-Statistik, die formal die Unabhängigkeit zweier Merkmale misst. Dieses Qualitätsmaß ist in dem Großteil der Programme zum CARs - Mining verfügbar. Je größer die Teststatistik, desto größer ist die Diskriminanzkraft und Qualität der Regel/Subgruppe.
Ein Vorteil dieses Maßes ist auch, dass es inferenzstatistisch interpretiert werden kann. Alle Werte der Teststatistik > 3,84 weisen auf eine überzufällige, signifikante Regel/Subgruppe (bei einer Irrtumswahrscheinlichkeit von alpha= .05, "heurostatistische" Signifikanz weil im Data Mining die Irrtumswahrscheinlichkeit grundsätzlich nicht für die Anzahl der durchgeführten Tests adjustiert wird).

Aus der Chi-Quadrat-Statistik lässt sich zudem leicht der Effect-Size Index w von Cohen (1988) berechnen: w = Wurzel(Chi^2 / N). Auf diese Weise können den einzelnen Subgroups - als Faustregel - auch kleine (>= .1), mittlere (>=.3) oder große (>=.5) Effektgrößen zugeordnet werden.
Hier die Befehlszeile in R-Project von CRAN  zur Berechnung von Cohen's w auf der Basis der Ergebnisdatei (siehe Beispieldaten in Kapitel 4 und 5, CAVE: keine fehlenden Werte erlaubt) :
result11$CohenW <- round(sqrt(result11[,1]/nrow(Datenmatrix)),digits=2) 


Nachteilig an der Chi-Quadrat-Statistik ist, dass beispielsweise den 2 Ausprägungen einer binären Subgruppe (z.B. Mann und Frau beim Geschlecht) automatisch die gleiche Teststatistik zugewiesen wird, obwohl die Zielgröße in der einen Ausprägung überdurchschnittlich und in der anderen unterdurchschnittlich vertreten ist. Das Qualitätsmaß ist also quasi blind für die Richtung der Abweichung von der durchschnittlichen Verteilung. Dies ist kein wirklich schwerwiegendes Problem, da die unterdurchschnittlich vertreten Subgruppen aus der Ergebnisdatei im Nachhinein herausgefiltert werden können (was auch bei den Beispieldatensätzen in Kapitel 4 und 5 praktiziert wurde). Aber die Teststatistik ist zumindest ineffizient, da mehr Regeln/Subgruppen generiert werden als unbedingt nötig.

Programmiertechnisch möglicherweise effizienter und auch eleganter wäre die Verwendung so genannter "adjustierter (standardisierter) Residuen" (Agresti 2007) als Qualitätsmaß. Diese Teststatistik quantifiziert den Grad der Abweichung der je einzelnen Zellen in der kollabierten 4-Felder-Tabelle von der Hypothese der Unabhängigkeit beider Merkmale. Relevant wäre dann einzig der Residualwert der Zelle a in der 4-Felder-Tabelle zur Beschreibung der Qualität einer Regel/Subgruppe. Auch die adjustierten (standardisierten) Residuen haben den Vorteil, dass sie inferenzstatistisch interpretiert werden können (Werte > 1.96 sind signifikant bei einer Irtumswahrscheinlichkeit von alpha=.05).

Auf meine Anregung hin hat mir der Autor der library(rsubgroup) der Software R-Project - M. Atzmueller - in Aussicht gestellt, in die nächste Version des Programms sowohl "Cohen's Effect Size-Index w" als auch "adjustierte (standardisierte) Residuen" als weitere Qualitätsmaße aufzunehmen. 




Suchalgorithmen beim CARs - Mining

Den Modellen des CARs - Mining  (wie der Associative Classification, speziellen Varianten der Subgroup Discovery und den Supervised Association Rules) ist gemeinsam, dass sie - wie beim Association Rule Mining - eine so genannte "exhaustive search" durchführen und nicht auf heuristische, eben nicht den ganzen Datenraum abdeckende Verfahren, zurück greifen.

Es gilt dabei in Erinnerung zu behalten, dass mittlerweile eine Vielzahl von Ansätzen unter dem Namen Subgroup Discovery exisitiert, die auf vollkommen unterschiedliche Algorithmen, wie z.B. solche der Rule Induction (vgl. CN2-SD von Lavrac), zurückgreifen und anstatt einer "exhaustive search" eine "beam search" durchführen. Derlei Ansätze fallen aber ausdrücklich nicht unter das o.g. CARs - Mining. Meiner Erfahrung nach entfalten sich die besonderen Stärken und Qualitäten einer Subgroup Discovery einzig und allein, wenn der Suchalgorithmus den kompletten Datenraum ("exhaustive search") auf bedeutsame lokale Muster hin untersucht.

Ich empfehle deshalb grundsätzlich nur Analysen nach dem Ansatz der "exhaustive search" durchzuführen. Nur dieser Ansatz bietet die Gewähr dafür, dass auch wirklich alle lokalen Muster identifiziert werden. Zwar ist dieses Vorgehen sehr rechenintensiv, aber die Algorithmen sind mittlerweile so elegant programmiert (wie z.B. bei SD-Map), dass selbst riesige Datenmengen keinen Hinderungsgrund mehr für diese Suchstrategie darstellen




Visualisierung der Ergebnisse

Soweit überhaupt vorhanden, finden sich in den Programmen des CARs - Mining ganz unterschiedliche Varianten der Visualisierung der Auswertungsergebnisse. Ich persönlich favorisiere ein Vorgehen, das dem Association Mining von Assoziationsregeln entlehnt ist: Um sich (interaktiv) einen Überblick über die Vielzahl der generierten Assoziationsregeln zu verschaffen, werden diese beim Association Mining in einen Scatterplot (Streudiagramm) projiziert, dessen Koordinaten die Kennwerte "confidence" und "support" bilden (s.u.).

Visualisierung beim Association Rule Mining:

Software R-Project, library(arulesViz)

Für die Visualisierung der Ergebnisse des CARs - Mining greife ich auch auf 2 Maße zurück: die Chi-Quadrat-Statistik (wahlweise aber auch ein anderes Chi^2-basiertes Assoziationsmaß wie Cohen's Effektgröße w) und Confidence bzw. p (Anteil der Zielgröße in Subgruppe).
Das zentrale Maß ist in diesem Zusammenhang die Statistik, die bem CARs - Mining als Qualitätsmaß benutzt wurde. Wie oben ausgeführt, besitzen die Chi^2-Maße den Vorteil, dass sie die "Diskriminanzkraft" einer Regel/Subgruppe in Relation zum Rest der Verteilung beschreiben, indem sie die Information aller Zellen der kollabierten 4-Felder-Tabelle berücksichtigen. Als Beispiel einer Visualisierung greifen wir auf die Ergebnisse zu den Iris-Daten von Fisher zurück.

result11:  Ausgabedatei des CARs - Mining (Iris-Daten von Fisher)
Alle bereinigten Klassifikations-Regeln (= Subgruppen) für Species= versicolor:

nr quality  p    size             description   nZiel CohenW adj.RESIDUEN Errors  Kappa

1  125.13 0.91   54   Petal.Width='(0.8-1.75]'  49    0.91   11.2            6     .91
2  120.14 0.98   45 Petal.Length='(2.45-4.75]'  44    0.89   11.0            7     .89
6   28.83 0.51   86 Sepal.Length='(5.45-7.05]'  44    0.44    5.4           50     .39
7   28.65 0.60   57  Sepal.Width='(-inf-2.95]'  34    0.44    5.4           39     .43

Software R-Project, library(rsubgroup)

Befehlszeilen in R-Project von CRAN für Plot 1:
plot(result11$p, result11$quality, pch=NA, xlab="p", ylab="quality")
text(result11$p, result11$quality, col="blue", labels=rownames(result11), cex=1.5)


Plot 1:  Nummern der Regeln/Subgruppen nach quality und p                        Plot 2:  Nummern der Regeln/Subgruppen nach Cohen's w  und p



In Plot 1 werden die Nummern der Regeln/Subgruppen in ein Streudiagramm mit den Achsen p/quality projiziert. Ersichtlich wird so, dass die Regeln 1 und 2 die mit Abstand erklärungskräftigsten sind und zugleich eine hohe Confidence (p) aufweisen. Diese Form der Darstellung lässt sich ein wenig "aufhübschen", wodurch die zentralen Auswertungsergebnisse besser zu interpretieren sind (siehe dazu Plot 2).

In Plot 2 werden die Nummern der Regeln/Subgruppen (Ziffern im dreieckigen Symbol) in einem Streudiagramm mit den Achsen "Qualitätsmaß Effektgröße Cohen's w"  und "p (confidence)" abgebildet.  Die drei horizontalen gestrichelten Linien informieren - als Faustregel - über die Grenzen der Effektgröße w für kleine (>= .1), mittlere (>=.3) oder große (>=.5) Effekte. Im Tabellenkopf ist mit "50" die Anzahl der Fälle mit der Zielgröße versicolor insgesamt angegeben. Die kleinen beigestellten Zahlen spiegeln die Anzahl von Fällen, für die die Zielgröße versicolor innerhalb der betreffenden Subgruppe zutrifft (= nZiel). So lässt sich leicht erkennen, wie viel Fälle der Zielgröße insgesamt (50) durch eine Regel/Subgruppe abgedeckt werden. Die horizontale und vertikale durchgezogene Linie repräsentieren den Mittelwert aller generierten Regeln/Subgruppen in Bezug auf das Qualitätsmaß und die p-Werte. Der rechte obere Quadrant umfasst dementsprechend besonders interessante Regeln/Subgruppen mit überdurchschnittlicher Diskriminanzkraft (quality) und überdurchschnittlicher "Sortenreinheit" in Bezug auf die Zielgröße (confidence,p).

In Plot 3 wird die Subgruppen-Beschreibung- und nicht mehr die Subgruppen-Nummer - direkt in das Streudiagramm projiziert. Das Streudiagramm besteht hier aus den Achsen Effektgröße Cohen's w und Confidence/p (Cave: vertauschte Achsen wg. Lesbarkeit). Die Größe der Blasen entspricht der Anzahl der Fälle, für die die Zielgröße innerhalb der Subgruppe zutrifft (die auch als kleine blaue beigestellte Zahlen berichtet werden)..

Plot 3: Scatterplot mit Subgruppen-Beschreibung


Auf diese Weise sind die wichtigsten Ergebnisse der erweiterten Ausgabedatei in einem Streudiagramm übersichtlich zusammen gefasst. So lassen sich leicht die zentralen Regeln/Subgruppen erkennen: Solche mit hoher Effektgröße und idealerweise gleichzeitig möglichst hoher Confidence und Fallzahl.  Die (heurostatistische) Signifikanz der interessantesten Regeln/Subgruppen lässt sich dann aus der Ergebnisdatei ablesen.

Als letzte Form der Visualisierung ist mit Plot 4 eine so genannte Heatmap empfehlenswert. So kann man die interessanten Regeln/Subgruppen leicht anhand ihrer Färbung identifizieren: je grüner desto interessanter. Zu diesem Zweck werden die Kennwerte der Ausgabedatei (hier quality, p, nZiel) spaltenweise standardisiert, mit einem Mittelwert von jeweils 0. Je mehr eine Regel/Subgruppe positiv von der durchschnittlichen Verteilung aller Regeln abweicht, umso grüner (und interessanter) ist sie.

   Plot 4:  Heatmap der Ausgabedatei - standardisierte Werte

   Software R-Project, library(pheatmap)

Diese Form der Visualisierung ist speziell bei einer großen Anzahl  - und sich in ihren Kennzahlen überlappenden - Regeln/Subgruppen sinnvoll.





"Wer nur einen Hammer als Werkzeug hat ...."

Obwohl ich das Verfahren des CARs - Mining für ein universelles und unverzichtbares Instrument bei jeder Form von Abhängigkeitsanalyse (unabhängig vom Anwendungskontext) halte, empfehle ich - analog beispielsweise zum Ansatz der Mixed Methods - eine Integration verschiedener Analyseverfahren bei der Untersuchung von Merkmalsinteraktionen.

Auch für den Ansatz des CARs - Mining gilt das Bonmot von Paul Watzlawick uneingeschränkt: "Wer nur einen Hammer als Werkzeug hat, der behandelt alles wie einen Nagel", obwohl es sich beim CARs - Mining wohl eher um ein "Skalpell" als um einen "Hammer" handelt. Oder, um es in den Worten von George Box zu sagen: "All models are wrong. Some models are useful."

Ich favorisiere bei Abhängigkeitsanalysen die gemeinsame Anwendung des CARs - Mining (z.B. mit dem R-package "rsubgroup") und einer Rule Induction mit SEE 5 (z.B. mit dem R-package "C50"). SEE5 ist eine Entwicklung von Rulequest Research (Quinlan). Dabei handelt es sich im Kern eigentlich um einen Entscheidungsbaum-Algorithmus. Mit diesem Programm lassen sich aber auch ungeordnete Rulesets gewinnen, die von den Ergebnissen eines Entscheidungsbaums differieren. Innerhalb der Data Mining Suite WEKA würde es sich analog anbieten, den CARs - Mining -Ansatz "Tertius" zusammen mit der Rule Induction "PART" oder dem Entscheidungsbaumverfahren "REPTree" anzuwenden.
Der Vorteil von SEE5 ist, dass metrische unabhängige Merkmale direkt in die Analyse aufgenommen werden können, ohne dass sie vorher diskretisiert werden müssen. Damit bietet SEE5 die Möglichkeit zu überprüfen, ob die Diskretisierung von unabhängigen Merkmalen im Vorfeld des CARs - Mining möglicherweise unerwünschte Auswirkungen auf die Subgruppen-Findung hat. Selbst eine intelligente Diskretisierung wie die der Entropy-MDL (s.o.) bleibt eine bivariate Diskretisierung. Bei komplexen, mehrdimensionalen Merkmalsinteraktionen ist aber mitunter eine andere Klasseneinteilung einer unabhängigen metrischen Variablen zielführender. SEE5 kann in diesen speziellen Fällen zu einer besseren und einfacheren Lösung führen. Insofern ergänzen sich CARs - Mining und eine Rule Induction mit SEE5 vortrefflich. In der Regel aber - so zumindest meine Erfahrung - bietet das CARs - Mining die differenzierteste, umfassendste und zugleich einfachste Einsicht in die Zusammenhangsstruktur von Daten. Dies gilt auch bei Vorliegen metrischer unabhängiger Variablen (siehe dazu auch die Beispieldateien und -Analysen weiter oben).
   



CARs - Mining und verwandte Verfahren

CARs - Mining (CAR-M) im o.g. Sinne lässt sich auch als automatisierte, mehrdimensionale Kontingenztafel-Analyse mit lokalen Tests von Elementarhypothesen reinterpretieren (z.B. Horn/Vollandt 1995, Agresti 2007). Die relevanten unabhängigen Merkmale werden im Rahmen des Data Mining-Ansatzes exploriert und für die einzelnen Zellen der mehrdimensionalen Tabelle werden (auf der Basis einer kollabierten 4-Felder-Tabelle, s.o.) Qualitätsmaße im Sinne von Assoziationsmaßen - wie z.B. mit dem Chi^2-Homogenitätstest oder adjustierten Residuen - berechnet. CARs - Mining eröffnet aber - anders als eine einfache mehrdimensionale Kontingenztafel-Analyse - Einblick in eine Vielzahl so genannter "lokaler Muster" zur Erklärung einer Zielgröße.

CARs - Mining (CAR-M) weist ebenso große Ähnlichkeit mit der Mehrstichproben-  oder Prädiktions-Konfigurationsfrequenzanalyse von Krauth und Lienert auf (Krauth 1993). Auch bei der Prädiktions-Konfigurationsanalyse stehen Merkmalsinteraktionen - so genannte Konfigurationen - zur Erklärung einer Zielgröße im Vordergrund. Allerdings ist die Konfigurationsfrequenzanalyse im Kern ein konfirmatorisches Verfahren, das überzufällige Konfigurationen auf ein multiples Signifikanzniveau hin testet, indem die Irrtumswahrscheinlichkeit für die Anzahl der durchgeführten Tests adjustiert wird (z.B. nach Bonferroni oder Holm). CAR-M und KFA unterscheiden sich insofern, als die relevanten Konfigurationen (gleichbedeutend mit Regeln oder Subgruppen)  beim CAR-M automatisch erkundet werden und die Irrtumswahrscheinlichkeit bei den Teststatistiken (z.B. Chi^2 als Qualitätsmaß) deshalb nicht für die Anzahl der durchgeführten Tests alpha-adjustiert wird (worauf bei der Prädiktions-Konfigurationsfrequenzanalyse als konfirmatorischem Verfahren wiederum besonderen Wert gelegt wird).
CARs - Mining ergänzt die Konfigurationsfrequenzanalyse aber vortrefflich, indem diese hilft in einem automatisierten Verfahren die relevanten und notwendigen Konfigurationen in Erfahrung zu bringen ("finding the right hypothesis"). Die KFA selbst bietet keinen überzeugenden Ansatz für eine solche Selektion der unabhängigen Merkmale (Stichwort Interaktionsstrukturanalyse). In einem zweiten Schritt  können diese Konfigurationen dann mittels Prädiktions-Konfigurationsfrequenzanalyse einem inferenzstatistischen, multiplen Testverfahren unterzogen werden - nach der reinen Lehre am besten an einem anderen Datensatz.

Schließlich lässt sich die Configurational Comparative Method bzw. Qualitative Comparative Analysis (QCA)  - nach Rihoux/Ragin 2007 und Ragin 1987 - als Spezialfall des CARs - Mining begreifen. Immer dann, wenn im Rahmen des CAR-M die Confidence einer gefundenen Subgruppe 100%  (p=1.00) beträgt - also alle Fälle einer Subgruppe die interessierende Ausprägung der Zielgröße aufweisen - , ist im Sinne der Qualitative Comparative Analysis eine hinreichenden Bedingungskonstellation oder Konfiguration für die Erklärung der Zielgröße gefunden. Allerdings auch hier mit dem Unterschied, dass CAR-M die hinreichenden Konfigurationen im Data Mining automatisch aus einer Vielzahl von Merkmalen generiert. 
Insofern lässt sich eine QCA leicht mit dem CAR-M-Ansatz durchführen, wenn man CONFIDENCE oder LIFT als Qualitätsmaß einsetzt und nur Subgruppen berücksichtig, die eine CONFIDENCE von 100% (p=1.00) aufweisen. Und dabei kommt man ganz ohne die abschreckende und befremdliche Nomenklatur einer QCA aus. Der praktische Beweis: Führen Sie eine QCA (z.B. mit der bekannten QCA-Freeware TOSMANA von Cronquist)  mit dem weiter oben dargestellten Medikamenten-Datensatz durch, dann gelangen Sie zum gleichen Ergebnis wie beim CARs - Mining.

Insgesamt aber halte ich den konzeptionellen und technischen Ansatz der QCA eher für problematisch, und zwar aus folgenden Gründen: Um die Besonderheit und den Mehrwert der QCA hervorzuheben, grenzen die Protagonisten dieses Modell gegen den so genannten "konventionellen statistischen Ansatz" ab (vgl. auch im Folgenden z.B. Schneider/Wagemann 2007). Letzterer sei lediglich an den isolierten Netto-Effekten von Variablen interessiert, unterstelle lineare und additive Kausalitäten und bilde kausale Prozesse über symmetrische Maße wie eine Korrelation ab, obwohl diese asymmetrisch verlaufen. So weit so richtig. Aber die Vertreter der QCA übersehen geflissentlich, dass sie dabei Äpfel mit Birnen vergleichen. Bei der QCA  handelt es sich konzeptionell um eine Analysemodell für durchweg kategoriale - häufig dichotome - Daten. Abgegrenzt wird dieses aber argumentativ gegenüber einem linearen Regressionsmodell, das für metrische Daten reserviert ist. Würde man versuchen, die QCA gegenüber "konventionellen Ansätzen" für kategoriale Daten (wie z.B. einer mehrdimensionalen Kontingenztafel-Analyse oder auch einer Subgroup Discovery) zu positionieren, dann käme mehr Gemeinsames denn Trennendes zum Vorschein. Mehr noch, es würde deutlich, dass die QCA als "neuer Ansatz" eigentlich überflüssig ist. 
Schließlich grenzen sich Vertreter der QCA nicht nur gegenüber der linearen Algebra sondern auch gegenüber der Stochastik ab (ebd.): Sie lehnen Signifikanzprüfungen ab, da diese bei kleinen und mittleren Fallzahlen (dem zentralen Anwendungsbereich der QCA) nicht aussagekräftig seien. Auch hier wird geflissentlich übersehen, dass mit den so genannten Resampling-Verfahren längst Signifikanztests verfügbar sind, die für kleine Fallzahlen geradezu prädestiniert sind.

Auf die Gemeinsamkeiten und Überschneidungen der einzelnen Varianten des CARs - Mining  - wie Subgroup Discovery,  Predictive Association Rules - Mining und Associative Classification -  wird weiter unten noch genauer eingegangen (siehe Kapitel 11).




Fazit

Aus den oben ausgeführten Gründen empfehle ich - insbesondere Anfängerinnen und Anfängern - bei der Durchführung des CARs - Mining zusammengefasst folgendes Vorgehen:

  • Grundsätzlich kategoriale Zielgrößen verwenden, selbst wenn der Algorithmus metrische Zielgrößen zulässt - "Data Mining is Classification".
  • Als Qualitätsmaß die Chi^2-Metrik bzw. Chi^2-basierte Metriken benutzen.
  • Nur auf Algorithmen mit einer "exhaustive search"-Suchstrategie zurückgreifen ("Association Mining Paradigma").
  • Nur auf Algorithmen zurückgreifen, die ein "Pruning" redundanter Regeln/Subgruppen vorsehen.
  • Im Vorfeld: die Diskretisierung metrischer unabhängiger Merkmale nach dem Entropy-MDL-Ansatz von Fayyad/Irani durchführen.
  • Im Vorfeld optional: zur Imputation fehlender Werte das Verfahren der Random Forests von Breiman anwenden.                                  

Oder anders formuliert:  
Führen Sie das Class Association Rules - Mining am besten in Form von  "pruned Class Association Rules" mit einem Chi^2- oder Chi^2-basierten Qualitätsmaß durch.  

Viel Erfolg!





 7. Freeware zum
CARs - Mining


Ohne Anspruch auf Vollständigkeit hier eine kleine Auflistung der aktuell verfügbaren kostenlosen Software zur Durchführung einer Subgroup Discovery, einer Associative Classification oder eines supervised Association Rules - Mining.
In der Spalte "Association Mining-Paradigma" ist aufgeführt, ob der Suchalgorithmus des Programms eine komplette, so genannte "exhaustive search" durchführt (wie bei der Untersuchung von Association Rules), oder ob auf andere, heuristische, nicht den ganzen Datenraum abdeckende Verfahren zurück gegriffen wird. Nur die Verfahren des "Association Mining Paradigma" fallen unter den Oberbegriff  des auf dieser Seite vorgestellten "Class Association Rules - Mining" (CARs-Mining).

Ausgesuchte Freeware-Programme zur Subgroup Discovery, zur Associative Classification
und zum Supervised Association Rules - Mining:


Software CARs-Klasse Algorithmen Besonderheiten "Association Mining-Paradigma" Link
Stand alone Programme
Cortana Subgroup Discovery Beam-Search u.a. ohne Pruning nein http://datamining.liacs.nl/cortana.html
Vikamine Subgroup Discovery SD-Map, Beam-Search, BSD - u.a. http://www.vikamine.org
Data Mining Suiten
Keel Associative Classification, Subgroup Discovery

Associative Classification: CBA, CBA2, CPAR, CMAR, FCRA, CFAR, FARC-HD
Subgroup Discovery: CN2-SD, Apriori-SD, SD-Algorithm, SDIGA, NMEEF, MESDIF, SD-Map
sämtliche neueren Ansätze zur Knowledge Discovery (spez. Evolutionary Algorithms) u.a. http://www.keel.es
Knime Subgroup Discovery Beam-Search Plug in "Cortana" (s.o.), ohne Pruning nein https://www.knime.org/
Orange Subgroup Discovery SD, CN2-SD, Apriori-SD Toolkit "Subgroup Discovery" nein http://orange.biolab.si/
R-Project Subgroup Discovery SD-Map, Beam-Search, BSD package (rsubgroup); entspricht "Vikamine" (s.o.) u.a. http://www.r-project.org/
Rapid Miner Subgroup Discovery SD, CN2-SD Extension "Subgroup Discovery" nein https://rapidminer.com/
Tanagra supervised/ predictive Association Rules supervised APRIORI ASSOC SPV, SPV RULE TREE ASSOC ja http://eric.univ-lyon2.fr/
~ricco/tanagra/en/tanagra.htm
l
Weka Associative Classification, supervised/ predictive Association Rules JCBA, Predictive Apriori, Tertius gleichnamige CAR-Classifiers- und
Association-packages
ja http://www.cs.waikato.ac.nz/ml/weka/


Wie weiter oben erläutert, empfehle ich das Class Association Rules - Mining in Form von  "pruned Class Association Rules" mit einem Chi^2- oder Chi^2-basierten Qualitätsmaß.  
Ich persönlich favorisiere deshalb das Programm "rsubgroup", das zur exzellenten Data Mining Suite R-Project gehört. "rsubgroup" ermöglicht Analysen nach dem "Association Mining-Paradigma" (exhaustive search mit SD-Map), bietet aber auch andere Suchalgorithmen an. Zugleich kann man zwischen verschiedenen Qualitätsmaßen wählen. Zudem lässt sich das Programm mit nur wenigen Befehlen leicht steuern. Auf Anregung hin von meiner Seite will der Autor des Programms M. Atzmueller in die nächste Version des packages(rsubgroup) weitere Qualitätsmaße wie "Cohen's Effect Size Index w" und "adjustierte, standardisierte Residuen" aufnehmen.  Die Ausgabedatei des Programms schließlich ist so gestaltet, dass man mit den Ergebnissen im System problemlos weitere Berechnungen durchführen und diese als Grundlage für verschiedene Visualisierungstechniken nutzen kann (Beispiele s.o.). Zudem lassen sich innerhalb der Software R-Project vielfältige qualifizierte Datenbearbeitungen wie eine "supervised discretization" und Daten-Imputationen durchführen.

Und noch einmal: Subgroup Discovery ist nicht gleich Subgroup Discovery. Ich empfehle, zunächst einmal grundsätzlich nur Analysen nach dem Ansatz der "exhaustive search" durchzuführen. Nur dieser Ansatz bietet die Gewähr dafür, dass auch wirklich alle lokalen Muster identifiziert werden.  Mit der oben genannten Software CORTANA - die auf dem heuristischen Beam-Search-Ansatz basiert - lassen sich die exzellenten Ergebnisse der R-Software rsubgroup (mit dem Such-Algorithmus SD-Map) bei den Beispieldatensätzen oben z.B. nicht replizieren. Gleiches gilt übrigens für die R-Software rsubgroup selber: Ersetze ich im Programm den SD-Map-Algorithmus durch den heuristischen Beam-Search-Algorithmus, dann  zeigen sich deutlich andere (schlechtere) Ergebnisse.

Eine gute Alternative bei nicht allzu großen Datensätzen zu R-Project (mit der library rsubgroup) bietet aus meiner Sicht die Data Mining Suite WEKA mit dem Unterprogramm  TERTIUS (s.o.). Der Vorteil hier ist, dass die Auswertungen komplett über Menüs und Mausklicks gesteuert werden können;
Befehlszeilen müssen nicht eingegeben werden. Und auch hier kann man Datenbearbeitungen wie die Entropy-MDL-Diskretisierung innerhalb des Systems durchführen.
Der Tertius-Algorithmus von Flach und Lachiche (2001) basiert auf einem so genannten "confirmation measure" (eine modifizierte Chi^2-Metrik) als Qualitätsmaß. Der Suchalgorithmus generiert so genannte First-Order-Assoziationsregeln und kommt ohne ein explizites Post-Pruning aus. In Bezug auf die o.g. Beispieldateien liefert das CARs - Mining mit TERTIUS die gleichen inhaltlichen Ergebnissen wie das Programm rsubgroup. Eine Anleitung zur Durchführung des CARs - Mining mit TERTIUS (im Rahmen der Data Mining Suite WEKA) finden Sie weiter unten.





8. Kleine Einführung in die Nutzung der Software
R-Project von CRAN

Alle statistischen Auswertungen und Grafiken auf dieser Seite wurden mit der Open Source Software R-Project von CRAN durchgeführt und umgesetzt. Die Software deckt ein breites Spektrum von Methoden, klassischen statistischen Modellen und Data Mining-Verfahren ab, inklusive Textanalyse, symbolischer Datenanalyse und vielfältigen Visualisierungstechniken. R-Project bildet derzeit wohl den Goldenen Standard der "Freeware-Statistics-Tools".

Die Sofware läuft u.a. auf verschiedenen Plattformen (Linux,Windows, Mac, ...) und kann kostenlos auf folgender Seite herunter geladen werden:  
http://www.r-project.org

Die Software besteht aus einem Basispaket und mittlerweile deutlich über 6500 speziellen Zusatzpaketen (so genannten libraries oder packages), die bei Bedarf installiert werden können. Bei dem Paket "rsubgroup", mit dem die Analysen zur SUBGROUP DISCOVERY auf dieser Seite durchgeführt wurden, handelt es sich um ein solches Zusatzpaket.

Nach der Installation des Basispakets und dem Starten des Programms öffnet sich das unten gezeigte Fenster:

Ich empfehle direkt über den Menüpunkt "Packages - Install package(s)" folgende 2 Zusatzpackete zu installieren:
- Rcmdr
- rsubgroup.

Nach deren Installation einfach den Befehl "library(Rcmdr)" in der Befehlszeile eingeben und mit ENTER bestätigen.
Dann öffent sich folgendes Fenster:


Bei der library(Rcmdr) handelt es sich um einen Commander für R, der das Arbeiten mit R erheblich erleichtert.
Die (meisten) Befehle müssen nun nicht mehr per Hand eingegeben werden sondern können per Mausklick aus dem Menü ausgewählt werden.
Das Einlesen verschiedener Dateiformate, das Datenmanagement, graphische Darstellungen und die Anwendung einer Vielzahl statistischer Modelle sind so erheblich vereinfacht.

Analysen des CARs - Mining in Form einer SUBGROUP DISCOVERY sind auf diese Weise aber leider nicht verfügbar. Dafür muss zunächst das Zusatzpaket rsubgroup mit dem Befehl "library(rsubgroup)" geladen werden: Befehl schreiben, mit der Maus markieren und anschliessend "Befehl ausführen" anklicken, s.o.
Anschließend kann das Programm auf die eingelesene Datenmatrix angewendet werden. Dazu können z.B. die weiter oben auf dieser Seite aufgeführten
Befehle  zur Subgroup Discovery einfach in das Skript-Fenster hineinkopiert und ggf. weiter bearbeitet werden. Dann den Befehl markieren, "Befehl ausführen" anklicken, .... (Sie wissen schon!).

Dokumentationen und Hilfen zum Programm werden über folgende Befehle angezeigt: "??rsubgroup" oder "help(rsubgroup)".

Auf den ersten Blick scheint R-Project ein wenig sperrig und gewöhnungsbedürftig. Aber die Gewöhnung lohnt sich. Mit R haben Sie eine zuverlässige, stets aktualisierte und hoch flexible Auswertungssoftware, die Sie Ihren konkreten Analyseinteressen genau anpassen können.

Viel Erfolg und vor allem viel Spaß!





 9. CARs - Mining mit WEKA
TERTIUS


Weka ist eine Open Source Data Mining Suite in Java für unterschiedlichste Betriebssysteme und kann auf der Seite http://www.cs.waikato.ac.nz/ml/weka/ kostenlos heruntergelagen werden. Anders als R-Project ist Weka auf Machine Learning - Algorithmen beschränkt. Dafür lässt sich das Programm aber sehr benutzerfreundlich über Menüs und Mausklicks steuern.

Nach dem Starten des Programms öffnet sich folgendes Fenster. Zu Anfang sollte man der Einfachheit halber mit der Anwendung "Explorer" arbeiten.




Spezielle Zusatzpakete und deren Aktualisierungen können unter "Tools" mit dem "Package manager" installiert werden (Internetverbindung herstellen!).




Nach dem Öffnen des Explorers zeigt sich folgendes Fensters. Zur Durchführung von CARs- Mining mit dem Algorithmus TERTIUS bewegt man sich nur im Reiter "Preprocess" und "Associate". Weitere CARs - Mining - Ansätze finden sich bei Bedarf auch im Reiter "Classify".
Über das "Preprocess"-Fenster können die Datendateien geladen, die Daten händisch editiert ("Edit"), WICHTIG: die Zielgröße definiert ("Class: outcome1") und unter der Schaltfläche "Filter" die Daten in vielfältiger Art und Weise bearbeitet werden. Die Zielgröße sollte dabei keine fehlenden Werte enthalten.




WEKA kann unterschiedliche Datenformate einlesen. Das Standardformat ist eine Text-Datei mit der Endung .arff, die mit jedem beliebigen Texteditor erstellt werden kann. Zuerst wird der Dateiname genannt (RELATION), gefolgt von der Auflistung der Variablen (ATTRIBUTE) mit Variablennamen und Variablentyp. Numerische Variablen können mit REAL, kategoriale Variablen mit Angabe der Ausprägungen in Klammern definiert werden. Nach dem Argument DATA werden die Fälle zeilenweise eingegeben, mit Kommata voneinander getrennt (ohne Leerstelle). Fehlende Werte werden als '?' gekennzeichnet.

@RELATION iris

@ATTRIBUTE sepallength    REAL
@ATTRIBUTE sepalwidth     REAL
@ATTRIBUTE petallength     REAL
@ATTRIBUTE petalwidth    REAL
@ATTRIBUTE class     {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
...


Daten-Dateien mit diesem Aufbau können über die Schaltfläche "Open file ..." als .arff-file eingelesen werden.


Über den Filter mit der Schaltfläche "Choose" kann die Entropy-MDL-Diskretisierung metrischer unabhängiger Merkmale leicht bewerkstelligt werden: "filters - supervised - attribute -Discretize" anwählen und mit den Voreinstellungen benutzen. Durch die Schaltfläche "Apply" wird dann automatisch die Diskretisierung aller unabhängigen metrischen Merkmale in der Datei in Bezug auf die definierte Zielgröße umgesetzt.




Zur Durchführung des CARs - Mining mit TERTIUS in den Reiter "Associate" wechseln und den Algorithmus anwählen.




Allerdings müssen zur Durchführung des CARs - Mining die Voreinstellungen geändert und die u.g. Einstellungen übernommen werden. Dafür zunächst auf den angezeigten Algorithmus klicken und die angegeben Einstellungen ins neue Fenster übertragen. Die Bezeichnung "classIndex"  bezieht sich dabei auf die Positition, die die Zielgröße innerhalb der Datei einnimmt (-1 = letzte Position). 






Durch die Betätigung der Schaltfläche "Start" wird die Analyse gestartet und das Ergebnis im Fenster ausgegeben.
Die 1. Spalte in der Ergebnisausgabe bezeichet die Regelnummer,
die 2. das Qualitätsmaß "confirmation",
die 3. die True-Positive-Rate,
die 4. die False-Positive-Rate und
die 5. Spalte die Regel/Subgruppe mit der entsprechenden Zielgröße.
Eine gute, interessante Regel besitzt einen hohen Wert des Qualitätsmaßes "confirmation" und nach Möglichkeit zugleich einen hohen Wert der "True-Positive-Rate" (Anteil der Fälle an der Zielgröße insgesamt, der durch die Regel  abgedeckt wird) und eine niedrige False-Positve-Rate (Anteil der falsch der Zielgröße zugeordneten Fälle an allen Fällen, die nicht zur Zielgröße gehören).


Eine Visualisierung der Auswertungsergebnisse bietet WEKA nicht an. Aber die Ergebnisdatei kann als .txt-Format abgespeichert, weiter bearbeitet und beispielsweise in R-Project wieder eingelesen und als HEATMAP visualisiert werden: je grüner desto höher (und interessanter) sind die Regeln/Subgruppen in Bezug auf die Kennwerte "Confirmation" (Qualitätsmaß) und die "True-Positive-Rate".

   Software R-Project, library(pheatmap)

Und auch hier wünsche ich viel Spaß und Erfolg.






 10. Zum Verhältnis von
klassischer Statistik und Data Mining



Wie gezeigt: Für intelligente und aussagekräftige Auswertungen von Daten ist man nicht zwingend auf das Instrumentarium der klassischen Statistik angewiesen. Gerade Abhängigkeitsanalysen lassen sich vortrefflich mit Verfahren durchführen, die aus dem so genannten Data Mining oder auch Machine Learning stammen. Diese stellen i.d.R. deutlich weniger Voraussetzungen an die Daten, sind konzeptionell einfacher und deshalb häufig in automatisierter Form anwendbar. Ich benutze in meinen Arbeitszusammenhängen mittlerweile ausschließlich Auswertungsverfahren aus dem Data Mining - wie CARs-Mining und Rule Induction -, und muss dabei nicht notwendig auf Signifikanztests und Effektgrößen verzichten. Überspitzt könnte man auch formulieren:
"Im Jahr 2015 muss kein Mensch mehr 'Statistik' betreiben, um qualifizierte und aussagekräftige Auswertungen durchzuführen. Und Geld für entsprechende Software muss man auch nicht ausgeben."
Zu den grundlegenden und konzeptionellen Unterschieden von klassischer Statistik und Data Mining siehe die folgende Auflistung.  


Idealtypische Gegenüberstellung von Statistik und Data Mining:

Bereich Klassischer statistischer Ansatz Data Mining
im Rahmen des Knowledge Discovery 
Kurzcharakterisierung
Definition "Statistics, especially as taught in most statistics texts, might be described as being characterized by data sets which are small and clean, which permit straightforward answers via intensive analysis of single data sets, which are static, which were sampled in an iid manner, which were often collected to answer the particular problem being addressed, and which are solely numeric."
(Hand 1998)
"Data mining is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data."
(Fayyad 1996)
Paradigma deduktiv weil i.d.R. Theorie-basiert,  induktiv bei Inferenzschlüssen induktiv weil heuristisch 
Art der Analyse konfirmativ: Hypothesen testend, auf Population bezogen -
"Testing hypothesis"
explorativ: Muster entdeckend, auf  Datensatz beschränkt -
"Finding the right hypothesis"
Datengewinnung erst auf der Basis des Forschungsdesigns Daten liegen i.d.R. schon vor, Sekundäranalyse
Fallzahlen eher klein  eher groß 
Variablenumfang klein sehr groß
Datenqualität i.d.R. hoch "dirty", mit fehlenden Werten
Skala der Merkmale überwiegend metrisch gemischtes Skalenniveau 
dominierende  Modellklasse Regression (metrische Zielgröße) Klassifikation (kategoriale Zielgröße)
Analyse-Philosophie "The model is king":
voraussetzungsvolle mathematische und inhaltliche, theoretische Modelle. Die Daten müssen den
Anwendungsvoraussetzungen der mathematischen Modelle entsprechen.
"The data is king":
möglichst modellarm ("nah an den  Daten") und voraussetzungsfrei. Die Verfahren sollen den Daten "folgen" und nicht die Daten dem mathematischen Modell.
Durchführung Standardisiertes "Kunsthandwerk" Weitgehend automatisiert
Modellvoraussetzungen In der Praxis (sozialwissenschaftlicher Forschung) häufig unrealistisch: multivariate Normalverteilung, unkorrelierte Prädiktoren, Varianzhomogenität, keine Ausreißer, keine fehlenden Werte, Zusammenhänge der Merkmale sind lediglich linear und additiv,  theoretische Prüfverteilungen anstatt empirischer, ... I.d.R. gering. Gemischte Skalenniveaus, fehlende Werte und Interkorrelationen können problemlos verarbeitet werden (z.B. bei Entscheidungsbäumen).
Bei einigen Verfahren (z.B. Associative Classification) wird aber ein kategoriales Skalenniveau aller Merkmale verlangt (ggf. "supervised discretization" nötig).
Umgang mit Merkmalsinteraktionen Interaktionen widersprechen i.d.R. den Modellvoraussetzungen und  müssen zudem expizit und ex ante definiert werden. Deren Berücksichtigung führt gleichwohl zu instabilen Schätzern (Multikollinearität). Gerade auch Interaktionen höherer Ordnung (z.B. 3-Weg- oder 4-Weg-Interaktionen) stehen i.d.R. im Fokus der Analyse, werden exploriert.
Erkenntnisgewinn "Auspartialisierte Effekte", d.h.: von den Wirkungen der anderen erklärenden Variablen bereinigte Effekte der einzelnen Merkmale; oder anders formuliert: Die Erklärungskraft einer Variablen, wenn die Wirkung aller anderen Variablen "herausgerechnet" ist.
Bei dieser Art von "1-Variablen-Statistik" bleibt das Zusammenwirken der Merkmale unterbelichtet.
Merkmalsinteraktionen, Merkmalskonfigurationen, Moderatoren, Resilienzfaktoren, homogene Subgruppen, homogene Segmente oder nicht-lineare Zusammenhänge werden identifiziert.
Gesellschaftlicher Anwendungsbereich Wissenschaft, akademischer Bereich Ursprünglich überwiegend Business-Bereich. Zunehmend auch  Bereiche der wiss. Forschung mit Massendaten wie z.B. Astronomie, Meteorologie, Gesundheitswissenschaften, Bioinformatik, speziell Genomforschung, etc.
Software-Implementierung Ursprünglich überwiegend kommerziell Kommerziell und Freeware-Tools der  Machine Learning- und Data Mining-Community
Typische Verfahren Linear Regression, ANOVA, MANOVA, Discriminant Analysis, Logistic Regression, GLM, Factor Analysis, ... Decision Tree Induction, Rule Induction, Association Rules, Associative Classification, Subgroup Discovery, Nearest Neighbors, Clustering Methods, Feature Extraction, Visualization, Neural Networks, Genetic Algorithms, Self-Organizing Maps, ...
Hardware-Voraussetzungen Gering, wg. restriktiver Annahmen der statistischen, mathematischen Modelle (theoretische Prüfverteilungen, lineare Statistik, ...) Eher hoch, wegen geringer Restriktionen der Modelle (Verfahren "folgen" den Daten und nicht die Daten dem mathematischen Modell). Bei einigen Verfahren Implementierung von Parallel-Computing sinnvoll.
(vgl. u.a. Fayyad et al. 1996, Friedman 1998, Hand 1998)


Aus der Perspektive der klassischen Statistik ist Data Mining im Rahmen der Abhängigkeitsanalyse demnach nichts anderes als eine weitgehend automatisierte, explorative Analyse großer Datensätze in Form einer Sekundäranalyse - "The data is king".

Aus der Perspektive des Data Mining  ist die klassische Statistik nicht viel mehr als eine Testung weniger isolierter Haupteffekte auf Signifikanz mit z.T. realitätsfernen, stark formalisierten mathematischen Modellen an einem kleinen, überschaubaren Datensatz - "The model is king".

Aus meiner Perspektive ergänzen sich Data Mining und klassische Statistik insbesondere deshalb, weil das Data Mining dazu beitragen kann, die Hypothesen erst einmal zu finden ("finding the right hypothesis"), die mit der klassischen Statistik getestet werden können.
Zudem bietet das Data Mining spezielle Verfahren und Modelle für das Zusammenwirken von Merkmalen (d.h. Merkmalsinteraktionen) an, für die die klassische Statistik weitgehend blind ist - "The iteraction is king".





 11. Die Analyse von Interaktionen im Data Mining


Warum ist die Analyse der Interaktionen von Merkmalen in der Abhängigkeitsanalyse eigentlich so bedeutsam? Oder vielleicht ist es besser zu fragen, warum die Interaktionsanalyse so bedeutsam sein sollte - denn in der Praxis findet sie eher selten Anwendung. Die Antwort darauf ist verhältnismäßig einfach:
Weil alles mit (fast) allem (zumindest ein wenig) zusammen hängt.

Unabhängig von der Domäne, der Disziplin, der Forschungsrichtung -  sei es in der Systemtheorie, der Chaosforschung, der Hirnforschung, der Wetterforschung, der Ökologie, der Kybernetik, der Medizin, der Psychotherapie, der Resilienzforschung, der Genomforschung und so weiter und so fort - , überall stößt man auf das gleiche theoretische Credo der Allgegenwart der Interaktion von Merkmalen:
Alles hängt mit (fast) allem (zumindest ein wenig) zusammen.

Die Allgegenwart der Interaktionen wird in den einzelnen methodischen Ansätzen und Forschungsbereichen freilich ganz unterschiedlich reformuliert. Dazu folgende kleine Impressionen (siehe auch Kapitel 11 weiter unten):

Das Credo der Qualitative Comparative Analysis:
"If … we live in a world of great causal complexity, then a common pattern will be for outcomes to result from different combinations of causal conditions." 
(Ragin 2000)

Das zentrale Problem bei Experimentalstudien (aus der Perspektive der Subgroup Analyses):
"In the presence of a qualitative treatment–subgroup interaction, the question ‘Which treatment is better, A or B?’ becomes meaningless and should be replaced by ‘Which treatment is best for which kind of patients?’"

(Dusseldorp 2014)


Das Credo der "Realistic Evaluation":
"What works for whom in what circumstances and in what respects, and how?"
(Pawson, Tilley 1997)

Das Theorie-Empirie-Dilemma in den Sozialwissenschaften, insbesondere der Erziehungswissenschaft:
"In education, broad theories and ecological generalizations often fail because they cannot incorporate the enormous number or determine the power of the contexts within which human beings find themselves."
(Berliner 2002)

Die Allgegenwart der Interaktionen in der Genomforschung:
"In each of our ~10^13 cells is a complete genome of 3·10^9 base pairs. Changing any of the bases in any of the cells can lead to disease."  (Krzywinski 2012)


Doch in die statistischen Modellierungen finden diese Einsichten in der Regel wenig Eingang. In der Auswertungspraxis dominiert weithin das Modell der klassischen "1-Variablen-Statistik": Haupteffekte isolieren und auspartialisieren, Nettoeffekte berechnen und Interaktionen - wegen ihrer ungünstigen Eigenschaften im Modell - nach Möglichkeit meiden.




Was sind Merkmals-Interaktionen?

Diese Frage ist nicht ganz so einfach zu beantworten. Denn in Anhängigkeit vom Analyseansatz oder statistischen Modell  fallen die Antworten und die technische Modellierung von Interaktionen gänzlich unterschiedlich aus.

Im klassischen Regressionsmodell lässt sich eine Interaktion wie folgt beschreiben:
"A first-order interaction of two independent variables X1 and X2 on a dependent variable Y occurs when the relation between either of the X’s and Y (as measured by the linear regression slope) is not constant for all values of the other independent variable. Other expressions for interactions are moderator effects and moderating effects ..." (Jakulin 2003, 36). Solch eine Interaktion zweier Variablen wird dann i.d.R. durch einen multiplikativen Term dieser Merkmale in der Regressionsgleichung modelliert.

Bei einem Klassifikationsproblem mit kategorialen Daten wiederum lässt sich die Interaktion von Merkmalen z.B. durch ein eigenes, Entropy-basiertes Maß namens "interaction gain" messen. In diesem Kontext wäre eine Interaktion dann wie folgt definiert:
"An interaction is an aspect that indicates that a certain amount of entropy cannot be eliminated without seeing all the attributes at once." (Jakulin 2004, 9 )
Unterschieden wird dabei zwischen "positive interaction" (synergy between attributes) and "negative interaction" (redundancy among attributes, vgl. auch Jakulin/ Bratko 2003). Diese Metrik findet beispielsweise beim Multifactor Dimensional Reduction-Ansatz Anwendung (MDR nach Moore u.a. 2006, Hahn/ Ritchie/ Moore 2003).

Es kursieren in der Abhängigkeitsanalyse eine Vielzahl von Begriffen, die auf ein wie auch immer geartetes Zusammenwirken von Merkmalsausprägungen abheben: Interaktionen, Moderatoren (z.B. im Regressionsmodell) , Konfigurationen (z.B. bei der Realistic Evaluation,  Konfigurationsfrequenzanalyse, Qualitative Comparative Analysis) , Typen (z.B. bei der Konfigurationsfrequenzanalyse),  Subgruppen (z.B. bei der Subgroup Discovery), Segmente (z.B. bei Decision Trees), Regeln (z.B. bei der Rule Induction), Assoziations-Regeln (z.B. bei Association Mining), Muster/Pattern (generell im Machine Learning), etc.
All diesen Konzeptualisierungen erscheint mir folgendes Grundverständnis gemeinsam: "An interaction is a feature of the problem domain which cannot be learned by means other than joint segmentation of two or more attributes. An interaction is resolved by joint segmentation of two or more attributes." (Jakulin 2003, 47)

Ich werde im weiteren - daran anknüpfend  und Unschärfen bewußt in Kauf nehmend - eine Interaktion als eine Kombination von Merkmalsausprägungen (bei der Erklärung einer Zielgröße) verstehen und die Begriffe Regel, Subgruppe, Konfiguration synonym gebrauchen und wie folgt definieren:
Eine Regel/Subgruppe/Konfiguration besteht aus einer Merkmalsausprägung oder einer Kombination von Merkmalsausprägungen (Merkmalsinteraktion). Eine Regel/Subgruppe/Konfiguration dient der Erklärung/Klassifizierung einer Zielgröße.





CARs - Mining im Data Mining

Wie weiter oben angesprochen, bietet das Data Mining eine Vielzahl von Ansätzen zur Modellierung von "Merkmalsinteraktionen" an. Bei einem Klassifikationsproblem (d.h. mit kategorialer Zielgröße) lassen sich grob 2 Richtungen unterscheiden (siehe Grafik 1): Solche, die den ganzen Datenraum vollständig untersuchen ("exhaustive search") und dabei eine Vielzahl lokaler Muster in Erfahrung bringen und solche, die auf heuristische, selektive Suchstrategien zurück greifen und dabei wenige, optimierte Klassifikationsregeln hervorbringen. Zur letzten Gruppe gehören u.a. die so genannte Rule Induction und die Entscheidungsbaumverfahren (hier ohne Evolutionäre Algorithmen). Bei den gelb eingefärbten Ansätzen handelt es sich um die Verfahren, die bei den oben aufgeführten Beispieldatensätzen miteinander verglichen wurden.  


                     Grafik 1:



Die Modellansätze zur "exhaustive search" - wie z.B. die Associative Classification, spezielle Varianten der Subgroup Discovery und die Supervised Association Rules -  habe ich (der Einfachheit halber) unter dem Oberbegriff des "Class Association Rules - Mining" zusammen gefasst. Synonyme für diesen Begriff  sind auch "supervised association rules" und "predictive association rules".
Allen hierunter aufgeführten Ansätzen soll gemeinsam sein, dass sie einem "Association Mining-Paradigma" folgen und - wie beim Association Rule Mining - den kompletten Datenraum durchsuchen. Nicht zufällig sind die meisten Algorithmen der Associative Classification, der Supervised Association Rules und einige der Subgroup Discovery direkt der Analyse von Association Rules entlehnt (APRIORI, FP-growth etc.). 

Genau so gut hätte man aber auch einen anderen Oberbegriff wählen können, wie z.B. Subgroup Discovery. Romero u.a. (2009) verstehen die Associative Classification beispielsweise ausdrücklich als eine spezielle Art der Subgroup Discovery. Zudem werden die zentralen Auswertungen auf dieser Seite mit einem Programm durchgeführt, das im Selbstverständnis des Programmentwicklers eine Subgroup Discovery darstellt (R-Project library rsubgroup von M. Atzmueller).
Aber es verkompliziert die Begriffswahl ungemein, dass mittlerweile eine Vielzahl von Ansätzen unter dem Namen Subgroup Discovery exisitiert, die auf vollkommen unterschiedliche Algorithmen, wie z.B. solche der Rule Induction (vgl. CN2-SD von Lavrac), zurückgreifen und anstatt einer "exhaustive search" eine "beam search" durchführen. Derlei Ansätze fallen aber ausdrücklich nicht unter das "Association Mining Paradigma" im o.g. Sinne. Meiner Erfahrung nach entfalten sich die besonderen Stärken und Qualitäten einer Subgroup Discovery nur im Rahmen des "Association Mining-Paradigma" und einzig und allein, wenn der Suchalgorithmus den kompletten Datenraum ("exhaustive search") auf bedeutsame lokale Muster hin untersucht. Die Vielgestaltigkeit der Algorithmen, die in der Subgroup Discovery mittlerweile Anwendung finden, sind in der Grafik 2 systematisch zusammen gefasst. Nur die gelb eingefärbten Algorithmen fallen unter das o.g. Association Mining-Paradigma. 

  Grafik 2:


                                 (nach Herrera u.a. 2011,  Romero u.a. 2009)




Unterschiede zwischen und Gemeinsamkeiten von Associative Classification, Subgroup Discovery und Supervised Association Rules - Mining

In der Wissenschaft soll es öfter vorkommen, dass in unterschiedlichen Domänen oder von verschiedenen Personen gleiche oder zumindest sehr ähnliche Konzepte entwickelt werden, die dann unter differierenden Begriffen kolportiert werden. Ähnlich sehe ich das Verhältnis von Associative Classification, Subgroup Discovery und Supervised Association Rules. Alle Ansätze sind mit besonderen Kalibrierungen durchaus vergleichbar und weisen eine hohe Konvergenz und starke Überlappungen auf, sind aber ursprünglich in unterschiedlichen Domänen der Data Mining-  und Machine Learning-Community unabhängig voneinander entstanden (siehe dazu grundsätzlich auch Lavrac u.a. 2004).

Vorab deshalb eine kurze begriffliche Klärung:

Association Rules - Mining (AR):
Exploration der Assoziationen unabhängiger Merkmale in Form von Assoziationsregeln (if X1+X2 then X3 +X4).
Ziel: Beschreibung
Datenbasis: Trainingsdaten
Algorithmus: z.B. APRIORI

Supervised/predictive Association Rules (PARs):
Die Anwendung von Assoziationsregeln zur Beschreibung einer abhängigen Zielgröße (if X1+X2  then Y1).
Ziel: Beschreibung
Datenbasis: Trainingsdaten
Algorithmus: z.B. Tertius

Associative Classification (AC):
Die Anwendung von Assoziationsregeln zur Beschreibung einer abhängigen Zielgröße (if X1+X2  then Y1) mit anschließender Verwendung eines speziellen Classifiers, der auf Testdaten angewendet wird.  
Ziel: Klassifizierung
Datenbasis: Trainings- und Testdaten
Algorithmus: z.B. CBA

exhaustive Subgroup Discovery (SD):
Die Anwendung von Assoziationsregeln zur Beschreibung einer abhängigen Zielgröße (if X1+X2  then Y1) .
Ziel: Beschreibung
Datenbasis: Trainingsdaten
Algorithmus: z.B. SD-map

Class Association Rules (CARs):
Die Auflistung von relevanten Assoziationsregeln zur Beschreibung einer abhängigen Zielgröße (if X1+X2  then Y1).

Class Association Rules - Mining (CARs- Mining):
Die Exploration von CARs (if X1+X2  then Y1). Oberbegriff für PARs, AC und exhaustive SD.




Bei der Associative Classification handelt es sich um einen Ansatz, der gegen Ende der 90er Jahre Association Mining und Classification miteinander zu verbinden sucht. Dabei geht es im Kern um die Anwendung des Association Rules Mining (auch "Basket Analysis" genannt) auf eine abhängige Variable:

"Associative classification (AC) is a data mining approach that combines association rule and classification to build classification models (classifiers) ... Association rule discovery and classification are closely related data mining tasks with the exception that association rule finds relationships among attribute values in a database whereas classification’s goal is allocating class labels to unseen data known (test data set) as correctly as possible. Liu et al. [4] proposed a hybrid approach of association rules and classification mining, called associative classification (AC). In AC mining, the training phase is about searching for the hidden knowledge primarily using association rule algorithms and then a classification model (classifier) is constructed after sorting the knowledge in regards to certain criteria and pruning useless and redundant knowledge. Several research studies [4]-[9] showed that AC mining has advantages over other traditional classification approaches such as decision tree [10] covering and rule induction [11]. AC is often capable of building efficient and accurate classification systems, since it utilizes association rule discovery methods in the training phase [4] which finds all possible relationships among the attribute values in the training data set. This in turn leads to extract all hidden rules that can be missed by other classification algorithms. Moreover, the rules produced in AC are easy to understand and manually updated by end-user, unlike neural network and probabilistic approaches, which produce classification models that are hard to understand."  (Weydan S., 2014, S.34)

Das Ablaufschema einer Associative Classification sieht dementsprechend wie folgt aus (siehe Grafik 3):

                Grafik 3:



Der Ansatz der supervised/predictive Association Rules (PARs) entspricht vom Ablaufschema her dem einer Associative Classification, allerdings i.d.R. ohne Bildung eines speziellen Classifiers in Phase 5. Das Ablaufschema einer klassischen Subgroup Discovery (siehe Kapitel 3 oben) sieht dem einer Associative Classification ebenfalls verblüffend ähnlich. Vereinfachend könnte man auch hier sagen: Die Subgroup Discovery ist eine Associative Classification ohne Phase 5 (class prediction on test data).


Der Begriff und das Konzept einer Subgroup Discovery geht usprünglich auf Klösgen und Wrobel ebenfalls gegen Ende der 90er Jahre zurück:
“Given a population of individuals and a property of those individuals that we are interested in, find population subgroups that are statistically ‘most interesting’, for example, are as large as possible and have the most unusual statistical (distributional) characteristics with respect to the property of interest”. (Klösgen 1996, S.249)
Oder anders formuliert:
"Subgroup discovery is a descriptive local pattern mining task that aims to find subsets of a given dataset where the distribution of a binary target variable is substantially different from its distribution in the whole data, measured by a quality measure [1], [2]. Generally, subgroups are described by conjunctions of conditions on the attributes of the dataset." ( Mampaey M. u.a., 2012, S.1 )

Die wesentlichen Unterschiede zwischen der Associative Classification (AC) und der Subgroup Discovery (SD) sehe ich in folgenden Bereichen:
Die Subgroup Discovery bewegt sich konzeptionell "half-way beetween predictive and desciptive induction" (vgl. Herrera u.a. 2011, Lavrac u.a. 2004). Dem gegenüber tendiert die Associative Classification mit der finalen Konstruktion eines Classifiers auf der Basis von Testdaten zur Gruppe der Ansätze einer "predictive induction". Nicht desto trotz lassen sich in der Praxis die im Rahmen einer SD generieren Subgruppen vorzüglich als Klassifikations-Regeln nutzen (siehe Beispieldaten oben).

Die zentrale Gemeinsamkeit aller aufgeführten Ansätze aber ist, dass sie so kalibriert werden können, dass sie multiple lokale Muster im Rahmen einer kompletten Sichtung des Datenraums ("exhaustive search") mittels Algorithmen explorieren, die dem Association Rule Mining entstammen bzw. an diese angelehnt sind. Und nur diese Kalibierung macht meines Erachtens eine gute Analysestrategie aus. Und genau in diesem Sinne soll der Oberbegriff "Class Association Rules - Mining (CARs - Mining)" auf dieser Seite auch Verwendung finden (siehe Grafik 1 und 2 oben).




Validierung eines Modells

An dieser Stelle noch ein kurzer Nachsatz zu den sogenannten Validierungstechniken eines Modells. Nach den Regeln der Kunst im Data Mining wird beim "supervised learning" ein Analyse-Modell auf einen Datensatz mit Trainings-Daten angewendet (wie z.B. die Subgroup Discovery auf die Iris-Daten weiter oben), um ein Erklärungsmodell zu generieren (die Identifikation von Subgroups). Diese Erklärungsmodell wird dann an einem Test-Datensatz auf seine Leistungsfähigkeit (Klassifizierungsfähigkeit) hin überprüft. Der Grund dafür ist, dass man zu einer zu optimistischen Einschätzung der Leistungsfähigkeit eines Erklärungsmodell kommen würde, wenn man das Erklärungsmodell mit den Daten überprüft, anhand derer das Modell schon entwickelt wurde. Dadurch lässt sich zudem ein so genanntes "Overfitting" des Modells vermeiden. Trainings- und Test-Daten können auf unterschiedliche Art und Weise gewonnen werden (z.B. Aufsplitten der Basisdaten in Test- und Trainingsdaten, 10-folds Cross Validation, spezielle eigene Testdaten).
Das Dilemma bei diesem Vorgehen ist zweifach: Zum einen die Voraussetzung, dass sowohl Trainings- als auch Test-Daten idealerweise möglichst groß sein müssen. Und zum zweiten die nicht unkritische Annahme, dass beide Datensätze repräsentative Samples desselben zugrunde liegenden Problems sind. 

In meinem Verständis ist es nicht zwingend nötig zur Validierung eines Modells des CARs - Mining auf Testdaten zurückzugreifen. Es ist vollkommen ausreichend mit einem Datensatz (Basisdaten, Trainingsdaten) zu arbeiten, und zwar im wesentlichen aus folgenden Gründen:
 Unter diesen Bedingungen halte ich den Rückgriff auf Testdaten zur Validierung von Modellen für verzichtbar. Das ist auch der Grund, warum bei der Analyse der Beispieldatensätze (s.o.) nur auf  "Trainingsdaten" zurückgegriffen wurde.





 12. Warum diese Seite?


Nach über 25jähriger Tätigkeit in der empirischen Forschung, überwiegend im akademischen Bereich, bin ich reichlich desillusioniert.

Auf der einen Seite stehen heute die Studenten/innen der vielfältigen Sozialen Wissenschaften, für die die Einführung in empirische Forschungsmethoden und in die Hilfswissenschaft Statistik mittlerweile obligatorisch geworden ist. Gelehrt werden aber überwiegend noch statistische Modelle, die ihren Ursprung im letzten und vorletzten Jahrhundert haben - also doch deutlich noch vor der Erfindung des Computers -, wie z.B. die Normalverteilung von de Moivre 1733, die Least Squares Methode von Gauss 1809 und Legendre 1806 als Grundlage linearer Gleichungsmodelle, der Zentrale Grenzwertsatz von Laplace 1810,  das Populationsmodell statistischer Inferenz von Neyman und Pearson 1928 mit theoretischen Prüfverteilungen bei Signifikanztests etc. Und weil den Statistikern von damals (die häufig Mathematiker waren) kein Computer zur Verfügung stand  - mit dem sie zum Beispiel das konzeptionell einfache aber rechenintensive Randomization Model statistischer Inferenz von Fisher 1936 hätten umsetzen können -, waren sie gezwungen, rigide und voraussetzungsvolle, häufig datenferne mathematische Modelle zu entwerfen, die sie überhaupt erst in die Lage versetzten, größere Datenmengen zu verarbeiten. Doch dadurch wurden die Statistiker von ihren Mitmenschen nicht mehr verstanden, was bis heute ihr Herrschaftswissen und das häufige Unbehangen gegenüber dieser Disziplin bei vielen Studenten/innen begründet. Und mit rudimentären Kenntnissen dieser "Steinzeit"-Statistik ausgestattet, führen jedes Jahr Zehntausende von Studenten/innen der Soziologie, Erziehungswissenschaft, Sozialen Arbeit, Politologie etc. ihre empirischen Forschungsarbeiten durch, produzieren dabei mitunter mehr Methodenartefakte als substanziellen wissenschaftlichen Zugewinn - weil sie die benutzten statistischen Modelle nicht wirklich verstehen - und werden anschließend auf die Berufswelt losgelassen, in der ihnen diese Art von Statistik i.d.R. wenig hilfreich ist.  





Auf der anderen Seite stehen die Programmentwickler von heute. Sie nennen sich nicht mehr unbedingt Statistiker, sondern sie sagen, sie betreiben Data Mining und Knowledge Discovery oder Machine Learning. Ausgestattet mit parallel geschalteten Computern entwickeln sie in immer kürzeren Intervallen neue, vor allem  modell- und voraussetzungsarme Verfahren der Datenanalyse und Datenvisualierung (wie z.B. Association Rules und Hive-Plots), bei denen die Algorithmen den Daten folgen (und nicht die Daten dem mathematischen Modell folgen müssen). Diese Ansätze versetzen sie in die Lage riesige Datenmengen zu analysieren, wie z.B. in der Genomforschung. Dabei sind diese Ansätze konzeptionell häufig sehr einfach.

(Quelle: Krzywinski 2012)
                                                                                                                                                                                     

Und dazwischen - zwischen diesen beiden Polen - ist nicht viel.
Die strukturellen Gründe für diese große Kluft  zwischen den akademischen Statistik-Ausbildungsbemühungen in den sozialwissenschaftlichen Anwenderwissenschaften und dem Entwicklungsstand der Datenanalyse - Community sehe ich insbesondere in 4 Bereichen:

 
* Statistik-Campuslizenzen als Hemmnis

So glücklich man als Studierender in den 80er Jahren war, über Campus-Lizenzen einen Zugang zu etablierten, kommerziellen Statistik-Programmen  - in der Regel SPSS - zu bekommen, umso kontraproduktiver erweist sich die Institution der Campus-Lizenz heuzutage. Durch diese kommerziellen Programme werden Auswertungsstandards gesetzt, die als Standards nicht mehr taugen.
Heutzutage schließen z.B. Studierende der Soziologie ihr Studium ab und rühmen sich, in SPSS programmieren zu können, haben aber noch nie etwas von Effektgrößen oder Entscheidungsbaumanalysen gehört. Die wirklich innovativen und interessanten Routinen - wie beispielsweise Data Mining-Ansätze - finden in die Campuslizenzen in der Regel keinen Eingang sondern sind den kommerziellen Versionen für den Business-Bereich vorbehalten. Und bis neue statistische Verfahren Eingang in die Campus-Lizenzen gefunden haben, vergehen Jahre (wenn nicht Jahrzehnte). Die Studierenden sehen mit Campus-Lizenzen nur einen alten knorrigen Baum am Waldrand und denken, das wäre schon der ganze Wald.
Insofern haben ärmere Länder einen nicht zu unterschätzenden Wettbewerbsvorteil. Ein Kollege aus Ungarn hat mir berichtet, dass sich die Hochschulen in seinem Land i.d.R. keine teuren SPSS-Lizenzen leisten konnten und deshalb sehr früh auf die Nutzung der Freeware R-Project von CRAN zurückgegriffen wurde. Dadurch hatten die Studierenden aber direkten Zugang zu den aktuellsten Entwicklungen und Programmen der Datenanalyse-Community. Ihnen war es möglich Resampling-Verfahren in der Inferenzstatistik zu einer Zeit einzusetzen, als bei SPSS noch keiner recht gewusst hat, wie man Resampling eigentlich buchstabiert. Mittlerweile existieren unzählige qualifizierte Auswertungs- und Statistik-Programme als Open Source-Anwendungen bzw. Freeware. Ein Rückgriff auf antiquierte Campus-Lizenzen ist weder nötig noch sinnvoll.
Im Jahr 2015 muss keine/r mehr Geld für exzellente Statistik- oder Auswertungs-Software ausgeben. Es sei denn, sie/er arbeitet in der Pharmaforschung, wo die Nutzung der Software SAS weiterhin Voraussetzung für eine spätere Medikamentenzulassung ist. Scheinbar sind nur die Entwickler von SAS also in der Lage einen simplen t-Test zu programmieren (ein weiteres interessantes Beispiel übrigens für die Verquickung von Wissenschaft und Business).


* "Standards" als Hemmnis wissenschaftlicher Entwicklung

Standards zu definieren und zu setzen, bedeutet, eine aktuelle Mode zum Heiligen Gral der Wissenschaftlichkeit zu erklären. Und ab diesem Moment ist alles, was nicht Standard ist, automatisch unwissenschaftlicher Unsinn, eben nicht "state of the art". Die Festlegung von Standards bedeutet faktisch die Behinderung des wissenschaftlichen Fortschritts. Denn wer den Modestandard nicht hält, der bekommt seine Artikel nicht in Review-Zeitschriften unter und dessen Karrierechancen sinken rapide. Standards zementieren den aktuellen Stand der Unwissenheit. Und Standards sind ziemlich hartnäckig.
Standards sind in ihrer diskriminierenden Funktion der tiefer liegende Grund dafür, dass sich wissenschaftlicher Fortschritt nicht als ein kontinuierlicher, kumulativer Prozess des Zugewinns an Erkenntnis vollzieht sondern als ein eruptiver, revolutionärer Paradigmenwechsel nach dem Motto "Alles wieder zurück auf Start" (vgl. den Inkommensurabilitätsbegriff von Kuhn (1962) und Feyerabend (1976, 1978)).  
Die faktischen, alltagspraktischen Fundamente von Standards sind das Review-Verfahren, die Journal Guidelines und die prominente Statistik-Software. Dazu zwei kleine Beispiele aus dem Bereich der statistischen Verfahren.

Ludbrook and Dudley (1998) berichten in ihrem Artikel "Why Permutation Tests are Superior to t anf F Tests in Biomedical Research" von ihren Erfahrungen bei der Veröffentlichung von Fachartikeln, in denen die Signifikanzprüfungen auf dem Randomization Model von Fisher (mittels Resamplingverfahren) basieren - und eben nicht auf dem Standard des Population Model von Neyman und Pearson in Form theoretischer Prüfverteilungen:

"Randomized rather than random-sampling designs are used in most comparative biomedical experiments. On the basis of pure theory, statistical inferences from the experiments are valid only under the randomization model of inference. Why, then, do biomedical investigators not employ exact or sampled permutation tests to analyze their results?  
A trivial reason is that editors of biomedical journals might not understand permutation tests and their statistical advisers might not accept the arguments we have put forward. Our personal experience is that it is much easier to get a manuscript published if one stays with classical tests under the population model.
There is also an important practical point. There are plenty of microcomputer statistical software packages with which to perform classical or modified t and F tests, but a dearth of software for performing permutation tests for differences between means." (ebd. 131)

Mittlerweile entwickeln sich Resamplingverfahren selber zum Standard der Datenanalyse-Community, sind "state of the art". Die Vertreter des "New Curriculum" (Lock et al. 2012) beispielsweise plädieren dafür, die akademische Ausbildung in Inferenzstatistik grundsätzlich nur auf Resamplingverfahren zu stützen.

Vergleichbare Erfahrungen hat Cumming (2013, 2014 a,b) gemacht. Das Beharrungsvermögen, das Festhalten an unsinnigen Standards thematisiert der Begründer der New Statistics in der Psychologie in seinem provokanten Artikel "There's life beyond 0.05". Cumming setzt sich dort mit dem unseligen Standard des  "Null-Hypothesis Significance Testing (NHST)" auseinander:   
"For more than 50 years, however, leading scholars — Paul Meehl, Jacob Cohen, and many others — have explained the deep flaws of NHST and described how it damages research progress.
... Statistics teaching, textbooks, software, the APA Publication Manual, journal guidelines, and universal practice all largely centered on NHST. We claimed to be a science, but could not change our methods in the face of evidence and cogent argument that there are vastly better ways.
...In 2005, Stanford University Professor of Medicine John Ioannidis connected the dots in a famous article titled “Why Most Published Research Findings Are False.” He identified the overwhelming imperative to achieve statistical significance as a core problem. It was imperative because it was the key to publication, and thus to jobs and funding.
... Most excitingly, NHST was, at long last, subjected to renewed scrutiny. The 2010 edition of the APA Publication Manual included the unequivocal statement that researchers should “wherever possible, base discussion and interpretation of results on point and interval estimates.” It included for the first time numerous guidelines for reporting CIs." (Cumming 2014b)

Standards sind hartnäckig. Standards entlasten.
Sie entheben scheinbar von der Aufgabe, selbst zu denken, selbst zu entscheiden (und nicht zuletzt selbst zu verstehen), was man denn da eigentlich tut. Wider besseren Wissens und gegen alle Evidenz halten sich die Standards mitunter über Jahrzehnte.

Wissenschaftliche Standards sind wie das "Anbinden von Katzen während des Gottesdienstes". 
Exegese über das Anbinden von Katzen während des Gottesdienstes
Jeden Abend hielt Bruder Michael eine Andacht, und immer störte ihn dabei eine Katze. Der Bruder bat deshalb, die Katze während des Gottesdienstes anzubinden. 
Als Bruder Michael gestorben war, band man die Katze weiterhin an. Als diese Katze starb, fand man eine andere, die man während des Gottesdienstes anbinden konnte.
Drei Jahrhunderte später begannen die theologischen Gelehrten, Abhandlungen über das Mysterium des Anbindens von Katzen während des Gottesdienstes zu verfassen. Das Problem ist noch immer nicht gelöst.
(Marco Aldinger nach Joachim-Ernst Behrendt 1996, 80)

Im Sinne einer anarchistischen Erkenntnistheorie a la Paul Feyerabend würde weniger verbindlicher Standard ein mehr an wissenschaftlichem Fortschritt implizieren. Aber es ist die Psychologie als Disziplin, die seit der empirischen Wende in den Sozialen Wissenschaften die engen Standards empirischer Forschung und statistischer Modellierung setzt. Eine Disziplin, die - wie oben gesehen - in Bezug auf die forschungsmethodologische und statistische Diskussion nicht unbedingt immer auf der Höhe der Zeit ist.


* "Heuschrecke" Psychologie

Die akademische Psychologie versteht sich seit ihrer Geburtsstunde als Fechner'sche Psychophysik im Kern als eine naturwissenschaftliche Disziplin. Wissenschaftlichkeit wird gleich gesetzt mit experimenteller Methodologie und experimentellen Designs.
Und diese naturwissenschaftliche Psychologie mit ihrem ausdifferenzierten Methoden- und Statistik-Arsenal  ist im Verlaufe der so genannten empirischen Wende in den Sozialen Wissenschaften von einer einfachen Bezugswissenschaft zu einer Art Leitwissenschaft in diesen Disziplinen mutiert. Viele Sozialen Wissenschaften (wie die Erziehungswissenenschaft und Soziale Arbeit), die in einer geisteswissenschaftlichen Tradition stehen, hatten den empirischen Standards der Psychologie nichts entgegenzustellen und wurden von dieser wie von einem Heuschreckenschwarm überrannt. Prägnanter institutioneller Ausdruck dafür ist, dass beispielsweise ein Großteil der ausgeschriebenen Stellen der empirischen Bildungsforschung seinerzeit mit gelernten Psychologen besetzt wurde.
In vorauseilendem Gehorsam verzichteten die Anwenderwissenschaften ausdrücklich auf eine eigene Methodenlehre (so z.B. Oelerich, Otto2011 für die Soziale Arbeit). Ganz so, als würde es keine konstitutiven Problemstellungen der einzelnen Fachwissenschaften geben, die natürlich mit besonderen Forschungskonzepten, Methoden und statistischen Verfahren korrespondieren. Und nun wundert man sich in den Anwenderwissenschaften, dass die experimentelle Methodologie durch die Hintertür der "Evidenzbasierung" an den Grundfesten des professionellen Selbstverständnisses rüttelt.
Wissenschaftlichkeit wird gleich gesetzt mit experimenteller Methodologie und experimentellen Designs, die den Anspruch haben, kausaltechnologisches Wissen bereitzustellen. Auf der Basis dieses Wissens sollen Wissenschaft und Handlungspraxis dann gleichermaßen "evidenzbasiert" gesteuert werden. 
Ein solcher Ansatz ist für die Analyse und Steuerung komplexer sozialer Phänome vollkommen ungeeignet und in der Erziehungswissenschaft - nach Jahren intensiver empirischer Wende - grandios gescheitert. Nichts desto trotz wird die Sau namens "Evidenzbasierung" nun durch das nächste Dorf getrieben, das da Soziale Arbeit heißt.

Dabei handelt es sich um eine Tendenz, die sich in den Sozialen Wissenschaftem überall auf dem Globus beobachten lässt, in Deutschland wie in Amerika.
David Berliner beispielsweise, der Grand Seigneur der amerikanischen Bildungsforschung, geht mit der Ausrichtung der amerikanischen Bildungsforschung hart ins Gericht:
"The “evidence-based practices” and “scientific research” mentioned over 100 times in the No Child Left Behind Act of 2001 are code words for randomized experiments, a method of research with which I too am much enamored. But to think that this form of research is the only “scientific” approach to gaining knowledge—the only one that yields trustworthy evidence— reveals a myopic view of science in general and a misunderstanding of educational research in particular. Although strongly supported in Congress, this bill confuses the methods of science with the goals of science. The government seems to be inappropriately diverging from the two definitions of science provided above by confusing a particular method of science with science itself. This is a form of superstitious thinking that is the antithesis of science." (Berliner 2002,18)

   Quelle: Springer

Aber ein Trost bleibt: Denn die antiquierten Standards der Psychologie im Bereich Design und statistische Modellierung ergänzen gut die antiquierten Standards der Statistik-Campuslizenzen (s.o.). Innovation geht anders.



* fehlende Mittler


Es kann nun nicht gerade behauptet werden, es seien immer die besonders qualifizierten und geschulten Lehrkräfte, die an den Hochschulen in den Sozialen Wissenschaften mit der Durchführung von Lehrveranstaltungen zu quantitativ orientierten Forschungsmethoden und Statistik betraut würden. Neben Autodidakten, die stolz sind einen Einführungskurs in das SPSS-Basismodul anbieten zu können, finden sich häufig vagabundierende  "Heuschrecken"- Psychologen (s.o.), die anachronistisch an ihrem naturwissenschaftlichen Fetisch und den damit verbundenen Methoden und statistischen Modellen festhalten.
Der qualifizierte und selektive Transfer von aktuellen Entwicklungen im Bereich der Datenanalyse in die akademische Ausbildung von Studentinnen und Studenten der  Sozialen Wissenschaften setzt Zeit voraus. Zeit zur Orientierung. Eine Zeit, die es an den Hochschulen seit Bologna offensichtlich nicht mehr gibt. Allein das Datenanalyse-Programm R-Project von CRAN verfügt mittlerweile über mehr als 6500 Zusatzpakete (Stand April 2015). Für jeden ist etwas dabei. Aber da den Überblick zu behalten, ist nicht ganz so einfach. Zumal, wenn Zeit ein knappes Gut ist.
Umso wichtiger werden Angebote des Statistik-Coaching oder des distance learning außerhalb des akademischen Bereichs. In dieser Service-Funktion versteht sich auch die hier vorliegende Homepage. 





 EXKURS: Das Unbehagen an der klassischen Statistik

Das Unbehagen an der klassischen, mathematischen Statistik wird nicht allein von Seiten der Data Mining-Community oder überforderten Studienanfängern/innen artikuliert. Auch innerhalb der Statistiker-Gilde finden sich schon seit geraumer Zeit Stimmen, die ein Umdenken fordern.

"Statistics is not the same thing as probability theory. Under the name 'mathematical statistics' several writers ... have built a pompous discipline, which abounds in hypotheses that are never satisfied in practice ... The model must follow the data. and not the other way around. This is another error in the application of mathematics to the human sciences: the abundance of models, which are built a priori and then confronted with the data by what one calls a 'test'. Often the 'test' is used to justify a model in which the number of parameters to be fitted is larger than the number of data points." (Benzecri 1973, nach Gifi 1990, 25)



"Classical (parametric) statistics derives results under the hypothesis that these models are strictly true. However, apart from some simple discrete models perhaps, such models are never exactly true". (Hampel 1973, 87f)

Die mathematische Statistik erinnert an ein geschlossenes, autopoietisches, mitunter tautologisches System. Zur Signifikanzprüfung im Rahmen einer Varianzanalyse z.B. wird bekannterweise der F-Test eingesetzt, der in seiner klassischen Form auf einer theoretischen Prüfverteilung basiert. Damit diese theoretische Prüfverteilung Gültigkeit hat, müssen bestimmte Voraussetzungen erfüllt sein, wie z.B. die Normalverteilung und die Varianzhomogenität. Das Vorliegen dieser Voraussetzungen  wird wiederum über Signifikanz-Tests geprüft, die selbst wieder auf einer theoretischen Prüfverteilung basieren (wie z.B. beim Bartlett-Box-Test), und so weiter und so fort ....






In der Inferenzstatistik beispielsweise setzt sich in jüngster Zeit immer immer mehr die Ansicht durch, bei Signifikanztests die theoretischen Prüfverteilungen durch empirische Prüfverteilungen zu ersetzen und dies insbesondere in der akademischen Ausbildung zu verankern. Dies ist gleichbedeutend mit der Rehabilitierung des Randomization Modells statistischer Inferenz von Fisher aus dem Jahre 1936. George Cobb (2007) gehört zu den einflussreichen Pionieren dieser Richtung, die dafür plädieren, Simulation, Randomisierung und Bootstrapping anstatt Wahrscheinlichkeitstheorie und traditionelle t-Tests in den Fokus der universitären Statistik-Ausbildung zu setzen. Ähnlich argumentieren - wie berichtet - Lock et al.. (2012) mit ihrem "New Curriculum".




Cumming (2014b) plädiert in seiner "New Statistics" für eine radikale Abkehr von einfachen Signifikanztests hin zu aussagekräftigeren Konfidenzintervallen, deskriptiven Effektgrößen und Metaanalysen. Er soll an dieser Stelle deshalb noch einmal ausführlicher zu Wort kommen:

"In the 1950s, psychology started adopting null-hypothesis significance testing (NHST), probably because it seemed to offer a scientific, objective way to draw conclusions from data. NHST caught on in a big way and now almost all empirical research is guided by p values — which are in fact tricky conditional probabilities that few understand correctly.

Why did NHST become so deeply entrenched? I suspect it’s the seductive but misleading hints of importance and certainty — even truth — in a statement that we’ve found a “statistically significant effect.” NHST decisions can be wrong, and every decent textbook warns that a statistically significant effect may be tiny and trivial. But we so yearn for certainty that we take statistical significance as pretty close.

For more than 50 years, however, leading scholars — Paul Meehl, Jacob Cohen, and many others — have explained the deep flaws of NHST and described how it damages research progress. Most reformers have advocated estimation — meaning effect sizes and confidence intervals (CIs) — as a much more informative way to analyze data.

... In 1990 Rothman founded the journal Epidemiology, stating that it would not publish NHST. For the decade of his editorship, it flourished and published no p values, demonstrating that successful science does not require NHST. In psychology, APS Fellow Geoff Loftus edited Memory & Cognition from 1993 to 1997 and strongly encouraged figures with error bars — such as CIs — instead of NHST. He achieved some success, but subsequent editors returned to NHST business as usual.
Psychology and other disciplines using NHST were in a strange situation. NHST was repeatedly demonstrated to be deeply flawed: Almost no defenses of it were published, and yet it persisted. Pioneering editors like Rothman and Loftus could rattle the cage, but couldn’t set their disciplines free of the p value. Statistics teaching, textbooks, software, the APA Publication Manual, journal guidelines, and universal practice all largely centered on NHST. We claimed to be a science, but could not change our methods in the face of evidence and cogent argument that there are vastly better ways.

... Then came reports that some well-accepted results could not be replicated. From cancer research to social psychology, it seemed that an unknown proportion of results published in good journals were simply incorrect. This was devastating — which scientific results could we trust?

In 2005, Stanford University Professor of Medicine John Ioannidis connected the dots in a famous article titled “Why Most Published Research Findings Are False.” He identified the overwhelming imperative to achieve statistical significance as a core problem. It was imperative because it was the key to publication, and thus to jobs and funding. It had three terrible effects. First, it led to selective publication — journals rarely found space for results not reaching statistical significance. Therefore, second, researchers sought ways to select and tweak during data analysis, to find some result that could be declared statistically significant. Third, any result that once achieved p < .05 and was published was considered established, so replication was rare.

Ioannidis argued convincingly that the combination of these three effects of reliance on NHST may indeed have resulted in most published findings being false. Suddenly this was serious — the foundations of our science were creaking. Happily, a range of imaginative responses have now emerged and are developing fast — several are described elsewhere in this issue of the Observer.

Most excitingly, NHST was, at long last, subjected to renewed scrutiny. The 2010 edition of the APA Publication Manual included the unequivocal statement that researchers should “wherever possible, base discussion and interpretation of results on point and interval estimates.” It included for the first time numerous guidelines for reporting CIs."  





Kleiner Exkurs
zu Kausalität und Korrelation, Erklärung und Beschreibung




In jedem Einführungstext in statistisches Denken, in jeder universitären Einführungsveranstaltung in Statistik findet sich der Hinweis, dass eine statistische Korrelation nicht mit einem kausalen Zusammenhang verwechselt werden dürfe. Und dann folgt in der Regel das Beispiel mit den Störchen: Je höher die Storchenzahl in der Region, desto höher die regionale Geburtenrate. Doch das ist nur die halbe Wahrheit.

Kausalität ist ein Konstrukt. Und Kausalität ist vor allem ein menschliches Bedürfnis. Kein Mensch weiß, ob es Kausalität wirklich gibt und wenn ja, in welcher Form. Im Verständnis eines Radikalen Konstruktivismus ist "Kausalität" aber mitunter eine ganz nützliches Konstrukt - um beispielsweise tragfähige Brücken zu bauen - aber sie ist deshalb bei weitem noch keine wirkliche, wahre Entität. Kausalität entsteht - als gutes Kino - erst im Kopf des Betrachters.
Im wissenschaftlichen Verständnis ist ein Kriterium für Kausalität, dass die Ursache der Wirkung zeitlich vorgelagert sein muss. Dies setzt ein lineares Zeitverständnis voraus. Nicht in allen Kulturen ist ein lineares Zeitverständnis konsensfähig; in der "Traumzeit" der Ureinwohner Australiens beispielsweise sind unterschiedliche Zeitdimensionen in nicht-linearer Form miteinander verschränkt.Wie gesagt: Kausalität entsteht - als gutes Kino - erst im Kopf des Betrachters.  

Insofern verweist eine statistische Korrelation selbstverständlich auf einen kausalen Zusammenhang - wenn im Kopf des Betrachters ein inhaltliches Konzept für diesen Zusammenhang exisitert. Wobei sich viele "kausale" Korrelationen in der Wissenschaft im nachinein zugestandenermaßen häufig als "Schein"-Korrelationen erweisen.

Eine Korrelation kann aber auch auf einen kausalen Zusammenhang verweisen, wenn ein solches inhaltliches Konzept zunächst fehlt. Die Forschungsrichtung der Epidemiologie beispielsweise basiert im Kern einzig und allein auf der Annahme, dass sich hinter Korrelationen kausale Zusammenhänge verbergen können. Ansonsten könnte man sich das "fishing for correlations" dieser Forschungsrichtung auch sparen. Und immerhin hat dieser Denkansatz das Rauchverbot in öffentlichen Einrichtungen erst möglich gemacht.

Ein wenig mehr Exploration (im Sinne von "finding the right hypothesis") kann - auch in konfirmatorischen Untersuchungsansätzen - nicht schaden, zumal der Entwicklungsstand der Theoriebildung in vielen sozialwissenschaftlichen Disziplinen und Domänen - diplomatisch formuliert - nicht gerade sonderlich hoch entwickelt ist. Historisch betrachtet, waren eh viele der wegweisende Entdeckungen (und auch Erfindungen) nicht das Ergebnis systematischer theoriegeleiteter Forschung und experimenteller Designs sondern bloßes Produkt des Zufalls (Stichwort Penicillin und vgl. Paul Feyerabend 1976) .
In der Genomforschung beispielsweise ist man interessanterweise mittlerweile dazu übergegangen Forschungshypothesen computergesteuert automatisch zu generieren. Die Software BioGraph verspricht "unsupervised biometical knowledge discovery via automated hypothesis generation" (Liekens et al. 2011). Angesichts der wachsenden Zahl solcher "Autopiloten" in der empirischen Forschung mutet es reichlich antiquiert an, den Begriff der "Erklärung" nur für ex ante formulierte theoriebasierte (Hypo-)Thesen zu reservieren.

Aus den genannten Gründen benutze ich auf dieser Seite die Begriffe Kausalität und Korrelation ebenso wie das damit verbundene Begriffspaar "erklären" und "beschreiben" ausdrücklich synonym. Gutes Kino entsteht erst im Kopf des Betrachters (oder einer anderen CPU).







13. Plädoyer für eine "Konfigurations-Statistik" -
für Analysen mit dem Fokus auf Merkmalsinteraktionen


Im Folgenden sind - ohne Anspruch auf Vollständigkeit - einige Argumente für die Sinnhaftigkeit und Notwendigkeit der Analyse von Merkmalsinteraktionen  in den Sozialen Wissenschaften (und nicht nur dort) aufgeführt.


Configurational Comparative Method

In den Vergleichenden und Historischen Sozialwissenschaften ist mit der Qualitive Comparative Analysis  (kurz QCA,  auch unter dem Begriff der Configurational Comparative Method  geführt; vgl. Ragin 1987, Rihoux/Ragin 2007) seit einigen Jahren ein spezieller methodischer Ansatz verbreitet, hoch aggregierte Daten (insbesondere bei Ländervergleichen) nicht auf der Basis von statistischen Konzepten sondern auf der Grundlage von mengentheoretisch definierten hinreichenden Bedingungen mittels der Booleschen Algebra zu modellieren. Das Credo der QCA lautet:
"If … we live in a world of great causal complexity, then a common pattern will be for outcomes to result from different combinations of causal conditions."  (Ragin 2000,103)

Das Ziel einer QCA ist es, ein zu erklärendes Phänomen als das Ergebnis verschiedener Kombinationen von Merkmalsbedingungen zu beschreiben. Gleiche Ergebnisse (outcome) können durch eine Vielzahl unterschiedlicher Merkmalskombinationen – so genannte Konfigurationen – zu Stande kommen. Die QCA dient dazu, solche Konfigurationen von hinreichenden Erklärungsfaktoren bei gleichem Outcome zu finden.
Erklärende Variablen werden dabei als unterschiedliche (hinreichende) Bedingungen interpretiert, die sich gegenseitig in der Entfaltung ihrer kausalen Wirkung bedingen.... und miteinander verbinden können. Die QCA gründet – vereinfacht formuliert - auf der Annahme, dass verschiedene Wege nach Rom führen und nicht nur ein einziger. Transparent werden so mögliche Interaktionen und Kompensationseffekte der unabhängige Variablen in Bezug auf die Zielgröße oder auch funktional äquivalente Konfigurationen. Diese Methode eignet sich im Selbstverständnis der Erfinder für ein multivariates Analysedesign mit relativ wenig Fällen (i.d.R. aggregierte Daten) und wenig erklärenden Variablen und ist deshalb in den Vergleichenden Sozialwissenschaften gerade für Ländervergleiche prädestiniert.

Die QCA bildet das auswertungstechnische Pendant für die von Fend (2004) im erziehungswissenschaftlichen Kontext (der internationalen Schülerleistungsvergleiche, PISA etc.) formulierte Forschungsperspektive, anstatt auf einzelne erklärende Variablen besser auf Konfigurationen von Merkmalen erfolgreicher Länder zu fokussieren. Denn es gelte zu berücksichtigen, dass hohe durchschnittliche Schülerleistungen mit unterschiedlichen, funktional äquivalenten Konfigurationen möglich sind, da die einzelnen Merkmale in verschiedenen Ländern ganz unterschiedliche Bedeutungen besitzen können und Bestandteil eines komplexen länderspezifischen Kontextes von Bedingungsvariablen sind, der die Wirkung dieser Merkmale verstärken oder kompensieren könne. Das Schweizerische Bundesamt für Statistik (Holzer 2005) hat genau vor diesem konzeptionellen Hintergrund mittels QCA eine instruktive Modellierung der differentiellen Einflussfaktoren der Schülerleistungen für die Schweizer Kantone anhand einer Reanalyse der PISA 2003-Daten vorgelegt.

Unabhängig davon, wie man im Detail zum technischen Ansatz der QCA steht (siehe auch meine Kritik oben):
Der Grundannahme der Configurational Comparative Method, dass sich eine Zielgröße gleichermaßen durch verschiedene Merkmalskonfiguration erklären lässt (dass also zwar nicht alle, aber durchaus verschiedene Wege nach Rom führen), kann man eine gewisse Plausibilität nicht absprechen. Und dies gilt gleichermaßen für aggregierte wie auch für Individual-Daten. Der ganze Zweig der Resilienzforschung beispielsweise basiert faktisch auf dieser Annahme.

Interessanterweise wird diese Perspektive - nämlich Merkmalsinteraktionen in den Fokus des Interesses zu setzen - jüngst von einer Seite aufgegriffen, von der man es zunächst am wenigsten erwartet hätte: der Medizinischen Forschung im Rahmen der Medikamentenentwicklung. Bei der experimentellen Prüfung der Wirksamkeit von Medikamenten ist man zunehmend sensibel geworden für die Problematik der so genannten "treatment heterogeneity". 



Treatment Heterogeneity

Von "treatment heterogeneity" oder "treatment-subgroup interaction" spricht man, wenn in einer Experimentalstudie - unabhängig von der Gruppenzuordnung der Probanden -  Subgruppen mit vollkommen unterschiedlichen "treatment effects" auftreten. 

"When two alternative treatments (A and B) are available, some subgroup of patients may display a better outcome with treatment A than with B, whereas for another subgroup, the reverse may be true. If this is the case, a qualitative (i.e., disordinal) treatment–subgroup interaction is present. Such interactions imply that some subgroups of patients should be treated differently and are therefore most relevant for personalized medicine.
... In the presence of a qualitative treatment–subgroup interaction, the question ‘Which treatment is better, A or B?’ becomes meaningless and should be replaced by ‘Which treatment is best for which kind of patients?’. The moderator variable(s) contributing to the qualitative interaction(s) then identify for whom and under which circumstances treatment A is better than B and for whom the reverse is true. As such, they represent important patient characteristics that may be used in the future to set up an optimal treatment assignment strategy to support healthcare decision makers. It is, therefore, essential to uncover qualitative treatment–subgroup interactions with an appropriate statistical method." (Dusseldorp, Van Mechelen 2014, 219-220)

Der Ansatz, Treatment-Subgroup-Interaktionen anhand von Baseline-Daten der Probanden in experimentellen Designs zu identifizieren, firmiert unter dem Namen Subgroup Analysis oder Subgroup Identification - nicht zu verwechseln mit der Subgroup Discovery.  Bei der Subgroup Analysis handelt es sich ohne Ausnahme um die spezielle Anwendung von Entscheidungsbaumverfahren - die aus dem Data Mining bekannt sind -, um Moderatorvariablen zu identifizieren. Gängige Entscheidungsbaummodelle der Subgroup Analysis sind z.B. SIDES (Hou), Interaction Trees (Su), Quint (Dusseldorp) oder GUIDE (Loh).
Die Identifizierung von Treatment-Subgroup-Interaktionen ist für die Pharmaforschung von besonderer Bedeutung, weil sie die Treatment-Zuordnung von Probanden bei (zukünftigen) klinischen Studien zu optimieren hilft. Zu dieser Problematik wurde 2012 deshalb eigens eine internationale Arbeitsgruppe unter dem Namen "Biomarker & Subgroup Analysis & Identification Subteam of QSPI Multiplicity Working Group" unter Beteiligung von Novartis, Merck, Johnson & Johnson, Eli Lilly, Sanofi, SAS, National Institute of Statistical Sciences etc. eingerichtet.

Ein schöneres Beispiel für die Sinnhaftigkeit und Notwendigkeit von Data Mining-Interaktionsanalysen und für die Bereicherung der klassischen statistischen Verfahren durch Data Mining kann man sich nicht wünschen: Selbst in den Experimentalstudien der Medikamentenprüfung haben neuerdings Data Mining-Interaktionsanalysen (in Form einer Subgroup Analysis) ihren Platz, um möglichen "treatment-subgroup-interactions" auf die Schliche zu kommen. Gerade in den Laboren der experimentell arbeitenden Pharmaforschung finden sich also die neuesten Verfechter des Data Mining.

Die Macht des Faktischen in Form von "treatment heterogeneity" erzwingt nicht nur die Verankerung von Data Mining-Modellen in experimentellen Designs, sondern sie erfordert auch eine Neujustierung der zentralen Forschungsfrage: 
"In the presence of a qualitative treatment–subgroup interaction, the question ‘Which treatment is better, A or B?’ becomes meaningless and should be replaced by ‘Which treatment is best for which kind of patients?’" (s.o.)

Diese Positionierung hat große Ähnlichkeit mit dem Selbstverständnis eines wichtigen Ansatzes aus der Evaluierungsforschung, der so genannten "Realistic Evaluation", der im folgenden skizziert werden soll..



Realistic Evaluation


Pawson und Tilley (1997, 2004) proklamieren im Rahmen ihrer "Realist(ic) Evaluation" eine Neuformulierung von Evaluationskriterien. Auf der Suche nach Gelingensbedingungen bei der Bewertung von Interventionen oder Programmen fordern sie eine Neujustierung der zentralen Fragestellung:
Anstatt  ‘Does this program work?’  besser ‘What works for whom in what circumstances and in what respects, and how?’
Sie insistieren auf Gelingens-Konfigurationen im Gegensatz zu  monokausalen Programm-Effekten: Shades of grey versus black and white decisions.


Sie erachten eine quasi-experimentelle Evaluation als wenig zielführend, da diese die Vielfalt der heterogenen Implementierungskontexte nicht hinreichend abbilden könne. Denn es gelte zu berücksichtigen,
"...
• that a particular intervention works in quite separate ways
• that it gets implemented in different ways
• that it is more effective with some groups rather that others
• that it will find more use in one location rather than another
• that it has intended and unintended consequences
• that its effects are likely to be sustained or taper off." (Pawson, Tilley 2004, S.19)

In Abgrenzung zu einem quasi-experimentellen Evaluierungsansatz formulieren sie eine neuen, konfiguralen Ansatz: Outcomes = f (Mechanisms, Contexts).
Programmeffekte sind demnach eine Funktion der Interaktion von Mechanismen und Kontextfaktoren. Sie reservieren dafür den Begriff der so genannten  CMOCs: "Context-Mechanism-Outcome Pattern Configurations".  Ziel dieses konfiguralen Ansatzes ist  die Identifikation von Merkmalskombinationen als Gelingens-Konfigurationen, Resilienz- und Moderatorkonstellationen.

Diesen konfiguralen Ansatz fassen Pawson und Tilley  wie folgt zusammen (ebd., S.10):

   


David Berliner und der "Schmetterlingseffekt"

Berliner (2002) führt - wie oben schon angesprochen - die Probleme der Generalisierung und Theoriebildung in den Sozialen Wissenschaften (und hier speziell in der Erziehungswissenschaft) im wesentlichen auf die Allgegenwart und Komplexität der Interaktionen und differierenden Kontexte zurück, innerhalb derer sich die Handlungssubjekte bewegen. Die Allgegenwart der Interaktionen ist auch der wahre Grund für das "Technologiedefizit" (a la Luhmann) in der Pädagogik und der Sozialen Arbeit: geringfügige Unterschiede in den Ausgangsbedingungen und in den Interaktionsmustern bewirken mitunter vollkommen unterschiedliche Outcomes/Ergebnisse. Dieser "Schmetterlingseffekt" erklärt, warum sich zentrale Befunde der empirischen Forschung in den Sozialen Wissenschaften häufig nicht replizieren lassen und warum sich in jeder empirischen Untersuchung zur Leistungswirksamkeit von Unterrichtsmerkmalen beispielsweise vollkommen verschiedene Elemente als bedeutungsvoll erweisen. Aber Merkmalsinteraktionen sind der Schlüssel zum Verstehen. Deshalb noch eine kleine Leseprobe, eine kleine Zugabe zu Berliner:    


"... In my estimation, we have the hardest-to-do science of them all! We do our science under conditions that physical scientists find intolerable. We face particular problems and must deal with local conditions that limit generalizations and theory building—problems that are different from those faced by the easier-to-do sciences.
... In education, broad theories and ecological generalizations often fail because they cannot incorporate the enormous number or determine the power of the contexts within which human beings find themselves.
... It was found that the variance in student achievement was larger within programs than it was between programs. No program could produce consistency of effects across sites. Each local context was different, requiring differences in programs, personnel, teaching methods, budgets, leadership, and kinds of community support. These huge context effects cause scientists great trouble in trying to understand school life.
... Doing science and implementing scientific findings are so difficult in education because humans in schools are embedded in complex and changing networks of social interaction. The participants in those networks have variable power to affect each other from day to day, and the ordinary events of life (a sick child, a messy divorce, a passionate love affair, migraine headaches, hot flashes, a birthday party, alcohol abuse, a new principal, a new child in the classroom, rain that keeps the children from a recess outside the school building) all affect doing science in school settings by limiting the generalizability of educational research findings. Compared to designing bridges and circuits or splitting either atoms or genes, the science to help change schools and classrooms is harder to do because context cannot be controlled.
... Context is of such importance in educational research because of the interactions that abound. The study of classroom teaching, for example, is always about understanding the 10th or 15th order interactions that occur in classrooms. Any teaching behavior interacts with a number of student characteristics, including IQ, socioeconomic status, motivation to learn, and a host of other factors. Simultaneously, student behavior is interacting with teacher characteristics, such as the teacher’s training in the subject taught, conceptions of learning, beliefs about assessment, and even the teacher’s personal happiness with life. But it doesn’t end there because other variables interact with those just mentioned—the curriculum materials, the socioeconomic status of the community, peer effects in the school, youth employment in the area, and so forth. Moreover, we are not even sure in which directions the influences work, and many surely are reciprocal. Because of the myriad interactions, doing educational science seems very difficult, while science in other fields seems easier." (Berliner 2002,18-20)


Berliner plädiert letztlich - in Abgrenzung gegenüber experimentellen Designs  - für ein mehr an "qualitativer Forschung". Nur so ließen sich die Effekte von Kontexten und Interaktionen, in denen sich die Handlungssubjekte bewegen, angemessen berücksichtigen und verstehen.  

Die Argumentation Berliners lässt sich aber auch als ein generelles Votum für die Notwendigkeit und Sinnhaftigkeit von "Interaktionsanalysen" interpretieren, egal ob im qualitativen oder quantitativen Design. Merkmalsinteraktionen sind der Schlüssel zum Verstehen, Interaktionsanalysen sind der Königsweg dahin. Das gilt auch - wie am Beispiel der  "treatment-subgroup interaction" oben gezeigt - für die experimentell arbeitende Forschung.   





14. Links und Quellenverzeichnis

Texte des  Class Association Rules - Mining  zum Download


Download - Basisliteratur zur SUBGROUP DISCOVERY:

Atzmueller, M.: Subgroup Discovery. Künstliche Intelligenz 2005, 4, 52-53
http://www.kde.cs.uni-kassel.de/atzmueller/paper/2005-SDSchlagwortKI_AtzmuellerM.pdf

Atzmueller, M.: Subgroup Discovery - Advanced Review. WIREs Data Mining Knowl Discov 2015, 5, 35-49
https://www.kde.cs.uni-kassel.de/atzmueller/paper/atzmueller-subgroup-discovery-advanced-review-wires-2015.pdf

Atzmueller, M./Puppe, F.: SD-Map – A Fast Algorithm for Exhaustive Subgroup Discovery. Proceedings of the 10th European
conference on principles and practice of knowledge discovery in databases (PKDD 2006). Lecture notes in computer science 2006, 4213, 6–17
http://ki.informatik.uni-wuerzburg.de/papers/atzmueller/2006/PKDD2006_AtzmuellerM.pdf

Herrera, F. et al.: An overview on subgroup discovery: foundations and applications.  Knowl Inf Syst 2011, 29, 495–525  
http://sci2s.ugr.es/publications/ficheros/2011-Herrera-KAIS.pdf

Romero, C. et al.: Evolutionary algorithms for subgroup discovery in e-learning: A practical application using Moodle data. Expert Systems with Applications 2009, 36, 1632–1644
http://sci2s.ugr.es/keel/workshops/docs/workshop1/SD_e-learning_ESw.pdf



Download - Basisliteratur zur ASSOCIATIVE CLASSIFICATION:

Bangaru, V.B./Vendula, V.R.: Improved Classification Based Association Rule Mining. International Journal of Advanced Research in Computer and Communication Engineering 2013, 2,  5, 2211-2221
http://www.ijarcce.com/upload/2013/may/48-Venkateswara%20Rao%20Vedula%20-%20IMPROVED%20CLASSIFICATION%20BASED%20ASSOCIATION.pdf

Thabtah, F. A.: A review of associative classification mining. Knowledge Engineering Review 2007, 22, 1, 37-65 (http://eprints.hud.ac.uk/269/)
http://eprints.hud.ac.uk/269/1/ThabtahReview.pdf

Wedyan, S.: Review and Comparison of Associative Classification Data Mining Approaches. International Journal of Computer, Control, Quantum and Information Engineering 2014, 8, 1, 34-45
http://waset.org/publications/9997152/review-and-comparison-of-associative-classification-data-mining-approaches



Download - Basisliteratur zum SUPERVISED ASSOCIATION RULES - MINING:

Deltour, A.:  Tertius extensions to Weka. Technical Report CSTR-01-001. Bristol 2001
http://www.cs.bris.ac.uk/Publications/Papers/1000568.pdf

Flach, P.A./ Lachiche, N.: Confirmation-Guided Discovery of First-Order Rules with Tertius. Machine Learning 2001, 42, 61–95
http://www.cs.bris.ac.uk/Publications/Papers/1000545.pdf

Rakotomalala, R.: Predictive Association Rules. Lyon 2009
http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/en_Tanagra_Predictive_AssocRules.pdf




Literaturverzeichnis Mit Ausnahme der gesondert gekennzeichneten Cartoons entstammen alle Cartoons der Quelle https://www.causeweb.org/resources/fun/index.php





15. Impressum

Impressum und Kontaktdaten:
Dr. Rainer Block
Handy: 0163-7580119
Email: rainer.block@arcor.de



Angaben zur Person:
Dr. Rainer Block, Jahrgang 1961

Kontaktformular:


Betreff:



Anstatt eines Schlusswortes:


  Quelle: Springer


my widget for counting
Letzte Änderung: 13.05.2015