In vielen Studien werden der Einfluss verschiedener
Parameter auf eine Grösse, eine abhängige Variable untersucht.
Man fragt sich, inwieweit und in welcher Art die Einflussgrössen eine
Auswirkung auf die abhängige Variable haben. Ein gängiges Verfahren
besteht darin, eine Regressionsanalyse (oder eine Varianzanalyse) durchzuführen, und mit
einem Eliminationsverfahren (z.B. schrittweiser Rückwärtselimination)
die 'signifikanten' Einflussgrössen herauszufinden. Wir vergleichen
verschiedene Regressionsmodelle untereinander und wählen das 'Beste',
welches die wichtigen Einflussgrössen enthält, aus. Die Auswahl
der Regressionsmodelle beruht dabei auf berechneten Irrtumswahrscheinlichkeiten.
Dieser Ansatz ist in verschiedener Hinsicht problematisch, nicht nur weil
er zu falschen Schlussfolgerungen führen kann, sondern auch weil
er theoretisch nicht fundiert ist. Er basiert auf Hypothesen-Tests, welche
nur Aussagen über die Wahrscheinlichkeit des Auftretens eines bestimmten
Ereignisses unter der Annahme der Gültigkeit einer bestimmten Hypothese
(der Nullhypothese) zulässt, und über Hypothesen selbst keine Aussagen
erlaubt. Zudem ist der Ansatz des Testens von Hypothesen in der klassischen
Statistik theoretisch begründet allein für Experimente, welche
Kontrolle und Behandlung mit Randomisierung und Replikation beinhalten. Vielfach
werden aber gerade Regressionsmodelle bei der Analyse empirischer Daten verwendet,
wo der experimentelle Zugang seine Grenzen hat, wo viele Einflussgrössen
in komplexer Weise wirken und sie damit nicht experimentell voneinander isoliert
betrachtet werden können. Bei solchen Fragestellungen steht nicht die
Prüfung von Nullhypothesen im Vordergrund, sondern vielmehr der Vergleich
verschiedener Hypothesen, verschiedener Erklärungsmöglichkeiten,
bzw. daraus abgeleiteter Modelle. Dies ist mit der klassischen, resp. frequentistischen
Statistik meist nicht möglich. Es bestehen aber schon seit einiger Zeit
geeignete Verfahren, die aber, z.T. wohl aus Unkenntnis, in vielen Forschungsbereichen
noch selten verwendet werden. Wenn diese Hinweise zur Beschleunigung des
Umsetzungsprozesses beitragen, ist ihr Zweck erfüllt.
Um das geeignetste Modell ('the best approximating model') aus einem Set von Modellen auswählen zu können, benötigen wir einen Parameter der einen quantitativen
Vergleich der Güte verschiedener Modelle zulässt.
Dass dazu Irrtumswahrscheinlichkeiten nicht geeignet sind, haben wir oben
festgestellt. Auch das Bestimmtheitsmass R2 ist dazu nur in
speziellen, einfachen Fällen geeignet (als adj. R2). Es sind verschiedene
Methoden der Modellselektion entwickelt worden, welche geeignete Parameter liefern. Neben andern solche, die
auf der Bayes-Statistik beruhen, andere welche auf der mathematischen Informationstheorie
basieren. Die Parameter heissen in der Bayes-Statistik etwa
CAIC, BIC, SIC, WIC oder HQ, bei den auf der Informationstheorie basierenden
AIC, AICc, QAICc und TIC.
Der informationstheoretische Ansatz unter Verwendung von Akaike's Informationskriteriums
(AIC und Verwandte) scheint mir persönlich ein für den Praktiker
besonders geeigneter zu sein, nicht zuletzt wegen der ausgezeichneten Darstellung
dieses Ansatzes durch Kenneth P. Burnham und David R. Anderson in ihrem Buch
Model selection and multimodel inference: A practical information - theoretic
approach.
Modellselektion erfordert die konkrete Formulierung verschiedener Modelle.
Dazu ist eine intensive Auseinandersetzung mit dem Forschungsgegenstand und
mit den Forschungsfragen notwendig. Die Modelle leiten sich von den Forschungs-Hypothesen
ab und sollen erklären helfen, wie die verschiedenen Einflussgrössen
wirken. Sie sollen postulierte Zusammenhänge abbilden. Oft sind die Modelle dann komplex und von unterschiedlicher Art, sie sind 'non-nested',
wie z.B. y = a + b*log(x); y = a(x / (b + x)). Traditionelle
Verfahren wie die Regressionsanalyse lassen sich nur auf voneinander abgeleitete
Modelle (nested models) anwenden (y = ax1 + bx2 + c; y = ax1 + c). Für den quantitativen Vergleich von Modellen unterschiedlicher Art benötigen wir oben erwähnte Verfahren der Modellselektion.