Home                                                                                                                                                English

Modellselektion

In vielen Studien werden der Einfluss verschiedener Parameter auf eine Grösse, eine abhängige Variable untersucht. Man fragt sich, inwieweit und in welcher Art die Einflussgrössen eine Auswirkung auf die abhängige Variable haben. Ein gängiges Verfahren besteht darin, eine Regressionsanalyse (oder eine Varianzanalyse) durchzuführen, und mit einem Eliminationsverfahren (z.B. schrittweiser Rückwärtselimination) die 'signifikanten' Einflussgrössen herauszufinden. Wir vergleichen verschiedene Regressionsmodelle untereinander und wählen das 'Beste', welches die wichtigen Einflussgrössen enthält, aus. Die Auswahl der Regressionsmodelle beruht dabei auf berechneten Irrtumswahrscheinlichkeiten. Dieser Ansatz ist in verschiedener Hinsicht problematisch, nicht nur weil er zu falschen Schlussfolgerungen führen kann, sondern auch weil er theoretisch nicht fundiert ist. Er basiert auf Hypothesen-Tests, welche nur Aussagen über die Wahrscheinlichkeit des Auftretens eines bestimmten Ereignisses unter der Annahme der Gültigkeit einer bestimmten Hypothese (der Nullhypothese) zulässt, und über Hypothesen selbst keine Aussagen erlaubt. Zudem ist der Ansatz des Testens von Hypothesen in der klassischen Statistik theoretisch begründet allein für Experimente, welche Kontrolle und Behandlung mit Randomisierung und Replikation beinhalten. Vielfach werden aber gerade Regressionsmodelle bei der Analyse empirischer Daten verwendet, wo der experimentelle Zugang seine Grenzen hat, wo viele Einflussgrössen in komplexer Weise wirken und sie damit nicht experimentell voneinander isoliert betrachtet werden können. Bei solchen Fragestellungen steht nicht die Prüfung von Nullhypothesen im Vordergrund, sondern vielmehr der Vergleich verschiedener Hypothesen, verschiedener Erklärungsmöglichkeiten, bzw. daraus abgeleiteter Modelle. Dies ist mit der klassischen, resp. frequentistischen Statistik meist nicht möglich. Es bestehen aber schon seit einiger Zeit geeignete Verfahren, die aber, z.T. wohl aus Unkenntnis, in vielen Forschungsbereichen noch selten verwendet werden. Wenn diese Hinweise zur Beschleunigung des Umsetzungsprozesses beitragen, ist ihr Zweck erfüllt.

Um das geeignetste Modell ('the best approximating model') aus einem Set von Modellen auswählen zu können, benötigen wir einen Parameter der einen quantitativen Vergleich der Güte verschiedener Modelle zulässt. Dass dazu Irrtumswahrscheinlichkeiten nicht geeignet sind, haben wir oben festgestellt. Auch das Bestimmtheitsmass R2 ist dazu nur in speziellen, einfachen Fällen geeignet (als adj. R2). Es sind verschiedene Methoden der Modellselektion entwickelt worden, welche geeignete Parameter liefern. Neben andern solche, die auf der Bayes-Statistik beruhen, andere welche auf der mathematischen Informationstheorie basieren. Die Parameter heissen in der Bayes-Statistik etwa CAIC, BIC, SIC, WIC oder HQ, bei den auf der Informationstheorie basierenden AIC, AICc, QAICc und TIC.

Der informationstheoretische Ansatz unter Verwendung von Akaike's Informationskriteriums (AIC und Verwandte) scheint mir persönlich ein für den Praktiker besonders geeigneter zu sein, nicht zuletzt wegen der ausgezeichneten Darstellung dieses Ansatzes durch Kenneth P. Burnham und David R. Anderson in ihrem Buch Model selection and multimodel inference: A practical information - theoretic approach.

Modellselektion erfordert die konkrete Formulierung verschiedener Modelle. Dazu ist eine intensive Auseinandersetzung mit dem Forschungsgegenstand und mit den Forschungsfragen notwendig. Die Modelle leiten sich von den Forschungs-Hypothesen ab und sollen erklären helfen, wie die verschiedenen Einflussgrössen wirken. Sie sollen postulierte Zusammenhänge abbilden. Oft sind die Modelle dann komplex und von unterschiedlicher Art, sie sind 'non-nested', wie z.B. y = a + b*log(x); y = a(x / (b + x)). Traditionelle Verfahren wie die Regressionsanalyse lassen sich nur auf voneinander abgeleitete Modelle (nested models) anwenden (y = ax1 + bx2 + c; y = ax1 + c). Für den quantitativen Vergleich von Modellen unterschiedlicher Art benötigen wir oben erwähnte Verfahren der Modellselektion.

© 2007 by Peter Enggist - Design by ITSA