Multiple lineare Regression

Eine Klausurnote hängt nicht nur von den Lernstunden ab, sondern auch vom Vorwissen, der Schlafdauer, der Motivation. Die einfache Regression kennt nur einen Einflussfaktor. Die multiple Regression modelliert mehrere Prädiktoren gleichzeitig und beantwortet damit erst die realistische Frage: Was trägt jede Größe für sich bei?

Was du in der Klausur können musst:

das Modell

\hat y = \beta_0 + \beta_1 x_1 + \dots + \beta_k x_k

und die partielle Interpretation der Koeffizienten

die Schätzung per OLS und die Gütemaße $R^2$ und adjustiertes $R^2$

das Problem der Multikollinearität

die Abgrenzung zur einfachen Regression

Alle Tabs der Lerneinheit (Erklärung · Interaktiv verstehen · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur, und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).

Teil 1·Erklärung

Erklärung

Multiple lineare Regression

Was du in der Klausur können musst:

das Modell hat y = β₀ + β₁ x₁ + dots + β_k x_k und die partielle Interpretation der Koeffizienten
die Schätzung per OLS und die Gütemaße R² und adjustiertes R²
das Problem der Multikollinearität
die Abgrenzung zur einfachen Regression

Die Idee in einem Satz

Die multiple lineare Regression erklärt eine Zielgröße y durch mehrere Prädiktoren: hat y = β₀ + β₁ x₁ + dots + β_k x_k. Jeder Koeffizient β_j ist der partielle Effekt von x_j, bei Konstanthaltung der übrigen Variablen.

Die Koeffizienten richtig lesen

Der entscheidende Unterschied zur einfachen Regression liegt in der Interpretation:

β_j ist die erwartete Änderung von y pro Einheit x_j, wenn alle anderen Prädiktoren konstant gehalten werden (ceteris paribus).

Beispiel: hat y = 20 + 4 x₁ + 2 x₂ (Klausurpunkte aus Lernstunden x₁ und Vorwissen x₂). β₁ = 4 heißt: jede zusätzliche Lernstunde bringt +4 Punkte, bei gleichem Vorwissen. Probier es aus:

Interaktive Visualisierung

Interaktive Komponente: probiere sie im Topic-Player oben aus.

Schätzung und Gütemaße

OLS (kleinste Quadrate): die Koeffizienten minimieren die Summe der quadrierten Residuen Σ_i (y_i - hat y_i)².
R² (Bestimmtheitsmaß): Anteil der durch das Modell erklärten Varianz von y, zwischen 0 und 1.
Adjustiertes R²: R² steigt immer, wenn man Prädiktoren hinzufügt, auch nutzlose. Das adjustierte R² bestraft zusätzliche Variablen und ist daher das fairere Maß für den Modellvergleich.

Multikollinearität

Sind zwei oder mehr Prädiktoren stark miteinander korreliert (z.B. Körpergröße und Schuhgröße), spricht man von Multikollinearität. Folge: die einzelnen Koeffizienten werden instabil und schwer interpretierbar (große Standardfehler), weil das Modell den gemeinsamen Effekt nicht sauber auf die Variablen aufteilen kann. Ein Indikator ist der VIF (Varianzinflationsfaktor).

Weitere Punkte

Kategoriale Prädiktoren (z.B. Geschlecht, Region) bindet man über Dummy-Variablen (0/1) ein.
Korrelation ist nicht Kausalität: die Regression zeigt Zusammenhänge, nicht Ursachen.
Ein Koeffizient kann sich ändern oder das Vorzeichen wechseln, wenn man weitere Variablen aufnimmt, ein Zeichen für vorher konfundierte (verzerrte) Effekte.

Klausur-Faustregeln

1. Modell: hat y = β₀ + β₁ x₁ + dots + β_k x_k, mehrere Prädiktoren gleichzeitig.

2. β_j = partieller Effekt (Änderung von y pro Einheit x_j, übrige konstant).

3. Schätzung per OLS: minimiert Σ (y_i - hat y_i)².

4. R² = erklärte Varianz; adjustiertes R² bestraft zusätzliche Prädiktoren (für Modellvergleich).

5. Multikollinearität (korrelierte Prädiktoren) macht Koeffizienten instabil.

6. Kategoriale Variablen über Dummy-Kodierung (0/1).

Häufige Stolpersteine

1. β_j ohne Ceteris-paribus deuten. Der Effekt gilt nur bei Konstanthaltung der übrigen Prädiktoren, nicht isoliert.

2. Mit R² Modelle vergleichen. R² steigt allein durch mehr Variablen. Für den Vergleich verschieden großer Modelle nimmt man das adjustierte R².

3. Korrelation als Kausalität lesen. Ein signifikanter Koeffizient belegt Zusammenhang, nicht Ursache.

4. Multikollinearität ignorieren. Stark korrelierte Prädiktoren verzerren die Einzel-Koeffizienten und ihre Interpretation.

5. Einfach- und Multiple-Regression gleichsetzen. Ein Koeffizient kann sich beim Hinzufügen weiterer Variablen stark ändern (sogar das Vorzeichen), weil zuvor ein konfundierender Faktor fehlte.

6. Außerhalb des Datenbereichs extrapolieren. Vorhersagen weit außerhalb der beobachteten Werte sind unzuverlässig.

Teil 2·Visualisierung / Interaktiv

Interaktiv verstehen

Partielle Effekte erleben

Verschiebe x₁ (Lernstunden) und x₂ (Vorwissen) getrennt. Der Beitrag des jeweils anderen Prädiktors bleibt unverändert, genau das ist die partielle Wirkung. Die Vorhersage hat y ist die Summe aus Intercept und den beiden Beiträgen.

Interaktive Visualisierung

Interaktive Komponente: probiere sie im Topic-Player oben aus.

Klausur-Tipp: Setze die gegebenen Werte einfach in hat y = β₀ + β₁ x₁ + β₂ x₂ ein. Und formuliere die Koeffizienten-Interpretation immer mit dem Zusatz „bei konstant gehaltenen übrigen Variablen".

Teil 3·Quiz / Klausurfragen

Praxis-Übung

Klausurfragen mit Lösungen (6)

F1.Was modelliert die multiple lineare Regression?

Antwort: eine Zielgröße aus mehreren Prädiktoren gleichzeitig

Erklärung: Die multiple Regression erklärt `y` durch mehrere Prädiktoren: `hat y = β₀ + β₁ x₁ + dots + β_k x_k`. Die einfache Regression hat dagegen nur einen Prädiktor.

F2.Was bedeutet der Koeffizient β_j?

Antwort: die Änderung von `y` pro Einheit `x_j`, bei Konstanthaltung der übrigen Prädiktoren

Erklärung: `β_j` ist der partielle Effekt: die erwartete Änderung von `y`, wenn `x_j` um eine Einheit steigt und alle anderen Prädiktoren konstant bleiben (ceteris paribus).

F3.Modell hat y = 20 + 4 x₁ + 2 x₂. Berechne hat y für x₁ = 5 und x₂ = 8.

Antwort: 56 (Toleranz ±0.5)

Erklärung: `hat y = 20 + 4 · 5 + 2 · 8 = 20 + 20 + 16 = 56`.

Typ: Zahlen-Eingabe

F4.Warum nutzt man das adjustierte R² statt des einfachen R²?

Antwort: weil `R²` allein durch mehr Prädiktoren steigt; das adjustierte `R²` bestraft zusätzliche Variablen

Erklärung: Das einfache `R²` wächst monoton mit jedem zusätzlichen Prädiktor, auch nutzlosen. Das adjustierte `R²` korrigiert für die Anzahl der Prädiktoren und eignet sich daher für den Vergleich verschieden großer Modelle.

F5.Ein signifikanter Regressionskoeffizient beweist, dass x_j die Ursache für y ist.

Antwort: Falsch

Erklärung: Falsch. Regression zeigt nur einen statistischen Zusammenhang, keine Kausalität. Ein Effekt kann durch konfundierende Variablen entstehen oder die Kausalrichtung umgekehrt sein.

Typ: Wahr/Falsch

F6.Was ist Multikollinearität und welche Folge hat sie?

Antwort: stark korrelierte Prädiktoren; die Koeffizienten werden instabil und schwer interpretierbar

Erklärung: Multikollinearität liegt vor, wenn Prädiktoren stark miteinander korrelieren. Das Modell kann den gemeinsamen Effekt nicht sauber aufteilen, die einzelnen Koeffizienten bekommen große Standardfehler und werden instabil (Indikator: hoher VIF).

Teil 4·Quiz / Klausurfragen

Klausur-Quiz

Klausurfragen mit Lösungen (6)

F1.Mit welcher Methode schätzt man die Koeffizienten?

Antwort: OLS (kleinste Quadrate), minimiert `Σ (y_i - hat y_i)²`

Erklärung: Die gewöhnliche Methode der kleinsten Quadrate (OLS) wählt die Koeffizienten so, dass die Summe der quadrierten Residuen `Σ (y_i - hat y_i)²` minimal wird.

F2.Was misst das Bestimmtheitsmaß R²?

Antwort: den Anteil der durch das Modell erklärten Varianz von `y`

Erklärung: `R²` gibt an, welcher Anteil der Gesamtvarianz von `y` durch das Regressionsmodell erklärt wird. Es liegt zwischen 0 (nichts erklärt) und 1 (vollständig erklärt).

F3.Im Modell hat y = β₀ + β₁ x₁ + dots ist β_j der {{1}} Effekt von x_j. Die Güte misst {{2}}; für den Modellvergleich nutzt man das {{3}} R².

Lösungen pro Lücke:

{{1}}: partielle / partiell
{{2}}: R² / R^2 / das Bestimmtheitsmaß / R-Quadrat
{{3}}: adjustierte / adjustiert / korrigierte

Erklärung: `β_j` = partieller Effekt (ceteris paribus). Güte über `R²`, für Modellvergleich das adjustierte `R²`.

Typ: Lückentext

F4.Modell hat y = 50 + 3 x₁ - 2 x₂. Berechne hat y für x₁ = 10 und x₂ = 5.

Antwort: 70 (Toleranz ±0.5)

Erklärung: `hat y = 50 + 3 · 10 - 2 · 5 = 50 + 30 - 10 = 70`. Ein negativer Koeffizient (`β₂ = -2`) senkt die Vorhersage mit steigendem `x₂`.

Typ: Zahlen-Eingabe

F5.Wie bindet man eine kategoriale Variable (z.B. Region: Nord/Süd) ein?

Antwort: über Dummy-Variablen (0/1)

Erklärung: Kategoriale Prädiktoren werden über Dummy-Variablen (Indikatorvariablen, 0/1) kodiert. Bei `m` Kategorien nimmt man `m-1` Dummies (eine Referenzkategorie).

F6.Ein Koeffizient wechselt das Vorzeichen, sobald man eine weitere Variable ins Modell aufnimmt. Was ist die wahrscheinliche Ursache?

Antwort: Konfundierung / Multikollinearität: der ursprüngliche Effekt war durch eine ausgelassene, korrelierte Variable verzerrt

Erklärung: Wenn die Aufnahme einer weiteren Variable einen Koeffizienten stark verändert oder das Vorzeichen dreht, war der ursprüngliche Effekt durch eine konfundierende (korrelierte, vorher ausgelassene) Variable verzerrt. Das zeigt, wie wichtig die Kontrolle relevanter Variablen ist.

Multiple lineare Regression

Was du in der Klausur können musst:

das Modell

\hat y = \beta_0 + \beta_1 x_1 + \dots + \beta_k x_k

und die partielle Interpretation der Koeffizienten

die Schätzung per OLS und die Gütemaße $R^2$ und adjustiertes $R^2$

das Problem der Multikollinearität

die Abgrenzung zur einfachen Regression

Teil 1·Erklärung

Erklärung

Multiple lineare Regression

Was du in der Klausur können musst:

das Modell hat y = β₀ + β₁ x₁ + dots + β_k x_k und die partielle Interpretation der Koeffizienten
die Schätzung per OLS und die Gütemaße R² und adjustiertes R²
das Problem der Multikollinearität
die Abgrenzung zur einfachen Regression

Die Idee in einem Satz

Die multiple lineare Regression erklärt eine Zielgröße y durch mehrere Prädiktoren: hat y = β₀ + β₁ x₁ + dots + β_k x_k. Jeder Koeffizient β_j ist der partielle Effekt von x_j, bei Konstanthaltung der übrigen Variablen.

Die Koeffizienten richtig lesen

Der entscheidende Unterschied zur einfachen Regression liegt in der Interpretation:

β_j ist die erwartete Änderung von y pro Einheit x_j, wenn alle anderen Prädiktoren konstant gehalten werden (ceteris paribus).

Interaktive Visualisierung

Interaktive Komponente: probiere sie im Topic-Player oben aus.

Schätzung und Gütemaße

OLS (kleinste Quadrate): die Koeffizienten minimieren die Summe der quadrierten Residuen Σ_i (y_i - hat y_i)².
R² (Bestimmtheitsmaß): Anteil der durch das Modell erklärten Varianz von y, zwischen 0 und 1.
Adjustiertes R²: R² steigt immer, wenn man Prädiktoren hinzufügt, auch nutzlose. Das adjustierte R² bestraft zusätzliche Variablen und ist daher das fairere Maß für den Modellvergleich.

Multikollinearität

Weitere Punkte

Kategoriale Prädiktoren (z.B. Geschlecht, Region) bindet man über Dummy-Variablen (0/1) ein.
Korrelation ist nicht Kausalität: die Regression zeigt Zusammenhänge, nicht Ursachen.
Ein Koeffizient kann sich ändern oder das Vorzeichen wechseln, wenn man weitere Variablen aufnimmt, ein Zeichen für vorher konfundierte (verzerrte) Effekte.

Klausur-Faustregeln

1. Modell: hat y = β₀ + β₁ x₁ + dots + β_k x_k, mehrere Prädiktoren gleichzeitig.

2. β_j = partieller Effekt (Änderung von y pro Einheit x_j, übrige konstant).

3. Schätzung per OLS: minimiert Σ (y_i - hat y_i)².

4. R² = erklärte Varianz; adjustiertes R² bestraft zusätzliche Prädiktoren (für Modellvergleich).

5. Multikollinearität (korrelierte Prädiktoren) macht Koeffizienten instabil.

6. Kategoriale Variablen über Dummy-Kodierung (0/1).

Häufige Stolpersteine

1. β_j ohne Ceteris-paribus deuten. Der Effekt gilt nur bei Konstanthaltung der übrigen Prädiktoren, nicht isoliert.

2. Mit R² Modelle vergleichen. R² steigt allein durch mehr Variablen. Für den Vergleich verschieden großer Modelle nimmt man das adjustierte R².

3. Korrelation als Kausalität lesen. Ein signifikanter Koeffizient belegt Zusammenhang, nicht Ursache.

4. Multikollinearität ignorieren. Stark korrelierte Prädiktoren verzerren die Einzel-Koeffizienten und ihre Interpretation.

5. Einfach- und Multiple-Regression gleichsetzen. Ein Koeffizient kann sich beim Hinzufügen weiterer Variablen stark ändern (sogar das Vorzeichen), weil zuvor ein konfundierender Faktor fehlte.

6. Außerhalb des Datenbereichs extrapolieren. Vorhersagen weit außerhalb der beobachteten Werte sind unzuverlässig.

Teil 2·Visualisierung / Interaktiv

Interaktiv verstehen

Partielle Effekte erleben

Interaktive Visualisierung

Interaktive Komponente: probiere sie im Topic-Player oben aus.

Teil 3·Quiz / Klausurfragen

Praxis-Übung

Klausurfragen mit Lösungen (6)

F1.Was modelliert die multiple lineare Regression?

Antwort: eine Zielgröße aus mehreren Prädiktoren gleichzeitig

Erklärung: Die multiple Regression erklärt `y` durch mehrere Prädiktoren: `hat y = β₀ + β₁ x₁ + dots + β_k x_k`. Die einfache Regression hat dagegen nur einen Prädiktor.

F2.Was bedeutet der Koeffizient β_j?

Antwort: die Änderung von `y` pro Einheit `x_j`, bei Konstanthaltung der übrigen Prädiktoren

Erklärung: `β_j` ist der partielle Effekt: die erwartete Änderung von `y`, wenn `x_j` um eine Einheit steigt und alle anderen Prädiktoren konstant bleiben (ceteris paribus).

F3.Modell hat y = 20 + 4 x₁ + 2 x₂. Berechne hat y für x₁ = 5 und x₂ = 8.

Antwort: 56 (Toleranz ±0.5)

Erklärung: `hat y = 20 + 4 · 5 + 2 · 8 = 20 + 20 + 16 = 56`.

Typ: Zahlen-Eingabe

F4.Warum nutzt man das adjustierte R² statt des einfachen R²?

Antwort: weil `R²` allein durch mehr Prädiktoren steigt; das adjustierte `R²` bestraft zusätzliche Variablen

F5.Ein signifikanter Regressionskoeffizient beweist, dass x_j die Ursache für y ist.

Antwort: Falsch

Erklärung: Falsch. Regression zeigt nur einen statistischen Zusammenhang, keine Kausalität. Ein Effekt kann durch konfundierende Variablen entstehen oder die Kausalrichtung umgekehrt sein.

Typ: Wahr/Falsch

F6.Was ist Multikollinearität und welche Folge hat sie?

Antwort: stark korrelierte Prädiktoren; die Koeffizienten werden instabil und schwer interpretierbar

Teil 4·Quiz / Klausurfragen

Klausur-Quiz

Klausurfragen mit Lösungen (6)

F1.Mit welcher Methode schätzt man die Koeffizienten?

Antwort: OLS (kleinste Quadrate), minimiert `Σ (y_i - hat y_i)²`

Erklärung: Die gewöhnliche Methode der kleinsten Quadrate (OLS) wählt die Koeffizienten so, dass die Summe der quadrierten Residuen `Σ (y_i - hat y_i)²` minimal wird.

F2.Was misst das Bestimmtheitsmaß R²?

Antwort: den Anteil der durch das Modell erklärten Varianz von `y`

Erklärung: `R²` gibt an, welcher Anteil der Gesamtvarianz von `y` durch das Regressionsmodell erklärt wird. Es liegt zwischen 0 (nichts erklärt) und 1 (vollständig erklärt).

F3.Im Modell hat y = β₀ + β₁ x₁ + dots ist β_j der {{1}} Effekt von x_j. Die Güte misst {{2}}; für den Modellvergleich nutzt man das {{3}} R².

Lösungen pro Lücke:

{{1}}: partielle / partiell
{{2}}: R² / R^2 / das Bestimmtheitsmaß / R-Quadrat
{{3}}: adjustierte / adjustiert / korrigierte

Erklärung: `β_j` = partieller Effekt (ceteris paribus). Güte über `R²`, für Modellvergleich das adjustierte `R²`.

Typ: Lückentext

F4.Modell hat y = 50 + 3 x₁ - 2 x₂. Berechne hat y für x₁ = 10 und x₂ = 5.

Antwort: 70 (Toleranz ±0.5)

Erklärung: `hat y = 50 + 3 · 10 - 2 · 5 = 50 + 30 - 10 = 70`. Ein negativer Koeffizient (`β₂ = -2`) senkt die Vorhersage mit steigendem `x₂`.

Typ: Zahlen-Eingabe

F5.Wie bindet man eine kategoriale Variable (z.B. Region: Nord/Süd) ein?

Antwort: über Dummy-Variablen (0/1)

Erklärung: Kategoriale Prädiktoren werden über Dummy-Variablen (Indikatorvariablen, 0/1) kodiert. Bei `m` Kategorien nimmt man `m-1` Dummies (eine Referenzkategorie).

F6.Ein Koeffizient wechselt das Vorzeichen, sobald man eine weitere Variable ins Modell aufnimmt. Was ist die wahrscheinliche Ursache?

Antwort: Konfundierung / Multikollinearität: der ursprüngliche Effekt war durch eine ausgelassene, korrelierte Variable verzerrt

Multiple lineare Regression

Die Idee in einem Satz

Die Koeffizienten richtig lesen

Schätzung und Gütemaße

Multikollinearität

Weitere Punkte

Klausur-Faustregeln

Häufige Stolpersteine

Partielle Effekte erleben

Wenn du fertig bist: jetzt üben.

Erklärung

Multiple lineare Regression

Die Idee in einem Satz

Die Koeffizienten richtig lesen

Schätzung und Gütemaße

Multikollinearität

Weitere Punkte

Klausur-Faustregeln

Häufige Stolpersteine

Interaktiv verstehen

Partielle Effekte erleben

Praxis-Übung

Klausur-Quiz

Multiple lineare Regression

Die Idee in einem Satz

Die Koeffizienten richtig lesen

Schätzung und Gütemaße

Multikollinearität

Weitere Punkte

Klausur-Faustregeln

Häufige Stolpersteine

Partielle Effekte erleben

Wenn du fertig bist: jetzt üben.

Erklärung

Multiple lineare Regression

Die Idee in einem Satz

Die Koeffizienten richtig lesen

Schätzung und Gütemaße

Multikollinearität

Weitere Punkte

Klausur-Faustregeln

Häufige Stolpersteine

Interaktiv verstehen

Partielle Effekte erleben

Praxis-Übung

Klausur-Quiz