Die lineare Regression schätzt eine Gerade y = a + b·x, die die Punktwolke der Daten am besten beschreibt — gemessen am minimalen Quadrat-Fehler. Wichtigstes Werkzeug der Inferenz-Statistik in BWL, VWL, Psychologie, Data Science.
Beobachtung: die Regressionsgerade geht immer durch den Schwerpunkt (xˉ,yˉ).
b=r⋅σXσY
und das Bestimmtheitsmaß:
R2=r2
bei einfacher linearer Regression. Heißt: R2=1 → perfekte Anpassung, R2=0 → keine erklärte Varianz.
Daten: (1, 2), (2, 3), (3, 5), (4, 4), (5, 6).
Schritt 1: Mittelwerte xˉ=3, yˉ=4.
Schritt 2: Tabelle ausfüllen:
x
y
x−x̄
y−ȳ
(x−x̄)(y−ȳ)
(x−x̄)²
1
2
-2
-2
4
4
2
3
-1
-1
1
1
3
5
0
1
0
0
4
4
1
0
0
1
5
6
2
2
4
4
Σ =
9
10
Schritt 3: Steigung b=9/10=0,9.
Schritt 4: Intercept a=4−0,9⋅3=1,3.
Schritt 5: Regression: y^=1,3+0,9⋅x.
Vorhersage für x = 6: y^=1,3+0,9⋅6=6,7.
Für jede Beobachtung i ist das Residuum:
εi=yi−y^i=yi−(a+b⋅xi)
Wenn die Regression gut passt, sind Residuen klein und um 0 verteilt. Bei systematischen Mustern (z.B. U-Form) ist das Modell nicht linear → komplexere Modelle nötig.
R2=1−SSTSSR=1−∑(yi−yˉ)2∑(yi−y^i)2
mit:
SST (Total Sum of Squares) — gesamte Varianz von y
SSR (Residual Sum of Squares) — Restvarianz nach Regression
SSE (Explained Sum of Squares) — durch Regression erklärte Varianz
Interpretation:R2=0,75 → die Regression erklärt 75 % der Varianz von y. Die restlichen 25 % gehen als unerklärt in die Residuen.
Für korrekte Inferenz (Standardfehler, Hypothesentests) müssen 4 Annahmen erfüllt sein:
Linearität: y hängt linear von x ab
Unabhängigkeit: Beobachtungen unabhängig
Homoskedastizität: konstante Varianz der Residuen über alle x-Werte
In Klausur-Aufgaben werden oft nur Punkte 1 und 4 erwähnt.
Vorhersage: y^ für ein neues x — Punktschätzung mit Konfidenzintervall.
Erklärung: b als Effekt — "wenn x um 1 Einheit steigt, steigt y im Durchschnitt um b".
Vorsicht: Korrelation ≠ Kausalität gilt auch hier. Ein Regressions-Koeffizient bedeutet Assoziation, nicht zwingend Wirkung.
Steigung b zuerst (mit Cov(X,Y) / Var(X)), dann Intercept a = ȳ − b·x̄.
Gerade geht durch (x̄, ȳ) — wertvoller Plausibilitäts-Check.
R² = r² bei einfacher Regression.
Residuen-Plot in der Klausur erwähnen wenn nach Modell-Güte gefragt.
Vorhersage außerhalb des Datenbereichs ist riskant (Extrapolation).
Cov(X,Y) und Var(X) verwechseln. Die Steigungs-Formel hat Cov im Zähler und Var(X) (NICHT Var(Y)) im Nenner. Bei Verwechslung wird die Skala falsch.
Intercept-Formel vergessen.a=yˉ−b⋅xˉ — die Reihenfolge ist wichtig. Erst b berechnen, dann a aus dem Schwerpunkt.
R² mit r verwechseln.R2 ist immer ≥ 0 (kann nicht negativ sein bei OLS). r kann negativ sein (Vorzeichen der Steigung).
Klausur-ÜbersichtKomplette Übersicht: alle Tabs als linearer Text zum Lernen
▾
Alle Tabs der Lerneinheit (Erklärung · Interaktiv verstehen · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur — und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).
Teil 1·Erklärung
Erklärung
Lineare Regression
Wichtigstes Werkzeug der Inferenz- in BWL, VWL, Psychologie, Data Science.
Beobachtung: die Regressionsgerade geht immer durch den Schwerpunkt (x̄, ȳ).
Verbindung zur Korrelation
b = r · (σ_Y)/(σ_X)
und das Bestimmtheitsmaß:
R² = r²
bei einfacher linearer Regression. Heißt: R² = 1 → perfekte Anpassung, R² = 0 → keine erklärte Varianz.
Beispiel — Hand-Rechnung
Daten: (1, 2), (2, 3), (3, 5), (4, 4), (5, 6).
Schritt 1: Mittelwerte x̄ = 3, ȳ = 4.
Schritt 2: Tabelle ausfüllen:
x
y
x−x̄
y−ȳ
(x−x̄)(y−ȳ)
(x−x̄)²
1
2
-2
-2
4
4
2
3
-1
-1
1
1
3
5
0
1
0
0
4
4
1
0
0
1
5
6
2
2
4
4
Σ =
9
10
Schritt 3: Steigung b = 9 / 10 = 0,9.
Schritt 4: Intercept a = 4 - 0,9 · 3 = 1,3.
Schritt 5: Regression: ŷ = 1,3 + 0,9 · x.
Vorhersage für x = 6: ŷ = 1,3 + 0,9 · 6 = 6,7.
Residuen
Für jede Beobachtung i ist das Residuum:
ε_i = y_i - ŷ_i = y_i - (a + b · x_i)
Wenn die Regression gut passt, sind Residuen klein und um 0 verteilt. Bei systematischen Mustern (z.B. U-Form) ist das Modell nicht linear → komplexere Modelle nötig.
Erklärung: b als Effekt — "wenn x um 1 Einheit steigt, steigt y im Durchschnitt um b".
Vorsicht: Korrelation ≠ Kausalität gilt auch hier. Ein Regressions-Koeffizient bedeutet Assoziation, nicht zwingend Wirkung.
Klausur-Faustregeln
Steigung b zuerst (mit Cov(X,Y) / Var(X)), dann Intercept a = ȳ − b·x̄.
Gerade geht durch (x̄, ȳ) — wertvoller Plausibilitäts-Check.
R² = r² bei einfacher Regression.
Residuen-Plot in der Klausur erwähnen wenn nach Modell-Güte gefragt.
Vorhersage außerhalb des Datenbereichs ist riskant (Extrapolation).
Typischer Stolperstein
Cov(X,Y) und Var(X) verwechseln. Die Steigungs-Formel hat Cov im Zähler und Var(X) (NICHT Var(Y)) im Nenner. Bei Verwechslung wird die Skala falsch.
Intercept-Formel vergessen.a = ȳ - b · x̄ — die Reihenfolge ist wichtig. Erst b berechnen, dann a aus dem Schwerpunkt.
R² mit r verwechseln.R² ist immer ≥ 0 (kann nicht negativ sein bei OLS). r kann negativ sein (Vorzeichen der Steigung).
Teil 2·Visualisierung / Interaktiv
Interaktiv verstehen
Regressions-Lab
Verschiebe die Punkte — die OLS-Gerade passt sich live an. Toggle die Residuen ein, um die Vorhersage-Fehler als vertikale Striche zu sehen. Beobachte: ein einzelner Outlier kann die Gerade kippen — visualisiert direkt warum man Residuen-Plots in der Praxis macht.
Interaktive Visualisierung
Lineare Regression mit Residuen-Anzeige und Bestimmtheitsmaß R^2.
Klausur-Tipp: beachte dass die Gerade IMMER durch den Schwerpunkt (x̄, ȳ) geht — wenn du ihn dir markierst und an einer Stelle siehst dass die Linie nicht durchgeht, hast du dich verrechnet.
Teil 3·Quiz / Klausurfragen
Praxis-Übung
Regressions-Praxis
Klausur-typische Aufgaben: a und b berechnen, R² interpretieren, Vorhersage für neuen x-Wert, Residuen identifizieren.
F3.Mit der Regression ŷ = 1,3 + 0,9·x: Vorhersage für x = 7. (auf 1 Nachkommastelle)
Antwort: 7.6 (Toleranz ±0.05)
Erklärung: ŷ(7) = 1,3 + 0,9·7 = 1,3 + 6,3 = 7,6. ACHTUNG: Extrapolation außerhalb der Daten (1-5) ist riskant. Die Regression ist nur im beobachteten Bereich verlässlich.
Typ: Zahlen-Eingabe
F4.Die OLS-Regressionsgerade verläuft immer durch den Schwerpunkt (x̄, ȳ).
Antwort: Wahr
Erklärung: Korrekt. Aus der Intercept-Formel a = ȳ - b·x̄ folgt direkt: bei x = x̄ ist ŷ = a + b·x̄ = (ȳ - b·x̄) + b·x̄ = ȳ. Klausur-Plausibilitäts-Check.
Typ: Wahr/Falsch
F5.Ordne der Größe die Beschreibung zu:
Zuordnungen:
SSR (Σ(yi - ŷi)²) → Residual-Summe — Rest, der nicht erklärt wird
SST (Σ(yi - ȳ)²) → Total-Summe — gesamte Varianz von y
Erklärung: Die drei Varianz-Komponenten: SST = SSR + SSE. R² ist die normalisierte Erklärungs-Quote. Klausur-Pflicht für Modell-Güte-Diskussion.
Typ: Zuordnung
F6.Wenn r = 0,7 (Pearson-Korrelation): wie groß ist R²? (auf 2 Nachkommastellen)
Antwort: 0.49 (Toleranz ±0.005)
Erklärung: Bei einfacher linearer Regression gilt R² = r² = 0,7² = 0,49. Heißt: 49 % der Varianz von y wird durch x erklärt. Faustregel-Erinnerung: r=0,7 wirkt 'gut', erklärt aber nur knapp die Hälfte.
Typ: Zahlen-Eingabe
Teil 4·Quiz / Klausurfragen
Klausur-Quiz
Klausurfragen mit Lösungen (6)
F1.Sortiere die Schritte zur OLS-Regression von Daten (xi, yi):
Richtige Reihenfolge:
Mittelwerte $\bar{x}$ und $\bar{y}$ berechnen
Abweichungen $(x_i - \bar{x})$ und $(y_i - \bar{y})$ pro Punkt
Steigung b = Σ(x-x̄)(y-ȳ) / Σ(x-x̄)²
Intercept a = ȳ − b·x̄
Regressionsgleichung ŷ = a + b·x notieren
Erklärung: Standard-Workflow: Mittelwerte → Abweichungen → b berechnen → a aus Schwerpunkt → fertige Gleichung. Reihenfolge zwingend, da a von b abhängt.
Typ: Reihenfolge
F2.Eine Studie ergibt R² = 0,04. Wie ist das zu interpretieren?
Antwort: Sehr schwache Anpassung — nur 4 % der Varianz erklärt
Erklärung: R² = 0,04 = 4 % der Varianz erklärt. Sehr schwacher Zusammenhang. R² ist immer nicht-negativ. Klausur-Klassiker zur Modell-Güte-Bewertung.
F3.Welche Aussagen über die OLS-Regression sind RICHTIG?
Richtige Antworten: Minimiert Σ(yi - ŷi)²; Geht durch (x̄, ȳ); R² ist immer ≥ 0; R² = r² bei einfacher Regression; Annahme: Linearität, Unabhängigkeit, Homoskedastizität, Normalität der Residuen
Erklärung: Korrekt: minimiert Quadrat-Fehler, durch Schwerpunkt, R² ≥ 0, R²=r², 4 Annahmen. Falsch: b kann positiv ODER negativ sein — abhängig vom Vorzeichen von Cov(X,Y).
Typ: Multi-Select
F4.Daten (1,3), (2,5), (3,4), (4,6), (5,8). Berechne die Steigung b auf 2 Nachkommastellen.
F5.Bei der OLS-Regression können Residuen (yi - ŷi) sowohl positiv als auch negativ sein, und ihre Summe ist immer null.
Antwort: Wahr
Erklärung: Korrekt. Aus der Minimierungs-Bedingung folgt: Σ(yi - ŷi) = 0. Positive und negative Residuen heben sich exakt auf. Deshalb wird das QUADRAT der Residuen minimiert — sonst würde das Vorzeichen tricks erlauben.
Typ: Wahr/Falsch
F6.Bei einfacher linearer Regression gilt: b = r · ({{1}} / {{2}}), und R² = {{3}}.
Lösungen pro Lücke:
{{1}}: σ_Y / σY / sigma_y / sigma Y
{{2}}: σ_X / σX / sigma_x / sigma X
{{3}}: r² / r^2 / r2
Erklärung: b = r · (σ_Y / σ_X) verknüpft Korrelation mit Regression — die Steigung skaliert mit dem Verhältnis der Streuungen. R² = r² bei einfacher Regression (mit nur einer x-Variable).