Alle Tabs der Lerneinheit (Erklärung · Interaktiv verstehen · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur, und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).
Diese Lerneinheit wurde für typische Bachelor-Klausuren konzipiert. So prüfen wir · Fehler entdeckt? Melde ihn uns oder markiere die fragliche Stelle direkt im Text oben.
Alle Tabs der Lerneinheit (Erklärung · Interaktiv verstehen · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur, und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).
Die lineare Regression schätzt eine Gerade y = a + b·x, die die Punktwolke der Daten am besten beschreibt, gemessen am minimalen Quadrat-Fehler. Wichtigstes Werkzeug der Inferenz-Statistik in BWL, VWL, Psychologie, Data Science.
Was du in der Klausur können musst:
In Klausuren oft gefragt: Berechne die Regressionsgerade und Wie viel Prozent der Varianz erklärt die Regression? Pflicht.
Klausur-Tipp: beachte dass die Gerade IMMER durch den Schwerpunkt (x̄, ȳ) geht, wenn du ihn dir markierst und an einer Stelle siehst dass die Linie nicht durchgeht, hast du dich verrechnet.
Anmelden, um den Fortschritt zu speichern.
Nächster Schritt
Aktives Abrufen festigt Wissen schneller als nochmal lesen.
Die lineare Regression schätzt eine Gerade y = a + b·x, die die Punktwolke der Daten am besten beschreibt, gemessen am minimalen Quadrat-Fehler. Wichtigstes Werkzeug der Inferenz-Statistik in BWL, VWL, Psychologie, Data Science.
Was du in der Klausur können musst:
In Klausuren oft gefragt: Berechne die Regressionsgerade und Wie viel Prozent der Varianz erklärt die Regression? Pflicht.
Bei einer Punktwolke (x₁, y₁), ..., (x_n, y_n) suchen wir die Gerade
ŷ = a + b · x
die die Punkte am besten beschreibt. "Am besten" heißt: Summe der quadrierten Abstände in y-Richtung (= Residuen) wird minimal.
Method of Least Squares (Gauß): minimiere
Σ (y_i - ŷ_i)²
Aus der Minimierungs-Bedingung folgen direkt:
b = (Σ_i (x_i - x̄)(y_i - ȳ))/(Σ_i (x_i - x̄)²)
a = ȳ - b · x̄
Äquivalent über Kovarianz und Varianz:
b = Cov(X, Y)/Var(X)
Beobachtung: die Regressionsgerade geht immer durch den Schwerpunkt (x̄, ȳ).
b = r · (σ_Y)/(σ_X)
und das Bestimmtheitsmaß:
R² = r²
bei einfacher linearer Regression. Heißt: R² = 1 → perfekte Anpassung, R² = 0 → keine erklärte Varianz.
Daten: (1, 2), (2, 3), (3, 5), (4, 4), (5, 6).
Schritt 1: Mittelwerte x̄ = 3, ȳ = 4.
Schritt 2: Tabelle ausfüllen:
| x | y | x−x̄ | y−ȳ | (x−x̄)(y−ȳ) | (x−x̄)² |
|---|---|---|---|---|---|
| 1 | 2 | -2 | -2 | 4 | 4 |
| 2 | 3 | -1 | -1 | 1 | 1 |
| 3 | 5 | 0 | 1 | 0 | 0 |
| 4 | 4 | 1 | 0 | 0 | 1 |
| 5 | 6 | 2 | 2 | 4 |
Schritt 3: Steigung b = 9 / 10 = 0,9.
Schritt 4: Intercept a = 4 - 0,9 · 3 = 1,3.
Schritt 5: Regression: ŷ = 1,3 + 0,9 · x.
Vorhersage für x = 6: ŷ = 1,3 + 0,9 · 6 = 6,7.
Für jede Beobachtung i ist das Residuum:
ε_i = y_i - ŷ_i = y_i - (a + b · x_i)
Wenn die Regression gut passt, sind Residuen klein und um 0 verteilt. Bei systematischen Mustern (z.B. U-Form) ist das Modell nicht linear → komplexere Modelle nötig.
Notations-Warnung: in der Statistik-Literatur sind
SSRundSSEnicht eindeutig belegt, manche Bücher meinen mitSSR"Residual", andere "Regression". Wir nutzen daher die eindeutigen Begriffe:
boxedTSS = ESS + RSS
mit:
TSS = Σ_i (y_i - ȳ)² (Total)
ESS = Σ_i (ŷ_i - ȳ)² (Explained / durch Regression erklärt)
RSS = Σ_i (y_i - ŷ_i)² (Residual)
Bestimmtheitsmaß:
R² = 1 - RSS/TSS = ESS/TSS
Interpretation: R² = 0,75 → das Modell erklärt 75 % der Streuung in y (im Sinne kleinster Quadrate). Die restlichen 25 % gehen als unerklärte Residuen ein. Achtung: "erklärt" heißt hier rein modell-mäßig, nicht kausal.
Für korrekte Inferenz (Standardfehler, Hypothesentests, kausale Interpretation) müssen folgende Annahmen erfüllt sein:
y hängt linear von x abX den Erwartungswert null:
E(ε mid X) = 0
Ohne diese Annahme ist OLS im strukturellen/kausalen Sinn verzerrt, der geschätzte Koeffizient picked auch Confounder-Effekte mit auf.x-Werten über CLT abschwächbar)In Klausur-Aufgaben werden oft nur Linearität, Homoskedastizität und Normalität abgefragt, Exogenität ist die fortgeschrittene Annahme, die den Sprung von Korrelation zu kausaler Aussage erlaubt.
Vorhersage, zwei verschiedene Intervalle, die in Klausuren oft verwechselt werden:
E[Y mid X = x₀]): wo liegt der mittlere y-Wert für x₀? Schmaler.y_(neu) bei X = x₀): wo liegt diese eine Beobachtung? Breiter, weil die individuelle Streuung zusätzlich rein muss.Erklärung, b als Effekt: "wenn x um 1 Einheit steigt, steigt y im Mittel um b Einheiten".
Vorsicht: Korrelation ≠ Kausalität. Ein Regressions-Koeffizient bedeutet Assoziation, nicht zwingend Wirkung, kausal interpretierbar erst unter der Exogenitätsannahme oder einem identifizierenden Design (Experiment, IV, DiD, RDD).
- Steigung b zuerst (mit Cov(X,Y) / Var(X)), dann Intercept a = ȳ − b·x̄.
- Gerade geht durch (x̄, ȳ), wertvoller Plausibilitäts-Check.
- R² = r² bei einfacher Regression.
- Residuen-Plot in der Klausur erwähnen wenn nach Modell-Güte gefragt.
- Vorhersage außerhalb des Datenbereichs ist riskant (Extrapolation).
Cov(X,Y) und Var(X) verwechseln. Die Steigungs-Formel hat Cov im Zähler und Var(X) (NICHT Var(Y)) im Nenner. Bei Verwechslung wird die Skala falsch.
Intercept-Formel vergessen. a = ȳ - b · x̄, die Reihenfolge ist wichtig. Erst b berechnen, dann a aus dem Schwerpunkt.
R² mit r verwechseln. R² ist immer ≥ 0 (kann nicht negativ sein bei OLS). r kann negativ sein (Vorzeichen der Steigung).
Verschiebe die Punkte, die OLS-Gerade passt sich live an. Toggle die Residuen ein, um die Vorhersage-Fehler als vertikale Striche zu sehen. Beobachte: ein einzelner Outlier kann die Gerade kippen, visualisiert direkt warum man Residuen-Plots in der Praxis macht.
Interaktive Visualisierung
Lineare Regression mit Residuen-Anzeige und Bestimmtheitsmaß R^2.
Klausur-Tipp: beachte dass die Gerade IMMER durch den Schwerpunkt (x̄, ȳ) geht, wenn du ihn dir markierst und an einer Stelle siehst dass die Linie nicht durchgeht, hast du dich verrechnet.
Klausur-typische Aufgaben: a und b berechnen, R² interpretieren, Vorhersage für neuen x-Wert, Residuen identifizieren.
Klausurfragen mit Lösungen (6)
Antwort: 0.9 (Toleranz ±0.05)
Erklärung: `x̄`=3, `ȳ`=4. Σ(x-x̄)(y-ȳ)=9. Σ(x-x̄)²=10. b = 9/10 = 0,9. Klausur-Standard: erst Tabelle, dann Division.
Typ: Zahlen-Eingabe
Antwort: 1.3 (Toleranz ±0.05)
Erklärung: a = ȳ - b·x̄ = 4 - 0,9·3 = 4 - 2,7 = 1,3. Regression: ŷ = 1,3 + 0,9·x. Plausibilitäts-Check: bei x=3 ist ŷ = 1,3 + 2,7 = 4 = ȳ ✓.
Typ: Zahlen-Eingabe
Antwort: 7.6 (Toleranz ±0.05)
Erklärung: ŷ(7) = 1,3 + 0,9·7 = 1,3 + 6,3 = 7,6. ACHTUNG: Extrapolation außerhalb der Daten (1-5) ist riskant. Die Regression ist nur im beobachteten Bereich verlässlich.
Typ: Zahlen-Eingabe
Antwort: Wahr
Erklärung: Korrekt. Aus der Intercept-Formel a = ȳ - b·x̄ folgt direkt: bei x = x̄ ist ŷ = a + b·x̄ = (ȳ - b·x̄) + b·x̄ = ȳ. Klausur-Plausibilitäts-Check.
Typ: Wahr/Falsch
Zuordnungen:
Erklärung: Eindeutige Notation: TSS = ESS + RSS. R² ist der Anteil der erklärten Streuung. Achtung: in der Literatur sind SSR/SSE nicht eindeutig, daher RSS/ESS/TSS verwenden.
Typ: Zuordnung
Antwort: 0.49 (Toleranz ±0.005)
Erklärung: Bei einfacher linearer Regression gilt R² = r² = 0,7² = 0,49. Heißt: 49 % der Varianz von y wird durch x erklärt. Faustregel-Erinnerung: r=0,7 wirkt 'gut', erklärt aber nur knapp die Hälfte.
Typ: Zahlen-Eingabe
Klausurfragen mit Lösungen (6)
Richtige Reihenfolge:
Erklärung: Standard-Workflow: Mittelwerte → Abweichungen → b berechnen → a aus Schwerpunkt → fertige Gleichung. Reihenfolge zwingend, da a von b abhängt.
Typ: Reihenfolge
Antwort: Sehr schwache Anpassung, nur 4 % der Varianz erklärt
Erklärung: R² = 0,04 = 4 % der Varianz erklärt. Sehr schwacher Zusammenhang. R² ist immer nicht-negativ. Klausur-Klassiker zur Modell-Güte-Bewertung.
Richtige Antworten: Minimiert Σ(yi - ŷi)²; Geht durch (x̄, ȳ); R² ist immer ≥ 0; R² = r² bei einfacher Regression; Annahme: Linearität, Unabhängigkeit, Homoskedastizität, Normalität der Residuen
Erklärung: Korrekt: minimiert Quadrat-Fehler, durch Schwerpunkt, R² ≥ 0, R²=r², 4 Annahmen. Falsch: b kann positiv ODER negativ sein, abhängig vom Vorzeichen von Cov(X,Y).
Typ: Multi-Select
Antwort: 1.1 (Toleranz ±0.05)
Erklärung: `x̄`=3, `ȳ`=5,2. (x-x̄)·(y-ȳ): -2·(-2,2)=4,4; -1·(-0,2)=0,2; 0·(-1,2)=0; 1·0,8=0,8; 2·2,8=5,6. Σ=11. (x-x̄)²: 4+1+0+1+4=10. b = 11/10 = 1,1.
Typ: Zahlen-Eingabe
Antwort: Wahr
Erklärung: Korrekt. Aus der Minimierungs-Bedingung folgt: Σ(yi - ŷi) = 0. Positive und negative Residuen heben sich exakt auf. Deshalb wird das QUADRAT der Residuen minimiert, sonst würde das Vorzeichen tricks erlauben.
Typ: Wahr/Falsch
Lösungen pro Lücke:
Erklärung: b = r · (σ_Y / σ_X) verknüpft Korrelation mit Regression, die Steigung skaliert mit dem Verhältnis der Streuungen. R² = r² bei einfacher Regression (mit nur einer x-Variable).
Typ: Lückentext
| 4 |
| Σ = | 9 | 10 |