Eine Studie ergibt R² = 0,04. Wie ist das zu interpretieren?

Richtige Antwort: Sehr schwache Anpassung — nur 4 % der Varianz erklärt. R² = 0,04 = 4 % der Varianz erklärt. Sehr schwacher Zusammenhang. R² ist immer nicht-negativ. Klausur-Klassiker zur Modell-Güte-Bewertung.

UniProMax/Statistik/lineare-regression

Statistik·12 Min Lesezeit·Fortgeschritten

Lineare Regression

OLS-Schätzung der Geraden y = a + b·x für eine Punktwolke. Bestimmtheitsmaß R², Residuen, Vorhersage, klassische Annahmen — Klausur-Pflicht.

Voraussetzung:Korrelation — Pearson & Spearman

Lerneinheit 1 von 4

Lineare Regression

Die lineare Regression schätzt eine Gerade y = a + b·x, die die Punktwolke der Daten am besten beschreibt — gemessen am minimalen Quadrat-Fehler. Wichtigstes Werkzeug der Inferenz-Statistik in BWL, VWL, Psychologie, Data Science.

Was du in der Klausur können musst:

OLS-Formeln für Steigung b und Achsenabschnitt a
Bestimmtheitsmaß R² interpretieren (Anteil erklärter Varianz)
Residuen verstehen (Beobachtung minus Vorhersage)
Vorhersage ŷ für neuen x-Wert berechnen
Annahmen des linearen Modells nennen

In Klausuren oft gefragt: Berechne die Regressionsgerade und Wie viel Prozent der Varianz erklärt die Regression? Pflicht.

Bei einer Punktwolke $(x_1, y_1), \ldots, (x_n, y_n)$ suchen wir die Gerade

$\hat{y} = a + b \cdot x$

die die Punkte am besten beschreibt. "Am besten" heißt: Summe der quadrierten Abstände in y-Richtung (= Residuen) wird minimal.

Method of Least Squares (Gauß): minimiere $\sum (y_i - \hat{y}_i)^2$

Aus der Minimierungs-Bedingung folgen direkt:

$b = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}$

$a = \bar{y} - b \cdot \bar{x}$

Beobachtung: die Regressionsgerade geht immer durch den Schwerpunkt $(\bar{x}, \bar{y})$ .

$b = r \cdot \frac{\sigma_Y}{\sigma_X}$

und das Bestimmtheitsmaß:

$R^2 = r^2$

bei einfacher linearer Regression. Heißt: $R^2 = 1$ → perfekte Anpassung, $R^2 = 0$ → keine erklärte Varianz.

Daten: (1, 2), (2, 3), (3, 5), (4, 4), (5, 6).

Schritt 1: Mittelwerte $\bar{x} = 3$ , $\bar{y} = 4$ .

Schritt 2: Tabelle ausfüllen:

x	y	x−x̄	y−ȳ	(x−x̄)(y−ȳ)	(x−x̄)²
1	2	-2	-2	4	4
2	3	-1	-1	1	1
3	5	0	1	0	0
4	4	1	0	0	1
5	6	2	2	4	4
			Σ =	9	10

Schritt 3: Steigung $b = 9 / 10 = 0{,}9$ .

Schritt 4: Intercept $a = 4 - 0{,}9 \cdot 3 = 1{,}3$ .

Schritt 5: Regression: $\hat{y} = 1{,}3 + 0{,}9 \cdot x$ .

Vorhersage für x = 6: $\hat{y} = 1{,}3 + 0{,}9 \cdot 6 = 6{,}7$ .

Für jede Beobachtung $i$ ist das Residuum:

$\varepsilon_i = y_i - \hat{y}_i = y_i - (a + b \cdot x_i)$

Wenn die Regression gut passt, sind Residuen klein und um 0 verteilt. Bei systematischen Mustern (z.B. U-Form) ist das Modell nicht linear → komplexere Modelle nötig.

$R^2 = 1 - \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}$

mit:

SST (Total Sum of Squares) — gesamte Varianz von y
SSR (Residual Sum of Squares) — Restvarianz nach Regression
SSE (Explained Sum of Squares) — durch Regression erklärte Varianz

Interpretation: $R^2 = 0{,}75$ → die Regression erklärt 75 % der Varianz von y. Die restlichen 25 % gehen als unerklärt in die Residuen.

Für korrekte Inferenz (Standardfehler, Hypothesentests) müssen 4 Annahmen erfüllt sein:

Linearität: y hängt linear von x ab
Unabhängigkeit: Beobachtungen unabhängig
Homoskedastizität: konstante Varianz der Residuen über alle x-Werte
Normalverteilung der Residuen

In Klausur-Aufgaben werden oft nur Punkte 1 und 4 erwähnt.

Vorhersage: $\hat{y}$ für ein neues x — Punktschätzung mit Konfidenzintervall.

Erklärung: $b$ als Effekt — "wenn x um 1 Einheit steigt, steigt y im Durchschnitt um $b$ ".

Vorsicht: Korrelation ≠ Kausalität gilt auch hier. Ein Regressions-Koeffizient bedeutet Assoziation, nicht zwingend Wirkung.

Steigung b zuerst (mit Cov(X,Y) / Var(X)), dann Intercept a = ȳ − b·x̄.

Gerade geht durch (x̄, ȳ) — wertvoller Plausibilitäts-Check.

R² = r² bei einfacher Regression.

Residuen-Plot in der Klausur erwähnen wenn nach Modell-Güte gefragt.

Vorhersage außerhalb des Datenbereichs ist riskant (Extrapolation).

Cov(X,Y) und Var(X) verwechseln. Die Steigungs-Formel hat Cov im Zähler und Var(X) (NICHT Var(Y)) im Nenner. Bei Verwechslung wird die Skala falsch.

Intercept-Formel vergessen. $a = \bar{y} - b \cdot \bar{x}$ — die Reihenfolge ist wichtig. Erst b berechnen, dann a aus dem Schwerpunkt.

R² mit r verwechseln. $R^2$ ist immer ≥ 0 (kann nicht negativ sein bei OLS). $r$ kann negativ sein (Vorzeichen der Steigung).

Klausur-ÜbersichtKomplette Übersicht: alle Tabs als linearer Text zum Lernen

Alle Tabs der Lerneinheit (Erklärung · Interaktiv verstehen · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur — und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).

Teil 1·Erklärung

Erklärung

Lineare Regression

Wichtigstes Werkzeug der Inferenz- in BWL, VWL, Psychologie, Data Science.

Mehr aus Statistik

Statistik

Lineare Regression

Was du in der Klausur können musst:

OLS-Formeln für Steigung b und Achsenabschnitt a

Bestimmtheitsmaß R² interpretieren (Anteil erklärter Varianz)

Residuen verstehen (Beobachtung minus Vorhersage)

Vorhersage ŷ für neuen x-Wert berechnen

Annahmen des linearen Modells nennen

In Klausuren oft gefragt: Berechne die Regressionsgerade und Wie viel Prozent der Varianz erklärt die Regression? Pflicht.

x−x̄

y−ȳ

(x−x̄)(y−ȳ)

(x−x̄)²

-2

-1

Σ =

Lineare Regression

Lineare Regression

Die Idee

OLS-Formeln

Verbindung zur Korrelation

Beispiel — Hand-Rechnung

Residuen

Bestimmtheitsmaß R²

Annahmen des linearen Modells

Vorhersage vs. Erklärung

Klausur-Faustregeln

Typischer Stolperstein

Erklärung

Lineare Regression

Normalverteilung

Binomial- und Poisson-Verteilung

Konfidenzintervall

Lineare Regression

Lineare Regression

Die Idee

OLS-Formeln

Verbindung zur Korrelation

Beispiel — Hand-Rechnung

Residuen

Bestimmtheitsmaß R²

Annahmen des linearen Modells

Vorhersage vs. Erklärung

Klausur-Faustregeln

Typischer Stolperstein

Erklärung

Lineare Regression

Normalverteilung

Binomial- und Poisson-Verteilung

Konfidenzintervall

Die Idee

OLS-Formeln

Verbindung zur Korrelation

Beispiel — Hand-Rechnung

Residuen

Bestimmtheitsmaß R²

Annahmen des linearen Modells

Vorhersage vs. Erklärung

Klausur-Faustregeln

Typischer Stolperstein

Interaktiv verstehen

Regressions-Lab

Praxis-Übung

Regressions-Praxis

Klausur-Quiz

Hypothesentest — Grundlagen

t-Test

Chi-Quadrat-Test