Maximum-Likelihood-Schätzung

Du wirfst eine Münze 10-mal und siehst 7-mal Kopf. Welche Kopf-Wahrscheinlichkeit $p$ erklärt diese Beobachtung am besten? Die intuitive Antwort

0{,}7

ist genau die Maximum-Likelihood-Schätzung: man wählt den Parameter, der die beobachteten Daten am wahrscheinlichsten macht.

Was du in der Klausur können musst:

die Likelihood-Funktion

L(\theta) = P(\text{Daten} \mid \theta)

und ihre Idee

den Übergang zur Log-Likelihood und warum man ihn macht

die Herleitung über

\ell'(\theta) = 0

(Score-Gleichung)

die ML-Schätzer für Bernoulli (

\hat p = k/n

) und Normalverteilung

Alle Tabs der Lerneinheit (Erklärung · Interaktiv verstehen · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur, und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).

Teil 1·Erklärung

Erklärung

Maximum-Likelihood-Schätzung

Du wirfst eine Münze 10-mal und siehst 7-mal Kopf. Welche Kopf-Wahrscheinlichkeit p erklärt diese Beobachtung am besten? Die intuitive Antwort 0,7 ist genau die Maximum-Likelihood-Schätzung: man wählt den Parameter, der die beobachteten Daten am wahrscheinlichsten macht.

Was du in der Klausur können musst:

die Likelihood-Funktion L(θ) = P(Daten mid θ) und ihre Idee
den Übergang zur Log-Likelihood und warum man ihn macht
die Herleitung über ℓ'(θ) = 0 (Score-Gleichung)
die ML-Schätzer für Bernoulli (hat p = k/n) und Normalverteilung

Die Idee in einem Satz

Maximum-Likelihood wählt denjenigen Parameter hatθ, der die beobachteten Daten am wahrscheinlichsten macht, also die Likelihood L(θ) = P(Daten mid θ) maximiert.

Likelihood und Log-Likelihood

Bei unabhängigen Beobachtungen x₁, dots, x_n ist die Likelihood das Produkt der Einzelwahrscheinlichkeiten bzw. -dichten:

L(θ) = ∏_(i=1)ⁿ f(x_i; θ)

Produkte sind unhandlich zum Ableiten. Da der Logarithmus streng monoton ist, hat die Log-Likelihood ihr Maximum an derselben Stelle, ist aber eine Summe:

ℓ(θ) = log L(θ) = Σ_(i=1)ⁿ log f(x_i; θ)

Vorgehen: ℓ'(θ) = 0 lösen (die Score-Gleichung), dann prüfen, dass es ein Maximum ist.

Beispiel: Bernoulli / Binomial

n Würfe, k Erfolge. Die Likelihood ist L(p) = p^k (1-p)^(n-k), die Log-Likelihood

ℓ(p) = k log p + (n-k) log(1-p), ℓ'(p) = k/p - (n-k)/(1-p) = 0.

Auflösen ergibt boxedhat p = k/n, die relative Häufigkeit. Probier es aus:

Interaktive Visualisierung

Interaktive Komponente: probiere sie im Topic-Player oben aus.

Beispiel: Normalverteilung

Für eine Stichprobe aus N(μ, σ²) liefert Maximum-Likelihood:

hatμ = bar x = 1/nΣ_i x_i, hatσ² = 1/nΣ_i (x_i - bar x)².

Der ML-Schätzer für μ ist das Stichprobenmittel. Der ML-Schätzer für σ² teilt durch n (nicht n-1) und ist daher leicht verzerrt (er unterschätzt σ² systematisch). Die erwartungstreue Variante teilt durch n-1.

Eigenschaften von ML-Schätzern

Unter Regularitätsbedingungen sind ML-Schätzer

konsistent (konvergieren mit n → ∞ gegen den wahren Wert),
asymptotisch normalverteilt und asymptotisch effizient (kleinste Varianz),
aber nicht immer erwartungstreu (siehe hatσ²).

Klausur-Faustregeln

1. ML wählt hatθ, das die Daten am wahrscheinlichsten macht: maximiere L(θ) = P(Daten mid θ).

2. Unabhängige Daten: L(θ) = ∏ f(x_i; θ), Log-Likelihood ℓ(θ) = Σ log f(x_i; θ).

3. Maximiere ℓ statt L (gleiches Argmax, Summe statt Produkt): ℓ'(θ) = 0.

4. Bernoulli/Binomial: hat p = k/n.

5. Normalverteilung: hatμ = bar x, hatσ² = 1/nΣ (x_i - bar x)².

6. ML-Schätzer sind asymptotisch konsistent/normal/effizient, aber nicht zwingend erwartungstreu.

Häufige Stolpersteine

1. Likelihood mit der Wahrscheinlichkeit der Hypothese verwechseln. L(θ) = P(Daten mid θ), nicht P(θ mid Daten). Letzteres ist die bayesianische Posterior-Wahrscheinlichkeit.

2. Glauben, der Log verändere das Maximum. Der Logarithmus ist streng monoton, L und ℓ haben dasselbe Argmax. Der Wechsel ist erlaubt und vereinfacht.

3. ML-Schätzer für immer erwartungstreu halten. hatσ² teilt durch n und ist verzerrt. Erwartungstreue ist eine andere Eigenschaft als ML.

4. Randmaxima übersehen. Bei k = 0 ist hat p = 0, bei k = n ist hat p = 1. Das Maximum liegt dann am Rand des Parameterbereichs.

5. Unabhängigkeit voraussetzen, ohne sie zu prüfen. Die Produktform ∏ f(x_i; θ) gilt nur bei unabhängigen Beobachtungen.

6. ℓ'(θ) = 0 blind als Lösung nehmen. Die Score-Gleichung liefert nur Kandidaten; man muss prüfen, dass ein Maximum (nicht Minimum oder Sattelpunkt) vorliegt.

Teil 2·Visualisierung / Interaktiv

Interaktiv verstehen

Die Likelihood maximieren

Schiebe p und beobachte L(p) und log L(p). Beide erreichen ihr Maximum bei hat p = k/n = 0,7. Werte daneben (z.B. p = 0,3 oder 0,9) machen die beobachteten 7 Erfolge in 10 Würfen unwahrscheinlicher.

Interaktive Visualisierung

Interaktive Komponente: probiere sie im Topic-Player oben aus.

Klausur-Tipp: Schreibe immer erst die Likelihood als Produkt hin, logarithmiere zur Summe, leite ab und setze ℓ'(θ) = 0. Bei Bernoulli führt das direkt auf hat p = k/n.

Teil 3·Quiz / Klausurfragen

Praxis-Übung

Klausurfragen mit Lösungen (6)

F1.Was wählt die Maximum-Likelihood-Schätzung?

Antwort: den Parameter, der die beobachteten Daten am wahrscheinlichsten macht

Erklärung: ML maximiert die Likelihood `L(θ) = P(Daten mid θ)`: man sucht den Parameter, unter dem die tatsächlich beobachteten Daten am wahrscheinlichsten sind.

F2.Warum geht man von der Likelihood zur Log-Likelihood über?

Antwort: weil der Logarithmus monoton ist (gleiches Maximum) und aus dem Produkt eine leichter ableitbare Summe macht

Erklärung: Der Logarithmus ist streng monoton, also haben `L` und `ℓ = log L` dasselbe Argmax. Aus dem Produkt `∏ f(x_i;θ)` wird die Summe `Σ log f(x_i;θ)`, die sich viel einfacher ableiten lässt.

F3.Eine Münze zeigt bei 10 Würfen 7-mal Kopf. Wie lautet der ML-Schätzer hat p für die Kopf-Wahrscheinlichkeit? (2 Nachkommastellen)

Antwort: 0.7 (Toleranz ±0.01)

Erklärung: Beim Bernoulli/Binomial-Modell ist `hat p = k/n = 7/10 = 0,7`, also die relative Häufigkeit der Erfolge.

Typ: Zahlen-Eingabe

F4.Was ist der ML-Schätzer für den Erwartungswert μ einer Normalverteilung?

Antwort: das Stichprobenmittel `bar x`

Erklärung: Für eine Stichprobe aus `N(μ, σ²)` ist der ML-Schätzer `hatμ = bar x`, das arithmetische Mittel der Beobachtungen.

F5.Die Likelihood L(θ) ist die Wahrscheinlichkeit, dass θ der wahre Parameter ist.

Antwort: Falsch

Erklärung: Falsch. `L(θ) = P(Daten mid θ)` ist die Wahrscheinlichkeit der Daten gegeben `θ`, nicht `P(θ mid Daten)`. Letzteres wäre die bayesianische Posterior-Wahrscheinlichkeit.

Typ: Wahr/Falsch

F6.Warum ist der ML-Schätzer hatσ² = 1/nΣ (x_i - bar x)² verzerrt?

Antwort: weil er durch `n` statt `n-1` teilt und `σ²` dadurch systematisch unterschätzt

Erklärung: Der ML-Schätzer teilt durch `n`. Da `bar x` aus denselben Daten geschätzt wird, unterschätzt er `σ²` im Erwartungswert. Die erwartungstreue Stichprobenvarianz teilt durch `n-1` (Bessel-Korrektur).

Teil 4·Quiz / Klausurfragen

Klausur-Quiz

Klausurfragen mit Lösungen (6)

F1.Wie lautet die Likelihood bei n unabhängigen Beobachtungen?

Antwort: das Produkt der Einzeldichten `∏_i f(x_i; θ)`

Erklärung: Bei Unabhängigkeit faktorisiert die gemeinsame Dichte: `L(θ) = ∏_(i=1)ⁿ f(x_i; θ)`. Erst der Logarithmus macht daraus die handlichere Summe.

F2.Wie findet man rechnerisch das ML-Maximum?

Antwort: man löst die Score-Gleichung `ℓ'(θ) = 0` und prüft, dass ein Maximum vorliegt

Erklärung: Man leitet die Log-Likelihood ab und setzt `ℓ'(θ) = 0` (Score-Gleichung). Die Lösung ist ein Kandidat; mit der zweiten Ableitung oder dem Randverhalten prüft man, dass es das Maximum ist.

F3.Maximum-Likelihood maximiert die {{1}} L(θ) = P(Daten mid θ). Bei unabhängigen Daten ist sie ein {{2}}. Praktisch maximiert man die {{3}}-Likelihood.

Lösungen pro Lücke:

{{1}}: Likelihood
{{2}}: Produkt
{{3}}: Log / log / logarithmische / Log-

Erklärung: Likelihood = `P(Datenmidθ)`, bei Unabhängigkeit ein Produkt, das man als Log-Likelihood (Summe) maximiert.

Typ: Lückentext

F4.In einer Stichprobe von 50 Bauteilen sind 30 fehlerfrei. ML-Schätzer hat p für die Fehlerfrei-Quote? (2 Nachkommastellen)

Antwort: 0.6 (Toleranz ±0.01)

Erklärung: `hat p = k/n = 30/50 = 0,6`. Der ML-Schätzer der Bernoulli/Binomial-Wahrscheinlichkeit ist immer die relative Häufigkeit.

Typ: Zahlen-Eingabe

F5.Welche Eigenschaft haben ML-Schätzer (unter Regularität) typischerweise?

Antwort: sie sind asymptotisch konsistent, normalverteilt und effizient

Erklärung: ML-Schätzer sind unter Regularitätsbedingungen konsistent (konvergieren gegen den wahren Wert), asymptotisch normalverteilt und asymptotisch effizient. Erwartungstreu sind sie aber nicht immer (z.B. `hatσ²`).

F6.Bei n Münzwürfen kommt k = 0-mal Kopf. Was liefert der ML-Schätzer hat p?

Antwort: 0 (ein Randmaximum)

Erklärung: `hat p = k/n = 0/n = 0`. Das Maximum der Likelihood liegt hier am Rand des Parameterbereichs (`p = 0`). Solche Randmaxima muss man bei ML mitbedenken.

Maximum-Likelihood-Schätzung

Du wirfst eine Münze 10-mal und siehst 7-mal Kopf. Welche Kopf-Wahrscheinlichkeit $p$ erklärt diese Beobachtung am besten? Die intuitive Antwort

0{,}7

ist genau die Maximum-Likelihood-Schätzung: man wählt den Parameter, der die beobachteten Daten am wahrscheinlichsten macht.

Was du in der Klausur können musst:

die Likelihood-Funktion

L(\theta) = P(\text{Daten} \mid \theta)

und ihre Idee

den Übergang zur Log-Likelihood und warum man ihn macht

die Herleitung über

\ell'(\theta) = 0

(Score-Gleichung)

die ML-Schätzer für Bernoulli (

\hat p = k/n

) und Normalverteilung

Teil 1·Erklärung

Erklärung

Maximum-Likelihood-Schätzung

Was du in der Klausur können musst:

die Likelihood-Funktion L(θ) = P(Daten mid θ) und ihre Idee
den Übergang zur Log-Likelihood und warum man ihn macht
die Herleitung über ℓ'(θ) = 0 (Score-Gleichung)
die ML-Schätzer für Bernoulli (hat p = k/n) und Normalverteilung

Die Idee in einem Satz

Maximum-Likelihood wählt denjenigen Parameter hatθ, der die beobachteten Daten am wahrscheinlichsten macht, also die Likelihood L(θ) = P(Daten mid θ) maximiert.

Likelihood und Log-Likelihood

Bei unabhängigen Beobachtungen x₁, dots, x_n ist die Likelihood das Produkt der Einzelwahrscheinlichkeiten bzw. -dichten:

L(θ) = ∏_(i=1)ⁿ f(x_i; θ)

Produkte sind unhandlich zum Ableiten. Da der Logarithmus streng monoton ist, hat die Log-Likelihood ihr Maximum an derselben Stelle, ist aber eine Summe:

ℓ(θ) = log L(θ) = Σ_(i=1)ⁿ log f(x_i; θ)

Vorgehen: ℓ'(θ) = 0 lösen (die Score-Gleichung), dann prüfen, dass es ein Maximum ist.

Beispiel: Bernoulli / Binomial

n Würfe, k Erfolge. Die Likelihood ist L(p) = p^k (1-p)^(n-k), die Log-Likelihood

ℓ(p) = k log p + (n-k) log(1-p), ℓ'(p) = k/p - (n-k)/(1-p) = 0.

Auflösen ergibt boxedhat p = k/n, die relative Häufigkeit. Probier es aus:

Interaktive Visualisierung

Interaktive Komponente: probiere sie im Topic-Player oben aus.

Beispiel: Normalverteilung

Für eine Stichprobe aus N(μ, σ²) liefert Maximum-Likelihood:

hatμ = bar x = 1/nΣ_i x_i, hatσ² = 1/nΣ_i (x_i - bar x)².

Eigenschaften von ML-Schätzern

Unter Regularitätsbedingungen sind ML-Schätzer

konsistent (konvergieren mit n → ∞ gegen den wahren Wert),
asymptotisch normalverteilt und asymptotisch effizient (kleinste Varianz),
aber nicht immer erwartungstreu (siehe hatσ²).

Klausur-Faustregeln

1. ML wählt hatθ, das die Daten am wahrscheinlichsten macht: maximiere L(θ) = P(Daten mid θ).

2. Unabhängige Daten: L(θ) = ∏ f(x_i; θ), Log-Likelihood ℓ(θ) = Σ log f(x_i; θ).

3. Maximiere ℓ statt L (gleiches Argmax, Summe statt Produkt): ℓ'(θ) = 0.

4. Bernoulli/Binomial: hat p = k/n.

5. Normalverteilung: hatμ = bar x, hatσ² = 1/nΣ (x_i - bar x)².

6. ML-Schätzer sind asymptotisch konsistent/normal/effizient, aber nicht zwingend erwartungstreu.

Häufige Stolpersteine

1. Likelihood mit der Wahrscheinlichkeit der Hypothese verwechseln. L(θ) = P(Daten mid θ), nicht P(θ mid Daten). Letzteres ist die bayesianische Posterior-Wahrscheinlichkeit.

2. Glauben, der Log verändere das Maximum. Der Logarithmus ist streng monoton, L und ℓ haben dasselbe Argmax. Der Wechsel ist erlaubt und vereinfacht.

3. ML-Schätzer für immer erwartungstreu halten. hatσ² teilt durch n und ist verzerrt. Erwartungstreue ist eine andere Eigenschaft als ML.

4. Randmaxima übersehen. Bei k = 0 ist hat p = 0, bei k = n ist hat p = 1. Das Maximum liegt dann am Rand des Parameterbereichs.

5. Unabhängigkeit voraussetzen, ohne sie zu prüfen. Die Produktform ∏ f(x_i; θ) gilt nur bei unabhängigen Beobachtungen.

6. ℓ'(θ) = 0 blind als Lösung nehmen. Die Score-Gleichung liefert nur Kandidaten; man muss prüfen, dass ein Maximum (nicht Minimum oder Sattelpunkt) vorliegt.

Teil 2·Visualisierung / Interaktiv

Interaktiv verstehen

Die Likelihood maximieren

Interaktive Visualisierung

Interaktive Komponente: probiere sie im Topic-Player oben aus.

Klausur-Tipp: Schreibe immer erst die Likelihood als Produkt hin, logarithmiere zur Summe, leite ab und setze ℓ'(θ) = 0. Bei Bernoulli führt das direkt auf hat p = k/n.

Teil 3·Quiz / Klausurfragen

Praxis-Übung

Klausurfragen mit Lösungen (6)

F1.Was wählt die Maximum-Likelihood-Schätzung?

Antwort: den Parameter, der die beobachteten Daten am wahrscheinlichsten macht

Erklärung: ML maximiert die Likelihood `L(θ) = P(Daten mid θ)`: man sucht den Parameter, unter dem die tatsächlich beobachteten Daten am wahrscheinlichsten sind.

F2.Warum geht man von der Likelihood zur Log-Likelihood über?

Antwort: weil der Logarithmus monoton ist (gleiches Maximum) und aus dem Produkt eine leichter ableitbare Summe macht

F3.Eine Münze zeigt bei 10 Würfen 7-mal Kopf. Wie lautet der ML-Schätzer hat p für die Kopf-Wahrscheinlichkeit? (2 Nachkommastellen)

Antwort: 0.7 (Toleranz ±0.01)

Erklärung: Beim Bernoulli/Binomial-Modell ist `hat p = k/n = 7/10 = 0,7`, also die relative Häufigkeit der Erfolge.

Typ: Zahlen-Eingabe

F4.Was ist der ML-Schätzer für den Erwartungswert μ einer Normalverteilung?

Antwort: das Stichprobenmittel `bar x`

Erklärung: Für eine Stichprobe aus `N(μ, σ²)` ist der ML-Schätzer `hatμ = bar x`, das arithmetische Mittel der Beobachtungen.

F5.Die Likelihood L(θ) ist die Wahrscheinlichkeit, dass θ der wahre Parameter ist.

Antwort: Falsch

Erklärung: Falsch. `L(θ) = P(Daten mid θ)` ist die Wahrscheinlichkeit der Daten gegeben `θ`, nicht `P(θ mid Daten)`. Letzteres wäre die bayesianische Posterior-Wahrscheinlichkeit.

Typ: Wahr/Falsch

F6.Warum ist der ML-Schätzer hatσ² = 1/nΣ (x_i - bar x)² verzerrt?

Antwort: weil er durch `n` statt `n-1` teilt und `σ²` dadurch systematisch unterschätzt

Teil 4·Quiz / Klausurfragen

Klausur-Quiz

Klausurfragen mit Lösungen (6)

F1.Wie lautet die Likelihood bei n unabhängigen Beobachtungen?

Antwort: das Produkt der Einzeldichten `∏_i f(x_i; θ)`

Erklärung: Bei Unabhängigkeit faktorisiert die gemeinsame Dichte: `L(θ) = ∏_(i=1)ⁿ f(x_i; θ)`. Erst der Logarithmus macht daraus die handlichere Summe.

F2.Wie findet man rechnerisch das ML-Maximum?

Antwort: man löst die Score-Gleichung `ℓ'(θ) = 0` und prüft, dass ein Maximum vorliegt

F3.Maximum-Likelihood maximiert die {{1}} L(θ) = P(Daten mid θ). Bei unabhängigen Daten ist sie ein {{2}}. Praktisch maximiert man die {{3}}-Likelihood.

Lösungen pro Lücke:

{{1}}: Likelihood
{{2}}: Produkt
{{3}}: Log / log / logarithmische / Log-

Erklärung: Likelihood = `P(Datenmidθ)`, bei Unabhängigkeit ein Produkt, das man als Log-Likelihood (Summe) maximiert.

Typ: Lückentext

F4.In einer Stichprobe von 50 Bauteilen sind 30 fehlerfrei. ML-Schätzer hat p für die Fehlerfrei-Quote? (2 Nachkommastellen)

Antwort: 0.6 (Toleranz ±0.01)

Erklärung: `hat p = k/n = 30/50 = 0,6`. Der ML-Schätzer der Bernoulli/Binomial-Wahrscheinlichkeit ist immer die relative Häufigkeit.

Typ: Zahlen-Eingabe

F5.Welche Eigenschaft haben ML-Schätzer (unter Regularität) typischerweise?

Antwort: sie sind asymptotisch konsistent, normalverteilt und effizient

F6.Bei n Münzwürfen kommt k = 0-mal Kopf. Was liefert der ML-Schätzer hat p?

Antwort: 0 (ein Randmaximum)

Erklärung: `hat p = k/n = 0/n = 0`. Das Maximum der Likelihood liegt hier am Rand des Parameterbereichs (`p = 0`). Solche Randmaxima muss man bei ML mitbedenken.

Maximum-Likelihood-Schätzung

Die Idee in einem Satz

Likelihood und Log-Likelihood

Beispiel: Bernoulli / Binomial

Beispiel: Normalverteilung

Eigenschaften von ML-Schätzern

Klausur-Faustregeln

Häufige Stolpersteine

Die Likelihood maximieren

Wenn du fertig bist: jetzt üben.

Erklärung

Maximum-Likelihood-Schätzung

Die Idee in einem Satz

Likelihood und Log-Likelihood

Beispiel: Bernoulli / Binomial

Beispiel: Normalverteilung

Eigenschaften von ML-Schätzern

Klausur-Faustregeln

Häufige Stolpersteine

Interaktiv verstehen

Die Likelihood maximieren

Praxis-Übung

Klausur-Quiz

Maximum-Likelihood-Schätzung

Die Idee in einem Satz

Likelihood und Log-Likelihood

Beispiel: Bernoulli / Binomial

Beispiel: Normalverteilung

Eigenschaften von ML-Schätzern

Klausur-Faustregeln

Häufige Stolpersteine

Die Likelihood maximieren

Wenn du fertig bist: jetzt üben.

Erklärung

Maximum-Likelihood-Schätzung

Die Idee in einem Satz

Likelihood und Log-Likelihood

Beispiel: Bernoulli / Binomial

Beispiel: Normalverteilung

Eigenschaften von ML-Schätzern

Klausur-Faustregeln

Häufige Stolpersteine

Interaktiv verstehen

Die Likelihood maximieren

Praxis-Übung

Klausur-Quiz