Alle Tabs der Lerneinheit (Erklärung · Interaktiv verstehen · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur, und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).
Diese Lerneinheit wurde für typische Bachelor-Klausuren konzipiert. So prüfen wir · Fehler entdeckt? Melde ihn uns oder markiere die fragliche Stelle direkt im Text oben.
Alle Tabs der Lerneinheit (Erklärung · Interaktiv verstehen · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur, und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).
Du wirfst eine Münze 10-mal und siehst 7-mal Kopf. Welche Kopf-Wahrscheinlichkeit erklärt diese Beobachtung am besten? Die intuitive Antwort ist genau die Maximum-Likelihood-Schätzung: man wählt den Parameter, der die beobachteten Daten am wahrscheinlichsten macht.
Was du in der Klausur können musst:
Klausur-Tipp: Schreibe immer erst die Likelihood als Produkt hin, logarithmiere zur Summe, leite ab und setze . Bei Bernoulli führt das direkt auf .
Anmelden, um den Fortschritt zu speichern.
Nächster Schritt
Aktives Abrufen festigt Wissen schneller als nochmal lesen.
Du wirfst eine Münze 10-mal und siehst 7-mal Kopf. Welche Kopf-Wahrscheinlichkeit p erklärt diese Beobachtung am besten? Die intuitive Antwort 0,7 ist genau die Maximum-Likelihood-Schätzung: man wählt den Parameter, der die beobachteten Daten am wahrscheinlichsten macht.
Was du in der Klausur können musst:
L(θ) = P(Daten mid θ) und ihre Ideeℓ'(θ) = 0 (Score-Gleichung)hat p = k/n) und NormalverteilungMaximum-Likelihood wählt denjenigen Parameter
hatθ, der die beobachteten Daten am wahrscheinlichsten macht, also die LikelihoodL(θ) = P(Daten mid θ)maximiert.
Bei unabhängigen Beobachtungen x₁, dots, x_n ist die Likelihood das Produkt der Einzelwahrscheinlichkeiten bzw. -dichten:
L(θ) = ∏_(i=1)ⁿ f(x_i; θ)
Produkte sind unhandlich zum Ableiten. Da der Logarithmus streng monoton ist, hat die Log-Likelihood ihr Maximum an derselben Stelle, ist aber eine Summe:
ℓ(θ) = log L(θ) = Σ_(i=1)ⁿ log f(x_i; θ)
Vorgehen: ℓ'(θ) = 0 lösen (die Score-Gleichung), dann prüfen, dass es ein Maximum ist.
n Würfe, k Erfolge. Die Likelihood ist L(p) = p^k (1-p)^(n-k), die Log-Likelihood
ℓ(p) = k log p + (n-k) log(1-p), ℓ'(p) = k/p - (n-k)/(1-p) = 0.
Auflösen ergibt boxedhat p = k/n, die relative Häufigkeit. Probier es aus:
Interaktive Visualisierung
Interaktive Komponente: probiere sie im Topic-Player oben aus.
Für eine Stichprobe aus N(μ, σ²) liefert Maximum-Likelihood:
hatμ = bar x = 1/nΣ_i x_i, hatσ² = 1/nΣ_i (x_i - bar x)².
Der ML-Schätzer für μ ist das Stichprobenmittel. Der ML-Schätzer für σ² teilt durch n (nicht n-1) und ist daher leicht verzerrt (er unterschätzt σ² systematisch). Die erwartungstreue Variante teilt durch n-1.
Unter Regularitätsbedingungen sind ML-Schätzer
n → ∞ gegen den wahren Wert),hatσ²).1. ML wählt hatθ, das die Daten am wahrscheinlichsten macht: maximiere L(θ) = P(Daten mid θ).
2. Unabhängige Daten: L(θ) = ∏ f(x_i; θ), Log-Likelihood ℓ(θ) = Σ log f(x_i; θ).
3. Maximiere ℓ statt L (gleiches Argmax, Summe statt Produkt): ℓ'(θ) = 0.
4. Bernoulli/Binomial: hat p = k/n.
5. Normalverteilung: hatμ = bar x, hatσ² = 1/nΣ (x_i - bar x)².
6. ML-Schätzer sind asymptotisch konsistent/normal/effizient, aber nicht zwingend erwartungstreu.
1. Likelihood mit der Wahrscheinlichkeit der Hypothese verwechseln. L(θ) = P(Daten mid θ), nicht P(θ mid Daten). Letzteres ist die bayesianische Posterior-Wahrscheinlichkeit.
2. Glauben, der Log verändere das Maximum. Der Logarithmus ist streng monoton, L und ℓ haben dasselbe Argmax. Der Wechsel ist erlaubt und vereinfacht.
3. ML-Schätzer für immer erwartungstreu halten. hatσ² teilt durch n und ist verzerrt. Erwartungstreue ist eine andere Eigenschaft als ML.
4. Randmaxima übersehen. Bei k = 0 ist hat p = 0, bei k = n ist hat p = 1. Das Maximum liegt dann am Rand des Parameterbereichs.
5. Unabhängigkeit voraussetzen, ohne sie zu prüfen. Die Produktform ∏ f(x_i; θ) gilt nur bei unabhängigen Beobachtungen.
6. ℓ'(θ) = 0 blind als Lösung nehmen. Die Score-Gleichung liefert nur Kandidaten; man muss prüfen, dass ein Maximum (nicht Minimum oder Sattelpunkt) vorliegt.
Schiebe p und beobachte L(p) und log L(p). Beide erreichen ihr Maximum bei hat p = k/n = 0,7. Werte daneben (z.B. p = 0,3 oder 0,9) machen die beobachteten 7 Erfolge in 10 Würfen unwahrscheinlicher.
Interaktive Visualisierung
Interaktive Komponente: probiere sie im Topic-Player oben aus.
Klausur-Tipp: Schreibe immer erst die Likelihood als Produkt hin, logarithmiere zur Summe, leite ab und setze ℓ'(θ) = 0. Bei Bernoulli führt das direkt auf hat p = k/n.
Klausurfragen mit Lösungen (6)
Antwort: den Parameter, der die beobachteten Daten am wahrscheinlichsten macht
Erklärung: ML maximiert die Likelihood `L(θ) = P(Daten mid θ)`: man sucht den Parameter, unter dem die tatsächlich beobachteten Daten am wahrscheinlichsten sind.
Antwort: weil der Logarithmus monoton ist (gleiches Maximum) und aus dem Produkt eine leichter ableitbare Summe macht
Erklärung: Der Logarithmus ist streng monoton, also haben `L` und `ℓ = log L` dasselbe Argmax. Aus dem Produkt `∏ f(x_i;θ)` wird die Summe `Σ log f(x_i;θ)`, die sich viel einfacher ableiten lässt.
Antwort: 0.7 (Toleranz ±0.01)
Erklärung: Beim Bernoulli/Binomial-Modell ist `hat p = k/n = 7/10 = 0,7`, also die relative Häufigkeit der Erfolge.
Typ: Zahlen-Eingabe
Antwort: das Stichprobenmittel `bar x`
Erklärung: Für eine Stichprobe aus `N(μ, σ²)` ist der ML-Schätzer `hatμ = bar x`, das arithmetische Mittel der Beobachtungen.
Antwort: Falsch
Erklärung: Falsch. `L(θ) = P(Daten mid θ)` ist die Wahrscheinlichkeit der Daten gegeben `θ`, nicht `P(θ mid Daten)`. Letzteres wäre die bayesianische Posterior-Wahrscheinlichkeit.
Typ: Wahr/Falsch
Antwort: weil er durch `n` statt `n-1` teilt und `σ²` dadurch systematisch unterschätzt
Erklärung: Der ML-Schätzer teilt durch `n`. Da `bar x` aus denselben Daten geschätzt wird, unterschätzt er `σ²` im Erwartungswert. Die erwartungstreue Stichprobenvarianz teilt durch `n-1` (Bessel-Korrektur).
Klausurfragen mit Lösungen (6)
Antwort: das Produkt der Einzeldichten `∏_i f(x_i; θ)`
Erklärung: Bei Unabhängigkeit faktorisiert die gemeinsame Dichte: `L(θ) = ∏_(i=1)ⁿ f(x_i; θ)`. Erst der Logarithmus macht daraus die handlichere Summe.
Antwort: man löst die Score-Gleichung `ℓ'(θ) = 0` und prüft, dass ein Maximum vorliegt
Erklärung: Man leitet die Log-Likelihood ab und setzt `ℓ'(θ) = 0` (Score-Gleichung). Die Lösung ist ein Kandidat; mit der zweiten Ableitung oder dem Randverhalten prüft man, dass es das Maximum ist.
Lösungen pro Lücke:
Erklärung: Likelihood = `P(Datenmidθ)`, bei Unabhängigkeit ein Produkt, das man als Log-Likelihood (Summe) maximiert.
Typ: Lückentext
Antwort: 0.6 (Toleranz ±0.01)
Erklärung: `hat p = k/n = 30/50 = 0,6`. Der ML-Schätzer der Bernoulli/Binomial-Wahrscheinlichkeit ist immer die relative Häufigkeit.
Typ: Zahlen-Eingabe
Antwort: sie sind asymptotisch konsistent, normalverteilt und effizient
Erklärung: ML-Schätzer sind unter Regularitätsbedingungen konsistent (konvergieren gegen den wahren Wert), asymptotisch normalverteilt und asymptotisch effizient. Erwartungstreu sind sie aber nicht immer (z.B. `hatσ²`).
Antwort: 0 (ein Randmaximum)
Erklärung: `hat p = k/n = 0/n = 0`. Das Maximum der Likelihood liegt hier am Rand des Parameterbereichs (`p = 0`). Solche Randmaxima muss man bei ML mitbedenken.