Regel

Formel

Wann gut

Sturges

k = \lceil \log_2(n) + 1 \rceil

normalverteilte, mittelgroße Daten (

n \leq 200

)

Scott

Bin-Breite

h = 3{,}49 \cdot s / n^{1/3}

kontinuierliche, normalverteilte Daten

Freedman-Diaconis

h = 2 \cdot \text{IQR} / n^{1/3}

robust gegen Ausreißer, breite Anwendbarkeit

Klasse

h_i

f_i

H_i

F_i

1,0–2,0

0,20

2,0–3,0

0,40

0,60

3,0–4,0

0,30

0,90

4,0–5,0

0,10

1,00

Alle Tabs der Lerneinheit (Erklärung · Interaktiv erkunden · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur, und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).

Teil 1·Erklärung

Erklärung

Du hast 100 Klausurnoten, wie zeigst du die Verteilung auf einen Blick? Tabelle ist unübersichtlich, Säulendiagramm nur sinnvoll für Kategorien. Für quantitative Daten ist das Histogramm das Standard-Tool: Daten in Klassen einteilen (Bins), Häufigkeiten pro Klasse als Balken zeichnen. Aber Vorsicht, die Bin-Breite entscheidet, was du siehst: zu wenige Bins versteckt Strukturen, zu viele zerklüften das Bild bis zur Unkenntlichkeit. Klausur-Standard in Stat-1, eng verzahnt mit den Skalenniveau-Regeln aus 7.1.

Wir gehen die zwei Häufigkeitsformen (absolut und relativ), das Histogramm mit Bin-Breite-Wahl, die kumulierte Häufigkeit und die typischen Klausur-Stolpersteine (Histogramm ≠ Säulendiagramm, ungleiche Bin-Breiten = Flächen-Diagramm) systematisch durch.

Absolute und relative Häufigkeit

Absolute Häufigkeit h_i = Anzahl Beobachtungen in Klasse i. Relative Häufigkeit f_i = h_i / n = Anteil. Bei n = 100 Klausuren mit 30 Noten "gut" gilt h_(gut) = 30, f_(gut) = 0,30 = 30 \%.

Wann was?

Absolut: wenn du innerhalb einer Stichprobe vergleichst ("30 Studierende haben gut geschrieben").
Relativ: wenn du zwischen Stichproben oder mit Erwartungen vergleichst (zwei Kohorten unterschiedlicher Größe).

Summe-Check: Σ_i h_i = n und Σ_i f_i = 1. Tritt das in deiner Klausur-Aufgabe nicht zu, hast du irgendwo verzählt.

Histogramm, der Grundkurs

Ein Histogramm ist eine Visualisierung der Häufigkeitsverteilung quantitativer Daten:

Sortiere die Daten und lege Klassen-Grenzen fest (z.B. Notenbereiche 0–1,5; 1,5–2,5; …).
Zähle, wie viele Beobachtungen in jede Klasse fallen.
Zeichne pro Klasse einen Balken, Höhe = absolute oder relative Häufigkeit, Breite = Klassenbreite. Balken berühren sich (im Gegensatz zum Säulendiagramm).

Wichtig: die x-Achse ist eine kontinuierliche Skala, die Balken haben echte Breiten. Bei einem Säulendiagramm sind die Kategorien dagegen separat ("Note 1", "Note 2", …), Balken stehen mit Zwischenräumen.

Bin-Breite, der Knackpunkt

Die Wahl der Klassenanzahl k (oder äquivalent Bin-Breite) bestimmt, was das Histogramm zeigt:

Zu wenige Bins (z.B. 3 Klassen für 100 Werte): grobe Form, versteckt Strukturen wie Bimodalität.
Zu viele Bins (z.B. 50 für 100 Werte): jeder Bin enthält 0–3 Werte, Bild wirkt zerklüftet, Rauschen dominiert.
Gut gewählt: zeigt die Form klar (uni-/bi-modal, Schiefe, Ausreißer).

Drei klassische Regeln für die Bin-Anzahl bei n Beobachtungen:

Regel	Formel	Wann gut
Sturges	`k = lceil log₂(n) + 1 rceil`	normalverteilte, mittelgroße Daten (`n ≤ 200`)
Scott	Bin-Breite `h = 3,49 · s / n^(1/3)`	kontinuierliche, normalverteilte Daten
Freedman-Diaconis	`h = 2 · IQR / n^(1/3)`	robust gegen Ausreißer, breite Anwendbarkeit

Klausur-Wahl: Sturges, weil einfach. Bei n = 100: k = lceil log₂(100) + 1 rceil = lceil 6,64 + 1 rceil = 8. Acht Klassen sind ein guter Startpunkt.

Kumulierte Häufigkeit

Die kumulierte Häufigkeit H_i bzw. kumulierte relative Häufigkeit F_i ist die Summe aller Häufigkeiten bis zur Klasse i:

H_i = Σ_(j=1)ⁱ h_j F_i = Σ_(j=1)ⁱ f_j

Sie wächst monoton von 0 auf n (bzw. 1). Aufgetragen als Treppenfunktion ergibt sich die empirische Verteilungsfunktion (empirical CDF), ein zentrales Werkzeug für Klausur-Aufgaben wie "wie viel Prozent der Daten liegen unter dem Wert x?".

Beispiel, Noten von 10 Studierenden in Klassen:

Klasse	`h_i`	`f_i`	`H_i`	`F_i`
1,0–2,0	2	0,20	2	0,20
2,0–3,0	4	0,40	6	0,60
3,0–4,0	3	0,30	9	0,90
4,0–5,0	1	0,10	10	1,00

Auf der kumulierten Spalte lesen wir direkt: 60 % der Studierenden haben Note ≤ 3,0 (F₂ = 0,60).

Klausur-Faustregeln

Bin-Breite ist Wahl. In Klausur Sturges-Regel angeben und damit rechnen. Andere Regeln dokumentieren, falls sie genannt werden.

Histogramm vs. Säulendiagramm: Histogramm = quantitative Daten in Klassen, Balken berühren sich. Säulendiagramm = kategoriale Daten, Balken mit Lücken. Skalenniveau bestimmt das richtige Diagramm.

Ungleiche Bin-Breiten = Flächen statt Höhen. Wenn deine Klassen unterschiedliche Breiten haben, repräsentiert die Fläche des Balkens die Häufigkeit, nicht die Höhe. Höhe wird dann Häufigkeitsdichte = h_i / Breite_i.

Kumulierte Häufigkeit ist Treppenfunktion, monoton steigend, geht von 0 auf 1 (relativ) bzw. von 0 auf n (absolut). Bei Aufgaben "wie viel % unter x?" direkt ablesen.

Klassen-Grenzen klar definieren: ist 2,0 in Klasse "1,0–2,0" oder "2,0–3,0"? Standard-Konvention: halboffenes Intervall [a, b), die untere Grenze gehört dazu, die obere nicht. Punkt 2,0 zählt zur höheren Klasse.

Typische Stolpersteine

1. Säulendiagramm statt Histogramm für quantitative Daten. Bei Klausurnoten in Klassen ist es ein Histogramm, die Balken müssen sich berühren. Bei Lieblings-Studienfach ist es ein Säulendiagramm, Balken stehen separat.

2. Bei ungleichen Bin-Breiten Höhe = Häufigkeit annehmen. Falsch, Höhe ist Dichte, die Fläche zählt. Beispiel: zwei Bins, einer 1,0 breit mit h = 4, einer 2,0 breit mit h = 8. Beide haben dieselbe Dichte (4 pro Einheit) und sollten gleich hoch sein, obwohl der zweite Bin doppelt so viele Werte enthält.

3. Doppelt-Zählung an der Klassen-Grenze. Ohne Konvention [a, b) zählst du den Grenzwert 2,0 in beiden Klassen, am Ende stimmt die Summe nicht. Konvention immer angeben.

4. Relative Häufigkeiten addieren bei Klassen-Bildung. Wenn die ursprünglichen Daten in Klassen aggregiert werden, addieren sich die relativen Häufigkeiten innerhalb einer neuen Großklasse, der gesamte Datensatz bleibt aber Σ f_i = 1.

Teil 2·Visualisierung / Interaktiv

Interaktiv erkunden

Histogramm-Lab mit Bin-Slider

Schiebe den Bin-Slider von 3 bis 30 und beobachte, wie sich das Bild ändert. Wechsle zwischen 4 Datensätzen:

Normalverteilung, klassische Glocke, Bin-Wahl ist relativ unkritisch
Bimodal, zwei Häufungen, sichtbar nur bei ausreichend feinen Bins
Rechtsschief, lange rechte Flanke, IQR-Regel (Freedman-Diaconis) zeigt das besser
Mit Ausreißer, Ausreißer "drücken" die Bin-Breite bei naiver Min-Max-Aufteilung

Lern-Tipp: Stelle "Bimodal" ein, dann mit Slider auf 3 Bins gehen, du siehst nur eine grobe Form, die zwei Häufungen sind unsichtbar. Bei 15 Bins werden sie sofort sichtbar. Genau das ist der Bin-Breite-Effekt.

Toggle "absolut/relativ" zeigt die gleiche Verteilung mit unterschiedlicher Y-Achsen-Beschriftung; "kumulierte Verteilung" überlagert die Treppenfunktion.

Interaktive Visualisierung

Interaktive Komponente: probiere sie im Topic-Player oben aus.

Klausur-Tipp: Wenn die Aufgabe nach der Klassenanzahl fragt, gib die Sturges-Regel an: k = lceil log₂(n) + 1 rceil. Bei n = 50 ist k = 7, bei n = 100 ist k = 8, bei n = 1000 ist k = 11. Faustwert für klausurnahe Stichprobengrößen: 7–10 Klassen.

Teil 3·Quiz / Klausurfragen

Praxis-Übung

Häufigkeitsverteilungen, Praxis-Übung

Drei Aufgaben-Typen: Sturges-Berechnung, Häufigkeitstabelle ablesen, Histogramm-vs-Säulendiagramm-Klassifikation.

Klausurfragen mit Lösungen (6)

F1.Wie viele Klassen empfiehlt Sturges-Regel bei n = 64 Beobachtungen? (ganze Zahl)

Antwort: 7

Erklärung: `k = lceil log₂(64) + 1 rceil = lceil 6 + 1 rceil = 7`. Bei Zweierpotenzen geht die Sturges-Regel besonders glatt auf. Allgemein: `log₂(n) + 1`, dann aufrunden.

Typ: Zahlen-Eingabe

F2.Häufigkeitstabelle: Klasse 1,0–2,0 hat h = 6, Klasse 2,0–3,0 hat h = 14. Bei n = 50 Studierenden, wie hoch ist die relative Häufigkeit der Klasse 2,0–3,0 in Prozent?

Antwort: 28 (Toleranz ±0.5)

Erklärung: `f = h / n = 14 / 50 = 0,28 = 28 \%`. Relative Häufigkeit immer als Anteil, oft als Prozent angegeben. Die absolute Häufigkeit der ersten Klasse (6) spielt für die zweite keine Rolle.

Typ: Zahlen-Eingabe

F3.Welcher Visualisierungs-Typ ist für Lieblings-Studienfach (nominal) am besten?

Antwort: Säulen- oder Kreisdiagramm

Erklärung: Nominal-Daten → Säulen-/Kreisdiagramm. Histogramm braucht quantitative Daten in Klassen (mindestens Intervallskala, weil Bins eine kontinuierliche Achse erfordern). Boxplot braucht mindestens Ordinal (Median, Quartile). EDF auch erst ab Ordinal.

F4.Bei einem Histogramm mit ungleichen Bin-Breiten gibt die Höhe der Balken die Häufigkeit pro Bin an.

Antwort: Falsch

Erklärung: FALSCH. Bei ungleichen Bin-Breiten ist die **Fläche** des Balkens die Häufigkeit, die **Höhe** ist die **Häufigkeitsdichte** `h_i / Breite_i`. Sonst wären breite Bins optisch überrepräsentiert.

Typ: Wahr/Falsch

F5.Eine Verteilung hat s = 14 und n = 64. Wie hoch ist die Scott-Bin-Breite h = 3,49 · s / n^(1/3)? (auf 2 Nachkommastellen, __SQRTN₃__(64) = 4)

Antwort: 12.22 (Toleranz ±0.05)

Erklärung: `h = 3,49 · 14 / 4 = 48,86 / 4 ≈ 12,22`. Die Scott-Regel wird selten direkt in Klausuren abgeprüft, ist aber R/Python-Default für die hist()-Funktion.

Typ: Zahlen-Eingabe

F6.Ordne den Größen die richtigen Formeln zu:

Zuordnungen:

Absolute Häufigkeit → $h_i$ (Anzahl in Klasse i)
Relative Häufigkeit → $f_i = h_i / n$
Kumulierte relative Häufigkeit → $F_i = \sum_{j \leq i} f_j$
Häufigkeitsdichte (ungleiche Bins) → $h_i / \text{Breite}_i$

Erklärung: Die vier Begriffe der Häufigkeitsverteilung. Wichtig: die Dichte tritt erst bei ungleichen Bins auf, bei gleichen Bins ist Höhe = Häufigkeit (proportional).

Typ: Zuordnung

Teil 4·Quiz / Klausurfragen

Klausur-Quiz

Klausurfragen mit Lösungen (6)

F1.Eine kumulierte relative Häufigkeit hat F(2,5) = 0,40 und F(3,0) = 0,65. Wie viel Prozent der Werte liegen im Intervall (2,5, 3,0]?

Antwort: 25 (Toleranz ±0.5)

Erklärung: Anteil im Intervall = `F(3,0) - F(2,5) = 0,65 - 0,40 = 0,25 = 25 \%`. Differenz aufeinanderfolgender Werte der EDF gibt direkt den Anteil im Intervall, Klausur-Klassiker.

Typ: Zahlen-Eingabe

F2.Welche Aussagen über Histogramme sind RICHTIG?

Richtige Antworten: Balken müssen sich berühren (im Gegensatz zum Säulendiagramm); X-Achse ist eine kontinuierliche Skala; Bin-Breite-Wahl beeinflusst, was im Bild erkennbar ist; Sturges-Regel: `k = lceil log₂(n) + 1 rceil`

Erklärung: Richtig: berührende Balken, kontinuierliche x-Achse, Bin-Breite beeinflusst Bild, Sturges-Formel. Falsch: bei ungleichen Bins zählt die FLÄCHE (Höhe ist Dichte); Histogramme funktionieren für jede quantitative Verteilung, nicht nur normal.

Typ: Multi-Select

F3.Die kumulierte relative Häufigkeit F(x) ist immer monoton steigend von 0 bis 1.

Antwort: Wahr

Erklärung: Wahr. EDF ist Treppenfunktion, startet bei 0 (unter dem Minimum), endet bei 1 (über dem Maximum), springt an jedem Datenpunkt um `1/n` nach oben (bei Klassen: um `f_i`). Monoton steigend ist Definitions-Eigenschaft.

Typ: Wahr/Falsch

F4.Eine Klausur mit n = 200 Teilnehmern soll als Histogramm visualisiert werden. Welche Bin-Anzahl ist nach Sturges sinnvoll?

Antwort: 9 Bins

Erklärung: Sturges: `k = lceil log₂(200) + 1 rceil = lceil 7,64 + 1 rceil = 9`. Bei 5 Bins zu grob, bei 20+ zerklüftet. 8–10 Bins sind typischer Klausur-Standardbereich.

F5.Sortiere die Schritte für eine Histogramm-Erstellung:

Richtige Reihenfolge:

Klassen-Anzahl nach Sturges bestimmen
Min, Max und Bin-Breite berechnen (Range/k)
Klassen-Grenzen festlegen ($[a, b)$-Konvention)
$h_i$ pro Klasse zählen
Balken zeichnen, Achsen beschriften

Erklärung: Standard-Workflow. Wichtig: `k` ZUERST (sonst weißt du die Bin-Breite nicht), dann erst Grenzen festlegen. Häufiger Fehler: zuerst Daten in Klassen sortieren und dann hoffen, dass die Anzahl passt.

Typ: Reihenfolge

F6.Die Sturges-Regel funktioniert für stark schiefe Verteilungen besser als die Freedman-Diaconis-Regel.

Antwort: Falsch

Erklärung: FALSCH. Freedman-Diaconis (`h = 2 · IQR / n^(1/3)`) ist robust gegen Ausreißer und schiefe Verteilungen, weil sie auf dem IQR basiert. Sturges (`k = log₂(n) + 1`) ist auf normalverteilte Daten optimiert und kann bei stark schiefen Daten zu wenige oder zu viele Bins liefern.

Typ: Wahr/Falsch

Regel

Formel

Wann gut

Sturges

k = \lceil \log_2(n) + 1 \rceil

normalverteilte, mittelgroße Daten (

n \leq 200

)

Scott

Bin-Breite

h = 3{,}49 \cdot s / n^{1/3}

kontinuierliche, normalverteilte Daten

Freedman-Diaconis

h = 2 \cdot \text{IQR} / n^{1/3}

robust gegen Ausreißer, breite Anwendbarkeit

Klasse

h_i

f_i

H_i

F_i

1,0–2,0

0,20

2,0–3,0

0,40

0,60

3,0–4,0

0,30

0,90

4,0–5,0

0,10

1,00

Regel

Formel

Wann gut

Sturges

k = lceil log₂(n) + 1 rceil

normalverteilte, mittelgroße Daten (n ≤ 200)

Scott

Bin-Breite h = 3,49 · s / n^(1/3)

kontinuierliche, normalverteilte Daten

Freedman-Diaconis

h = 2 · IQR / n^(1/3)

robust gegen Ausreißer, breite Anwendbarkeit

Klasse

h_i

f_i

H_i

F_i

1,0–2,0

0,20

2,0–3,0

0,40

0,60

3,0–4,0

0,30

0,90

4,0–5,0

0,10

1,00

Regel	Formel	Wann gut
Sturges	$k = \lceil \log_2(n) + 1 \rceil$	normalverteilte, mittelgroße Daten ( $n \leq 200$ )
Scott	Bin-Breite $h = 3{,}49 \cdot s / n^{1/3}$	kontinuierliche, normalverteilte Daten
Freedman-Diaconis	$h = 2 \cdot \text{IQR} / n^{1/3}$	robust gegen Ausreißer, breite Anwendbarkeit

Absolute und relative Häufigkeit

Histogramm, der Grundkurs

Bin-Breite, der Knackpunkt

Kumulierte Häufigkeit

Klausur-Faustregeln

Typische Stolpersteine

Histogramm-Lab mit Bin-Slider

Wenn du fertig bist: jetzt üben.

Erklärung

Absolute und relative Häufigkeit

Histogramm, der Grundkurs

Bin-Breite, der Knackpunkt

Kumulierte Häufigkeit

Klausur-Faustregeln

Typische Stolpersteine

Interaktiv erkunden

Histogramm-Lab mit Bin-Slider

Praxis-Übung

Häufigkeitsverteilungen, Praxis-Übung

Klausur-Quiz

Absolute und relative Häufigkeit

Histogramm, der Grundkurs

Bin-Breite, der Knackpunkt

Kumulierte Häufigkeit

Klausur-Faustregeln

Typische Stolpersteine

Histogramm-Lab mit Bin-Slider

Wenn du fertig bist: jetzt üben.

Erklärung

Absolute und relative Häufigkeit

Histogramm, der Grundkurs

Bin-Breite, der Knackpunkt

Kumulierte Häufigkeit

Klausur-Faustregeln

Typische Stolpersteine

Interaktiv erkunden

Histogramm-Lab mit Bin-Slider

Praxis-Übung

Häufigkeitsverteilungen, Praxis-Übung

Klausur-Quiz