Alle Tabs der Lerneinheit (Erklärung · Interaktiv erkunden · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur, und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).
Du hast 100 Klausurnoten — wie zeigst du die Verteilung auf einen Blick? Tabelle ist unübersichtlich, Säulendiagramm nur sinnvoll für Kategorien. Für quantitative Daten ist das Histogramm das Standard-Tool: Daten in Klassen einteilen (Bins), Häufigkeiten pro Klasse als Balken zeichnen. Aber Vorsicht — die Bin-Breite entscheidet, was du siehst: zu wenige Bins versteckt Strukturen, zu viele zerklüften das Bild bis zur Unkenntlichkeit. Klausur-Standard in Stat-1, eng verzahnt mit den Skalenniveau-Regeln aus 7.1.
Wir gehen die zwei Häufigkeitsformen (absolut und relativ), das Histogramm mit Bin-Breite-Wahl, die kumulierte Häufigkeit und die typischen Klausur-Stolpersteine (Histogramm ≠ Säulendiagramm, ungleiche Bin-Breiten = Flächen-Diagramm) systematisch durch.
Klausur-Tipp: Wenn die Aufgabe nach der Klassenanzahl fragt, gib die Sturges-Regel an: . Bei ist , bei ist , bei ist . Faustwert für klausurnahe Stichprobengrößen: 7–10 Klassen.
Anmelden, um den Fortschritt zu speichern.
Nächster Schritt
Aktives Abrufen festigt Wissen schneller als nochmal lesen.
Diese Lerneinheit wurde für typische Bachelor-Klausuren konzipiert. So prüfen wir · Fehler entdeckt? Melde ihn uns oder markiere die fragliche Stelle direkt im Text oben.
Alle Tabs der Lerneinheit (Erklärung · Interaktiv erkunden · Praxis-Übung · Klausur-Quiz) als durchgehender Text. Ideal zum Wiederholen vor der Klausur, und für Suchmaschinen wie Google, Bing und KI-Suche (ChatGPT, Perplexity).
Du hast 100 Klausurnoten — wie zeigst du die Verteilung auf einen Blick? Tabelle ist unübersichtlich, Säulendiagramm nur sinnvoll für Kategorien. Für quantitative Daten ist das Histogramm das Standard-Tool: Daten in Klassen einteilen (Bins), Häufigkeiten pro Klasse als Balken zeichnen. Aber Vorsicht — die Bin-Breite entscheidet, was du siehst: zu wenige Bins versteckt Strukturen, zu viele zerklüften das Bild bis zur Unkenntlichkeit. Klausur-Standard in Stat-1, eng verzahnt mit den Skalenniveau-Regeln aus 7.1.
Wir gehen die zwei Häufigkeitsformen (absolut und relativ), das Histogramm mit Bin-Breite-Wahl, die kumulierte Häufigkeit und die typischen Klausur-Stolpersteine (Histogramm ≠ Säulendiagramm, ungleiche Bin-Breiten = Flächen-Diagramm) systematisch durch.
Absolute Häufigkeit h_i = Anzahl Beobachtungen in Klasse i. Relative Häufigkeit f_i = h_i / n = Anteil. Bei n = 100 Klausuren mit 30 Noten "gut" gilt h_(gut) = 30, f_(gut) = 0,30 = 30 \%.
Wann was?
Summe-Check: Σ_i h_i = n und Σ_i f_i = 1. Tritt das in deiner Klausur-Aufgabe nicht zu, hast du irgendwo verzählt.
Ein Histogramm ist eine Visualisierung der Häufigkeitsverteilung quantitativer Daten:
Wichtig: die x-Achse ist eine kontinuierliche Skala, die Balken haben echte Breiten. Bei einem Säulendiagramm sind die Kategorien dagegen separat ("Note 1", "Note 2", …), Balken stehen mit Zwischenräumen.
Die Wahl der Klassenanzahl k (oder äquivalent Bin-Breite) bestimmt, was das Histogramm zeigt:
Drei klassische Regeln für die Bin-Anzahl bei n Beobachtungen:
| Regel | Formel | Wann gut |
|---|---|---|
| Sturges | k = lceil log₂(n) + 1 rceil | normalverteilte, mittelgroße Daten (n ≤ 200) |
| Scott | Bin-Breite h = 3,49 · s / n^(1/3) | kontinuierliche, normalverteilte Daten |
| Freedman-Diaconis | h = 2 · IQR / n^(1/3) | robust gegen Ausreißer, breite Anwendbarkeit |
Klausur-Wahl: Sturges, weil einfach. Bei n = 100: k = lceil log₂(100) + 1 rceil = lceil 6,64 + 1 rceil = 8. Acht Klassen sind ein guter Startpunkt.
Die kumulierte Häufigkeit H_i bzw. kumulierte relative Häufigkeit F_i ist die Summe aller Häufigkeiten bis zur Klasse i:
H_i = Σ_(j=1)ⁱ h_j F_i = Σ_(j=1)ⁱ f_j
Sie wächst monoton von 0 auf n (bzw. 1). Aufgetragen als Treppenfunktion ergibt sich die empirische Verteilungsfunktion (empirical CDF) — ein zentrales Werkzeug für Klausur-Aufgaben wie "wie viel Prozent der Daten liegen unter dem Wert x?".
Beispiel — Noten von 10 Studierenden in Klassen:
| Klasse | h_i | f_i | H_i | F_i |
|---|---|---|---|---|
| 1,0–2,0 | 2 | 0,20 | 2 | 0,20 |
| 2,0–3,0 | 4 | 0,40 | 6 | 0,60 |
| 3,0–4,0 | 3 | 0,30 | 9 | 0,90 |
| 4,0–5,0 | 1 | 0,10 | 10 | 1,00 |
Auf der kumulierten Spalte lesen wir direkt: 60 % der Studierenden haben Note ≤ 3,0 (F₂ = 0,60).
- Bin-Breite ist Wahl. In Klausur Sturges-Regel angeben und damit rechnen. Andere Regeln dokumentieren, falls sie genannt werden.
- Histogramm vs. Säulendiagramm: Histogramm = quantitative Daten in Klassen, Balken berühren sich. Säulendiagramm = kategoriale Daten, Balken mit Lücken. Skalenniveau bestimmt das richtige Diagramm.
- Ungleiche Bin-Breiten = Flächen statt Höhen. Wenn deine Klassen unterschiedliche Breiten haben, repräsentiert die Fläche des Balkens die Häufigkeit, nicht die Höhe. Höhe wird dann Häufigkeitsdichte =
h_i / Breite_i.- Kumulierte Häufigkeit ist Treppenfunktion — monoton steigend, geht von 0 auf 1 (relativ) bzw. von 0 auf
n(absolut). Bei Aufgaben "wie viel % unterx?" direkt ablesen.- Klassen-Grenzen klar definieren: ist 2,0 in Klasse "1,0–2,0" oder "2,0–3,0"? Standard-Konvention: halboffenes Intervall
[a, b)— die untere Grenze gehört dazu, die obere nicht. Punkt 2,0 zählt zur höheren Klasse.
1. Säulendiagramm statt Histogramm für quantitative Daten. Bei Klausurnoten in Klassen ist es ein Histogramm, die Balken müssen sich berühren. Bei Lieblings-Studienfach ist es ein Säulendiagramm, Balken stehen separat.
2. Bei ungleichen Bin-Breiten Höhe = Häufigkeit annehmen. Falsch — Höhe ist Dichte, die Fläche zählt. Beispiel: zwei Bins, einer 1,0 breit mit h = 4, einer 2,0 breit mit h = 8. Beide haben dieselbe Dichte (4 pro Einheit) und sollten gleich hoch sein, obwohl der zweite Bin doppelt so viele Werte enthält.
3. Doppelt-Zählung an der Klassen-Grenze. Ohne Konvention [a, b) zählst du den Grenzwert 2,0 in beiden Klassen, am Ende stimmt die Summe nicht. Konvention immer angeben.
4. Relative Häufigkeiten addieren bei Klassen-Bildung. Wenn die ursprünglichen Daten in Klassen aggregiert werden, addieren sich die relativen Häufigkeiten innerhalb einer neuen Großklasse — der gesamte Datensatz bleibt aber Σ f_i = 1.
Schiebe den Bin-Slider von 3 bis 30 und beobachte, wie sich das Bild ändert. Wechsle zwischen 4 Datensätzen:
Lern-Tipp: Stelle "Bimodal" ein, dann mit Slider auf 3 Bins gehen — du siehst nur eine grobe Form, die zwei Häufungen sind unsichtbar. Bei 15 Bins werden sie sofort sichtbar. Genau das ist der Bin-Breite-Effekt.
Toggle "absolut/relativ" zeigt die gleiche Verteilung mit unterschiedlicher Y-Achsen-Beschriftung; "kumulierte Verteilung" überlagert die Treppenfunktion.
Interaktive Visualisierung
Interaktive Komponente: probiere sie im Topic-Player oben aus.
Klausur-Tipp: Wenn die Aufgabe nach der Klassenanzahl fragt, gib die Sturges-Regel an: k = lceil log₂(n) + 1 rceil. Bei n = 50 ist k = 7, bei n = 100 ist k = 8, bei n = 1000 ist k = 11. Faustwert für klausurnahe Stichprobengrößen: 7–10 Klassen.
Drei Aufgaben-Typen: Sturges-Berechnung, Häufigkeitstabelle ablesen, Histogramm-vs-Säulendiagramm-Klassifikation.
Klausurfragen mit Lösungen (6)
Antwort: 7
Erklärung: `k = lceil log₂(64) + 1 rceil = lceil 6 + 1 rceil = 7`. Bei Zweierpotenzen geht die Sturges-Regel besonders glatt auf. Allgemein: `log₂(n) + 1`, dann aufrunden.
Typ: Zahlen-Eingabe
Antwort: 28 (Toleranz ±0.5)
Erklärung: `f = h / n = 14 / 50 = 0,28 = 28 \%`. Relative Häufigkeit immer als Anteil, oft als Prozent angegeben. Die absolute Häufigkeit der ersten Klasse (6) spielt für die zweite keine Rolle.
Typ: Zahlen-Eingabe
Antwort: Säulen- oder Kreisdiagramm
Erklärung: Nominal-Daten → Säulen-/Kreisdiagramm. Histogramm braucht quantitative Daten in Klassen (mindestens Intervallskala, weil Bins eine kontinuierliche Achse erfordern). Boxplot braucht mindestens Ordinal (Median, Quartile). EDF auch erst ab Ordinal.
Antwort: Falsch
Erklärung: FALSCH. Bei ungleichen Bin-Breiten ist die **Fläche** des Balkens die Häufigkeit, die **Höhe** ist die **Häufigkeitsdichte** `h_i / Breite_i`. Sonst wären breite Bins optisch überrepräsentiert.
Typ: Wahr/Falsch
Antwort: 12.22 (Toleranz ±0.05)
Erklärung: `h = 3,49 · 14 / 4 = 48,86 / 4 ≈ 12,22`. Die Scott-Regel wird selten direkt in Klausuren abgeprüft, ist aber R/Python-Default für die hist()-Funktion.
Typ: Zahlen-Eingabe
Zuordnungen:
Erklärung: Die vier Begriffe der Häufigkeitsverteilung. Wichtig: die Dichte tritt erst bei ungleichen Bins auf — bei gleichen Bins ist Höhe = Häufigkeit (proportional).
Typ: Zuordnung
Klausurfragen mit Lösungen (6)
Antwort: 25 (Toleranz ±0.5)
Erklärung: Anteil im Intervall = `F(3,0) - F(2,5) = 0,65 - 0,40 = 0,25 = 25 \%`. Differenz aufeinanderfolgender Werte der EDF gibt direkt den Anteil im Intervall — Klausur-Klassiker.
Typ: Zahlen-Eingabe
Richtige Antworten: Balken müssen sich berühren (im Gegensatz zum Säulendiagramm); X-Achse ist eine kontinuierliche Skala; Bin-Breite-Wahl beeinflusst, was im Bild erkennbar ist; Sturges-Regel: `k = lceil log₂(n) + 1 rceil`
Erklärung: Richtig: berührende Balken, kontinuierliche x-Achse, Bin-Breite beeinflusst Bild, Sturges-Formel. Falsch: bei ungleichen Bins zählt die FLÄCHE (Höhe ist Dichte); Histogramme funktionieren für jede quantitative Verteilung, nicht nur normal.
Typ: Multi-Select
Antwort: Wahr
Erklärung: Wahr. EDF ist Treppenfunktion, startet bei 0 (unter dem Minimum), endet bei 1 (über dem Maximum), springt an jedem Datenpunkt um `1/n` nach oben (bei Klassen: um `f_i`). Monoton steigend ist Definitions-Eigenschaft.
Typ: Wahr/Falsch
Antwort: 9 Bins
Erklärung: Sturges: `k = lceil log₂(200) + 1 rceil = lceil 7,64 + 1 rceil = 9`. Bei 5 Bins zu grob, bei 20+ zerklüftet. 8–10 Bins sind typischer Klausur-Standardbereich.
Richtige Reihenfolge:
Erklärung: Standard-Workflow. Wichtig: `k` ZUERST (sonst weißt du die Bin-Breite nicht), dann erst Grenzen festlegen. Häufiger Fehler: zuerst Daten in Klassen sortieren und dann hoffen, dass die Anzahl passt.
Typ: Reihenfolge
Antwort: Falsch
Erklärung: FALSCH. Freedman-Diaconis (`h = 2 · IQR / n^(1/3)`) ist robust gegen Ausreißer und schiefe Verteilungen, weil sie auf dem IQR basiert. Sturges (`k = log₂(n) + 1`) ist auf normalverteilte Daten optimiert und kann bei stark schiefen Daten zu wenige oder zu viele Bins liefern.
Typ: Wahr/Falsch