Suche

Drucken Drucken

Beschreibende Statistik: Kennwerte

Eine statistische Verteilung von Werten kann mit verschiedenen Kennwerten beschrieben werden, sobald die Merkmalsausprägungen Werte sind, die wir addieren und subtrahieren können. Wenn die Merkmalsausprägungen beispielsweise Farben von PKW sind, können wir die meisten der folgenden Werte nicht bestimmen.

  • Maximum und Minimum
  • Spannweite
  • Mittelwert (Durchschnitt, arithmetisches Mittel)
  • Median (Zentralwert)
  • oberes und unteres Quartil
  • Modalwert

Nehmen wir als Beispiel die folgende Datenreihe, die das Alter der Mitglieder einer Familienfeier beschreibt:

24, 47, 51, 16, 3, 89, 36, 47, 74, 51, 47, 22, 8, 5, 13

 

Maximum, Minimum, Spannweite

Das Maximum ist der größte Wert der Merkmalsausprägungen, das Minimum der kleinste Wert der Merkmalsausprägungen. Die Differenz zwischen Maximum und Minimum ist die Spannweite. In unserem Beispiel ist das Minimum 3, das Maximum 89 und die Spannweite 86.

 

Mittelwert (arithmetisches Mittel, Durchschnitt)

Damit wir die anderen Größen berechnen können, führen wir noch einige Bezeichnungen ein. Als erstes sortieren wir dazu die Daten der Größe nach:

3, 5, 8, 13, 16, 22, 24, 36, 47, 47, 47, 51, 51, 84, 89

Die einzelnen Merkmalsausprägungen werden mit x_i bezeichnet, dabei ist i eine ganze Zahl. Die entsprechenden absoluten Häufigkeiten werden mit n_i und die relativen Häufigkeiten mit h_i bezeichnet. Die Summe der Häufigkeiten wird mit n bezeichnet.

i 1 3 4 5 6 7 8 9 10 11 12
x_i 3 5 8 13 16 22 24 36 47 51 84 89
n_i 1 1 1 1 1 1 1 1 3 2 1 1
h_i \frac{1}{15} \frac{1}{15} \frac{1}{15} \frac{1}{15} \frac{1}{15} \frac{1}{15} \frac{1}{15} \frac{1}{15} \frac{3}{15} \frac{2}{15} \frac{1}{15} \frac{1}{15}

Der Mittelwert wird dadurch berechnet, dass man alle Merkmalsausprägungen addiert und durch die Anzahl n der Beobachtungen dividiert

    \begin{equation*} \overline{x}=\frac{x_1+x_2+x_3+x_3+ ...}{n}=\frac{\sum_{i=1}^{n}x_i}{n} \end{equation*}

In unserem Beispiel ist die Summe aller Merkmalsausprägungen

    \begin{equation*} 3+5+8+13+16+22+24+36+47+47+47+51+51+84+89=543 \end{equation*}

Diese Summe wird durch die Anzahl der Leute (15) dividiert, so dass sich ein Mittelwert von \frac{543}{15}=36,2 ergibt.

Bei Daten, die – wie beispielsweise den Noten – schon in Gruppen vorliegen, ist es einfacher, nicht alle Daten einzeln zu addieren, sondern immer Wert*Anzahl zu rechnen und dies anschließend zu addieren:

    \begin{equation*} \overline{x}=\frac{\sum_{i=1}^{n}n_ix_i}{n}=\frac{n_1x_1+n_2x_2+n_3x_3 + ... }{n} \end{equation*}

Nehmen wir ein Beispiel mit Noten, die in einer Klassenarbeit vergeben worden sind:

Note 1 2 3 4 5 6
Anzahl 1 3 4 8 3 1

Es ist

    \begin{equation*} \overline{x}=\frac{1*1+3*2+4*3+8*4+3*5+1*6}{20}=\frac{72}{20}=3,6. \end{equation*}

Genau so gut geht es in einem solchen Fall mit den relativen Häufigkeiten:

    \begin{equation*} \overline{x}=\sum_{i=1}^{n}h_ix_i=h_1x_1+h_2x_2+h_3x_3+ ... \end{equation*}

oder im Fall der Noten:

    \begin{equation*} \overline{x}=0,05*1+0,15*2+0,2*3+0,4*4+0,15*5+0,05*6=3,6. \end{equation*}

 

Median und Quartile

Der Median ist der mittlere Wert einer Datenreihe. Er teilt die Datenreihe in eine untere und eine obere Hälfte. Dazu muss die Datenreihe erst der Größe der Merkmalsausprägungen nach geordnet werden. Bei unserem Beispiel mit dem Alter haben wir die Ordnung schon vorgenommen. Da wir insgesamt 15 Werte haben, ist der achte Werte der mittlere Wert: links und rechts von diesem Wert sind jeweils sieben andere Werte. Bei einer ungeraden Anzahl von Daten teilt man die Anzahl durch zwei und addiert 0,5, um an die Stelle des Median zu kommen. In dem Fall des Alters ist der Median 36, er liegt ziemlich nahe am Mittelwert. Dies muss nicht immer so sein.

Bei dem Beispiel mit dem Alter hatten wir eine ungerade Anzahl an Daten. Bei den Noten haben wir mit 20 Noten eine gerade Anzahl. Dann wird der Median etwas anders berechnet. Hier wird die Anzahl auch durch zwei geteilt. Anschließend werden der Wert an dieser Stelle und der rechts daneben liegende Wert addiert und durch zwei geteilt; dies ist dann der Median. In unserem Beispiel mit den Noten sind sowohl der 10. als auch der 11. Wert 4; also ist auch der Median 4.

Was ist der Unterschied zwischen Mittelwert und Median? Beide Werte versuchen die Mitte der Datenreihe zu suchen. Das Vorgehen ist unterschiedlich und das Ergebnis auch. Der große Unterschied zwischen den beiden Rechenarten ist der, dass der Mittelwert viel anfälliger für Ausreißer ist als der Median. Dies bedeutet, dass sich der Mittelwert viel stärker als der Median ändert, wenn ein besonders großer oder besonders kleiner Wert hinzu kommt – auch wenn dieser Wert als Folge eines Messfehlers entsteht.

Das obere und das untere Quartil sind nichts anders als die Hälfte der oberen bzw.\  der unteren Hälfte der Datenreihe.  Die Quartile werden nicht anders bestimmt als der Median – die Datenreihe, für die sie berechnet werden, besteht dabei allerdings jeweils nur aus der Hälfte der Daten. Zu beachten ist dabei allerdings, ob ursprünglich eine gerade oder eine ungerade Anzahl von Daten vorlag.

Die obere  Hälfte der Daten ist immer größer als der Median und die untere Hälfte ist immer kleiner als der Median. Das bedeutet

  • Bei einer ungeraden Anzahl von Daten war der Median eindeutig bestimmt. Er wird bei der Ermittlung der Quartile gestrichen. In unserem Beispiel mit dem Alter besteht die obere Hälfte aus den Werten 47 bis 89 und die untere Hälfte aus den Werten 3 bis 24. Das obere Quartil ist der Median der oberen Hälfte, also die erste 51. Das untere Quartil ist die 13.
  • Bei einer ungeraden Anzahl von Daten – wie im Beispiel der Noten – wird der Median als Mittelwert der beiden mittleren Werte bestimmt. Bei der Ermittlung der Quartile werden beide Werte mit gerechnet. Da wir insgesamt 20 Noten hatten, lag der Median zwischen dem 10. und 11. Wert. Die untere Hälfte besteht aus den ersten 10 Werten. Ihr Median – also das untere Quartil – liegt zwischen dem 5. und 6. Wert, also bei einer 3. Das obere Quartil – der Median der Werte 11 bis 20 – liegt zwischen dem 15. und 16. Wert, also bei einer 4. Median und oberes Quartil haben in diesem Fall den gleichen Wert.

 

Varianz und Standardabaweichung

Die Varianz und die Standardabweichung sind Maße für die Streuung der Daten. Je größer die beiden Werte sind, desto mehr Werte sind an den Rändern der Verteilung, je kleiner, desto mehr Werte sind in der Mitte der Verteilung. DIe Varianz wird mit der folgenden Formel berechnet.

    \begin{equation*} \mobx{Var}(x)=\sum_{i=1}^{n}((x_i-\overline{x})*h(x_1)) \end{equation*}

Dabei ist \overline{x} der Mittelwert der Verteilung. Schauen wir uns das für das Beispiel mit den Noten an:

Note x_i x_i-\overline{x} (x_i-\overline{x})^2 h_i*(x_i-\overline{x})^2
1 -0,9\overline{3} 0,87\overline{1} 0,043\overline{5}
2 0,0\overline{6} 0,00\overline{4} 0,000\overline{6}
3 1,0\overline{6} 1,13\overline{7} 0,227\overline{5}
4 2,0\overline{6} 4,27\overline{1} 1,708\overline{4}
5 3,0\overline{6} 9,40\overline{4} 1,410\overline{6}
6 4,0\overline{6} 16,53\overline{7} 0,826\overline{8}

Als Varianz ergibt sich jetzt die Summe der letzten Spalten, also \mbox{Var}(x)=4,21\overline{7}.
Die Standarabweichung ist die Wurzel aus der Varianz:
\sigma(x)=\sqrt{\mbox{Var}(x)}. In unserem Beispiel ist die Standardabweichung damit 2,0537

Modalwert

Der Modalwert ist der Wert, der am häufigsten vorkommt. In unserem Beispiel mit dem Alter ist die 51, bei den Noten die 4.

Drucken Drucken

Schreibe einen Kommentar

Insert math as
Block
Inline
Additional settings
Formula color
Text color
#333333
Type math using LaTeX
Preview
\({}\)
Nothing to preview
Insert