Ungleich rechnen

Ungleichverteilungen müssten, rein vom Namen her, das Stiefkind moderner Mathematik sein. Doch tatsächlich sind sie gern eingesetzte Verfahren, um die Disparität einer definierten Menge auf eine gewisse Population vergleichbar zu machen. Und weil ich aktuell damit zu tun habe (siehe auch den Post zur digitalen Demokratie), werde ich für diesen Beitrag zum Mathe- und Statistik-Lehrer.

Es gibt zahlreiche Ungleichheitsverteilungsmaße (oder auch Ungleichheitskoeffizienten bzw. Maße der Disparität), McDonald und Dimmick (2003) listen diese in übersichtlicher Form auf und vergleichen die diversen Vor- und Nachteile. Allerdings erklären weder sie noch andere wirklich anschaulich, wie die Koeffizienten berechnet werden. Das möchte ich hier nachholen und beschränke mich dafür auf zwei Maße:

  1. Simpsons DZ (bzw. in englischer Schreibweise “Simpson’s D”)
    Ein häufig gesehenes Standardmaß (das “Z” zeigt an, dass es sich um ein standardisiertes Maß handelt), das bei allen möglichen Konzentrationsmessungen zum Einsatz kommt.
  2. Gini-Koeffizient
    Dieser Koeffizient ist vor allem in der Konzentrationsmessung beliebt, also um einen Markt und die darin vertretenen Anbieter besser einschätzen zu können.

Zur besseren Verständlichkeit ziehen wir ein Beispiel heran: Auf einem (Bio-) Markt gibt es insgesamt vierzehn Anbieter für Äpfel. Diese haben aber unterschiedliche Lieferanten hinter sich (einige bauen selber an, manche werden von bösen Großkonzernen direkt beliefert, einige wenige kaufen die Äpfel im Supermarkt) und können – aufgrund der Größe ihres Marktstandes – unterschiedlich viele Äpfel anbieten. Die Frage ist nun, ob der Apfelhandel auf dem Markt (hoch) konzentriert ist, ob also die ganzen Äpfelkäufe nur bei wenigen Anbietern stattfinden, oder ob eine hohe Vielfalt geboten ist, die Käufe sich also schön gleichmäßig auf die Anbieter verteilen.

Σ 14 Σ 74.5
Anbieter-Nr. Standfläche [m²]
1 4
2 2
3 1.4
4 3.8
5 19
6 2
7 4
8 2.6
9 3
10 1.9
11 26
12 1.3
13 2.1
14 1.4

Simpsons DZ

Jetzt der Reihe nach – erst Simpsons DZ. Die Formel hierfür kursiert in diversen Ausführungen, an dieser Stelle wird die von Simpson ursprünglich vorgeschlagene und auch bei McDonald und Dimmick angepriesene verwendet (erste Zeile links, kombiniert mit der Formel rechts ergibt die untere Formel):

Formel von Simpsons D

Das Summenzeichen im Zähler des großen Bruchs gibt an, dass pro Fall (im Beispiel also pro Marktstand) der Teil nach dem Summenzeichen für diesen Fall (i) berechnet und anschließend aus den ganzen Zeilen die Summe gebildet werden muss. ni bezeichnet die jeweilige Zahl der Einheiten, also die Quadratmeter je Marktstand, N die Gesamtfläche aller Stände (74.5m²). Diesen Teil nach dem Summenzeichen (pi²) bilden wir also pro Zeile, was uns zu folgender Tabelle bringt:

Σ 14 Σ 74.5 Σ 0.20194
Anbieter-Nr. Standfläche [m²] pi pi²
1 4 0.05369 0.00288
2 2 0.02685 0.00072
3 1.4 0.01879 0.00035
4 3.8 0.05101 0.00260
5 19 0.25503 0.06504
6 2 0.02685 0.00072
7 4 0.05369 0.00288
8 2.6 0.03490 0.00122
9 3 0.04027 0.00162
10 1.9 0.02550 0.00065
11 26 0.34899 0.12180
12 1.3 0.01745 0.00030
13 2.1 0.02819 0.00079
14 1.4 0.01897 0.00035

Das im Nenner vertretene “k” steht für die Anzahl der Fälle, im Beispiel also 14. Entsprechend löst sich die Formel folgendermaßen auf:

Simpsons D errechnet

Also beträgt Simpsons D für unsere Auflistung 0,78. Wunderbar. Und jetzt? Ganz einfach: Da der Wert standardisiert ist, können wir ihn mit anderen Verteilungen vergleichen. Simpsons D liegt immer zwischen 0 und 1, je näher an 1, desto höher die Vielfalt, also desto geringer die Konzentration.

Gini-Koeffizient

Der Gini-Koeffizient ist in seiner Berechnung minimal komplexer, was vor allem an der kumulierten Rechenweise liegt. Aber auch das ist machbar. Also der Reihe nach:

Formel des Gini-Koeffizienten

Wiederum das Summenzeichen, dieses Mal aber nicht über alle Fälle, sondern vom ersten (i=1) bis zum vorletzen (k-1). Also die Summe über alle Fälle den letzten ausgenommen. Warum? Ganz einfach: In den Klammern ist dann von yi+1 und xi+1 die Rede, also dem x- bzw. y-Wert des nächsten Falls. Würde die Summe nun über alle Fälle gerechnet werden, hätte der letzte Fall das Problem, dass es keine nächsten Werte mehr gibt. Also nur bis zur vorletzten Zeile.

Das x steht übrigens für die kumulative Proportion der Population, das y für die kumulative Proportion der gefragten Größe an sich. Klingt komplizierter als es ist: Kumulativ heißt, dass es immer bis zum aktuellen (i) Fall aufsummiert wird, die Reihenfolge also unverändert bleiben muss, und proportional zeigt an, dass wir das Ganze im Verhältnis (also in Prozent) rechnen müssen. Die Population ist schließlich die Summe der Fälle und die gefragte Größe ist die Standfläche.

Da es sich um die kumulierte Größe und in weiterer Folge dann um Multiplikationen handelt, ist die Reihenfolge, in der die Fälle geordnet sind, hier von entscheidender Wichtigkeit. Der Wert kann gänzlich anders ausfallen, ist die Liste “falsch” sortiert. Da vom ersten zum k-ten (letzten) Fall durchgerechnet wird, sortieren wir aufsteigend, also beginnen wir mit Fall 12 (1.3m²).

Beispielhaft berechnen wir für die ersten beiden Fälle, erst Nummer eins (1.3m²). Es gibt insgesamt 14 Stände, der erste entspricht also 7 Prozent (1/14) bzw. 0.07 Teilen davon. Die Fläche bezogen auf die Gesamtfläche (1.3m²/74.5m²) entspricht 1.7 Prozent, also 0.017 Teilen. Der nächste Fall (1.4m²) entspricht natürlich zahlenmäßig wieder 7 Prozent, da es sich aber um kumulative (aufsummierte) Werte handelt, haben wir jetzt mit den Fällen eins und zwei bereits 14 Prozent bzw. 0.14 Teile einberechnet. Und für die Fläche gilt gleiches: 1.4m² entsprechen (1.4/74.5) 0.019 Teilen (1.9 %), kumuliert sind es beim zweiten Fall aber bereits 2.7m², also 0.04 Teile. Es entsteht folgende Tabelle:

Σ 14 Σ 74.5
Anbieter-Nr. Standfläche [m²] x (kum. % Population) y (kum. % Fläche)
12 1.3 0.071 0.017
3 1.4 0.143 0.036
14 1.4 0.214 0.055
10 1.9 0.286 0.081
2 2 0.357 0.107
6 2 0.429 0.134
13 2.1 0.500 0.162
8 2.6 0.571 0.197
9 3 0.643 0.238
4 3.8 0.714 0.289
1 4 0.786 0.342
7 4 0.857 0.396
5 19 0.929 0.651
11 26 1.000 1.000

Jetzt wird gerechnet. Jeweils mit dem x- und y-Wert der eigenen und der nächsten Zeile; vor der letzten ist dann natürlich Schluss. Für Zeile eins entspricht das also (0.036 + 0.017) × (0.143 – 0.071). Und die Formel aufgelöst kommen wir zu folgendem Ergebnis:

Erechneter Gini-Koeffizient

Zur Interpretation: Je näher an Eins, desto stärker ist die Konzentration. Das Ergebnis spricht also für eine sehr hohe Konzentration. Einige sehr wenige Marktstände vereinen also einen überdurchschnittlich hohen Anteil der Marktfläche auf sich.

Grafische Kontrolle

Das erscheint – ob einzelner Fälle wie Nummer 5 und 11 – auch sehr glaubwürdig. Zur Kontrolle helfen zwei grafische Veranschaulichungen. Dafür wird die Tabelle umsortiert in eine Quadratmeter-Rangliste (sodass der Fall mit den meisten Quadratmetern ganz oben ist). Anschließend wird durchnummeriert, dass also die Platzierung innerhalb dieser Tabelle festgehalten ist. Und dann geht’s ins Diagramm: Auf der Abszisse (X-Achse) wird der Rang eingetragen, die Ordinate hält die Quadratmeter fest. Um das Ganze standardisiert zu erhalten (und mit anderen Verteilungen vergleichen zu können), führen wir die Quadratmeter-Werte noch in Prozentwerte über. Daraus ist dann ersichtlich, dass es einige (zwei) Anbieter gibt, die weit mehr der Fläche besitzen als die große (restliche) Menge. Diese Art der Verteilung heißt übrigens Longtail-Verteilung.

Longtail-Verteilung der Apfelmarktstände

Ganz ähnlich sieht übrigens auch die Reichtumsverteilung aus, die ja bekanntermaßen besagt, dass die reichsten paar Prozent der Weltbevölkerung bereits den Großteil des weltweit verfügbaren Vermögens besitzen. Oder so ähnlich (habe da so eine Verteilung irgendwo im Hinterkopf, übernehme aber keine Gewähr dafür).

Wenn man diese Grafik betrachtet, macht auch der Simpson-Index durchaus Sinn: Abgesehen von zwei Ausreißern (Fall 5 und 11) herrscht eine beinahe Gleichverteilung. Entsprechend ist der Wert relativ hoch, aber doch noch markant von der Gleichverteilung (die dem Wert 1 entspricht) entfernt.

Die Verteilung über alle Anbieter ist mit einer kumulierten Darstellung aber noch deutlicher zu veranschaulichen. Dafür wird nicht der prozentuale Anteil an der Gesamtfläche auf der Ordinate abgetragen, sondern vielmehr der kumulierte prozentuale Anteil. Also beim zweiten Anbieter die Summe aus den Werten von Anbieter eins und zwei. Daraus lässt sich dann ablesen, dass etwa die größten 21.43 Prozent der Marktstände bereits den größten Teil der der gesamten Standfläche für sich vereinnahmen (die Fläche unter der blauen Kurve, laut Liste 65.8 Prozent).

Eine perfekte Gleichverteilung entspricht übrigens einer linearen Steigung, in der 10 Prozent der Population 10 Prozent der gefragten Größe vereinnahmen, 50 Prozent dann eben 50 Prozent und so fort (die rote Linie).

Kumulierte Konzentration der Apfelmarktstände

Insgesamt wirken unsere Ergebnisse also glaubwürdig und wir können festhalten, dass es  zwei Anbieter gibt, die den Apfelmarkt fest in ihrer Hand haben. Quod erat demonstrandum (das wollte ich schon immer einmal sagen bloggen).

Literatur

  • Hindman, Matthew (2009). The Myth of Digital Democracy. Princeton, NJ: Princeton University Press.
  • McDonald, Daniel G. & Dimmick, John (2003). The Conceptualization and Measurement of Diversity. Communication Research, 30 (1), 60-79.
  • Simpson, E. H. (1949). Measurement of Diversity. Nature, 163, 688.