Statistik A - Statistische Abteilung

Statistik A
Beschreibende Methoden
und Wirtschaftsstatistik
Prof. Dr. Alois Kneip
Universität Bonn
Wirtschaftswissenschaftlicher Fachbereich
Statistische Abteilung
Adenauerallee 24-26
53113 Bonn
http://www.statistik.uni-bonn.de
unter der Mitarbeit von Dr. Jens-Uwe Scheer, Dr. Jürgen Arns, Oualid Bada
Statistik_A@statistik.uni-bonn
01
Inhalt
1. Grundlagen
• Einführung
• Wirtschaftsstatistik: Ziele, Arbeitsweise und Institutionen
• Grundbegrie der Statistik
• Datenmaterial in der statistischen Praxis
• Datengewinnung und Erhebungsarten
2. Univariate Deskription und Exploration von Daten
• Verteilungen und ihre Darstellungen
• Lagemaÿe
• Streuungsmaÿe
• Quantile und Boxplot
• Maÿe für Schiefe und Wölbung
• Lorenzkurven und Konzentrationsmaÿe
3. Bivariate Deskription und Exploration von Daten
Statistik_A@statistik.uni-bonn
02
• Kontingenztabellen
• Zusammenhangsanalyse in Kontingenztabellen
• Grasche Darstellung quantitativer Merkmale
• Zusammenhangsmaÿe bei metrischen Merkmalen
• Lineare Einfachregression
• Erweiterungen der Einfachregression
4. Zeitreihen
• Grundlagen: grasche Darstellung, Komponentenmodelle
• Schätzung von Trendkomponenten
• Schätzung von Saisonkomponenten
• Autoregression
5. Indexzahlen
• Grundlagen
• Preisindizes, Mengenindizes, Wertindizes
• Indexprobleme, Indexkriterien und Indexumrechnungen
• Beispiele für Indexzahlen in der Wirtschaftsstatistik
Statistik_A@statistik.uni-bonn
03
6. Einführung in die Wahrscheinlichkeitstheorie
Literatur:
• Fahrmeier, Künstler, Pigeot, Tutz: Statistik, Springer Verlag
Statistik_A@statistik.uni-bonn
04
Einige Institutionen der
Wirtschaftsstatistik
Amtliche Statistik:
Statistisches Bundesamt
www.destatis.de
Statisches Amt der EU - EUROSTAT
epp.eurostat.ec.europa.eu/
Wirtschaftsforschungsinstitute:
Ifo-Institut (München)
www.ifo.de
Deutsches Institut f. Wi.-Forschung (Berlin)
www.diw-berlin.de
HWWA (Hamburg)
www.hwwa.de
Institut für Weltwirtschaft (Kiel)
www.uni-kiel.de/ifw
RWI (Essen)
www.rwi-essen.de
Institut für Wirtschaftsforschung (Halle)
www.iwh.uni-halle.de
Statistik_A@statistik.uni-bonn
05
1 Grundlagen
1.1 Einführung
Was ist Statistik?
Ziel: Informationsgewinnung aus Daten
Voraussetzung: Vorliegen einer gröÿeren Grundgesamtheit
Wenn ein Mensch stirbt, ist es ein Unglück, bei 100
Toten ist es eine Katastrophe, bei 1000 Toten eine
Statistik (G. Calot)
Der Begri Statistik besitzt mehrere Bedeutungen:
• Ergebnis eines Zähl- oder Messprozesses; Resultate einer Erhebung (Statistische Jahrbücher, Arbeitslosenstatistik, Bevölkerungsstatistik)
• Gesamtheit des methodischen Instrumen-
tariums der statistischen Analyse und Inferenz ⇒ eigener Wissenschaftszweig
Statistik_A@statistik.uni-bonn
11
Erkenntnisziele der Statistik
Statistische Deskription und Exploration
Die deskriptive Statistik dient zur beschreibenden
und graschen Aufbereitung und Komprimierung von
Daten. Die explorative Statistik befasst sich mit
dem Aunden von Strukturen und Zusammenhängen
innerhalb des Datenmaterials
⇒ Vorlesung Statistik I
Statistische Inferenz
Die induktive (oder schlieÿende) Statistik versucht, über die erhobenen Daten hinaus allgemeinere
Schlussfolgerungen für umfassendere Grundgesamtheiten zu ziehen. Wichtige Werkzeuge sind die Wahrscheinlichkeitstheorie und stochastische Modelle.
⇒ Vorlesung Statistik II
Statistik_A@statistik.uni-bonn
12
Beispiel: Einkommensdaten
• Quelle: U.K. Family Expenditure Survey
• Ungefähr 7000 britische Haushalte pro Jahr
• Für jeden Haushalt: Einkommen aus verschiedenen Quellen, Ausgaben für verschiedene Güter,
Alter, Familiengröÿe, Berufe, etc.
Verfügbares Einkommen im Jahr 1976 (76 von 7202
Haushalten; Einheit: Pfund pro Woche):
66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39
58.36 72.88 40.22 45.87 70.99 31.28 54.58 40.72 17.87
26.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.10
50.47 77.94 87.60 34.85 70.53 57.46 60.30 15.52 23.20
26.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.12
50.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17
115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.51
48.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.48
51.21 33.52 71.21 55.21
Statistik_A@statistik.uni-bonn
13
Statistische Deskription: Für die gegebene Stichprobe von 7202 Haushalten
• Durchschnittseinkommen (arithmetisches Mittel): 58, 75
• Einkommensverteilung (Histogramm)
0.012
0.008
0.004
0.000
0
40
80
120
160
200
240
280
Einkommen
Induktive Statistik: Durchschnittseinkommen aller
Haushalte in GB?
⇒ Konstruktion eines 95% Kondenzintervalls:
Durchschnittseinkommen in GB = 58, 75 ± 0, 84
Statistik_A@statistik.uni-bonn
14
Wozu braucht man Statistik?
• Politische Umfragen und Wahlprognosen
z.B. Sonntagsfrage, Politbarometer
• Klinische und epidemologische Studien
z.B. Extraktion von Risikofaktoren für bestimmte
Krankheiten, Studien zur Überprüfung der Wirksamkeit eines Medikaments
Statistik im volks- und betriebswirtschaftlichen
Bereich (Beispiele):
• Kreditwürdigkeitsprüfung und Insolvenzprognose
z.B. Extraktion von relevanten Merkmalen, die es
erlauben, die Kreditwürdigkeit eines Kunden einzustufen
• Marktforschungsstudien
z.B. Exploration von Konsumgewohnheiten zur optimalen Positionierung eines neuen Produkts auf
dem Markt
• Analyse von Aktienkursen zur Steuerung von Aktienportfolios
• Einkommensstatistik, Bevölkerungsstatistik
Statistik_A@statistik.uni-bonn
15
1.2 Grundbegrie der Statistik
Statistische Einheit (Merkmalsträger):
Einzelobjekt einer statistischen Untersuchung,
an dem interessierende Gröÿen erfasst werden
Grundgesamtheit (Statistische Masse):
Menge aller für die Fragestellung relevanten
statistischen Einheiten
Teilgesamtheit:
Teilmenge der Grundgesamtheit
Stichprobe:
tatsächlich untersuchte Teilmenge
der Grundgesamtheit
Statistik_A@statistik.uni-bonn
16
Statistisches Merkmal (Variable):
interessierende Gröÿe, deren Ausprägungen an den
einzelnen statistischen Einheiten beobachtet werden
Merkmalsausprägung:
konkreter Wert des Merkmals für eine
bestimmte statistische Einheit
Merkmal
Merkmalsausprägungen
X
x1 , x2 , . . . , xn
Statistik_A@statistik.uni-bonn
17
Beispiel
statistische Einheit:
jeder Bürger von Bonn per 31.12.1995
Grundgesamtheit:
Bevölkerung von Bonn am 31.12.1995
Erfassungsmerkmale:
X1 - Alter
X2 - Geschlecht
X3 - Familienstand
X4 - monatliches Einkommen
...
mögliche Merkmalsausprägungen:
X1 : 1, 13, 84, . . .
X2 : männlich, weiblich
X3 : ledig, verheiratet, geschieden, . . .
X4 : 800, . . ., 2555.56, . . .
Statistik_A@statistik.uni-bonn
18
1.2.1 Merkmalstypen
Eine grundlegende Unterscheidung erfolgt anhand des
Skalenniveaus, auf dem ein Merkmal gemessen wird.
Nominalskala
Ein Merkmal ist nominalskaliert, wenn die
Ausprägungen Namen oder Kategorien sind,
die den Einheiten zugeordnet werden
Beispiele:
Geschlecht, Familienstand, erlernter Beruf
Spezialfall: Ein Merkmal heiÿt dichotom (oder binär), falls es nur zwei sich gegenseitig ausschlieÿende
Ausprägungen aufweist.
Man beachte: Aus technischen Gründen wird oft eine Kodierung durchgeführt, d.h. den Ausprägungen
werden Zahlen zugewiesen; diese Zahlen haben dann
eine reine Bezeichnungsfunktion (Rechenoperationen
nicht sinnvoll!); Nominalskalierung bleibt erhalten
Beispiele:
Geschlecht: männlich=1, weiblich=2
PKW-Farbtöne: grün=117, blau=440, . . .
Statistik_A@statistik.uni-bonn
19
Ordinalskala
Eine Ordinalskala liegt vor, wenn Merkmalsausprägungen nicht nur eine Verschiedenartigkeit,
sondern auch eine natürliche Rangfolge zum
Ausdruck bringen; Abstände zwischen den Ausprägungen sind jedoch nicht interpretierbar
Beispiele:
Schulnoten
militärischer Dienstgrad
Wind- und Erdbebenstärken
Güteklassen für Produkte
sozialer Status
Statistik_A@statistik.uni-bonn
110
Kardinalskala oder metrische Skala:
Eine Kardinalskala oder metrische Skala liegt vor,
wenn Merkmalsausprägungen durch zugeordnete
Zahlen sowohl Verschiedenartigkeit und Rangfolge,
als auch mess- und quantizierbare Unterschiede
zum Ausdruck bringen
Metrisch skalierte Merkmale lassen sich zusätzlich in
intervallskalierte und verhältnisskalierte Merkmale unterteilen.
Intervallskala:
Eine Intervallskala liegt vor, wenn Abstände
(Dierenzen) zwischen Merkmalsausprägungen
messbar und plausibel interpretierbar sind
• kein natürlicher Nullpunkt
• Quotienten nicht interpretierbar
Beispiele:
◦
Temperatur in C, Kalenderzeitrechnung, Breiten- und
Längengrade der Erde
Statistik_A@statistik.uni-bonn
111
Verhältnisskala:
Eine Verhältnisskala liegt vor, wenn Quotienten
von Merkmalswerten berechenbar und plausibel
interpretierbar sind
• natürlicher Nullpunkt
• Quotientenbildung sinnvoll
Beispiele:
Wertvolumen eines Warenkorbes, Längenmaÿe, Gewichtsmaÿe, Alter, Einkommen
Sinnvolle Berechnungen:
Skala
auszählen
ordnen
Dierenzen
Quotienten
nominal
ja
nein
nein
nein
ordinal
ja
ja
nein
nein
intervall
ja
ja
ja
nein
verhältn.
ja
ja
ja
ja
Statistik_A@statistik.uni-bonn
112
Eine zusätzliche, eher grobe, Einteilung besteht in der
Unterscheidung zwischen qualitativen und quantitativen Merkmalen. Hierbei existiert ein enger Bezug
zum Skalenniveau.
Qualitative (kategoriale) Merkmale:
Unter qualitativen Merkmalen versteht man Gröÿen,
deren Ausprägungen eine Qualität und nicht ein
Ausmaÿ widerspiegeln; qualitative Merkmale sind
entweder nominal- oder ordinalskaliert
Quantitative Merkmale:
Die Ausprägungen eines quantitativen Merkmals
geben eine Intensität bzw. ein Ausmaÿ wieder,
in dem die interessierende Gröÿe realisiert ist;
metrisch skalierte Merkmale sind immer quantitativ
Achtung: Zwitterstellung mancher ordinalskalierter Merkmale (z.B. Schulnoten)
Statistik_A@statistik.uni-bonn
113
Eine weitere, praktisch relevante Unterscheidung von
Merkmalen basiert auf der Anzahl von Ausprägungen.
Diskretes Merkmal:
Ein Merkmal heiÿt diskret, falls es nur endlich
oder abzählbar unendlich viele Ausprägungen
annehmen kann.
Beispiele: Geschlecht, Rasse, Anzahl der Autounfälle
in Bonn innerhalb eines Monats
Nominal- oder ordinalskalierte Merkmale sind immer
diskret
Stetiges Merkmal:
Ein (metrisch skaliertes) Merkmal heiÿt stetig,
wenn alle Werte eines Intervalls mögliche
Ausprägungen sind.
Beispiele: Körpergröÿe, Menge des verkauften Benzins an einer Tankstelle pro Tag
Statistik_A@statistik.uni-bonn
114
In der Praxis oft: Quasi-stetige Merkmale
Manche metrisch skalierten Merkmale sind zwar im
Prinzip diskret, die Anzahl aller möglichen Ausprägungen ist jedoch so groÿ, dass es auch bei sehr groÿen
Grundgesamtheiten äuÿerst unwahrscheinlich ist, dass
zwei verschiedene statistische Einheiten die gleiche Ausprägung (Zahlenwert) besitzen. Solche quasi-stetigen
Merkmale werden in der Praxis wie stetige Merkmale
behandelt.
Beispiel: Monatliches Nettoeinkommen
Mögliche Ausprägungen:
x1 = 645, 53 Euro
x2 = 3215, 60 Euro
x3 = 1450, 35 Euro
..
.
Statistik_A@statistik.uni-bonn
115
1.3 Datenmaterial in der statistischen
Praxis
In der Praxis können die für eine statistische Analyse verwendeten Daten aus unterschiedlichen Quellen stammen. Neben eigenen Erhebungen kann auch
Datenmaterial verwendet werden, das dem Statistiker
von amtlichen oder nichtamtlichen Institutionen zur
Verfügung gestellt wurde.
• Primärstatistische Untersuchung:
Die Erhebung wurde speziell im Hinblick auf die
zu untersuchende Fragestellung durchgeführt
• Sekundärstatistische Untersuchung:
Zur statistischen Analyse werden bereits vorhandene Originaldaten benutzt (z.B. aus statistischen
Jahrbüchern)
• Tertiärstatistische Untersuchung:
Es werden bereits transformierte oder komprimierte Daten (etwa in Form von Mittelwerten) zur
Analyse herangezogen
Auf den verschiedenen Ebenen kann das Datenmaterial in unterschiedlicher Form vorliegen.
Statistik_A@statistik.uni-bonn
116
1.3.1 Urliste, Häugkeitdaten und gruppierte
Daten
Die nachfolgende Unterscheidung hinsichtlich der Form der
durch die Daten gegebenen Informationen über ein interessierendes Merkmal ist von groÿer Bedeutung für praktische
Berechnungen.
Erhebung ⇒ Stichprobe des Umfangs n
1) Urliste (Rohdaten, Primärdaten):
Es sind die Ausprägungen x1 , . . . , xn eines interessierenden Merkmals X für alle in der Stichprobe bendlichen statistischen Einheiten gegeben.
Beispiel:
Grundgesamtheit: Alle im WS 2009/2010 eingeschriebenen Studierenden der Universität Bonn
Statistische Einheit: Ein im WS 2009/2010 eingeschriebener Student oder eine eingeschriebene Studentin der
Universität Bonn
Stichprobe: n = 5 zufällig ausgewählte Studierende
Merkmal: Geschlecht (männlich= 0, weiblich= 1)
Urliste: x1 = 0, x2 = 1, x3 = 1, x4 = 0, x5 = 1
Merkmal: Alter
Urliste: x1 = 22, x2 = 20, x3 = 27, x4 = 25, x5 = 31
Statistik_A@statistik.uni-bonn
117
2) Häugkeitsdaten: Es sind nur die relativen
oder absoluten Häugkeiten der einzelnen Ausprägungen eines diskreten Merkmals gegeben.
Beispiel:
Grundgesamtheit: Alle im WS 2009/2010 eingeschriebenen Studierenden der Universität Bonn
Statistische Einheit: Ein im WS 2009/2010 eingeschriebener Student oder eine eingeschriebene Studentin der
Universität Bonn
Stichprobe: n = 5 zufällig ausgewählte Studierende
Merkmal: Geschlecht
beobachtete absolute Häugkeiten in der Stichprobe:
2 männliche Studierende, 3 weibliche Studierende
beobachtete relative Häugkeiten in der Stichprobe:
40% männlich, 60% weiblich
Statistik_A@statistik.uni-bonn
118
3) Gruppierte Daten: Insbesondere bei sekundär-
und tertiärstatistischen Untersuchungen liegen ursprünglich metrisch skalierte Merkmale oft in gruppierter
Form vor.
Gruppierung: Einteilung eines metrisch
skalierten Merkmals in k Klassen
Klassen: benachbarte Intervalle
(c0 , c1 ], (c1 , c2 )], . . . , (ck−1 , ck ]
Gruppierte Daten: Gegeben sind nur
die Häugkeiten der Originalbeobachtungen
innerhalb der einzelnen Klassen
• c0 , c1 , c2 , . . . , ck heiÿen Klassengrenzen
• Klassenbreiten:
δj = cj − cj−1
• Klassenmitten:
c̄j =
Statistik_A@statistik.uni-bonn
cj + cj−1
2
119
Beispiel:
Einkommensverteilung 1986 nach der Lohn- und Einkommenssteuerstatistik
Gesamtbetrag
Steuerpichtige
der Einkünfte
DM
Gesamtbetrag
der Einkünfte
(1000)
(Mill. DM)
- 4000
1445.2
2611.3
4000 - 8000
1455.5
8889.2
8000 - 12000
1240.5
12310.9
12000 - 16000
1110.7
15492.7
16000 - 25000
2762.9
57218.5
25000 - 30000
1915.1
52755.4
30000 - 50000
6923.7
270182.7
50000 - 75000
3876.9
234493.1
75000 -100000
1239.7
105452.9
100000-250000
791.6
108065.7
250000-500000
93.7
31433.8
500000- 1 Mill
26.6
17893.3
1 Mill - 2 Mill
8.3
11769.9
2 Mill - 5 Mill
3.7
10950.8
5 Mill -10 Mill
0.9
6041.8
10 Mill- mehr
0.5
10749.8
1
Statistik_A@statistik.uni-bonn
120
1.3.2
Klassizierung nach Datenarten
Im Rahmen von sekundär- und tertiärstatistischen Untersuchungen werden zu analysierende Merkmale in
der Wirtschaftsstatistik oft im Hinblick auf die Art
und Weise ihres Zustandekommens klassiziert.
Mikrodaten (individuelle Daten): Statistische
Einheiten sind einzelne Haushalte, Firmen, etc.
Gemessene Merkmale geben Charakteristika
dieser Einheiten wieder.
Aggregierte Daten: Interessierende Merkmale sind Maÿzahlen, die durch geeignete Zusammenfassung von Mikrodaten entstanden sind
Beispiel: Mittlerer Konsum aller Haushalte in Deutschland
Statistik_A@statistik.uni-bonn
121
Formen der Aggregation
1. Sachliche Aggregation
2. Räumliche Aggregation
3. Zeitliche Aggregation
Wichtige Maÿzahlen: Indexzahlen, die
die zeitliche Entwicklung einer Gesamtheit
von Objekten wiedergeben. Sie enstehen durch
sinnvolle Aggregation von Einzelwerten.
Beispiele: Deutscher Aktienindex (Dax), Preisindizes,
etc.
Statistik_A@statistik.uni-bonn
122
Eine weitere Klassizierung erfolgt im Hinblick darauf, ob sich die Daten auf einen einzelnen, festgelegten
Zeitpunkt beziehen, oder ob sie Informationen über
die Veränderungen eines Merkmals über einen längeren Zeitraum enthalten.
Querschnittsstudie: Für eine Stichprobe
von statistischen Einheiten werden ein oder
mehrere Merkmale zu einem festgelegten
Zeitpunkt erfaÿt.
Beispiel: Unternehmensbefragung über aktuelle Auftragslage
Zeitreihe: Ein Objekt wird hinsichtlich
eines Merkmals über einen längeren Zeitraum
hinweg beobachtet, d.h. die Ausprägung des
Merkmals wird in verschiedenen Zeitperioden
erfaÿt.
Beispiel: Monatlicher Gesamtkonsum aller deutschen
Haushalte von 1991-2001
Statistik_A@statistik.uni-bonn
123
Panel (Längsschnittstudie): Für eine Stichprobe von statistischen Einheiten wird die Entwicklung von interessierenden Merkmal(en)
über einen gewissen Zeitraum hinweg
verfolgt
Beispiel: Sozio-ökonomisches Panel: 1984 vom DIW
gestartete jährliche Wiederholungsbefragung von mehreren tausenden Haushalten (mehrere hundert Variablen, z.B. Erwerbsstatus, Einkommen,...)
Statistik_A@statistik.uni-bonn
124
1.4 Datengewinnung und Erhebungsarten
Datenerhebung ist Grundlage jeder Statistik
Anforderungen an statistisches Datenmaterial:
Methodische Solidität
Vergleichbarkeit über längere Zeit
Vollständigkeit und Genauigkeit
Aktualität
Datenquellen:
Amtliche Daten
Nichtamtliche Daten
Eigene Datenerhebung
Statistik_A@statistik.uni-bonn
125
Datenerhebung: Sorgfältige Planung notwendig!
1. Genaue Formulierung der Fragestellung
2. Sorgfältige Abgrenzung der zu analysierenden Merkmale und der interessierenden statistischen Einheiten und Masse
3. Festlegung der adäquaten Erhebungsart
Beispiele:
• schriftliche Befragung (Fragebogen)
• mündliche oder telefonische Befragung
• Beobachtung, Experiment
• automatische Erfassung
4. Festlegung der zur Auswertung geeigneten statistischen Methodik
5. Maÿnahmen zum Datenschutz
Ziel von 3. und 4.: Repräsentativität der Ergebnisse
und Vermeidung von Fehlinterpretationen durch
weitestgehenden Ausschluss von Fehlerquellen
Statistik_A@statistik.uni-bonn
126
Vollerhebung: Die Merkmale jeder einzelnen statistischen Einheit in der Grundgesamtheit
werden erhoben
• Beispiel: Volkszählung
• Probleme der Vollerhebung: oft zeitraubend, und
kostspielig; in vielen Fällen praktisch nicht durchführbar
Statistik_A@statistik.uni-bonn
127
Teilerhebung: Ziehung einer Stichprobe
aus der interessierenden Grundgesamtheit
• wichtig: Umfang n der Stichprobe
• Problem: Zufallsschwankungen
⇒ statistisch kontrollierbar (z.B. Signikanztests)
Fehlerquellen:
• Fehlende Repräsentativität der Stichprobe durch
systematische Verzerrungen (ungeeignete Erhebungsart)
• Fehlende oder falsche Daten
• Einuss von Störvariablen
Statistik_A@statistik.uni-bonn
128
Wichtige Stichprobenverfahren:
Einfache Zufallsstichprobe: Aus der
interessierenden statistischen Masse werden n Einheiten nach einem reinen Zufallskriterium ausgewählt
Geschichtete Zufallsstichprobe: Die Grundgesamtheit wird zunächst in sich nicht überlappende
Schichten zerlegt; aus jeder Schicht wird eine
einfache Zufallsauswahl getroen
• Beispiel: Schichtung nach Geschlecht, sozialem Status oder Berufsgruppen
• Schichten: in sich homogen; untereinander heterogen
Statistik_A@statistik.uni-bonn
129
Klumpenstichprobe: Die Grundgesamtheit
zerfällt in untereinander ähnliche Teilgesamtheiten (Klumpen); Klumpen werden zufällig ausgewählt und innerhalb jedes Klumpens wird eine
Vollerhebung durchgeführt
• Beispiel: Studie des Weinkonsums in Rheinhessen;
mögliche Klumpen: verschiedene Gemeinden
• Klumpen: in sich heterogen; untereinander homogen (verkleinerte Abbilder der Grundgesamtheit)
Mehrstuge Auswahlverfahren:
einfachste Form: wie Klumpenstichprobe, aber
innerhalb eines ausgewählten Klumpens wird eine
Zufallsstichprobe gezogen
Statistik_A@statistik.uni-bonn
130
Bewuÿte Auswahlverfahren
(insbesondere in der Meinungsforschung)
Quotenauswahl: In vielen Fällen sind die Quoten bekannt, mit denen gewisse Teilgesamtheiten
(Frauen, Männer, Studierende, Rentner,..) in der
Grundgesamtheit vertreten sind. Die Stichprobe
wird so ausgewählt, daÿ die entsprechenden
Quoten erhalten bleiben.
• Idee der Quotenauswahl: Erhöhung der Repräsentativität
Statistik_A@statistik.uni-bonn
131
2 Univariate Deskription und Exploration von Daten
2.1 Verteilungen und ihre Darstellungen
Erhebung vom Umfang n:
beobachtete Ausprägungen x1 , . . . , xn
eines Merkmals X
x1 , . . . , xn werden als Urliste, Rohoder Primärdaten bezeichnet
Häugkeit: Besetzungszahl einer Ausprägung
oder einer Klasse von Ausprägungen des Merkmals
Statistik_A@statistik.uni-bonn
21
2.1.1 Diskrete Merkmale
Mögliche Ausprägungen von X : a1 , a2 , . . . , ak
Absolute und relative Häugkeiten:
absolute Häugkeit der Aus-
h(aj ) = hj
prägung aj , d.h. Anzahl der
xi aus x1 , . . . , xn mit xi = aj
f (aj ) = fj =
hj
n
relative Häugkeit von aj
h1 , . . . , h k
absolute Häugkeitsverteilung
f 1 , . . . , fk
relative Häugkeitsverteilung
⇒ Erstellung einer Häugkeitstabelle auf der Basis
der resultierenden Häugkeitsdaten
(a1 , . . . , ak zusammen mit f1 , . . . , fk bzw. h1 , . . . , hk )
Anmerkung: Bei gegebener Urliste erfolgt die praktische Berechnung der hj durch einfache Auszählung.
Falls die Informationen über das interessierende Merkmal schon in Form von Häugkeitsdaten gegeben sind,
so entfällt natürlich die Berechnung von hj bzw. fj .
Statistik_A@statistik.uni-bonn
22
Beispiel
Untersuchung der Erwerbstätigen in der Bundesrepublik Deutschland im April 1991
statistische Einheit: Ein Erwerbstätiger bzw. eine Erwerbstätige in der Bundesrepublik Deutschland im April
1991
Merkmal: Stellung im Beruf (nominalskaliert); mögliche Ausprägungen: Arbeiter(in), Angestellte(r), Beamte(r), mithelfende(r) Familienangehörige(r)
Stellung
Erwerbstätige
relative
im Beruf
in 1000
Häugkeit
aj
hj
fj
Arbeiter
14568
0.389
Angestellte
16808
0.449
Beamte
2511
0.067
Selbstständige
3037
0.081
Mithelf. Fam.-ang.
522
0.014
Summe
37466
1.000
Statistik_A@statistik.uni-bonn
23
Grasche Darstellungen:
Stabdiagramm, Säulendiagramm, Balkendiagramm:
Stabdiagramm
Trage über a1 , . . . , ak jeweils einen zur x-Achse senkrechten Strich (Stab) mit Höhe
h1 , . . . , hk ( f1 , . . . , fk ) ab.
Säulendiagramm
wie Stabdiagramm, aber
mit Rechtecken statt Strichen.
Balkendiagramm
wie Säulendiagramm, aber
mit vertikal gelegter x-Achse
Kreisdiagramm:
Flächen der Kreissektoren proportional
zu den Häugkeiten.
Winkel des j -ten Kreissektors = fj · 360◦
Statistik_A@statistik.uni-bonn
24
Statistik_A@statistik.uni-bonn
25
Beispiel
Haushaltsgröÿen im früheren Bundesgebiet
statistische Einheit:
Haushalte
statistisches Merkmal:
Haushaltsgröÿe
kardinalskaliert, diskret
Häugkeiten:
Haushaltsgröÿe
prozentual relativ
1900
1925
1950
1990
1
7.1
6.8
19.5
35.0
2
14.7
17.7
25.3
30.2
3
17.0
22.5
23.0
16.7
4
16.8
19.7
16.2
12.8
5 und mehr
44.4
33.3
16.1
5.3
Summe
100
100
100
100
xj
Statistik_A@statistik.uni-bonn
26
Statistik_A@statistik.uni-bonn
27
2.1.2 Stetige oder quasi-stetige
Merkmale
Eine einfache Repäsentation stetiger Merkmale erfolgt
mit Hilfe eines Histogramms. Sie basiert auf einer
Gruppierung der Daten und einer Darstellung der
resultierenden Häugkeitsverteilung. Wenn das Datenmaterial nicht schon in gruppierter Form vorliegt,
ist zur Konstruktion eines Histogramms eine geeignetete Klasseneinteilung von dem Statistiker selbst
durchzuführen. Die zugehörigen Häugkeiten sind dann
durch Auszählen aus der Urliste zu bestimmen.
Gruppierung anhand von Klassen benachbarter Intervalle
(c0 , c1 ], (c1 , c2 ], . . . , (ck−1 , ck ]
Klassenbreite:
δj = cj − cj−1
üblicherweise: δ := δ1 = · · · = δk
⇒ absolute und relative Häugkeiten h1 , . . . , hk und
f1 , . . . , f k
Statistik_A@statistik.uni-bonn
28
Histogramm
Zeichne über (c0 , c1 ], . . . , (ck−1 , ck ] Rechtecke mit
Breite: δj = cj − cj−1
Höhe: fj /δj ⇒ Fläche: fj
• Prinzip der Flächentreue:
Die im Histogramm dargestellten Flächen sind gleich
den relativen Häugkeiten
• Das Histogramm liefert eine Darstellung der empirischen Verteilung der interessierenden Variable
• Bei der Konstruktion eines Histogramms aus einer
gegebenen Urliste benutzt man in aller Regel eine
feste Klassenbreite δ ; es gilt dann
cj = cj−1 + δ
Anmerkung: In der Praxis werden zahlreiche weitere
Versionen des Histogramms benutzt, z.B. Histogramme
mit Höhe hj /δj statt fj /δj . Der Unterschied besteht in
diesem Fall einzig in einer veränderten Skalierung der vertikalen Achse.
Statistik_A@statistik.uni-bonn
29
• Probleme bei der Konstruktion eines Histogramms (aus der Urliste):
Wahl der Klassenbreite δ (und damit der Anzahl k von Klassen)
Wahl des Anfangspunkts c0
√
√
• Vorgeschlagene Faustregeln: k = [ n], k = 2[ n]
oder k = 10[log10 n]
Beispiel:
Statistische Einheit:
1986 befragte, in Privathaushalten lebende deutsche
Staatsangehörige im Alter von mindestens 18 Jahren.
Statistisches Merkmal:
monatliches persönliches Nettoeinkommen (in DM)
Umfang der Stichprobe: n = 716
Statistik_A@statistik.uni-bonn
210
Klassenbreite: 800 DM
Klassenbreite: 500 DM
Klassenbreite: 250 DM
Klassenbreite: 100 DM
Statistik_A@statistik.uni-bonn
211
nach Geschlecht, Klassenbreite: 500 DM
M
annlich
Weiblich
Statistik_A@statistik.uni-bonn
212
2.1.3 Eigenschaften von
Häugkeitsverteilungen
Unimodale Verteilung
Die Verteilung besitzt einen Gipfel, von dem
aus die Häugkeiten acher oder steiler zu
den Randbereichen hin verlaufen, ohne daÿ
ein zweiter deutlich ausgeprägter Gipfel
hervortritt
Unimodale Verteilung (symmetrisch)
10
8
h2
6
4
2
0
1
2
3
4
5
6
7
8
9
a
Statistik_A@statistik.uni-bonn
213
Bimodale bzw. multimodale
Verteilung
Die Verteilung besitzt zwei bzw. mehrere
deutlich ausgeprägte Gipfel
Bimodale Verteilung
8
h4
6
4
2
0
1
2
3
4
5
6
7
8
9
a
Statistik_A@statistik.uni-bonn
214
Symmetrische Verteilung
Es existiert eine Symmetrieachse, so daÿ die
rechte und die linke Hälfte der Verteilung annähernd zueinander spiegelbildlich sind
Linkssteile Verteilung
Die Verteilung fällt nach links deutlich
steiler und nach rechts langsamer ab
Rechtssteile Verteilung
Die Verteilung fällt nach rechts deutlich
steiler und nach links langsamer ab
Statistik_A@statistik.uni-bonn
215
Linkssteile Verteilung
10
8
h1
6
4
2
0
1
2
3
4
5
6
7
8
9
7
8
9
a
Rechtssteile Verteilung
10
8
h3
6
4
2
0
1
2
3
4
5
6
a
Statistik_A@statistik.uni-bonn
216
2.1.4 Die empirische
Verteilungsfunktion
Ein wichtiges Werkzeug zur Analyse von quantitativen
Merkmalen ist die sogenannte empirische Verteilungsfunktion.
Absolute kumulierte Häugkeitsverteilung:
H(x) = Anzahl der Werte xi mit xi ≤ x
Empirische Verteilungsfunktion:
F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x
Eigenschaften:
• 0 ≤ F (x) ≤ 1
• F (x) = 0, falls x < x(1) , wobei x(1) - kleinster
beobachteter Wert
• F (x) = 1, falls x ≥ x(n) , wobei x(n) - gröÿter
beobachteter Wert
• F monoton wachsende Treppenfunktion
Statistik_A@statistik.uni-bonn
217
Beispiel:
Preise (in Euro) für eine Pizza mit Salami und Pilzen
in acht zufällig ausgewählten Pizzerien in Bonn
x1
x2
x3
x4
x5
x6
x7
x8
5,20
4,80
5,40
4,60
6,10
5,40
5,80
5,50
Empirische Verteilungsfunktion:
1.0
0.8
0.6
0.4
0.2
0.0
4.0
4.5
Statistik_A@statistik.uni-bonn
5.0
5.5
6.0
6.5
218
Konstruktion von F (x) anhand der Urliste x1 , . . . , xn :
• Ordnen der Daten
⇒ geordnete Urliste: x(1) ≤ x(2) ≤ · · · ≤ x(n)
• F (x) = 0, falls x < x(1)
• F (x(i) ) = F (x(i−1) ) + n1
F (x) = F (x(i) ), falls x ∈ [x(i) , x(i+1) )
Achtung: Falls alle xi voneinander verschieden sind,
wächst F (x) an jedem Beobachtungswert genau um
den Betrag n1 ; sind zwei Beobachtungen gleich, so wächst
F (x) an dem entsprechenden Zahlenwert um den Be-
trag
2
,
n
bei drei gleichen Beobachtungen um
3
,
n
etc.
• F (x) = 1, falls x ≥ x(n)
Konstruktion von F (x) bei Häugkeitsdaten:
X diskret mit Ausprägungen a1 < a2 < · · · < ak
F (x) = f (a1 ) + · · · + f (aj )
falls aj ≤ x und aj+1 > x
Statistik_A@statistik.uni-bonn
219
Beispiel:
Haushaltsgröÿen 1990 (siehe 2-6)
aj
1
2
3
4
5
fj
0, 35
0, 302
0, 167
0, 128
0, 053
Empirische Verteilungsfunktion:
1.0
0.8
0.6
0.4
0.2
0.0
0
1
2
Statistik_A@statistik.uni-bonn
3
4
5
220
Konstruktion einer empirischen Verteilungsfunktion bei gruppierten Daten:
k Klassen: (c0 , c1 ], (c1 , c2 ], . . . , (ck−1 , ck ]
zugehörige rel. Häugkeiten: f1 , . . . , fk
• F(x)=0 für x < c0 , F (x) = 1 für x > ck
• Für alle i = 0, 1, . . . , k
F (ci ) = Anteil der Originaldaten ≤ ci =
i
X
fj
j=1
• lineare Interpolation zwischen den Klassengrenzen
⇒ keine Treppenfunktion!
Anmerkung: Gruppierte Daten geben die Häugkeiten
der Orginalbeobachtungen innerhalb der einzelnen Klassen
wieder. An den Klassengrenzen ci entspricht F (ci ) daher
dem Wert der wahren empirischen Verteilungsfunktion
der ursprünglichen Beobachtungen. Innerhalb der Klassen
existieren keine Informationen, es ist jedoch oensichtlich,
dass die wahre emp. Verteilungsfunktion innerhalb jeder
Klasse eine monoton wachsende, nicht konstante Funktion ist. Die vorgeschlagene lineare Interpolation basiert auf
der Idee einer relativ gleichmäÿigen Verteilung der Originalbeobachtungen innerhalb der einzelnen Klassen.
Statistik_A@statistik.uni-bonn
221
Beispiel: Mietpreise in München
Mietpreise (in DM) von Wohnungen ohne zentrale Warmwasserversorgung und mit einer Wohnäche von höchstens
50 qm (basierend auf einer Erhebung von n = 26 Wohnungen im Jahr 1994)
Klasse
rel. Häugkeit
100 - 200
0, 115
200 - 300
0, 230
300 - 400
0, 346
400 - 500
0, 154
500 - 600
0, 116
600 - 700
0, 039
Empirische Verteilungsfunktion:
1.0
0.8
0.6
0.4
0.2
0.0
0
200
Statistik_A@statistik.uni-bonn
400
600
222
2.2 Beschreibung von Verteilungen
2.2.1 Lagemaÿe
Lagemaÿe
Maÿzahlen zur Lage beschreiben das Zentrum der
Verteilung eines Merkmals
Einfachstes Lagemaÿ bei quantitativen Merkmalen:
Arithmetisches Mittel
Arithmetisches Mittel x̄
Bei gegebener Urliste x1 , . . . , xn :
x̄ =
1
(x1
n
+ · · · + xn ) =
1
n
Pn
i=1
xi
Berechnung aus Häugkeitsdaten:
Pk
x̄ = a1 f1 + · · · + ak fk = i=1 ai fi
Approximation aus gruppierten Daten :
Pk
x̄ = i=1 c̄i fi
Statistik_A@statistik.uni-bonn
223
Eigenschaften des arithmetischen Mittels:
• Null- oder Schwerpunktseigenschaft
n
X
(xi − x̄) = 0
i=1
• Quadratische Minimierungseigenschaft
n
X
(xi − x̄)2 <
i=1
n
X
(xi − z)2
i=1
für alle z 6= x̄
• Lineare Transformation yi = a + bxi :
ȳ = a + bx̄
• Addition zi = xi + yi :
z̄ = x̄ + ȳ
• Schichtenbildung: Eine Erhebungsgesamtheit vom
Umfang n sei in r Schichten (Teilgesamtheiten)
mit jeweiligen Umfängen n1 , . . . , nr und arithmetischen Mitteln x̄1 , . . . , x̄r zerlegt:
r
1X
x̄ =
nj x̄j
n j=1
Statistik_A@statistik.uni-bonn
224
Geordnete Urliste (für quantitative Merkmale):
x1 , . . . , xn werden der Gröÿe nach geordnet
⇒
x(1) ≤ x(2) ≤ · · · ≤ x(n)
Median (Zentralwert) xmed
xmed = x( n+1 )
2
für n ungerade
xmed = 12 [x( n2 ) + x( n2 +1) ]
für n gerade
Eigenschaften:
• Mindestens 50% der Daten sind ≤ xmed
• Mindestens 50% der Daten sind ≥ xmed
• Robustheit: Im Gegensatz zum arithm. Mittel wird
der Wert des Medians nur wenig durch Ausreiÿer , d.h. extreme Beobachtungen, beeinusst.
Statistik_A@statistik.uni-bonn
225
Berechnung des Medians für Häugkeitsdaten:
X diskret mit Ausprägungen a1 < a2 < · · · < ak
xmed = ai , wobei ai diejenige Ausprägung ist, für die
die Folge Fi zum ersten Mal 0.5 überschreitet.
Fi−1 =
i−1
X
fj < 0.5 < Fi =
j=1
i
X
fj
j=1
(in seltenen Fällen: Fi = 0, 5 ⇒ xmed = (ai + ai+1 )/2)
Berechnung des Medians für gruppierte Daten:
• Bestimme die Einfallsklasse des Medians als die
Klasse [(ci−1 , ci ], für die die Folge Fi zum ersten
Mal 0.5 überschreitet.
Fi−1 =
i−1
X
j=1
fj ≤ 0.5 < Fi =
i
X
fj
j=1
• Setze
xmed
δi · (0.5 − Fi−1 )
= ci−1 +
fi
Statistik_A@statistik.uni-bonn
226
Beispiel: Haushaltsgröÿen 1990
aj
1
2
3
4
5
fj
0, 35
0, 302
0, 167
0, 128
0, 053
⇒ xmed = 2
Grasche Bestimmung mit der empirischen Verteilungsfunktion:
1.0
0.8
0.6
0.4
0.2
0.0
0
1
2
xmed
Statistik_A@statistik.uni-bonn
3
4
5
227
Beispiel: Mietpreise in München
• Einfallsklasse des Medians (300, 400]
⇒
xmed = 344, 80
Grasche Bestimmung mit der empirischen Verteilungsfunktion:
1.0
0.8
0.6
0.4
0.2
0.0
0
200
Statistik_A@statistik.uni-bonn
400
xmed
600
228
Modus xmod
Als Modus wird die Ausprägung mit der gröÿten
Häugkeit bezeichnet
• Der Modus ist im Gegensatz zu x̄ und xmed auch
für nominalskalierte Merkmale ein sinnvolles Lagemaÿ
• Der Modus ist eindeutig, falls die Häugkeitsverteilung ein eindeutiges globales Maximum besitzt.
Bei stetigen Merkmalen: Approximative Bestimmung
eines Modus nach geeigneter Gruppierung
Berechnung des Modus für gruppierte Daten:
• Bestimme die Modalklasse (cj−1 , cj ]
(Klasse mit der gröÿten Häugkeit)
• Setze xmod = c̄j
Anwendung: Haushaltsgröÿen 1990 : xmod = 1
Statistik_A@statistik.uni-bonn
229
Lageregeln:
Symmetrische Verteilungen
x̄ ≈ xmed ≈ xmod
Linkssteile Verteilungen
x̄ > xmed > xmod
Rechtssteile Verteilungen
x̄ < xmed < xmod
Stichprobe 1
Stichprobe 2
Stichprobe 3
aj
h(aj )
h(aj )
h(aj )
1
8
1
1
2
10
2
2
3
8
4
2
4
6
8
4
5
5
10
5
6
4
8
6
7
2
4
8
8
2
2
10
9
1
1
8
x̄
3,57
5
6,43
xmed
3
5
7
xmod
2
5
8
Statistik_A@statistik.uni-bonn
230
Geometrisches Mittel x̄geo
x̄geo = (x1 · x2 · . . . · xn )1/n
• Voraussetzung: Verhältnisskalierte Merkmale mit
positiven Ausprägungen
Pn
1
• ln x̄geo = n i=1 ln xi
Anwendung: Mittlerer Wachstumsfaktor
Anfangsbestand B0 ; B0 , B1 , . . . , Bn Zeitreihe von Bestandsdaten
• Wachstumsfaktor in Periode i
xi = Bi /Bi−1
• Wachstumsrate in Periode i
Bi − Bi−1
= xi − 1
ri =
Bi−1
Statistik_A@statistik.uni-bonn
231
• Bn = B0 · (x̄geo )n
Beispiel: Bruttosozialprodukt (BSP) der Bundesrepublik Deutschland in Preisen von 1985 (Mrd. DM)
Jahr
BSP
t
Bt
xt
1980
0
1733,8
-
1981
1
1735,7
1,0011
1982
2
1716,5
0,9889
1983
3
1748,4
1,0186
1984
4
1802,0
1,0307
1985
5
1834,5
1,0180
1986
6
1874,4
1,0217
1987
7
1902,3
1,0149
1988
8
1971,8
1,0365
• x̄geo = (1971, 8/1733, 8)1/8 = 1, 0162
• mittlere Wachstumsrate: x̄geo − 1 = 1, 62%
Statistik_A@statistik.uni-bonn
232
Harmonisches Mittel x̄har
x̄har =
1
n
Pn1
1
i=1 xi
Anwendung: Mittlere Geschwindigkeit
x1 , . . . , xn Geschwindigkeit mit der Bauteile eine Produktionslinie der Länge l durchlaufen
• Gesamtzeit:
l
x1
+ ··· +
l
xn
• Mittlere Geschwindigkeit:
x̄har =
l + ··· + l
l
l
+
·
·
·
+
x1
xn
Verallgemeinerung für unterschiedliche Streckenlängen li
x̄har
l1 + · · · + ln
= l1
ln
+
·
·
·
+
x1
xn
Statistik_A@statistik.uni-bonn
233
2.3 Streuungsmaÿe
Empirische Varianz und
Standardabweichung
Die Varianz der Werte x1 , . . . , xn ist
2
s̃ =
1
n
Pn
2
(x
−
x̄)
i=1 i
Standardabweichung von x1 , . . . , xn :
s̃ =
√
s̃2
Modizierte Denition (in der schlieÿenden Statistik
bevorzugt):
Stichprobenvarianz
2
s =
1
n−1
Statistik_A@statistik.uni-bonn
Pn
2
(x
−
x̄)
i
i=1
234
Streuungsparameter
Beispiel:
Monatliche Aufwendungen fur Freizeitguter und
Urlaub (DM)
Zweipersonenhaushalte:
210, 250, 340, 360, 400, 430, 440, 450, 530, 630
Æ Æ
ÆÆ Æ ÆÆÆ
Æ
Æ
Vierpersonenhaushalte:
340, 350, 360, 380, 390, 410, 420, 440, 460, 490
x = 404 DM
Statistik_A@statistik.uni-bonn
235
Berechnung von s̃2 aus der Urliste:
Vereinfachte Formel
Ã
2
s̃ =
1
n
n
X
!
x2i
− x̄2
i=1
Berechnung von s̃2 aus Häugkeitsdaten:
k
k
X
X
s̃2 =
(aj − x̄)2 fj =
a2j fj − x̄2
j=1
j=1
Berechnung auf der Grundlage von gruppierten Daten:
s̃2 =
k
X
(c̄j − x̄)2 fj =
j=1
k
X
c̄2j fj − x̄2
j=1
Sheppard-Korrektur bei konstanter Klassenbreite δ =
cj − cj−1 :
k
X
δ2
s̃ =
(c̄j − x̄) fj −
12
j=1
2
Statistik_A@statistik.uni-bonn
2
236
Rechenregeln:
• Transformationsregel: Für yi = a + bxi ist
s̃2y = b2 s̃2x
bzw. s̃y = |b|s̃x
• Standardisierung:
xi − x̄
zi =
s̃x
⇒
z̄ = 0,
s̃2z = 1
Tendenziell: s̃2 groÿ ⇔ groÿe Streuung; s̃2 klein ⇔
kleine Streuung;
(Extremfall: s̃2 = 0 ⇒ alle Beobachtung sind gleich)
Aber: In einer gegebenen Anwendung ist der Wert
von s̃2 nur in Abhängigkeit von dem zugrundeliegenden Maÿstab interpretierbar!
Maÿstabsunabhängiges Streuungsmaÿ (für verhältnisskalierte Merkmale mit positiven Ausprägungen): Variationskoezient
Variationskoezient
v = s̃/x̄
Statistik_A@statistik.uni-bonn
237
Geschichteter (gepoolter) Datensatz:
Zerlegung der Erhebungsgesamtheit in r Schichten
x̄1 , . . . , x̄r
s̃21 , . . . , s̃2r
n1 , . . . , nr mit n = n1 + · · · + nr
Streuungszerlegung
2
s̃ =
1
n
Pr
2
n
s̃
j
j
j=1
+
1
n
Pr
2
n
(x̄
−
x̄)
j
j
j=1
Gesamte Varianz
= Varianz innerhalb der Schichten
+ Varianz zwischen den Schichten
Statistik_A@statistik.uni-bonn
238
Beispiel: Quadratmeterpreise für Mietwohnungen
Erhebung von 1082 Mietwohnungen in München im
Jahr 1994
Merkmal: Mietpreis pro Quadratmeter (in DM)
Unterteilung (Schichtung) in kleine Wohnungen (bis
50 qm), mittlere Wohnungen (51 bis 80 qm) und groÿe
Wohnungen (ab 81 qm)
Kleine Wohnungen: n1 = 270, x̄1 = 15, 30, s̃1 = 5, 61
Mittlere Wohnungen: n2 = 513, x̄2 = 12, 20, s̃2 = 4, 78
Groÿe Wohnungen: n3 = 299, x̄3 = 11, 02, s̃3 = 4, 78
Hieraus ergibt sich: x̄ = 12, 65, s̃2 = 27, 6
Statistik_A@statistik.uni-bonn
239
2.4 Quantile und Boxplot
Quantile liefern wichtige Informationen über die Streuung und andere wichtige Charakteristika einer empirischen Verteilung.
Geordnete Urliste: x(1) ≤ x(2) ≤ . . . x(n)
p-Quantil: Wert xp mit 0 < p < 1, so daÿ
Anzahl xi ≤xp
n
≥ p und
Anzahl xi ≥xp
n
≥1−p
xp = x([np]+1) , wenn np nicht ganzzahlig
xp = (x(np) + x(np+1) )/2, wenn np ganzzahlig
[np] ist die zu np nächste kleinere ganze Zahl.
Statistik_A@statistik.uni-bonn
240
• Median: xmed = x0,5
• Unteres Quartil = 25%-Quantil = x0,25
• Oberes Quartil = 75%-Quantil = x0,75 .
• Dezile: p = 10%, 20%, . . . , 90%
p-Quantil für gruppierte Daten:
Analog zum Median wird ein p-Quantil deniert durch
p − Fi−1
xp = ci−1 + δi
fi
wobei i so bestimmt ist, daÿ
Fi−1 =
i−1
X
j=1
Statistik_A@statistik.uni-bonn
fj ≤ p < F i =
i
X
fj
j=1
241
Grasche Bestimmung von Quantilen mit Hilfe
der empirischen Verteilungsfunktion
Urliste oder Häugkeitsdaten:
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
4.0
4.5
5.0
5.5
x0,25
x0,75
6.0
6.5
0
1
x0,25
2
3
x0,75
4
5
Gruppierte Daten:
1.0
0.8
0.6
0.4
0.2
0.0
0
200
x0,25
Statistik_A@statistik.uni-bonn
400
x0,75
600
242
Interquartilsabstand
QA = x0,75 − x0,25
• Der Interquartilsabstand ist ein häug verwendetes Streuungsmaÿ, dessen Wert nur wenig von
Ausreiÿern beeinusst wird. Ein groÿer/kleiner Wert
von QA signalisiert groÿe/kleine Streuung der Daten.
Fünf-Punkte-Zusammenfassung:
Zusammenfassung einer Verteilung durch
xmin , x0,25 , xmed , x0,75 , xmax
Spannweite: R = xmax − xmin
Spannweite für gruppierte Daten: R = ck − c0
Statistik_A@statistik.uni-bonn
243
Graphische Darstellung einiger
Mazahlen der Lage und der Variation
Boxplot (Box{Whisker{Plot, Schachtelzeichnung)
x0;75
+ 3QA
x0;75
+ 1; 5QA (upper fence)
?
Æ
x0;75
x0;5
Æ
?
QA
x0;25
x0;25
1; 5QA (lower fence)
x0;25
3QA
Statistik_A@statistik.uni-bonn
244
Boxplot:
• x0,25 - Anfang der Schachtel (Box)
x0,75 - Ende der Schachtel (Box)
⇒ QA - Länge der Schachtel (Box)
• xmed wird durch Strich in der Box markiert
(manchmal wird auch x̄ durch eine gestrichelte
Linie markiert)
• Man bestimmt die Zäune
zl = x0,25 − 1, 5 · QA
und
zu = x0,75 + 1, 5 · QA
• Zwei Linien (Whiskers) gehen zum kleinsten und
gröÿten Beobachtungswert innerhalb des Bereichs
[zl , zu ] der Zäune
• Beobachtungen auÿerhalb der Zäune zl , zu werden einzeln eingezeichnet
Boxplots liefern Informationen über wichtige Charakteristika einer Verteilung:
• Lage und Streuung
• Struktur (symmetrisch, rechtssteil, linkssteil)
• Existenz von Ausreiÿern
Statistik_A@statistik.uni-bonn
245
Beispiel:
Geordnete Urliste (n=10):
0,1
0,1
0,2
0,4
0,5
0,7
0.5
1.0
1.5
0,9
1,2
1,4
1,9
Histogramm:
0.8
0.6
0.4
0.2
0.0
0.0
2.0
x
Boxplot:
0.0
0.5
1.0
1.5
2.0
x
Statistik_A@statistik.uni-bonn
246
Beispiel
Stundenlohn in US$
Gesamt
Mann
Frau
xmin =1
xmin =1
xmin =1.74997
xmax =44.5005
xmax =26.2903
xmax =44.5005
R=43.5005
R=25.2903
R=42.7505
x0.25 =5.24985
x0.25 =6.00024
x0.25 =4.74979
x0.5 =7.77801
x0.5 =8.92985
x0.5 =6.79985
x0.75 =11.2504
x0.75 =12.9994
x0.75 =10.0001
QA=6.00065
QA=9.99916
QA=5.25031
x̄=9.02395
x̄=9.99479
x̄=7.87874
s2 =26.408
s2 =27.9377
s2 =22.2774
s=5.13887
s=5.28562
s=4.7199
v=0.57
v=0.53
v=0.6
Statistik_A@statistik.uni-bonn
247
40
30
20
0
10
Stundenlohn
Gesamt
Statistik_A@statistik.uni-bonn
248
40
30
20
0
10
Stundenlohn
Frauen
Statistik_A@statistik.uni-bonn
Maenner
249
2.5 Maÿzahlen für Schiefe
Schiefe (Skewness)
Schiefemaÿe beschreiben Abweichungen einer
Verteilung von der Symmetrie
Qantilskoezient der Schiefe
gp =
(x1−p −xmed )−(xmed −xp )
x1−p −xp
p = 0, 25: Quartilskoezient
Werte des Quantilskoezienten:
• gp = 0 für symmetrische Verteilungen
• gp > 0 für linkssteile Verteilungen
• gp < 0 für rechtsssteile Verteilungen
Statistik_A@statistik.uni-bonn
250
Momentenkoezient der Schiefe
3
gm = m3 /s̃
mit m3 =
1
n
Pn
3
(x
−
x̄)
i
i=1
Werte des Momentenkoezienten: Qualitativ analog
zu gp
Anmerkung: Momente einer empirischen
Verteilung
• Für r = 1, 2, 3, . . . ist allgemein
n
1X r
Mr =
xi
n i=1
das
r − te Moment der Verteilung
• Das r − te
durch
zentrale Moment
ist gegeben
n
1X
mr =
(xi − x̄)r
n i=1
Statistik_A@statistik.uni-bonn
251
2.6 Konzentrationsmaÿe
2.6.1 Lorenzkurve und Gini-Koezient
Eine in den Wirtschaftswissenschaften relevante Fragestellung gilt der Konzentration von Merkmalsausprägungen auf Merkmalsträger
Marktkonzentration:
• starke Konzentration - wenige Anbieter erzielen
den gröÿten Teil des Gesamtumsatzes
• schwache Konzentration - Umsätze sind relativ
gleichmäÿig auf eine groÿe Zahl von Marktteilnehmern verteilt
Analog: Einkommenskonzentration,
genskonzentration
Vermö-
Ziel:
Wiedergabe der Stärke der Konzentration in
einem Kennwert bzw. einer Graphik
Statistik_A@statistik.uni-bonn
252
• Man betrachtet metrische Merkmale mit nichtnegativen Ausprägungen
• Zur Vereinfachung: Meÿwerte x1 , . . . , xn bereits
geordnet, d.h. x1 ≤ x2 ≤ · · · ≤ xn
Pn
• Gesamtmerkmalssumme: i=1 xi > 0
Lorenzkurve
Für die geordnete Urliste x1 ≤ x2 ≤ · · · ≤ xn
ergibt sich die Lorenzkurve als Streckenzug
durch die Punkte
(0, 0), (u1 , v1 ), . . . , (un , vn ) = (1, 1)
mit
uj =
j
n
vj =
Pj
xi
Pi=1
n
i=1 xi
Anteil der Merkmalsträger,
kumulierte relative Merkmalssumme
Statistik_A@statistik.uni-bonn
253
Beispiel: Marktkonzentration
Monatlicher Umsatz (in 1000 DM) der Möbelbranche
in den Städten A, B und C:
Möbelhaus Stadt
A
B
C
1
40
180
60
2
40
5
50
3
40
5
40
4
40
5
30
5
40
5
20
1.0
Stadt A
0.8
o
0.6
o
0.4
v
o
0.0
0.2
o
o
o
0.0
0.2
0.4
0.6
0.8
1.0
u
Statistik_A@statistik.uni-bonn
254
1.0
Stadt B
0.2
0.4
v
0.6
0.8
o
o
o
0.0
o
o
o
0.0
0.2
0.4
0.6
0.8
1.0
u
1.0
Stadt C
0.8
o
v
0.6
o
0.4
o
0.2
o
0.0
o
o
0.0
0.2
0.4
0.6
0.8
1.0
u
Statistik_A@statistik.uni-bonn
255
Interpretation der Lorenzkurve:
• Für jeden Punkt (uj , vj ): Auf uj · 100% der kleinsten Merkmalsträger entfallen vj · 100% der Gesamtmerkmalssumme
• Nullkonzentration: Alle statistischen Einheiten
besitzen die gleiche Merkmalsausprägung.
⇒ uj = vj für all j = 1, . . . , n
⇒ Die Lorenkurve ist eine Gerade durch den Nullpunkt mit Steigung 45◦ (Diagonale)
• Maximale Konzentration: Die gesamte Merkmalssumme entfällt auf eine einzige statistische
Einheit, die restlichen n − 1 Einheiten besitzen
die Merkmalsausprägung 0
⇒ vj = 0 für j = 1, . . . , n − 1
• Allgemein: Die Konzentration ist umso stärker,
je mehr die berechnete Lorenzkurve von der Diagonale abweicht (d.h. je gröÿer die Fläche zwischen Diagonale und Lorenzkurve)
Eigenschaften:
• Die Lorenzkurve ist stückweise linear (maximal
n−1 Knicke) und monoton wachsend (Monotonie)
• Die Lorenzkurve besitzt eine nach unten gerichtete Wölbung (Konvexität)
Statistik_A@statistik.uni-bonn
256
Lorenzkurve bei Nullkonzentration
1.0
Stadt A
0.8
o
0.6
o
0.4
v
o
0.0
0.2
o
o
o
0.0
0.2
0.4
0.6
0.8
1.0
u
Lorenzkurve bei maximaler Konzentration (n = 5)
1.0
0.8
v
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
u
Statistik_A@statistik.uni-bonn
257
Berechnung der Lorenzkurve aus Häugkeitsdaten
(a1 ≤ a2 ≤ · · · ≤ ak ):
uj =
j
X
hi /n =
i=1
j
X
fi
i=1
Pj
h
a
i=1 fi ai
i=1 i i
= Pk
vj = Pk
i=1 hi ai
i=1 fi ai
Pj
Berechnung der Lorenzkurve für gruppierte Daten:
uj =
j
X
fi
i=1
Pj
vj = Pi=1
k
i=1
Statistik_A@statistik.uni-bonn
fi c̄i
fi c̄i
258
Beispiel: Monatliche Haushaltsnettoeinkommen 1988,
Bundesrepublik Deutschland (bis unter 25000 DM)
MHNE in DM
Anteil der
Haushalte
fj
0 800
0,044
800 1400
0,166
1400 3000
0,471
3000 5000
0,243
5000 25000
0,076
Lorenzkurve:
1.0
0.8
v
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
u
Statistik_A@statistik.uni-bonn
259
Grundidee zur Denition eines (relativen) Konzentrationsmaÿes: Stärke der Konzentration entspricht
der Fläche zwischen Diagonale und Lorenzkurve
Gini-Koezient
Fläche zwischen Diagonale und Lorenzkurve
Fläche zwischen Diagonale und u-Achse
= 2· Fläche zwischen Diagonale und Lorenzkurve
G=
• Berechnung anhand der geordneten Urliste x1 ≤
x2 ≤ · · · ≤ xn :
Pn
n
2 i=1 ixi
n+1
1X
n+1
G = Pn
=
−2·
−
vj
n
n
n j=1
n i=1 xi
• Berechnung aus Häugkeitsdaten:
Pk
G=
mit v̄j =
k
X
(u
+
u
)f
a
i−1
i
i
i
i=1P
=1−2·
fj v̄j
n
i=1 fi ai
j=1
vj−1 +vj
2
Statistik_A@statistik.uni-bonn
260
• Berechnung aus gruppierten Daten:
Pk
G=
k
X
(u
+
u
)f
c̄
i i i
i=1Pi−1
−1=1−2·
fj v̄j
n
i=1 fi c̄i
j=1
mit v̄j =
vj−1 +vj
2
Extreme Ausprägungen des Gini-Koezienten:
• Gmin = 0 bei Nullkonzentration, x1 = x2 = · · · =
xn
• Gmax = n−1
n bei maximaler Konzentration, x1 =
x2 = · · · = xn−1 = 0, xn > 0
Normierter Gini-Koezient
(Lorenz-Münzner-Koezient)
G∗ =
G
Gmax
=
n
n−1 G
Wertebereich: G∗ ∈ [0, 1]
Statistik_A@statistik.uni-bonn
261
Beispiel: Marktkonzentration
G
G∗
Stadt A
0
0
Stadt B
0.7
0.875
Stadt C
0.2
0.25
Achtung! Unterschiedliche Lorenzkurven können auf
1.0
1.0
den gleichen Gini-Koezienten führen:
0.8
o
0.6
0.6
0.8
o
0.4
0.2
v
0.4
0.2
v
o
0.0
0.0
o
o
0.0
0.2
0.4
0.6
0.8
u
Statistik_A@statistik.uni-bonn
1.0
o
0.0
0.2
0.4
0.6
0.8
1.0
u
262
2.6.2 Absolute Konzentrationsmaÿe
• Relative Konzentrationsmaÿe (Gini-Koezient):
Wieviel Prozent der Merkmalsträger teilen sich
wieviel Prozent der Merkmalssumme?
• Absolute Konzentrationsmaÿe: Wieviele Merkmalsträger teilen sich wieviel Prozent der Merkmalssumme?
Die Konzentrationsrate gibt an, welcher Anteil von
den g gröÿten Merkmalsträgern gehalten wird:
Konzentrationsrate CRg
CRg =
Pn
i=n−g+1 pi , wobei pi =
Pnxi
j=1
xj
den Merkmalsanteil der i-ten Einheit bezeichnet
Statistik_A@statistik.uni-bonn
263
Herndahl-Index
H=
Pn
2
p
i=1 i , wobei pi =
Pnxi
j=1
xj
den Merkmalsanteil der i-ten Einheit bezeichnet
• Hmin =
xn
1
n
bei Nullkonzentration, x1 = x2 = · · · =
• Hmax = 1 bei maximaler Konzentration, x1 =
x2 = · · · = xn−1 = 0, xn > 0
• Wertebereich von H :
1
n
≤H≤1
Beispiel: Marktkonzentration
H
Stadt A
0.2
Stadt B
0.8125
Stadt C
0.225
Statistik_A@statistik.uni-bonn
264

Zugehörige Unterlagen

inhaltsverzeichnis

Experte für Data-driven Marketing

Statistik A - Statistische Abteilung

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können