Statistik &
Methodenlehre
Prof. Dr. G.
Meinhardt
6. Stock, Wallstr. 3
(Raum 06-206)
Sprechstunde
jederzeit nach
Vereinbarung und
nach der
Vorlesung.
Mathematische und
statistische Methoden II
Dr. Malte Persike
persike@uni-mainz.de
http://psymet03.sowi.uni-mainz.de/
SoSe 2011
Fachbereich Sozialwissenschaften
Psychologisches Institut
Johannes Gutenberg Universität Mainz
Folie 1
Statistik &
Methodenlehre
Diskrete Verteilungen
Inferenzstatistik
Inhalte
dieser Sitzung
Tabellarische Darstellung von
Wahrscheinlichkeitsverteilungen
Eine Zahl für Alles: Kennwerte
Bilder sagen mehr als Worte: Grafische Darstellung
Was ist eine große Zahl – Einführung in das
statistische Testen
Binomial- und Poisson-Test
Folie 2
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Recap
Kennwerte
Grafiken
Die Binomial- und Poissonverteilung beschreiben
die Auftretenswahrscheinlichkeiten einer 0/1kodierten Zufallsvariablen bei n Trials
Es wird immer angenommen, dass der
Stichprobenraum eines Trials definiert ist als
= {Misserfolg, Erfolg} X() = {0,1}
Ein Elementarereignis des gesamten BernoulliExperimentes mit n Trials ist so immer eine Folge
von n Nullen bzw. Einsen.
Folie 3
Die Anzahl von Erfolgen ist einfach die Summe der
Trialrealisationen.
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: univariate Kreuztabellen
Kennwerte
Grafiken
Die vollständige numerische Darstellung der
Wahrscheinlichkeitsverteilung oder
Verteilungsfunktion wird über so genannte
Kreuztabellen (oder Kontingenztabellen)
vorgenommen.
Wert von X
x1
x2
…
xi
…
xk
Folie 4
f(X = xi)
h(x1)
h(x2)
…
h(xi)
…
h(xk)
F(X = xi)
f(x1)
f(x2)
…
f(xi)
…
f(xk)
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: multivariate Kreuztabellen
Kennwerte
Grafiken
Oft betrachtet man Wahrscheinlichkeiten für das
gemeinsame Auftreten zweier Merkmale
(bivariat)
Beispiel: Frauen/Männer, die unter-/normal/übergewichtig sind
In diesem Fall werden 2 Variablen betrachtet:
X: Geschlecht (x1, x2)
Y: Gewichtsstatus (y1, y2, y3)
Die Wahrscheinlichkeiten sind Verbundwahrscheinlichkeiten, die das Vorkommen jeder
möglichen Kombination aus x und y beschreiben
Folie 5
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: multivariate Kreuztabellen
Kennwerte
Tabellarische Darstellung über bivariate
Kreuztabellen
Grafiken
Geschlecht
Männlich (x1) Weiblich (x2)
Unter (y1)
f(x1,y1)
f(x2,y1)
Gewicht Normal (y2)
f(x1,y2)
f(x2,y2)
Über (y3)
f(x1,y3)
f(x2,y3)
Σ
f(x1,●)
f(x2,●)
Folie 6
Randhäufigkeiten
Σ
f(●,y1)
f(●,y2)
f(●,y3)
f(●,●)
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: multivariate Kreuztabellen
Kennwerte
Tabellarische Darstellung über bivariate
Kreuztabellen
Grafiken
Varianten: Kreuztabellen der unbedingten
Verbundwahrscheinlichkeiten oder Kreuztabellen der
bedingten Wahrscheinlichkeiten.
Geschlecht
Männlich (x1) Weiblich (x2)
Unter (y1)
f(x1 | y1)
f(x2 | y1)
Gewicht Normal (y2)
f(x1 | y2)
f(x2 | y2)
Über (y3)
f(x1 | y3)
f(x2 | y3)
Σ
f(x1,●)
f(x2,●)
Folie 7
Σ
f(●,y1)
f(●,y2)
f(●,y3)
f(●,●)
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: multivariate Kreuztabellen
Kennwerte
Tabellarische Darstellung über bivariate
Kreuztabellen
Grafiken
Varianten: Kreuztabellen der unbedingten
Verbundwahrscheinlichkeiten oder Kreuztabellen der
bedingten Wahrscheinlichkeiten.
Geschlecht
Männlich (x1) Weiblich (x2)
Unter (y1)
f(y1 | x1)
f(y1 | x2)
Gewicht Normal (y2)
f(y2 | x1)
f(y2 | x2)
Über (y3)
f(y3 | x1)
f(y3 | x2)
Σ
f(x1,●)
f(x2,●)
Folie 8
Σ
f(●,y1)
f(●,y2)
f(●,y3)
f(●,●)
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Kennwerte
Kennwerte
Grafiken
Als Kennwert bezeichnet man ein statistisches
Maß, das eine Wahrscheinlichkeitsverteilung über
zumeist nur eine Zahl beschreibt
Kennwerte dienen der Informationsreduktion,
um die Eigenschaften einer Verteilung möglichst
sparsam zu beschreiben
Kennwerte charakterisieren immer nur bestimmte
Eigenschaften der gegebenen Verteilung, sie
bedeuten also einen Informationsverlust
Folie 9
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Erwartungswert
Kennwerte
Grafiken
Die Lage der Wahrscheinlichkeitsverteilung einer
Zufallsvariablen X wird durch den Erwartungswert von
X, geschrieben als E(X), charakterisiert.
Oft wird E(X) alternativ als („mü“) bezeichnet
Der Erwartungswert kann als Maß verstanden werden,
das den Schwerpunkt einer Verteilung kennzeichnet.
Der Erwartungswert ist für die theoretische
Wahrscheinlichkeitsverteilung das, was der Mittelwert
für die empirische Häufigkeitsverteilung ist.
Folie 10
Der Erwartungswert einer Zufallsvariablen erfordert
keine Beobachtungen, sondern bezieht sich auf die
theoretische Wahrscheinlichkeitsverteilung.
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Erwartungswert
Kennwerte
Grafiken
Für eine diskrete Zufallsvariable X mit endlich vielen
Ausprägungen x1,…, xk und Wahrscheinlichkeiten pi = p(X=xi)
ergibt sich der Erwartungswert über
k
E ( X ) pi xi
i 1
kann als gewichtetes Mittel der möglichen Realisationen
einer Zufallsvariablen aufgefasst werden, wobei die
Wahrscheinlichkeiten die Gewichte darstellen.
Dabei gilt:
Folie 11
E ( a X b) a E X b
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Varianz
Kennwerte
Grafiken
Die Breite der Wahrscheinlichkeitsverteilung einer
Zufallsvariablen X wird durch die Varianz von X,
geschrieben ²(X), charakterisiert.
Oft wird ²(X) abgekürzt zu ² („sigma Quadrat“).
Die Varianz kann als Maß verstanden werden, die die
Ausdehnung der Wahrscheinlichkeitsverteilung um den
Erwartungswert herum beschreibt.
Die Varianz einer Zufallsvariablen erfordert keine
Beobachtungen, sondern bezieht sich auf die
theoretische Wahrscheinlichkeitsverteilung.
Folie 12
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Varianz
Kennwerte
Grafiken
Für eine diskrete Zufallsvariable X mit endlich vielen
Ausprägungen x1,…, xk und Wahrscheinlichkeiten pi = p(X=xi)
ergibt sich die Varianz über
E X E X
2
k
2
X pi xi
2
i 1
²(X) kann als gewichtetes Mittel der quadrierten
Abweichungen der möglichen Realisationen einer
Zufallsvariablen zum Erwartungswert aufgefasst werden,
wobei die Wahrscheinlichkeiten die Gewichte darstellen.
Folie 13
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Standardabweichung
Kennwerte
Grafiken
Die Varianz erfüllt nicht die Forderung der Proportionalität
bei der Multiplikation der Zufallsvariablen mit einem festen
Wert a.
²(a X ) a 2 X
Es gilt also nicht
sondern statt dessen
²(a X ) a 2 2 X
Dieses Problem wird durch Wurzelziehen beseitigt. Man
erhält so die Standardabweichung (X), abgekürzt
einfach („sigma“).
X 2X
Folie 14
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Einfache Rechenregeln für Kennwerte
Kennwerte
Grafiken
Für eine binomialverteilte Zufallsvariable X mit der
Wahrscheinlichkeitsverteilung f(m, n, p) gilt
1. = n · p
Erwartungswert
2. ² = n · p · q
Varianz
3. =
Standardabweichung
n·p·q
Nur für X()={0,1}
Folie 15
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Einfache Rechenregeln für Kennwerte
Kennwerte
Grafiken
Für eine poisssonverteilte Zufallsvariable X mit der
Wahrscheinlichkeitsverteilung f(, n) gilt
1. =
Erwartungswert
2. ² = · (1-/n)
Varianz
3. =
Standardabw.
für große
n (siehe 2.)
Nur für X()={0,1}
Folie 16
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
Folie 17
Frage: Wie berechnet sich der Erwartungswert für
eine binomialverteilte, aber nicht 0/1-kodierte
Zufallsvariable?
Beispiel: Die Wahrscheinlichkeit, ohne
Mammografie an Brustkrebs zu erkanken, betrage
p=0.1. Eine Brustkrebspatientin verursacht Krankheitskosten von etwa 28.500€. Die regelmäßige
Brustkrebsvorsorge durch Mammografie kostet
9.000€, senkt aber das Brustkrebsrisiko auf
p=0.05. Eine Krankenversicherung beauftragt einen
Gesundheitspsychologen zu berechnen, ob sie
billiger wegkommt, wenn sie ihren weiblichen
Mitglieder kostenlose Mammografien verordnet.
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
Man hat hier zwei Zufallsvariablen mit eigentlich
folgenden Eigenschaften:
X = {0, 1}
Y = {0, 1}
p(X) = {0.9, 0.1}
p(Y) = {0.95, 0.05}
mit 0 = kein Brustkrebs, 1 = Brustkrebs.
Man geht nun davon aus, dass die neue
Zufallsvariable „Kosten“ nur eine mathematische
Transformation der Zufallsvariable „Häufigkeit“ ist.
Die neue Zufallsvariable erbt wieder die Wahrscheinlichkeitsverteilung der alten Zufallsvariablen.
Folie 18
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
Es gilt also für die neue Zufallsvariable „Kosten“:
X‘ = {0, 28.500}
Y‘ = {9.000, 28.500}
p(X‘) = {0.9, 0.1}
p(Y‘) = {0.95, 0.05}
Daraus lässt sich nun wie üblich der
Erwartungswert bestimmen als p‘ix‘i.
Und die Varianz ist dementsprechend
Man kann nun mathematische Beziehungen für die
Veränderung von Erwartungswert und Varianz bei
der Transformation von Zufallsvariablen herleiten
Folie 19
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
Voraussetzung: Die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X mit beliebig
vielen Ausprägungen sei bekannt.
x1
x
2
X
xk
Folie 20
p1
p
2
p( X )
pk
k
X pi xi
i 1
k
pi xi X
2
X
2
i 1
Oder x und ² sind direkt
berechenbar (z.B. bei der
Binomialverteilung mit 0/1)
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
Variante 1: Die neue Zufallsvariable X‘ ist eine
einfache mathematische Transformation (Multiplikation und Addition) der alten Zufallsvariablen X.
X ' a X b
Dann gilt
Folie 21
X ' a b X
X2 ' a 2 X2
Der Erwartungswert verändert sich also genau so
wie die Zufallsvariable, die Varianz wächst mit dem
Quadrat des Multiplikators.
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
Variante 2: Die neue Zufallsvariable X‘ ist eine
beliebige Transformation der alten Zufallsvariablen X.
x '1
x '
2
X '
x 'k
p1
p
2
p ( X ')
pk
k
Dann muss neu
gerechnet werden:
Folie 22
X ' pi x 'i
i 1
k
X2 ' pi x 'i X '
i 1
2
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Grafische Beschreibung: Kreisdiagramm
Kennwerte
Grafiken
Das Kreis- oder Tortendiagramm stellt die
Wahrscheinlichkeiten von Ausprägungen einer
Zufallsvariablen als Kreissegmente eines Vollkreises
(„Tortenstücke“) dar.
Der Öffnungswinkel α eines Segmentes ist dabei durch
die Wahrscheinlichkeit der Ausprägung p(xi) definiert
360 p( xi )
Die Summe der Öffnungswinkel aller Kreissegmente
sollte wieder 360° ergeben
Folie 23
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Grafische Beschreibung: Kreisdiagramm
Kennwerte
Grafiken
Folie 24
Beispiel: Die Wahrscheinlichkeit, in einem Experiment zur
visuellen Wahrnehmung einen epileptischen Anfall zu
bekommen, betrage p=0.0017. An einem konkreten
Experiment sollen n=200 Personen teilnehmen.
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Grafische Beschreibung: Säulendiagramm
Kennwerte
Grafiken
Das Säulen- oder Balkendiagramm stellt die
Wahrscheinlichkeiten von Ausprägungen einer
Zufallsvariablen als Balken (waagerecht) oder
Säulen (senkrecht) dar.
Der Länge der Säulen bzw. Balken ist dabei
durch die Wahrscheinlichkeit p(xi) bestimmt.
Die Breite der Säulen bzw. Balken variiert i.d.R.
nicht innerhalb eines Diagramms
Zur Darstellung den Wahrscheinlichkeitsverteilung
bzw. Verteilungsfunktion wird zwischen den
Säulen bzw. Balken zumeist kein Raum gelassen
Folie 25
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Grafische Beschreibung: Säulendiagramm
Kennwerte
Grafiken
Beispiel: Das Neuroleptikum Tavor führt bei längerer
Einnahme mit einer Wahrscheinlichkeit von p=0.73 zu
Abhängigkeit. In einer Langzeittherapiestudie soll das
Medikament an n=10 Personen eingesetzt werden.
Verteilungsfunktion F(x, 10, 0.73)
Punktwahrscheinlichkeit p(x)
Intervallwahrscheinlichkeit P(x)
Wahrscheinlichkeitsverteilung f(x, 10, 0.73)
Anzahl Abhängigkeitsfälle x
Folie 26
Anzahl Abhängigkeitsfälle x
Statistik &
Methodenlehre
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Kreuztabellen
Grafische Beschreibung: Säulendiagramm
Kennwerte
Wahrscheinlichkeitsverteilung f(x, 10, 0.73)
Wahrscheinlichkeitsverteilung f(x, 10, 0.73)
Punktwahrscheinlichkeit p(x)
Punktwahrscheinlichkeit p(x)
Grafiken
Warum gleiche Säulenbreiten?
Anzahl Abhängigkeitsfälle x
Anzahl Abhängigkeitsfälle x
Menschen neigen zur Größenbewertung anhand der Fläche.
Folie 27
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
Gustav Fechner, Urvater der Experimentellen Psychologie,
entwickelte zentrale Methoden der modernen Psychophysik
mit genau einem Ziel: den Beweis zu führen, dass Pflanzen
eine Seele haben.
Er perfektionierte eine Methode der Mikrostimulation, auf die
hin er eine biologische Reaktion und bei Pflanzen nachweisen
wollte. Eine solche Reaktion wäre der Beleg, dass Pflanzen
fühlen können. Damit wäre es zum Denken und schließlich
zur Seele nicht mehr weit.
Fechner führte insgesamt n=24576 Messungen von ReizReaktionsmusters bei Pflanzen durch.
Folie 28
Angenommen, Pflanzen zeigen die gewünschte Reaktion
auch ohne Stimulation (d.h. zufällig) mit einer
Wahrscheinlichkeit von p=.25. Fechner möge eine Reaktion in
x=6306 Fällen finden. Haben Pflanzen eine Seele?
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
Das Ziel Fechners war die Beantwortung der Frage, ob
Pflanzen eine Seele haben
Die Beantwortung sollte sich nach Möglichkeit auf die Population aller Pflanzen
beziehen, nicht nur auf die Stichprobe
der Pflanzen in Fechners Labor
Es sind also Methoden erforderlich, welche
die Verallgemeinerung von Beobachtungen
in einer Stichprobe auf die zugrunde
liegende Population erlauben
Diese Methoden stellt die Inferenzstatistik („schließende Statistik“) zur
Verfügung
Folie 29
Population
?
Daten
(beobachtet)
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Es existieren eine Vielzahl inferenzstatistischer Tests für
nahezu beliebige Arten von Hypothesen, z.B.
Binomialtest
Gehört ein Messwert (und damit sein Merkmalsträger) zu
einer bestimmten Population?
Poissontest
Sind Häufigkeiten verschieden?
Sind die Mittelwerte von Messwerten zwischen Gruppen
unterschiedlich?
Sind die Varianzen von Messwerten zwischen Gruppen
unterschiedlich?
Hängt die Ausprägung eines Merkmals mit einer
bestimmten Intervention zusammen?
Folie 30
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Wenn die Wahrscheinlichkeitsfunktion eines
Zufallsexperimentes theoretisch bekannt ist, können die
bei einer Durchführung erwarteten empirischen
Häufigkeiten bestimmt werden.
Poissontest
Beobachtete absolute oder relative Häufigkeiten können
dann mit den erwarteten Häufigkeiten verglichen werden.
Wenn eine beobachtete Häufigkeit zu stark von der
theoretischen Wahrscheinlichkeit abweicht, kann die
Wahrscheinlichkeitsfunktion als nicht zutreffend
betrachtet werden.
Entweder sind dann ihre Parameter falsch definiert oder
die Funktion selbst ist nicht zutreffend.
Folie 31
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Grundgedanke: Eine beobachtete Häufigkeit x einer
Zufallsvariablen X in einem Bernoulli Experiment sollte
im Bereich „typischer“ erwarteter Häufigkeiten liegen.
Binomialtest
Diese erwarteten Häufigkeiten hängen von der Anzahl
der Versuche n und der Erfolgswahrscheinlichkeit p ab,
z.B. bei der Binomialverteilung
Poissontest
n x n x
f ( x , n, p ) p q
x
Weicht eine beobachtete Häufigkeit stark von der
erwarteten Häufigkeit ab, ist die Abweichung vermutlich
nicht zufällig, sondern systematisch.
Folie 32
Die Beobachtung ist dann statistisch signifikant.
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Problem I: Ist es sinnvoll, die Punktwahrscheinlichkeit
f(X = x) zur Bewertung heranzuziehen?
p(X=10) = 0.144
p(X≤10) ≈ 0.5
Poissontest
p(X=100) = 0.046
p(X≤100) ≈ 0.5
Folie 33
Beim statistischen Testen ist also immer nach einer
Intervallwahrscheinlichkeit gefragt.
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Statistische Hypothesen
Hypothesen
Binomialtest
Poissontest
Aus einer inhaltlichen Hypothese wie
Wenn Pflanzen mikrostimuliert werden, zeigen sie
eine bestimmte biologische Reaktion
ist zunächst eine statistische Hypothese zu
formulieren
Jede statistische Hypothese ist im Grunde nicht mehr als
die Annahme, dass eine bestimmte Wahrscheinlichkeitsverteilung auf eine gegebene Zufallsvariable zutrifft
Im ersten Schritt der Hypothesenbildung muss also die
Wahrscheinlichkeitsverteilung festgelegt werden, aus der
die Beobachtungen vermutlich kommen
Folie 34
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Statistische Hypothesen
Hypothesen
Die Festlegung der Wahrscheinlichkeitsverteilung der
beobachteten Zufallsvariablen wird als Verteilungsannahme bezeichnet
Binomialtest
Die Verteilungsannahme umfasst die Festlegung der
Form der Wahrscheinlichkeitsverteilung (z.B. Binomial,
Poisson) sowie die Festlegung ihrer Parameter
(z.B. n und p bei der Binomialverteilung)
Poissontest
Für eine gegebene Beobachtung x aus einer Zufallsvariablen X gibt es nun grundsätzlich zwei Hypothesen:
Nullhypothese: x stammt aus der angenommenen
H0
Wahrscheinlichkeitsverteilung
Folie 35
Alternativhypothese:
H1
x stammt nicht aus der
angenommenen Verteilung
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Statistische Hypothesen
Hypothesen
Binomialtest
Poissontest
Am Fechner Beispiel: Im Experiment mit einer
angenommenen Binomialverteilung f(x, n=24576, p=0.25)
beobachte man ein x=6306.
Frage: Ist dieses x vereinbar mit der angenommenen
Wahrscheinlichkeitsverteilung (H0 = „ja“, H1 = „nein“)?
Im Grunde handelt es sich bei der Antwort auf diese
Frage um eine bedingte Wahrscheinlichkeit, nämlich
p (Beobachtung x | Hypothese)
also die Wahrscheinlichkeit, dass die Beobachtung x
zustande kommt, gegeben, dass die H0 oder H1 gilt.
Folie 36
p(Beobachtung | H0/1) wird auch als Likelihood bezeichnet
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Statistische Hypothesen und ihre Interpretation
Hypothesen
Die bedingte Wahrscheinlichkeit p(Beobachtung | H0/1) ist nicht
Binomialtest
die Wahrscheinlichkeit p(Ergebnis).
Dies ist einfach die Grundwahrscheinlichkeit für die
Beobachtung (bei stetigen ZV immer 0).
Poissontest
die Wahrscheinlichkeit p(H0) bzw. p(H1) = 1 – p(H0).
Die „wahre“ H0 und H1 haben keine Wahrscheinlichkeit.
Entweder trifft die eine oder die andere zu
die Wahrscheinlichkeit p(H0/1 | Ergebnis).
Dies ist eine so genannte a-Posteriori Wahrscheinlichkeit,
die beschreibt, mit welcher Wahrscheinlichkeit die H0
anzunehmen ist, wenn das beobachtete Ergebnis
gemessen wurde (siehe Satz von Bayes)
Folie 37
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
Beim statistischen Testen von Hypothesen fragen wir wie
gesehen immer nach Intervallwahrscheinlichkeiten
Man unterscheidet zwei verschiedene Varianten
H 0 : p ( X xi ) Verwerfen der Verteilungsannahme
H1 : p ( X xi ) bei einer zu großen Beobachtung
H 0 : p ( X xi ) Verwerfen der Verteilungsannahme
H1 : p ( X xi ) bei einer zu kleinen Beobachtung
„Einseitige“ oder „gerichtete“ Hypothese
Folie 38
H 0 : p ( xi X x j ) Verwerfen der Verteilungsannahme
H1 : p ( xi X x j ) bei einer zu extremen Beobachtung
„Zweiseitige“ oder „ungerichtete“ Hypothese
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
Beim statistischen Testen von Hypothesen fragen wir wie
gesehen immer nach Intervallwahrscheinlichkeiten
Man unterscheidet zwei verschiedene Varianten
H 0 : p ( X xi ) Verwerfen der Verteilungsannahme
H1 : p( X xi ) bei einem noch größeren Wert
H 0 : p ( X xi ) Verwerfen der Verteilungsannahme
H1 : p( X xi ) bei einem noch kleineren Wert
„Einseitige“ oder „gerichtete“ Hypothese
Folie 39
HWird
( xi einigen
X x jTests,
) vor
Verwerfen
derasymmetrischer
Verteilungsannahme
allem mit
Wahr0 : pbei
H
einem
noch extremeren
Wert
scheinlichkeitsverteilung
(z.B.
Binomial)
kaum verwendet
1 : 1 p ( xi X x j ) bei
„Zweiseitige“ oder „ungerichtete“ Hypothese
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
Problem: Aufgrund der zufälligen Ziehung wird das
beobachtete x schwanken (Stichprobenfehler)
Frage: Wie extrem muss das beobachtete x sein, damit
wir begründet annehmen können, dass diese
Beobachtung nicht passt „Wie wahrscheinlich ist zu
unwahrscheinlich?“
Hier haben sich in der Praxis zwei Cut-Off Werte
eingebürgert, die als α–Niveaus oder
Signifikanzniveaus bezeichnet werden.
Es gilt:
Folie 40
p 0.05
statistisch nicht signifikant
p 0.05
p 0.01
statistisch signifikant
statistisch hochsignifikant
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
Problem: Aufgrund der zufälligen Ziehung wird das
beobachtete x schwanken (Stichprobenfehler)
Frage: Wie extrem muss das beobachtete x sein, damit
wir begründet annehmen können, dass diese
Beobachtung nicht passt Schreibe:
„Wie wahrscheinlich
ist zu auf
„Es wird getestet
unwahrscheinlich?“
einem Signifikanzniveau von …“
α = .05 oder
Hier haben sich in der Praxis zwei Cut-Off Werte
α = .01
eingebürgert, die als α–Niveaus oder
Signifikanzniveaus bezeichnet werden.
Es gilt:
Folie 41
p 0.05
statistisch nicht signifikant
p 0.05
p 0.01
statistisch signifikant
statistisch hochsignifikant
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
Die Aussage, ein x sei statistisch signifikant, ist eine
Wahrscheinlichkeitsaussage bei der immer ein
Restirrtum verbleibt, die Irrtumswahrscheinlichkeit.
Diese Irrtumswahrscheinlichkeit hängt nicht von der
konkret erhaltenen Wahrscheinlichkeit p ab, sondern vom
gewählten Signifikanzniveau α.
Bei α=0.05 beträgt die Irrtumswahrscheinlichkeit also
5%, bei α=0.01 ist sie 1%.
In der Praxis wird das α-Niveau deshalb oft auch als
Irrtumswahrscheinlichkeit oder α-Fehler bezeichnet.
Folie 42
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Bei der Entscheidung für die H0 oder H1 können je zwei
Arten richtiger/falscher Entscheidungen getroffen werden
In der Population gilt
Binomialtest
Poissontest
H0
H0
H1
Correct
Rejection
Miss
Entscheidung für
H1
Folie 43
False Alarm
(-Fehler,
Fehler 1. Art)
(-Fehler,
Fehler 2. Art)
Hit
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
Die Hypothesenrichtung muss vor dem Experiment
festgelegt werden
Ebenso muss das Signifikanzniveau vor dem
Experiment festgelegt werden
Finden diese Festlegungen erst nach Ansehen der Daten
statt, kann nicht mehr von der bedingten Wahrscheinlichkeit p(Daten|Hypothese) ausgegangen werden
Das Forschungsergebnis wird dann an die Daten
angepasst Data Snooping
Folie 44
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Beobachtung im Experiment: X=x
Frage: Kann x aus einer bestimmten Verteilung stammen?
Binomialtest
Poissontest
Geht die Höhe der Häufigkeit auf einen Stichprobenfehler zurück?
(1) Bestimmung der Verteilung der Zufallsvariablen X
(2) Festlegung eines Signifikanzniveaus α
(3) Berechnung der Wahrscheinlichkeit für dieses x unter
Annahme der H0, z. B. p(X≤x)
(4) Vergleich von p mit α und
Treffen der Signifikanzaussage
Folie 45
Aber: Bei dieser
Aussage irrt man
sich mit einer
Wahrscheinlichkeit
von α·100%
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens – Binomialtest
Hypothesen
Am Fechner Beispiel: Im Experiment mit einer
angenommenen Binomialverteilung f(x, n=24576, p=0.25)
beobachte man ein x=6306.
Binomialtest
1. Verteilungsannahme treffen: Binomial mit den
gegebenen n und p
Poissontest
2. Hypothesenrichtung festlegen und statistische
Hypothesen formulieren
3. Signifikanzniveau festlegen
4. Wahrscheinlichkeit für die beobachtete Realisation
bestimmen und mit dem Signifkanzniveau vergleichen
Folie 46
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens – Binomialtest
Hypothesen
Binomialtest
Poissontest
Am Fechner Beispiel: Im Experiment mit einer
angenommenen Binomialverteilung f(x, n=24576, p=0.25)
beobachte man ein x=6306.
Man berechnet die Auftretenswahrscheinlichkeit p(x|H0)
unter der Annahme, dass die angenommene
Häufigkeitsverteilung gilt.
Man erhalte p(X ≤ x)=0.992 und damit p(X > x)=0.008.
Per Konvention würden wir auf jedem α-Niveau sagen,
dass x eine signifikant abweichende Beobachtung ist.
Aber Achtung: Das x=6306 hat eine
Auftretenswahrscheinlichkeit von p(X>x)=0.008.
Mit diesem p kann es also auch dann vorkommen, wenn
die angenommene Binomialverteilung zutrifft.
Folie 47
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens – Poissontest
Hypothesen
Binomialtest
Poissontest
Dieselbe Testlogik wie beim Binomialtest kann auch für
die Poissonverteilung angenommen werden.
Beispiel: Die Wahrscheinlichkeit, als Patient während
einer Höhenangstexposition einen Kreislaufkollaps zu
erleiden, betrage deutschlandweit p=0.0003. Bei jährlich
1093 Patienten in der Mainzer Psychotherapieambulanz
hat es keinen solchen Fall gegeben.
1. Verteilungsannahme treffen: Poisson mit gegebenem λ
2. Hypothesenrichtung festlegen und statistische
Hypothesen formulieren
3. Signifikanzniveau festlegen
Folie 48
4. Wahrscheinlichkeit für die beobachtete Realisation
bestimmen und mit dem Signifkanzniveau vergleichen
Statistik &
Methodenlehre
Relevante Excel Funktionen
Diskrete Wahrscheinlichkeitsverteilungen
• BINOM.VERT()
• POISSON.VERT()
oder EXP() und POTENZ() bzw. ^ („hoch“)
• SUMME(), PRODUKT()
Folie 49