1. Aufgabe Fall a) Merkmalsträger Studierende des 1. Semesters im Studiengang „Betriebswirtschaftslehre“ an der Hochschule BonnRhein-Sieg, Standort Sankt Augustin Merkmal Staatsangehörigkeit Merkmalsausprägung Alle möglichen Staatsangehörigkeiten: Deutsch Russisch Polnisch Türkisch …………….. Skalenniveau nominal b) Alle wahlberechtigten Bürger der Stadt Bonn Partei nominal c) Alle deutschen Frauen zwischen 30 und 40 Einkommen CDU, SPD, FDP, Bündnis 90/Die Grünen, BBB,………… Alle möglichen Angaben in Euro d) Aller Städte ( >= 100.000 Einwohner) in NRW Außentemperatur am 31. Dezember 2008 Alle möglichen Temperaturangaben in C° e) Ausgewählte Konsumenten Von „sehr gut“ bis „sehr schlecht“ ordinal f) Alle Bonner Gymnasialschüler Von 0 bis …… Metrisch diskret g) Alle EU Mitgliedsstaaten Von 0% bis ………… Metrisch - stetig h) Bonner Bürger Verschiedene Einstellungsabstufungen ordinal i) Eier vom Bonner Wochenmarkt Bonner Kinder, die zum Schuljahr 2009/10 eingeschult wurden Beurteilung der Qualität einer TV Show Anzahl Kinobesuche in den Sommerferien 2009 Inflationsrate im Juli 2009 Einstellung zum geplanten Bau des Festspielhauses Güteklasse Die verschiedenen Klassen, A, B und C Alle möglichen Ausprägungen in cm ordinal j) Körpergröße Metrisch – verhältnisskaliert (stetig oder diskret) Metrisch – intervallskaliert (stetig) Metrisch (stetig) 2. Aufgabe Merkmal Merkmalsausprägung Information Augenfarbe Grün, blau, braun qualitativ Bierkonsum 0 – 5 [ Liter ] quantitativ Bruttogehalt Niedrig, hoch, sehr hoch qualitativ Konfession evangelisch, katholisch qualitativ Steuerklasse I -V qualitativ Merkmal Skalenniveau Vermerk Geschwindigkeit von Ameisen Metrisch (Verhältnisskaliert) stetig Alter in ganzen Jahren Metrisch (Verhältniskaliert) diskret Fernsehkonsum in Std Metrisch (Verhältnisskaliert) diskret Seitenzahl Buch Metrisch (Verhältnisskaliert) diskret Steuerklasse nominal Konfektionsgröße ordinal Fußballmannschaft nominal Wertung beim Eiskunstlauf ordinal Güteklasse von Restaurants ordinal 3. Aufgabe 4. Aufgabe a) xi hi 270 280 290 295 300 310 330 480 510 Summe: fi 2 1 1 1 1 1 1 1 1 10 Hi 0,2 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 1 Fi 2 3 4 5 6 7 8 9 10 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 b) Arithmetisches Mittel: 333,5 Modus: 270 Median: 297,5 c) Der Median von 297,5 wird von den Ausreißern nicht beeinflusst. Das arithmetische Mittel von 333,5 ist allerdings höher als 80% der beobachteten Werte (wird maßgeblich durch die Ausreißer verzerrt!)! 5. Aufgabe Der Median liegt bei 61 Punkten: Bei 21 Beobachtungswerten (ungerade) liegt der Median beim (n+1)/2 ten (nach der Größe geordneten) Beobachtungswert: (21 + 1)/2 =11. Beobachtungswert Arithmetisches Mittel: 59,048 Intervall Klassenmitte hi 0 – 20 21 - 40 41 - 60 61 - 80 81 - 100 9,5 30,5 50,5 70,5 90,5 Hi 1 4 5 7 4 21 fi 1 5 10 17 21 Fi 0,048 0,19 0,238 0,333 0,19 1 0,048 0,238 0,476 0,81 1 Summenhäufigkeitsfunktion Die Punktzahl, die 50% aller Teilnehmer erreicht haben ist natürlich der Median: 61 und diese Punktzahl liegt in Klasse 4! 6. Aufgabe X G 6 1,16 * 1,18 * 1,1* *0,92 * 1,15 * 1.06 = 1,09124 7. Aufgabe Die durchschnittliche Entwicklungsrate beträgt 11,73% 8. Aufgabe Durchschnittliche Wachstumsrate Branche: Wachstumsfaktoren: 1,021; 1,069; 1,0714 √ Durschnittliche W.-rate : 5,35% (mögliche Rundungsdiff. 5,38% genauer!!!) Durchschnittliche Wachstumsrate Unternehmen: √ Durchschnittliche W.-rate: 6,11% (6,12% genauer!) 9. Aufgabe Varianz: 6860,25 [€²] Stabw.: 82,8266 € Gemessen am arithmetischen Mittel von 333,50 € ist ein Preis von 320€ eher als unterdurchschnittlich anzusehen. Er liegt, gemessen am Median aber über den ersten 50% der Verteilung und findet sich somit im oberen Preisniveau wieder! 10. Aufgabe Modus: 181 € (der häufigste Wert) Median: 192 € (bei 8 Beobachtungswerten, liegt der Median, nachdem man die Beobachtungswerte der Größe nach geordnet hat bei Arithmetisches Mittel: 194 € Varianz: 1436 Standardabweichung: 37,89 Kosten in€ hi fi Fi 125 1 0,125 0,125 159 1 0,125 0,25 181 2 0,25 0,5 203 1 0,125 0,625 225 1 0,125 0,75 233 1 0,125 0,875 245 1 0,125 1 Die mittleren 40% liegen 20% über und 20% unter dem Median (=50%), d.h. in dem Intervall 30% und 70%. Die 30% werden bei 181 € erreicht – die 70% bei 225 € Intervall der mittleren 40% [181; 225] 11. Aufgabe Anteile an der Person Grundgesamtheit Kumulierte Anteile an der Grundgesamtheit Einkommen Anteile am Gesamteinkommen 0 Kumulierte Anteile am Gesamteinkommen 0 A 0,2 0,2 11.000,00 € 0,183 0,183 D 0,2 0,4 11.000,00 € 0,183 0,367 E 0,2 0,6 11.000,00 € 0,183 0,550 B 0,2 0,8 13.000,00 € 0,217 0,767 C 0,2 1 14.000,00 € 0,233 1,000 60.000,00 € 12. Aufgabe In einer amtlichen Statistik finden Sie folgende Verteilung der Erwerbstätigen in der BRD für April 1990 (in 1.000 Personen): Altersgruppe von … .. bis unter… Nr. Selbstständige und mithelfende Familienangehörige abhängig Beschäftigte 1 15 -25 99 5002 2 25 - 35 531 7009 3 35 - 45 1243 5731 4 45 - 55 937 6051 5 55 - 65 595 2284 6 65 - 75 160 63 7 75 - 95 42 16 1)Was sind die statistischen Einheiten, Grundgesamtheiten und Merkmale? Statistische Einheit ist bzgl. der 2 dimensionalen HV der einzelne Erwerbstätige in der BRD im April 2009 Grundgesamtheit: Alle Erwerbstätigen im April 2009 Merkmale: 1.) Art der Beschäftigung mit 2 Ausprägungen 2.) Zugehörigkeit Altersklasse mit 7 Ausprägungen 2) Berechnen Sie das Durchschnittsalter der Selbstständigen und Familienangehörigen sowie der abhängig Beschäftigten. Durchschnittsalter Selbstständige: 45,23 Durchschnittsalter abh. Beschäftigte: 37,16 Altersgruppe X von … .. bis unter… Nr. Selbstständige und mithelfende Klassenmitte xi Familienangehörige 1 15 -25 19,5 99 1.931 2 25 – 35 29,5 531 15.665 3 35 – 45 39,5 1243 49.099 4 45 – 55 49,5 937 46.382 5 55 – 65 59,5 595 35.403 6 65 – 75 69,5 160 11.120 7 75 – 95 84,5 42 3.549 3.607 163.147 Summen 3) Welcher Anteil der Selbstständigen und welcher Anteil der Unselbstständigen ist 55 Jahre und älter? Altersgruppe X Selbstständige und von … .. mithelfende bis unter… Klassenmitte xi Familienangehörige Nr. Rel. Häufigkeiten Kum. rel. Häufigkeiten 1 15 -25 19,5 99 0,027 0,027 2 25 - 35 29,5 531 0,147 0,175 3 35 - 45 39,5 1243 0,345 0,519 4 45 - 55 49,5 937 0,260 0,779 5 55 - 65 59,5 595 0,165 0,944 6 65 - 75 69,5 160 0,044 0,988 7 75 - 95 84,5 42 0,012 1,000 3.607 1,000 Summen Altersgruppe X von … .. bis unter… Klassenmitte xi Nr. abhängig Beschäftigte Rel. Häufigkeiten Kum. rel. Häufigkeiten 1 15 -25 19,5 5002 0,191 0,191 2 25 - 35 29,5 7009 0,268 0,459 3 35 - 45 39,5 5731 0,219 0,678 4 45 - 55 49,5 6051 0,231 0,910 5 55 - 65 59,5 2284 0,087 0,997 6 65 - 75 69,5 63 0,002 0,999 7 75 - 95 84,5 16 0,001 1,000 26.156 1,000 Summen 4) Welcher Anteil der 65jährigen und älteren Erwerbstätigen ist selbstständig? Anzahl der Erwerbstätigen ab 65 und älter: 223 + 58 = 281 Davon sind selbstständig: 160 + 42 = 202 Anteil: 202/281 = 71,9 % 13. Aufgabe (a) Merkmalsträger: Anzahl der Vorstellungen Merkmal: Anzahl der verkauften Karten (b) Xa = 800 Karten (Klassenmitten ausrechnen; diese mit den absoluten Häufigkeiten multiplizieren und anschließend durch 500 teilen!) (c) Einzelne absolute Häufigkeiten aufaddieren: 200+50+50 = 300 (d) (200/2)+50+50 = 300 (e) 400.000 Karten 14. Aufgabe a) 200,30 cm b) 203 cm c) Varianz: 74,21 [cm²] => Stabw: 8,61 cm d) 8,61 / 200,30 = 0,043 = 4,30% 15. Aufgabe Zu a) ordinal skaliertes Merkmal: nur Median möglich Nach der Reihenfolge sortiert (1, 2, 3,4, 4,), der 3. Beobachtungswert: 3 Modus : 4 Zu b) Verhältnisskaliertes Merkmal/metrisch skaliert: Geometrisches Mittel, da Wachstumsfaktoren: x G n x 1h1 * x 2 h2 * ... * x k hk 5 1* 2 * 3 * 4 2 2,491 Durchschnittlicher Wachstumsfaktor 2,49% Zu c) nominalskaliertes Merkmal: nur Modus: 4 (graublaue Augen) Zu d) metrische Skalierung: arithmetisches Mittel: (1 +2 +3+ 4 + 4)/5 = 2,8 km 16. Aufgabe a) Merkmal: Anzahl der Taxen in der Stadt Merkmalsträger: 20 Taxi Unternehmen Merkmalsausprägungen: jede denkbare Taxi-Anzahl (xi) Beobachtungswerte: Taxianzahl in dem jeweiligen Unternehmen b) xi 1 2 3 4 5 6 Summe: hi fi 8 4 2 2 2 2 20 Hi 0,4 0,2 0,1 0,1 0,1 0,1 1 Fi 8 12 14 16 18 20 0,4 0,6 0,7 0,8 0,9 1 c) Arithmetisches Mittel: 2,6 Modus: 1 [Taxi] Median: 2 [Taxen] Q1 = 1 [Taxi] Q3 = 4 [Taxen] d) QA = Q3 – Q1 = 3 => 50% der UN haben zwischen 1 und 4 Taxen! Varianz: 3,04 => Stabw: 1,7436 e) Anzahl aller Taxen der Stadt (bzw. der 20 Unternehmen): 2,6 (arithmetisches Mittel) * 20 (Unternehmen) = 52 Taxen Anzahl der Taxen der 5 kleinsten Unternehmen => 1+1+1+1+1 = 5 => 5/52 * 100 = 9,6% -> Die 5 kleinsten Unternehmen, haben 9,6% aller Taxen der Stadt! Anzahl der Taxen der 5 größten Unternehmen: => 6+6+5+5+4=26 => 26/52 * 100= 50% ->Die 5 größten Taxiunternehmen haben 50% aller Taxen der Stadt! 17. Aufgabe a) Anzahl Überstunden Anzahl Mitarbeiter fi Hi Fi 0 7 0,23 7 0,23 1 3 0,10 10 0,33 2 4 0,13 14 0,47 3 9 0,30 23 0,77 4 4 0,13 27 0,90 5 2 0,07 29 0,97 8 1 0,03 30 1,00 1 (b) 72 Überstunden! (0*7+1*2+2*4…) (c) Median: 0,5* (3+3)= 3 Überstunden 50% der MA haben bis zu 3 Überstunden gemacht Modus: 3 Überstunden Der am häufigsten beobachtete Wert waren 3 Überstunden Arithmetisches Mittel: 72/30 = 2,4 Überstunden Im Durchschnitt hat jeder MA 2,4 Überstunden gemacht. (d) Varianz= 3,507 => Stabw. = 1,873 Überstunden Durchschnittlich weichen die einzelnen Beobachtungswerte um ca. 1,87 (Über-)Stunden vom arithmetischen Mittel ab. (e) - die 10 Mitarbeiter mit den wenigsten Überstunden? 0*7+3*1 = 3 3/72= 4,16% - die 10 Mitarbeiter mit den meisten Überstunden? 1*8+2*5+4*4+3*3= 43 (f) 0,3+0,13+0,07 = 50% 43/72= 59,72 18. Aufgabe a) 8.050.000,00 € - hier die Klassenmitten berechnen xi’ als Stellvertreter b) 35.590,91 € arithmetisches Mittel; Der Modus liegt in Klasse 2 [ 10 bis unter 20 ], der Median liegt in Klasse 3 [20 bis unter 30]. x io x ui xi' 2 Depotwert (in Tausend €) Klasse von Anzahl Depots hi bis unter Klassen breite Depotwert pro Klasse (in Tausend €) xi’ Hi fi Fi 1 0 10 40 10 5 200 40 0,18 0,18 2 10 20 60 10 15 900 100 0,27 0,45 3 20 30 50 10 25 1250 150 0,23 0,68 4 30 50 30 20 40 1200 180 0,14 0,82 5 50 100 20 50 75 1500 200 0,09 0,91 6 100 200 20 100 150 3000 220 0,09 1,00 220 kum Depotwert Anteil am Gesamtwert 2 i 'x i x Klasse ou c) Unter 30.000 € = F(3) = 68% d) In Klasse 5: Hier wird der 50% Anteil am Gesamtwert überschritten Fi 1 0,18 200 2,48% 2 0,45 1100 13,66% 3 0,68 2350 29,19% 4 0,82 3550 44,10% 5 0,91 5050 62,73% 6 1,00 8050 100,00% 8050 Zweidimensionale Häufigkeitsverteilungen 19. Aufgabe beobachtete absolute Häufigkeiten Lernfrequenz Erfolg Regelmäßig Bestanden nicht regelmäßig 152 8 8 32 nicht bestanden beobachtete relative Häufigkeiten Erfolg (X) Bestanden nicht bestanden Summen Lernfrequenz (Y) regelmäßig nicht regelmäßig Summen 0,8 f(x1) 0,76 0,04 0,2 f(x2) 0,04 0,16 0,8 0,2 1 f(y1) f(y2) erwartete (theoretische) relative Häufigkeiten (Unabhängigkeit!!!) Lernfrequenz (Y) Erfolg (X) regelmäßig Summen nicht regelmäßig Bestanden 0,64 0,16 0,8 nicht bestanden 0,16 0,04 0,2 0,8 0,2 1 Summen Indifferenztabelle (theor. abs. Häufigkeiten) Lernfrequenz (Y) Erfolg (X) regelmäßig Bestanden nicht bestanden Summen Summen nicht regelmäßig 128 32 160 32 8 40 160 40 200 Arbeitstabelle Spalte j 1 2 1 2 ho he 152 8 8 32 Summen: 200 Zeile i 1 1 2 2 X² max = 200 X²/X²max = 0,5625 V = 0,75 20. Aufgabe a) 10,13% b) 87% 128 32 32 8 (ho-he) 24 -24 -24 24 (ho-he)² 576 576 576 576 X² 4,5 18 18 72 200 0 2304 112,5 21. Aufgabe Absolute Häufigkeiten männlich weiblich Summe unzufrieden 122 173 295 neutral 40 20 60 zufrieden 241 198 439 Summe 403 391 794 neutral 0,0504 0,0252 0,0756 zufrieden 0,3035 0,2494 0,5529 Summe 0,5076 0,4924 1,0000 Relative Häufigkeiten männlich weiblich Summe unzufrieden 0,1537 0,2179 0,3715 a) Anteil der Frauen unter den Personen, die mit der Euro-Währung zufrieden sind: 45,10% (198/439) b) % der Männer, die unzufrieden sind mit der Euro-Währung 30,27% (122/403) 22. Aufgabe a) Beobachtete absolute Häufigkeiten männlich 12 25 37 Bier Wein Summe weiblich 32 31 63 Summe 44 56 100 Beobachtete relative Häufigkeiten männlich 0,12 0,25 0,37 Bier Wein Summe weiblich 0,32 0,31 0,63 Summe 0,44 0,56 1 Erwartete relative Häufigkeiten (bei Unabhängigkeit) männlich 0,16 0,21 0,37 Bier Wein Summe weiblich 0,28 0,35 0,63 Summe 0,44 0,56 1,00 Erwartete absolute Häufigkeiten (bei Unabhängigkeit) männlich 16 21 37 Bier Wein Summe weiblich 28 35 63 Summe 44 56 100 Arbeitstabelle Zeile i Spalte j 1 1 2 2 ho 1 2 1 2 he 12 32 25 31 100 (ho-he) 16 28 21 35 100 -4 4 4 -4 0 (ho-he)² 16 16 16 16 64 X² 1,00 0,57 0,76 0,46 2,79 b) Mit Cramer-Kontingenzmaß V =√ √ = 0,167 => schwacher Zusammenhang der beiden Merkmale Mit Phi-Koeffizienten Φ=√ =√ = 0,167 => schwacher Zusammenhang der beiden Merkmale Mit dem Pearson’schen Kontingenzkoeffizienten C=√ =√ Ckorr= mit cmax= √ Ckorr = = 0,1647 = 0,707 = 0,233 => schwacher Zusammenhang der beiden Merkmale c) Es wurden wesentlich mehr Frauen als Männer befragt. Daher könnte man daran zweifeln, ob die Umfrage repräsentativ ist! 23. Aufgabe a) Relative Häufigkeiten Bier (y1) Wein (y2) Tequila (y3) Whiskey (y4) Wodka (y5) Summe Weiblich (x1) 0,10 0,25 0,07 0,06 0,09 0,57 Männlich (x2) 0,23 0,09 0,05 0,03 0,03 0,43 Summe 0,33 0,34 0,11 0,10 0,11 1,00 b) Bedingung „Geschlecht“ Bier (y1) Wein (y2) Tequila (y3) Whiskey (y4) Wodka (y5) Summe Weiblich (x1) 0,18 0,44 0,12 0,11 0,15 1,00 Männlich (x2) 0,53 0,21 0,11 0,08 0,07 1,00 Summe c) Bedingung „Alkohol“ Bier (y1) Wein (y2) Tequila (y3) Whiskey (y4) Wodka (y5) Weiblich (x1) 0,31 0,73 0,60 0,65 0,75 Männlich (x2) 0,69 0,27 0,40 0,35 0,25 Summe 1,00 1,00 1,00 1,00 1,00 Summe d) Unabhängigkeit. Bei Unabhängigkeit müssten die Werte folgendermaßen verteilt sein: Bier (y1) Wein (y2) Tequila (y3) Whiskey (y4) Wodka (y5) Summe Weiblich (x1) 0,19 0,20 0,07 0,06 0,07 0,57 Männlich (x2) 0,14 0,15 0,05 0,04 0,05 0,43 Summe 0,33 0,34 0,11 0,10 0,11 1,00 Zum Vergleich nochmal die Verteilung der relativen Häufigkeiten: Bier (y1) Weiblich (x1) Männlich (x2) Summe Wein (y2) Tequila (y3) Whiskey (y4) Wodka (y5) Summe 0,10 0,25 0,07 0,06 0,09 0,57 0,23 0,09 0,05 0,03 0,03 0,43 0,33 0,34 0,11 0,10 0,11 1,00 Daraus folgt, dass die Merkmale nicht unabhängig voneinander sind!!! 24. Aufgabe a) rs= 0,783 [Rechnung:(1 - )]=> Starker positiver Zusammenhang der beiden Merkmale. Das Sprichwort trifft auf Basis der oben aufgeführten Untersuchung zu! (b) Es fällt auf, dass Paar #4 die größte Differenz aufweist! Es handelt sich bei diesem Paar um einen Ausreißer! Durch Weglassen des Paares #4 ergibt sich folgendes Bild: Ehepaar Nr. 1 2 3 5 6 7 8 9 10 Konfektionsgröße Frau xi 46 52 32 42 36 48 38 44 34 Konfektionsgröße Mann yi 56 58 44 54 46 60 50 52 48 Rang xi 3 1 9 5 7 2 6 4 8 Rang yi 3 2 9 4 8 1 6 5 7 di 0 -1 0 1 -1 1 0 -1 1 di2 0 1 0 1 1 1 0 1 1 n = 9!!! Und es entsteht eine neue Rangfolge 6 D.h. der Zusammenhang der beiden Merkmale ohne den Ausreißer (Paar Nummer 4) ist deutlich höher als vorher. Dies schlägt sich in einem höheren Wert des Rangkorrelationskoeffizienten wieder! 25. Aufgabe ̅̅̅̅ ̅̅̅̅ sx² = 44,790 => sx = 6,693 sy² = 99.982,001 => sy = 316,199 Cxy = 478,012, rxy = 0,226 => d.h. positiver linearer Zusammenhang der beiden Merkmale. Regressionsgrade: f(x) = a+b*x b = rxy * a =̅̅̅̅ 0,226 * (316,199/6,693) = 10,677 ̅̅̅̅ 530,27 – 10,677*6,68 = 458,948 f(x) = 458,948+10,677*x R² = (rxy²) = (0,226²) = 0,051 => d.h. 5% der Varitation von y durch x warden durch die Regressionsgerade erklärt! 26. Aufgabe a) Anzahl Personen (X) Verteilung der absoluten Häufigkeiten: Anzahl PKW (Y) 0 2 1 0 1 4 1 2 3 4 Summe 1 6 4 1 1 12 2 0 1 3 0 4 Summe 8 6 4 2 20 Anzahl Personen (X) Verteilung der relativen Häufigkeiten: Anzahl PKW (Y) 0 0,1 0,05 0 0,05 0,2 1 2 3 4 Summe 1 0,3 0,2 0,05 0,05 0,6 b) 1. keinen: 20% einen: 60% zwei: 20% 2. 25 % (0,05 / 0,2) 3. 35% (1*1 + 3*2 PKW = 7 PKW => 7/20 = 0,35) 4. 31,25% (5/16 = 0,3125) 5. 65% (13/20) c) Arithmetisches Mittel von X = 2 Personen 2 0 0,05 0,15 0 0,2 Summe 0,4 0,3 0,2 0,1 1 Arithmetisches Mittel von Y = 1 PKW Varianz von X = 1 [Person²] => Stabw. = 1 Varianz von Y = 0,4 [PKW²] => Stabw. = 0,632 d) Kovarianz Tabelle zur Hilfe: HH x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 y 1 1 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 4 4 40 Summe /20 Xa= 2 x*y 0 0 1 1 1 1 1 1 0 1 1 1 1 2 1 2 2 2 0 1 20 /20 Ya = 1 0 0 1 1 1 1 1 1 0 2 2 2 2 4 3 6 6 6 0 4 43 HH x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Summe y 1 1 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 4 4 40 x² x*y 0 0 1 1 1 1 1 1 0 1 1 1 1 2 1 2 2 2 0 1 20 0 0 1 1 1 1 1 1 0 2 2 2 2 4 3 6 6 6 0 4 43 y² 1 1 1 1 1 1 1 1 4 4 4 4 4 4 9 9 9 9 16 16 100 0 0 1 1 1 1 1 1 0 1 1 1 1 4 1 4 4 4 0 1 28 s²x= 100/20 – (2²) = 1 => √ s²y= 28/20 – (1²) = 0,4 => √ Antwort: Schwache positive Korrelation der beiden Merkmale X und Y!!! 27. Aufgabe a) Absolute Häufigkeitsverteilung yi xi 15-35 Jahre 35-45 Jahre 45-75 Jahre Summe 0 1 10 30 25 65 30 50 20 100 2 25 20 15 60 3 13 7 0 20 4 Summe 2 3 0 5 80 110 60 250 relative Häufigkeitsverteilung yi xi 15-35 Jahre 35-45 Jahre 45-75 Jahre Summe 0 1 0,04 0,12 0,1 0,26 0,12 0,2 0,08 0,4 2 0,1 0,08 0,06 0,24 3 0,052 0,028 0 0,08 b) Durchschnittsalter ermitteln => zunächst Klassenmitten berechnen: 15 – 35 Jahre = 25 ( (15+35)/2) 35 – 45 Jahre = 40 ((35+45)/2) 45 – 75 Jahre = 60 ((45+75)/2) Durchschnittsalter: 25*80+40*110+60*60 = 10000/250 = 40 Jahre Varianz von X = 168 [Jahre²] c) Arithmetisches Mittel von Y: 1,20 Varianz: 0,96 [PCs²] d) 4 Summe 0,008 0,012 0 0,02 0,32 0,44 0,24 1 a) 300 PCs (100*1+2*60+3*20+4*5) b) 16,67% (20*1+15*2 = 50/300 = 0,1667 c) 0,8333 PCs (20*1+15*2 = 50/60 = 0,8333) d) 41,67% (25/60 = 0,4167) e) 14% (35/250 = 0,14) 28. Aufgabe Person Wettbewerb 1 (X) Wettberwerb 2 (Y) A 4 6 B 8 4 C 1 3 D 7 7 E 6 5 F 2 1 G 5 8 H 3 2 Arbeitstabelle: i 1 2 3 4 5 6 7 8 Summe X 4 8 1 7 6 2 5 3 36 Y 6 4 3 7 5 1 8 2 36 1- ((6*36)/8*(8²-1)) d -2 4 -2 0 1 1 -3 1 0 = d² 4 16 4 0 1 1 9 1 36 0,5714 positiver, mäßig starker Zusammenhang zwischen den Platzierungen des 1. und 2. Wettbewerbs 29. Aufgabe a) Merkmalsträger: Die neun bewerteten Fakultäten bzw. Universitäten! b) Anwendung des Rangkorrelationskoeffizienten für den Fall von Bindungen! Universität Studentenurteil (X) Rang X Professorenurteil (Y) Rang Y Köln 3 3,5 2,3 Frankfurt 3,1 6 2,4 Münster 3,2 8 2,1 Hamburg 3 3,5 3,1 Mannheim 3,1 6 1,6 Sankt Augustin 2,9 2 2,8 München 2,6 1 2,6 Göttingen 3,1 6 2,1 Erlangen 3,3 9 2,5 Summe 45 Arithm. Mittel X 5 Arithm. Mittel Y 5 Kovarianz Stabw. X Stabw. Y X*Y 4 5 2,5 9 1 8 7 2,5 6 45 -3,5 6,38889 Wurzel => 6,61111 Wurzel => Korrelationskoeffizient 2,528 2,571 -0,5385 X² 14 30 20 31,5 6 16 7 15 54 193,5 Y² 12,25 36 64 12,25 36 4 1 36 81 282,5 16 25 6,25 81 1 64 49 6,25 36 284,5 30. Aufgabe Wie gut schätzt die Regressionsgerade die Veränderung der Punktzahl in der Klausur bei einer Veränderung der Anzahl vorbereiteter Hausübungen? R² = 0,513 => 51,30 % der Regression von Y durch X werden durch die Regressionsgrade erklärt. 31. Aufgabe 32. Betrieb Aufgabe Umsatz (X) xi2 Aufwand (Y) yi2 xi*yi A 78 27 6084 729 2106 B 85 28 7225 784 2380 C 105 31 11025 961 3255 D 116 32 13456 1024 3712 E 91 28 8281 784 2548 F 74 25 5476 625 1850 G 63 22 3969 484 1386 H 75 26 5625 676 1950 I 85 30 7225 900 2550 J 98 31 9604 961 3038 K 105 32 11025 1024 3360 L 57 24 3249 576 1368 1.032 336 92.244 9.528 29.503 Summe Xa = 1.032/12 = 86 C XY sx2 Ya= 336/12 = 28 1 n 1 n 1 ( x x ) * ( y y ) x jy j X A Y A * 29.503 86 * 28 50,59 j j n j1 n j1 12 1 n 2 1 x i ( X )2 * 92.244 86 2 291 n i1 12 s x 291 17,059 sy2 1 n 2 1 y i ( y )2 * 9.528 28 2 10 n i1 12 s y 10 3,162 rXY C XY 50,59 0,938 X * Y 17,059 * 3,162 b rxy * sy sx 0,938 * 3,162 0,174 17,059 a 28 0,174 * 86 13,036 ŷ i a bx i ^ y i 13,036 0,174 * x i ^ y( 70 ) 13,036 0,174 * 70 25,216 R2 ( rxy )2 0,9382 0,869 33. Aufgabe 1. Zunächst werden die Ränge über jeden Gutachter erstellt Kandidat i Bewertung A Bewertung B Rang A Rang B 1 82 11 42 10 2 98 7 46 9 3 87 8 39 11 4 40 12 37 12 5 116 3 65 5 6 113 4 88 2 7 111 5 86 3 8 83 10 56 7 9 85 9 62 6 10 126 1 92 1 11 106 6 54 8 12 117 2 81 4 2. Da es keine Bindungen gibt, kann mit der vereinfachten Formel des Rangkorrelationskoeffizienten nach Spearman berechnet werden: n 6 * d 2 n 6 * d2 i1 i1 rs 1 1 ( n 1) * n *( n 1) n *( n2 1) Hierzu müssen zunächst die Rangdifferenzen berechnet werden! Kandidat i Rang A Rang B Differenz der Rangplätze( d): Rang A - Rang B d2 1 11 10 1 1 2 7 9 -2 4 3 8 11 -3 9 4 12 12 0 0 5 3 5 -2 4 6 4 2 2 4 7 5 3 2 4 8 10 7 3 9 9 9 6 3 9 10 1 1 0 0 11 6 8 -2 4 12 2 4 -2 4 78 78 0 52 Summe n rs 1 6 * d2 i 1 2 1 6 * 52 312 1 12 *( 122 1) 12 * 143 n *( n 1) 312 1 1 0,1818 0,8182 1716 Es besteht somit ein starker positiver Zusammenhang zwischen den beiden Einstufungen der Abteilungsleiter A und B. Den gleichen Wert hätte man erhalten, wenn man den Bravais-Pearson Korrelationskoeffizient auf die Ränge A und B angewendet hätte. Ist aber aufwendiger und nur im Fall von „Bindungen“ anzuwenden. 34. Aufgabe (a) X= Fläche der Wohnung in m² Y= Mietpreis in € sx= 8,944 sy= 76,345 Berechnung von rxy: 7,904= rxy *76,345/8,944 7,904= rxy * 8,536 rxy= 0,926 R² = (0,926²) = 0,857 85,7 % der Variation von Y (der Kaltmiete) werden durch die Regressionsfunktion bzw. durch die Variation von X (der Fläche der Wohnung) erklärt. (b) Mit circa 466,61€ ( y= 166,26+7,904*38 => 466,61) 35. Aufgabe relative Häufigkeiten positiv unentschieden negativ Summe weiblich 0,17 0,082 0,148 0,4 männlich 0,3 0,104 0,196 0,6 Summe 0,47 0,186 0,344 1 Wie müssten die relativen Häufigkeiten aussehen, wenn es keinen Zusammenhang zwischen der Entscheidung der Pausenregelung und dem Geschlecht gibt: Unabhängigkeitstabelle Positiv unentschieden Summe negativ 0,47*200 = 94 0,186*200 = 37,2 0,344*200 = 68,8 200 männlich 141 55,8 103,2 300 Summe 235 93 172 500 weiblich ij hij (o) hij ( e ) hij (o) - hij (e ) (hij (o) - hij (e )) 2 (hij (o) - hij (e )) / hij ( e ) 11 85 94 -9 81 0,862 12 41 37 4 16 0,432 13 74 69 5 25 0,362 21 150 141 9 81 0,574 22 52 56 -4 16 0,286 23 98 103 -5 25 0,243 Summe C 2 Chi-Quadrat =2,759 2 2 n 2,759 0,0055 0,0741 2,759 500 min( k,r ) 1 1 0,707 min( k,r ) 2 C max C korr C C max 36. 2 2 n 0,0741 0,105 C max 0,707 Aufgabe Zunächst muss die Rangfolge bzgl. beider Ausprägungen bestimmt werden: Preis € Rang (P) Qualitätsurteil Rang (Q) Nr 1 15 8 ++ 1 2 30 5 - 10 3 10 12 + 5 4 22 7 ++ 2 5 44 3 ++ 3 6 13 10 + 6 7 15 9 0 8 8 23 6 + 7 9 30 4 0 9 10 45 2 ++ 4 11 12 11 - 11 12 46 1 -- 12 Hier ist jetzt zu beachten, dass sowohl bzgl. des Preises als auch des Qualitätsurteils die Produkte teilweise gleiche Ränge erhalten: Es muss der durchschnittliche Rang berechnet werden. Bzgl. des Preises haben Produkt Nr. 1 und 7 den gleichen Preis von 15 €, d.h. sie belegen Rang 8 und 9: Ø Rang: (8 + 9)/2 =8,5 Produkt 2 und 9 kosten jeweils 30 €, d.h. sie belegen Rang 4 und 5: Ø Rang: (4 + 5)/2 =4,5 Bzgl. des Qualitätsurteils sind 4 Produkte mit ++ bewertet: (Rang1,2,3 und 4):Ø Rang: (1 +2+ 3+4)/4 = 2,5 3 Produkte mit + bewertet (Rang 5,6 und 7): Ø Rang: (5 +6+ 7)/3 = 6 2 Produkte mit 0 bewertet (Rang 8 und 9): Ø Rang: (8+9)/2 = 8,5 2 Produkte mit - bewertet (Rang 10 und 11): Ø Rang: (10+11)/2 = 10,5 Preis € Rang (P) Qualitätsurteil Rang (Q) Nr 1 15 8,5 ++ 2,5 2 30 4,5 - 10,5 3 10 12 + 6 4 22 7 ++ 2,5 5 44 3 ++ 2,5 6 13 10 + 6 7 15 8,5 0 8,5 8 23 6 + 6 9 30 4,5 0 8,5 10 45 2 ++ 2,5 11 12 11 - 10,5 12 46 1 -- 12 Es muss aufgrund der vielen Bindungen der Rangkorrelationskoeffizient nach BravaisPearson berechnet werden, aber anstatt der Werte werden die Ränge betrachtet: rXY 1 n rg(x j ) rg(x ) rg(y j ) rg(y ) n j1 n 2 1 2 1 n rg(x j ) rg( x ) rg(y j ) rg(y ) n j1 n j1 Es folgen zwei Lösungsmöglichkeiten I. Lösungsweg aus dem Skript von Frau Jacobsen: 1.) Rang (P) (X) Rang (Q) (Y) rg(x) rg(Xa) 2.) rg(y) rg(Ya) 3.) 1.)*2.) (rg(x) rg(Xa)) 2 4.) (rg(y) rg(Ya)) 2 1 8,5 2,5 2,00 -4,00 -8,00 4,00 16,00 2 4,5 10,5 -2,00 4,00 -8,00 4,00 16,00 3 12 6 5,50 -0,50 -2,75 30,25 0,25 4 7 2,5 0,50 -4,00 -2,00 0,25 16,00 5 3 2,5 -3,50 -4,00 14,00 12,25 16,00 6 10 6 3,50 -0,50 -1,75 12,25 0,25 7 8,5 8,5 2,00 2,00 4,00 4,00 4,00 8 6 6 -0,50 -0,50 0,25 0,25 0,25 9 4,5 8,5 -2,00 2,00 -4,00 4,00 4,00 10 2 2,5 -4,50 -4,00 18,00 20,25 16,00 11 11 10,5 4,50 4,00 18,00 20,25 16,00 12 1 12 -5,50 5,50 -30,25 30,25 30,25 Summen 78 78 0 0 -2,5 142 135 1 n 1 rg(x j ) rg(x ) rg(y j ) rg(y ) *( 2,5 ) 0,2083 n j1 12 Zähler von rs: Nenner von rs : n 2 1 2 1 n 1 1 rg( x ) rg( x ) rg(y j ) rg(y ) * 142 * * 135 133,125 11,53798 j n j1 n j1 12 12 rs 0,2083 0,018 11,53798 Es besteht kein linearer Zusammenhang und die Aussage trifft nicht zu!!! II. 1 2 3 4 5 6 7 8 9 10 11 12 Summen Lösungsweg den wir im Tutorium besprochen haben: Rang (X) Rang (Y) X*Y 8,5 2,5 4,5 10,5 12 6 7 2,5 3 2,5 10 6 8,5 8,5 6 6 4,5 8,5 2 2,5 11 10,5 1 12 78 78 Xa Ya Cxy sx sy r = = = = = = X² 21,25 47,25 72 17,5 7,5 60 72,25 36 38,25 5 115,5 12 504,5 Y² 72,25 20,25 144 49 9 100 72,25 36 20,25 4 121 1 649 78/12 = 78/12 = ((504,5/12))-(6,5*6,5) = (649/12)-(6,5²) = (642/12)-(6,5²) = -0,2083/(3,440*3,354) = 6,25 110,25 36 6,25 6,25 36 72,25 36 72,25 6,25 110,25 144 642 6,5 6,5 -0,2083 11,8333333 => Wurzel 11,25 => Wurzel -0,018 3,440 3,354 37. Aufgabe Zunächst wird die abhängige Variable Ct mit y bezeichnet, die unabhängige Variable Yt mit x. Die Koeffizienten a und b werden wie folgt berechnet: y b* x a b C xy s 2 x |* sy sy C xy * s y sx * sy * sx rxy * sy sx Hilfstabelle aufstellen, um sx und sy zu berechnen sowie den Korrelationskoeffizient bzw. die Covarianz: C XY Jahr 1 n 1 n ( x x ) * ( y y ) j x jy j X A Y A j n j1 n j1 Ct =Yj Yt = Xj y YA ( x X A ) *( y Y A ) x XA 2000 3 3,5 -0,5 -1 0,5 2001 3,3 4 -0,2 -0,5 0,1 2002 3,5 4,5 0 0 0 2003 4,2 6 0,7 1,5 1,05 14 18 1 YA ( 3 3,3 3,5 4,2 ) 3,5 4 C XY Summe = 1,65 1 X A ( 3,5 4 4,5 6 ) 4,5 4 1 n 1 ( x j x ) *( y j y ) * 1,65 0,4125 n j1 4 Jahr Ct =Yj Yt = Xj (xj - X) 2 xj - X 2000 3 3,5 -1 1 2001 3,3 4 -0,5 0,25 2002 3,5 4,5 0 0 2003 4,2 6 1,5 2,25 Summe = 3,5 Die Varianz von x sx2: x 2 b 1 n 1 ( x j x A )2 * 3,5 0,875 n j1 4 C xy s 2 x 0,4125 0,471 0,875 Oder zunächst den Korrelationskoeffizienten berechnen b rxy * sy sx x x 2 0,875 0,9354 y y 2 0,1955 0,4415 rXY 1 n ( x j x ) *( y j y ) n j1 C XY 0,4125 0,998 X * Y X * Y 0,9354 * 0,4415 b rxy * sy sx 0,998 * 0,4415 0,471 0,9354 a y b * x 3,5 0,471* 4,4 1,378 Ct = a + b*Yt Ct (yt) = 1,378 + 0,471*Yt C (7) = 1,378 + 0,471*7 = 4,678 Billionen Gütemaß R2 ( rxy )2 ( 0.998)2 0,997