YMR0070, 010/011 kevad 1/8 TÕEÄOSUSTEOORIA JA MATEMAATILIE STATISTIKA Objekt (element, indiviid) katse käigus mõõdetav ühik. Üldkogum kõikide objektide hulk, mille omaduste vastu tuntakse huvi. Objektide arvu üldkogumis tähistatakse tavaliselt. Valim üldkogumi alamhulk, objektide arvu valimis tähistatakse tavaliselt n. Andmed arvud ja muud faktid, mida kogutakse, analüüsitakse ja summeeritakse. Andmestik uuringu käigus kogutud andmete kogu, saadakse katse tulemusi registreerides. Tunnus (muutuja) näitaja, mida objektil mõõdetakse. Kui tunnus võib omandada mistahes väärtuse mingilt lõigult, siis nimetatakse seda tunnust pidevaks. Kui tunnuse väärtused määratakse loendamise teel, st tunnus võib omandada ainult täisarvulisi väärtusi, siis nimetatakse tunnust diskreetseks. Kvalitatiivsed andmed elementide nimed või sildid. Kvantitatiivsed andmed näitavad objekti iseloomustavat arvulist suurust. 1. Kirjeldav statistika andmete korrastamine, nähtavaks tegemine, lihtsamate karakteristikute arvutamine. Kirjeldav statistika ei vaja tõenäosusteooria alaseid teadmisi.. Tõenäosusteooria. 3. Järeldav (matemaatiline) statistika suhteliselt väikese osa objektide (valimi) andmete abil järelduste tegemine kõigi objektide kogumi (üldkogumi) omaduste kohta. Järelduste tegemine põhineb tõenäosusteoorial. KIRJELDAV STATISTIKA 1. Tabelite koostamine. Graafikud ja joonised 3. Lihtsamate karakteristikute arvutamine äide. Olgu antud andmestik IMI SUGU VAUS PIKKUS KAAL 1 ALFRED M 14 69,0 11,5 ALICE F 13 56,5 84,0 3 BARBARA F 13 65,3 98,0 4 CAROL F 14 6,8 10,5 5 HERY M 14 63,5 10,5 6 JAMES M 1 57,3 83,0 7 JAE F 1 59,8 84,5 8 JAET F 15 6,5 11,5 9 JEFFREY M 13 6,5 84,0 10 JOH M 1 59,0 99,5 11 JOYCE F 11 51,3 50,5 1 JUDY F 14 64,3 90,0 13 LOUISE F 1 56,3 77,0 14 MARY F 15 66,5 11,0 15 PHILIP M 16 7,0 150,0 16 ROBERT M 1 64,8 18,0 17 ROALD M 15 67,0 133,0 18 THOMAS M 11 57,5 85,0 19 WILLIAM M 15 66,5 11,0
YMR0070, 010/011 kevad /8 Iga õpilast iseloomustab mitu tunnust ehk muutujat.imi ja SUGU on kvalitatiivsed tunnused ( sildid ), VAUS, PIKKUS ja KAAL on kvantitatiivsed tunnused. On mõõdetud 19 õpilast Ühemõõtmelised tabelid Õpilaste jaotus soo järgi Sugu Arv F 9 M 10 Kokku 19 Õpilaste jaotus vanuse järgi (sageduste tabel) Vanus Arv 11 1 5 13 3 14 4 15 4 16 1 Kokku 19 Kahemõõtmeline tabel Õpilaste jaotus soo ja vanuse järgi Vanus Sugu 11 1 13 14 15 16 Kokku F 1 0 9 M 1 3 1 1 10 Kokku 5 3 4 4 1 19 Tulpdiagrammid 1 Õpilaste jaotus soo järgi 10 8 6 4 0 F M
YMR0070, 010/011 kevad 3/8 6 Õpilaste jaotus vanuse järgi 5 4 3 1 0 11 1 13 14 15 16 Õpilaste jaotus soo ja vanuse järgi 4 3 F M 1 0 11 1 13 14 15 16 Sektordiagrammid Õpilaste jaotus soo järgi F M Õpilaste jaotus vanuse järgi 11 1 13 14 15 16
YMR0070, 010/011 kevad 4/8 Lihtsaimad karakteristikud Olgu mõõdetud üldkogumi kõikide objektide i1,,..., puhul tunnuse x väärtus x i. (Aritmeetiline) keskmine x 1 x... x i 1 x i. Exceli funktsioon aritmeetilise keskmise arvutamiseks AVERAGE Kaalutud keskmine kui on teada m rühma keskmised ja objektide arvud: Rühm 1... m Rühma keskmine 1... m Objektide arv rühmas 1... m Üldine keskmine: 1 1... m m, kus 1 + +...+ m. Mediaan Kui is paaritu, siis on mediaan järjestatud statistilise rea ehk variatsioonrea keskmine liige. Kui on paaris, siis on mediaan variatsioonrea kahe keskmise liikme poolsumma. Exceli funktsioon mediaani arvutamiseks MEDIA Mood Mood on arvrea suurima sagedusega liige. Exceli funktsioon moodi arvutamiseks MODE Protsentiilid p-protsentiil on arv, millest p protsenti andmetest on temast väiksem või võrdne ja (100-p) protsenti suurem või võrdne. 5-protsentiili nimetatakse esimeseks kvartiiliks. Mediaan on 50-protsentiil ehk teine kvartiil. 75-protsentiili nimetatakse kolmandaks kvartiiliks. Exceli funktsioon kvartiilide arvutamiseks QUARTILE Dispersioon σ x 1 x... x i 1 xi
YMR0070, 010/011 kevad 5/8 xi Excel VARP, arvutuste lihtsustamiseks võib kasutada valemit σ i1 Standardhälve (tõestus lisas). σ σ Excel STDEVP Variatsioonikordaja e suhteline viga CV σ Haare on arvrea suurima ja vähima väärtuse vahe. Olgu igal objektil on mõõdetud rohkem kui üks tunnus Jrk. nr. x y... 1 x 1 y 1... x y......... x y... Iga mõõdetud tunnuse väärtused moodustavad arvrea ehk statistilise rea. Tunnuste x ja y vaheline kovariatsioon: xi i1 x y i y σ xy, kus x on x keskmine ja y on y keskmine. x i1 i y i Excel COVAR, arvutamiseks lihtsam valem σ xy x y (Pearsoni) korrelatsioonikordaja ρ ρ xy σ xy σ x σ y,kus σ x on x standardhälve ja and σ y on y standardhälve. Kehtib 1 (tõestus lisas). Excel: CORREL
YMR0070, 010/011 kevad 6/8 äide. Lk. 1 antud andmestiku puhul õpilaste pikkuste aritmeetiline keskmine ehk keskmine pikkus on x x 1 x... x 19 19 69,0 56,5...66,5 6,3 19 ja keskmine kaal 11,5 84,0... 11,0 100,0 y y y... y 1 19 19 19 Pikkuse mediaani leidmiseks järjestame õpilaste pikkused minimaalsest maksimaalseni. Pikkuste variatsioonrida on 51,3 56,3 56,5 57,3 57,5 59,0 59,8 6,5 6,5 6,8 63,5 64,3 64,8 65,3 66,5 66,5 67,0 69,0 7,0 Pikkuse mediaan on pikkuse järjestatud väärtuste keskmine element 6,8. Kaal järjestatuna minimaalsest maksimaalseni ehk kaalu variatsioonrida on 50,5 77,0 83,0 84,0 84,0 84,5 85,0 90,0 98,0 99,5 10,5 10,5 11,0 11,0 11,5 11,5 18,0 133,0 150,0 Kaalu mediaan on kaalu järjestatud väärtuste keskmine element 99,5. Pikkuse esimene kvartiil: (57,5 + 59,0 )/ 58,3, pikkuse kolmas kvartiil (65,3+66,5)/65,9 51,3 56,3 56,5 57,3 57,5 59,0 59,8 6,5 6,5 6,8 63,5 64,3 64,8 65,3 66,5 66,5 67,0 69,0 7,0 Kaalu esimene kvartiil (84,0+84,5)/84,3, kaalu kolmas kvartiil (11,0+11,5)/11,3 50,5 77,0 83,0 84,0 84,0 84,5 85,0 90,0 98,0 99,5 10,5 10,5 11,0 11,0 11,5 11,5 18,0 133,0 150,0 Pikkuse miinimum 51,3, pikkuse maksimum 7,0, pikkuse haare 7,0 51,3 0,7 Kaalu miinimum 50,5, kaalu maksimum 150,0, kaalu haare 150,0 50,5 99,5. Enne kovariatsiooni ja korrelatsioonikordaja leidmist vt. hajusdiagrammi Pikkuse ja kaalu seos kaal 160 140 10 100 80 60 40 0 0 0 10 0 30 40 50 60 70 80 pikkus
YMR0070, 010/011 kevad 7/8 Diagrammilt on näha, et kui õpilase pikkus on keskmisest suurem (väiksem), siis enamikul juhtudest on selle õpilase kaal niisamuti keskmisest suurem (väiksem). Peale selle võib täheldada, et pikkuse ja kaalu vaheline sõltuvus on enam-vähem lineaarne. Sellisel juhul öeldakse, et pikkus ja kaal on positiivselt (negatiivselt) korreleeritud. Pikkuse ja kaalu vaheline kovariatsioon on 97,1 ja korrelatsioonikordaja 0,88 (vt. arvutusi alljärgnevas tabelis). Jrk.nr. IMI SUGU VAUS PIKKUS (x) KAAL (y) x y x*y 1 ALFRED M 14 69,0 11,5 4761,0 1656,3 776,5 ALICE F 13 56,5 84,0 319,3 7056,0 4746 3 BARBARA F 13 65,3 98,0 464,1 9604,0 6399,4 4 CAROL F 14 6,8 10,5 3943,8 10506,3 6437 5 HERY M 14 63,5 10,5 403,3 10506,3 6508,75 6 JAMES M 1 57,3 83,0 383,3 6889,0 4755,9 7 JAE F 1 59,8 84,5 3576,0 7140,3 5053,1 8 JAET F 15 6,5 11,5 3906,3 1656,3 7031,5 9 JEFFREY M 13 6,5 84,0 3906,3 7056,0 550 10 JOH M 1 59,0 99,5 3481,0 9900,3 5870,5 11 JOYCE F 11 51,3 50,5 631,7 550,3 590,65 1 JUDY F 14 64,3 90,0 4134,5 8100,0 5787 13 LOUISE F 1 56,3 77,0 3169,7 599,0 4335,1 14 MARY F 15 66,5 11,0 44,3 1544,0 7448 15 PHILIP M 16 7,0 150,0 5184,0 500,0 10800 16 ROBERT M 1 64,8 18,0 4199,0 16384,0 894,4 17 ROALD M 15 67,0 133,0 4489,0 17689,0 8911 18 THOMAS M 11 57,5 85,0 3306,3 75,0 4887,5 19 WILLIAM M 15 66,5 11,0 44,3 1544,0 7448 Sum ma 1184,4 1900,5 74304,9 199435,75 10316,05 Keskm ine 6,34 100,03 3910,79 10496,6 633,4 Dispersioon 4,9 491,35 Standardhälve 4,99,17 Kui on mõõdetud üldkogumi osahulk ehk valim mahuga n, siis valimi karakteristikud on analoogilised üldkogumi vastavate karakteristikutega. Valimkeskmine Kovariatsioon633,4 6,34*100,03 97,10 Korrelatsioonikordaja 97,1/( 4,99*,17) 0,88 x x 1 x... x n n n i1 n x i, valimdispersioon s x 1 x x x... x n x n 1 n x i 1 i x n 1, Exceli funktsioon VAR, valimstandardhälve s s, Exceli funktsioon STDEV. Valimi mood, mediaan, kvartiilid ja haare arvutatakse analoogiliselt vastavate karakteristikutega üldkogumis.
YMR0070, 010/011 kevad 8/8 Lisa. Tõestused 1. Hälvete summa on 0 i1 xi i1 xi 0. Dispersiooni arvutamise lihtsam valem σ i1 xi 1 i1 1 i1 xi x i 1 i1 xi i1 xi x i1 i 1 xi 1 x i1 i 1 i Kovariatsiooni arvutusvalemi σ xy 1 i1 xi i1 xi y i x y tõestus analoogiline. 3. Korrelatsioonikordaja absoluutväärtus on väiksem või võrdne ühega Olgu λ suvaline arv. Koostame ruutvõrrandi 1 i1 [ xi x y i y ] 1 xi i1 x i1 xi x y i y 1 i1 yi y Võrrandi vasak pool on mittenegatiivne, järelikult ka parem pool on mittenegatiivne, mis on võimalik ainult siis, kui diskriminant b 4ac on mittepositiivne: a 1 i1 xi x,, b i1 xi x y i y c 1 i1 yi y ja b 4ac [ xy ] 4 x y 0, millest xy x y ja seega xy xy x y 1 Kalkulaatorid internetis, näiteks http://home.ubalt.edu/ntsbarsh/businessstat/otherapplets/descriptive.htm, http://www.ruf.rice.edu/~lane/stat_analysis/descriptive.html, http://bcs.whfreeman.com/ips4e/cat_010/applets/histogramips.html.