TÕENÄOSUSTEOORIA JA MATEMAATILINE STATISTIKA



Similar documents
ÕPIOBJEKT Andmeanalüüs MS Excelis (MS Excel 2010 baasil) Tanel Kaart

Andmetöötlus Excel is. Sisukord. Koostanud: Katrin Niglas 1

MICROSOFT LYNC LITSENTSIMINE

PROC SUMMARY Options Beyond the Basics Susmita Pattnaik, PPD Inc, Morrisville, NC

This document is a preview generated by EVS


Sharemind - the Oracle of secure computing systems. Dan Bogdanov, PhD Sharemind product manager dan@cyber.ee

Sound Art? kunst.ee magazine special section Estonian Quarterly of Art and Visual Culture June 2006 edition

EESTI STANDARD EVS-ISO/IEC :2007

Genetic Algorithms in Test Pattern Generation

EESTI STANDARD EVS-EN 27786:1999

Risk and return (1) Class 9 Financial Management,

This document is a preview generated by EVS

Elizabeth J. Daly Curriculum Vitae

Outline. Topic 4 - Analysis of Variance Approach to Regression. Partitioning Sums of Squares. Total Sum of Squares. Partitioning sums of squares

Pilk Tomi kaljutaidele ja petroglüüfide statistikale*

PharmaSUG Paper TT03

MINIMUM WAGE IN ESTONIA WHEN JOINING THE EUROPEAN UNION. Marit Hinnosaar Bank of Estonia

Uus võimalus sünnieelseks loote kromosoomihaiguste sõeluuringuks loote rakuvaba DNA määramine ema verest

Placed policies while unlicensed. Placed policies while unlicensed


Lawyers A CRITICAL READER RICHARD L. ABEL. Edited by. The New Press New York

Remote Desktop Connection käsiraamat. Brad Hards Urs Wolfer Tõlge eesti keelde: Marek Laane

Department of Business Services & Management. Higher Diploma in. Course booklet 03/04

Inteli 64-bitiste protsessorite ajalooline areng

Geostatistics Exploratory Analysis

Haridus ja kultuur Education and culture

Tdlkebiiroo kinnitus. Kinnitame, et lisatud dokument on tdlgitud meie t6lkebiiroo poolt. EM T6lge OU Mattias Metsik

This document is a preview generated by EVS

EESTI STANDARD EVS-EN :2011

XII. RISK-SPREADING VIA FINANCIAL INTERMEDIATION: LIFE INSURANCE

This document is a preview generated by EVS

5. Linear Regression

SF2940: Probability theory Lecture 8: Multivariate Normal Distribution

TIPS FOR DOING STATISTICS IN EXCEL

TOOMAS TAMM ITK UROLOOG EUS president

SIMPLE LINEAR CORRELATION. r can range from -1 to 1, and is independent of units of measurement. Correlation can be done on two dependent variables.

Contemporary Mathematics Online Math 1030 Sample Exam I Chapters No Time Limit No Scratch Paper Calculator Allowed: Scientific

tarkvarasüsteemidele Projekti töötulemid Tellija: Majandus- ja Kommunikatsiooniministeerium Harju 11, Tallinn E-post

KAUBAMÄRK ÄRITEGEVUSES (ÄRINIMI, DOMEENINIMI)

EESTI STANDARD EVS-EN ISO 877-3:2011

Data Mining: Algorithms and Applications Matrix Math Review

This document is a preview generated by EVS

TOITUMISSOOVITUSED EAKATELE

Portfolio Distribution Modelling and Computation. Harry Zheng Department of Mathematics Imperial College

This document is a preview generated by EVS

consider the number of math classes taken by math 150 students. how can we represent the results in one number?

STUDENT ROLES AND EXPECTATIONS IN THE DISTANCE EDUCATION DELIVERY PROCESS

TELERI JA KODUKINO OSTJA ABC. Lugemist neile, kes soovivad enamat kui telerit toanurgas MIDA VÕIKS TEADA ENNE OSTMA MINEKUT

problem arises when only a non-random sample is available differs from censored regression model in that x i is also unobserved

2. Filling Data Gaps, Data validation & Descriptive Statistics

Probability and Statistics Vocabulary List (Definitions for Middle School Teachers)

Exercise 1.12 (Pg )

SF2940: Probability theory Lecture 8: Multivariate Normal Distribution

This document is a preview generated by EVS

EESTI STANDARD EVS-EN :2011

Educational Technology - Advanced Certificate

Presented by Mary Carol G. Pomatto, EdD, APRN

This document is a preview generated by EVS

This document is a preview generated by EVS. Helmets for pedal cyclists and for users of skateboards and roller skates

University of Maryland Fraternity & Sorority Life Spring 2015 Academic Report

Lisa 2. Lõputöö nõuded

A History of Chancellor s Faculty Fellowships

This document is a preview generated by EVS

Filtered Gaussian Processes for Learning with Large Data-Sets

Chapter 5 Risk and Return ANSWERS TO SELECTED END-OF-CHAPTER QUESTIONS

Foundations and Fundamentals

Guide to Microsoft Excel for calculations, statistics, and plotting data

Activity 3.7 Statistical Analysis with Excel

Descriptive Statistics. Purpose of descriptive statistics Frequency distributions Measures of central tendency Measures of dispersion

Statistics 100A Homework 8 Solutions

Introduction: Overview of Kernel Methods

Atlanta EFFECTIVE AS OF MARCH 2016

The CAPM (Capital Asset Pricing Model) NPV Dependent on Discount Rate Schedule

Joint Exam 1/P Sample Exam 1

Factoring Quadratic Expressions

HOW WILL I BENEFIT FROM USING THIS PROGRAM?

For a partition B 1,..., B n, where B i B j = for i. A = (A B 1 ) (A B 2 ),..., (A B n ) and thus. P (A) = P (A B i ) = P (A B i )P (B i )

TARTU ÜLIKOOLI NARVA KOLLEDŽ ÜHISKONNATEADUSTE LEKTORAAT

AFFILIATION. Why is Affiliation an Important Issue?

For students MACS Career & Education SANIKU GAKUIN

1. If the opportunity cost of capital is 14 percent, what is the net present value of the factory?

Factoring a Difference of Two Squares. Factoring a Difference of Two Squares

VIDEO DIGITAALNE SÄILITAMINE CD-L

IN THE UNITED STATES DISTRICT COURT FOR THE NORTHERN DISTRICT OF GEORGIA ATLANTA DIVISION

General Regression Formulae ) (N-2) (1 - r 2 YX

THE BRITISH JOURNAL OF SOCIAL WORK

SOCIETY OF ACTUARIES. EXAM MLC Models for Life Contingencies EXAM MLC SAMPLE QUESTIONS

TESTING OF VOLTAGE CONVERTERS FOR THE ELECTRICAL POWER SYSTEM OF ESTCUBE-2

Determining the Productivity of Instructional Systems

EESTI STANDARD EVS-EN 62300:2005. Consumer audio/video equipment digital interface with plastic optical fibre

Smith Family Genealogy from the Clarence H. Smith Papers. Freddie Waters and Stephanie M. Schulze

LONDON METROPOLITAN ARCHIVES NATIONAL TRUST. E/NT Reference Description Dates FENTON HOUSE, THE GROVE, HAMPSTEAD

Image Exchange. Overview & Demo for

KIILI RIKKUS JA ELOJOUD KEELTE PALJUSUS JA ELUJÕUD

Central Tendency - Computing and understanding averages. different in conception and calculation. They represent different notions of the center of a

An introduction to using Microsoft Excel for quantitative data analysis

Leadership Development

Data exploration with Microsoft Excel: univariate analysis

PROPERTIES OF THE SAMPLE CORRELATION OF THE BIVARIATE LOGNORMAL DISTRIBUTION

Transcription:

YMR0070, 010/011 kevad 1/8 TÕEÄOSUSTEOORIA JA MATEMAATILIE STATISTIKA Objekt (element, indiviid) katse käigus mõõdetav ühik. Üldkogum kõikide objektide hulk, mille omaduste vastu tuntakse huvi. Objektide arvu üldkogumis tähistatakse tavaliselt. Valim üldkogumi alamhulk, objektide arvu valimis tähistatakse tavaliselt n. Andmed arvud ja muud faktid, mida kogutakse, analüüsitakse ja summeeritakse. Andmestik uuringu käigus kogutud andmete kogu, saadakse katse tulemusi registreerides. Tunnus (muutuja) näitaja, mida objektil mõõdetakse. Kui tunnus võib omandada mistahes väärtuse mingilt lõigult, siis nimetatakse seda tunnust pidevaks. Kui tunnuse väärtused määratakse loendamise teel, st tunnus võib omandada ainult täisarvulisi väärtusi, siis nimetatakse tunnust diskreetseks. Kvalitatiivsed andmed elementide nimed või sildid. Kvantitatiivsed andmed näitavad objekti iseloomustavat arvulist suurust. 1. Kirjeldav statistika andmete korrastamine, nähtavaks tegemine, lihtsamate karakteristikute arvutamine. Kirjeldav statistika ei vaja tõenäosusteooria alaseid teadmisi.. Tõenäosusteooria. 3. Järeldav (matemaatiline) statistika suhteliselt väikese osa objektide (valimi) andmete abil järelduste tegemine kõigi objektide kogumi (üldkogumi) omaduste kohta. Järelduste tegemine põhineb tõenäosusteoorial. KIRJELDAV STATISTIKA 1. Tabelite koostamine. Graafikud ja joonised 3. Lihtsamate karakteristikute arvutamine äide. Olgu antud andmestik IMI SUGU VAUS PIKKUS KAAL 1 ALFRED M 14 69,0 11,5 ALICE F 13 56,5 84,0 3 BARBARA F 13 65,3 98,0 4 CAROL F 14 6,8 10,5 5 HERY M 14 63,5 10,5 6 JAMES M 1 57,3 83,0 7 JAE F 1 59,8 84,5 8 JAET F 15 6,5 11,5 9 JEFFREY M 13 6,5 84,0 10 JOH M 1 59,0 99,5 11 JOYCE F 11 51,3 50,5 1 JUDY F 14 64,3 90,0 13 LOUISE F 1 56,3 77,0 14 MARY F 15 66,5 11,0 15 PHILIP M 16 7,0 150,0 16 ROBERT M 1 64,8 18,0 17 ROALD M 15 67,0 133,0 18 THOMAS M 11 57,5 85,0 19 WILLIAM M 15 66,5 11,0

YMR0070, 010/011 kevad /8 Iga õpilast iseloomustab mitu tunnust ehk muutujat.imi ja SUGU on kvalitatiivsed tunnused ( sildid ), VAUS, PIKKUS ja KAAL on kvantitatiivsed tunnused. On mõõdetud 19 õpilast Ühemõõtmelised tabelid Õpilaste jaotus soo järgi Sugu Arv F 9 M 10 Kokku 19 Õpilaste jaotus vanuse järgi (sageduste tabel) Vanus Arv 11 1 5 13 3 14 4 15 4 16 1 Kokku 19 Kahemõõtmeline tabel Õpilaste jaotus soo ja vanuse järgi Vanus Sugu 11 1 13 14 15 16 Kokku F 1 0 9 M 1 3 1 1 10 Kokku 5 3 4 4 1 19 Tulpdiagrammid 1 Õpilaste jaotus soo järgi 10 8 6 4 0 F M

YMR0070, 010/011 kevad 3/8 6 Õpilaste jaotus vanuse järgi 5 4 3 1 0 11 1 13 14 15 16 Õpilaste jaotus soo ja vanuse järgi 4 3 F M 1 0 11 1 13 14 15 16 Sektordiagrammid Õpilaste jaotus soo järgi F M Õpilaste jaotus vanuse järgi 11 1 13 14 15 16

YMR0070, 010/011 kevad 4/8 Lihtsaimad karakteristikud Olgu mõõdetud üldkogumi kõikide objektide i1,,..., puhul tunnuse x väärtus x i. (Aritmeetiline) keskmine x 1 x... x i 1 x i. Exceli funktsioon aritmeetilise keskmise arvutamiseks AVERAGE Kaalutud keskmine kui on teada m rühma keskmised ja objektide arvud: Rühm 1... m Rühma keskmine 1... m Objektide arv rühmas 1... m Üldine keskmine: 1 1... m m, kus 1 + +...+ m. Mediaan Kui is paaritu, siis on mediaan järjestatud statistilise rea ehk variatsioonrea keskmine liige. Kui on paaris, siis on mediaan variatsioonrea kahe keskmise liikme poolsumma. Exceli funktsioon mediaani arvutamiseks MEDIA Mood Mood on arvrea suurima sagedusega liige. Exceli funktsioon moodi arvutamiseks MODE Protsentiilid p-protsentiil on arv, millest p protsenti andmetest on temast väiksem või võrdne ja (100-p) protsenti suurem või võrdne. 5-protsentiili nimetatakse esimeseks kvartiiliks. Mediaan on 50-protsentiil ehk teine kvartiil. 75-protsentiili nimetatakse kolmandaks kvartiiliks. Exceli funktsioon kvartiilide arvutamiseks QUARTILE Dispersioon σ x 1 x... x i 1 xi

YMR0070, 010/011 kevad 5/8 xi Excel VARP, arvutuste lihtsustamiseks võib kasutada valemit σ i1 Standardhälve (tõestus lisas). σ σ Excel STDEVP Variatsioonikordaja e suhteline viga CV σ Haare on arvrea suurima ja vähima väärtuse vahe. Olgu igal objektil on mõõdetud rohkem kui üks tunnus Jrk. nr. x y... 1 x 1 y 1... x y......... x y... Iga mõõdetud tunnuse väärtused moodustavad arvrea ehk statistilise rea. Tunnuste x ja y vaheline kovariatsioon: xi i1 x y i y σ xy, kus x on x keskmine ja y on y keskmine. x i1 i y i Excel COVAR, arvutamiseks lihtsam valem σ xy x y (Pearsoni) korrelatsioonikordaja ρ ρ xy σ xy σ x σ y,kus σ x on x standardhälve ja and σ y on y standardhälve. Kehtib 1 (tõestus lisas). Excel: CORREL

YMR0070, 010/011 kevad 6/8 äide. Lk. 1 antud andmestiku puhul õpilaste pikkuste aritmeetiline keskmine ehk keskmine pikkus on x x 1 x... x 19 19 69,0 56,5...66,5 6,3 19 ja keskmine kaal 11,5 84,0... 11,0 100,0 y y y... y 1 19 19 19 Pikkuse mediaani leidmiseks järjestame õpilaste pikkused minimaalsest maksimaalseni. Pikkuste variatsioonrida on 51,3 56,3 56,5 57,3 57,5 59,0 59,8 6,5 6,5 6,8 63,5 64,3 64,8 65,3 66,5 66,5 67,0 69,0 7,0 Pikkuse mediaan on pikkuse järjestatud väärtuste keskmine element 6,8. Kaal järjestatuna minimaalsest maksimaalseni ehk kaalu variatsioonrida on 50,5 77,0 83,0 84,0 84,0 84,5 85,0 90,0 98,0 99,5 10,5 10,5 11,0 11,0 11,5 11,5 18,0 133,0 150,0 Kaalu mediaan on kaalu järjestatud väärtuste keskmine element 99,5. Pikkuse esimene kvartiil: (57,5 + 59,0 )/ 58,3, pikkuse kolmas kvartiil (65,3+66,5)/65,9 51,3 56,3 56,5 57,3 57,5 59,0 59,8 6,5 6,5 6,8 63,5 64,3 64,8 65,3 66,5 66,5 67,0 69,0 7,0 Kaalu esimene kvartiil (84,0+84,5)/84,3, kaalu kolmas kvartiil (11,0+11,5)/11,3 50,5 77,0 83,0 84,0 84,0 84,5 85,0 90,0 98,0 99,5 10,5 10,5 11,0 11,0 11,5 11,5 18,0 133,0 150,0 Pikkuse miinimum 51,3, pikkuse maksimum 7,0, pikkuse haare 7,0 51,3 0,7 Kaalu miinimum 50,5, kaalu maksimum 150,0, kaalu haare 150,0 50,5 99,5. Enne kovariatsiooni ja korrelatsioonikordaja leidmist vt. hajusdiagrammi Pikkuse ja kaalu seos kaal 160 140 10 100 80 60 40 0 0 0 10 0 30 40 50 60 70 80 pikkus

YMR0070, 010/011 kevad 7/8 Diagrammilt on näha, et kui õpilase pikkus on keskmisest suurem (väiksem), siis enamikul juhtudest on selle õpilase kaal niisamuti keskmisest suurem (väiksem). Peale selle võib täheldada, et pikkuse ja kaalu vaheline sõltuvus on enam-vähem lineaarne. Sellisel juhul öeldakse, et pikkus ja kaal on positiivselt (negatiivselt) korreleeritud. Pikkuse ja kaalu vaheline kovariatsioon on 97,1 ja korrelatsioonikordaja 0,88 (vt. arvutusi alljärgnevas tabelis). Jrk.nr. IMI SUGU VAUS PIKKUS (x) KAAL (y) x y x*y 1 ALFRED M 14 69,0 11,5 4761,0 1656,3 776,5 ALICE F 13 56,5 84,0 319,3 7056,0 4746 3 BARBARA F 13 65,3 98,0 464,1 9604,0 6399,4 4 CAROL F 14 6,8 10,5 3943,8 10506,3 6437 5 HERY M 14 63,5 10,5 403,3 10506,3 6508,75 6 JAMES M 1 57,3 83,0 383,3 6889,0 4755,9 7 JAE F 1 59,8 84,5 3576,0 7140,3 5053,1 8 JAET F 15 6,5 11,5 3906,3 1656,3 7031,5 9 JEFFREY M 13 6,5 84,0 3906,3 7056,0 550 10 JOH M 1 59,0 99,5 3481,0 9900,3 5870,5 11 JOYCE F 11 51,3 50,5 631,7 550,3 590,65 1 JUDY F 14 64,3 90,0 4134,5 8100,0 5787 13 LOUISE F 1 56,3 77,0 3169,7 599,0 4335,1 14 MARY F 15 66,5 11,0 44,3 1544,0 7448 15 PHILIP M 16 7,0 150,0 5184,0 500,0 10800 16 ROBERT M 1 64,8 18,0 4199,0 16384,0 894,4 17 ROALD M 15 67,0 133,0 4489,0 17689,0 8911 18 THOMAS M 11 57,5 85,0 3306,3 75,0 4887,5 19 WILLIAM M 15 66,5 11,0 44,3 1544,0 7448 Sum ma 1184,4 1900,5 74304,9 199435,75 10316,05 Keskm ine 6,34 100,03 3910,79 10496,6 633,4 Dispersioon 4,9 491,35 Standardhälve 4,99,17 Kui on mõõdetud üldkogumi osahulk ehk valim mahuga n, siis valimi karakteristikud on analoogilised üldkogumi vastavate karakteristikutega. Valimkeskmine Kovariatsioon633,4 6,34*100,03 97,10 Korrelatsioonikordaja 97,1/( 4,99*,17) 0,88 x x 1 x... x n n n i1 n x i, valimdispersioon s x 1 x x x... x n x n 1 n x i 1 i x n 1, Exceli funktsioon VAR, valimstandardhälve s s, Exceli funktsioon STDEV. Valimi mood, mediaan, kvartiilid ja haare arvutatakse analoogiliselt vastavate karakteristikutega üldkogumis.

YMR0070, 010/011 kevad 8/8 Lisa. Tõestused 1. Hälvete summa on 0 i1 xi i1 xi 0. Dispersiooni arvutamise lihtsam valem σ i1 xi 1 i1 1 i1 xi x i 1 i1 xi i1 xi x i1 i 1 xi 1 x i1 i 1 i Kovariatsiooni arvutusvalemi σ xy 1 i1 xi i1 xi y i x y tõestus analoogiline. 3. Korrelatsioonikordaja absoluutväärtus on väiksem või võrdne ühega Olgu λ suvaline arv. Koostame ruutvõrrandi 1 i1 [ xi x y i y ] 1 xi i1 x i1 xi x y i y 1 i1 yi y Võrrandi vasak pool on mittenegatiivne, järelikult ka parem pool on mittenegatiivne, mis on võimalik ainult siis, kui diskriminant b 4ac on mittepositiivne: a 1 i1 xi x,, b i1 xi x y i y c 1 i1 yi y ja b 4ac [ xy ] 4 x y 0, millest xy x y ja seega xy xy x y 1 Kalkulaatorid internetis, näiteks http://home.ubalt.edu/ntsbarsh/businessstat/otherapplets/descriptive.htm, http://www.ruf.rice.edu/~lane/stat_analysis/descriptive.html, http://bcs.whfreeman.com/ips4e/cat_010/applets/histogramips.html.