Regresia liniară simplă



Similar documents
Studiu privind influenţa luminilor stroboscopice asupra percepţiei

Ghid pentru salvarea mail-urilor folosind un client de mail

- suport de curs - INFORMATICĂ APLICATĂ ÎN PSIHOLOGIE FACULTATEA DE PSIHOLOGIE ŞI ŞTIINŢELE EDUCAŢIEI

I. Rolul ratelor de dobândă în determinarea cursului de schimb. Paritatea ratelor de dobândă

Chat (Chat Room) Setarea modului de vizualizare a mesajelor în camera de chat

Studying the Knowledge Management - Effect of Promoting the Four Balanced Scorecard Perspectives: a Case Study at SAIPA Automobile Manufacturing

ASOCIAȚIA DE ACREDITARE DIN ROMÂNIA ORGANISMUL NAȚIONAL DE ACREDITARE

STATISTICA PSIHOLOGICĂ ŞI PRELUCRAREA INFORMATIZATĂ A DATELOR

Decline in prolonged hormone replacement therapy in women aged 45 years or more, and impact of a centralised database tool

Abdolhamid Arbabi, Vali Mehdinezhad University of Sistan and Baluchestan Zahedan, Faculty of Education and Psychology, Iran

Metode şi tehnici de cercetare în ştiinţele sociale. Sorin Dan Şandor

Analele Universităţii Constantin Brâncuşi din Târgu Jiu, Seria Economie, Nr. 4/2010

PROGRAME DE CALCUL TABELAR. MS EXCEL 2010

Road Traffic Information and Monitoring System

UNIVERSITATEA DE VEST DIN TIMISOARA

Quality Research by Using Performance Evaluation Metrics for Software Systems and Components

THE NEED TO USE DATA MINING TECHNIQUES IN E-BUSINESS

Laborator Electronică Digitală Circuite Logice TTL şi CMOS. Circuite Logice TTL şi CMOS

A Decision Tree for Weather Prediction

Effective and Efficient Tools in Human Resources Management Control

Construirea şi studiul unor probleme duale prin intermediul funcţiei de scalarizare

The Flow of Funds Into and Out of Business

NOUTĂŢI PRIVIND MODIFICAREA POLITICII CONTABILE REFERITOARE LA METODA DE EVALUARE A ACTIVELOR IMOBILIZATE

SOFTWARE RELIABILITY PREDICTION MODEL USING RAYLEIGH FUNCTION

Quality Assurance Review for Higher Education

Arhitectura Sistemelor de Calcul

Cutting Systems. Dispozitive de siguranţă pentru gaze tehnice

Seminar 2. Diagrama SIPOC. Harta proceselor. Studiu de caz pentru un ansamblu de procese. Scop. Durată. Obiective CUPRINS. A. Diagrama SIPOC pag.

CORRELATIVE STUDY OF PMA SCORING IN A GROUP OF ROMANIAN PATIENTS SUBMITTED TO TOTAL HIP REPLACEMENT

THE INFLUENCE OF CONTROLLER THERAPY ON CORRELATION BETWEEN FeNO AND ASTHMA CONTROL IN CHILDREN

Să separe problemele importante de cele posibile, astfel încât să vă puteţi concentra asupra ameliorării acestora.

The Annual Inflation Rate Analysis Using Data Mining Techniques

RESEARCH ON SOIL CONSOLIDATION USING CONSOLIDATION CELL UNDER CONSTANT RATE OF STRAIN

Association Rule Mining as a Data Mining Technique

A Practical Implementation of a Data Mining Technique

2013 Preliminary Financial Results Presentation. February 11 th, 2014

Excel. 6. Excel CUPRINS

The Analysis of Currency Exchange Rate Evolution using a Data Mining Technique

Using Principal Component Analysis in Loan Granting

5. LIMBAJUL SQL 5.1 Prezentare generală neprocedural declarativ extensii dialect implementarea limbajului SQL apelare directă modulară încapsulată

Curs 3. CATIA V5R20. Prezentare generală. Generalităţi

Medicamentul Veterinar / Veterinary Drug

LIFE EXPECTANCY IN ROMÂNIA

Regulile INCOTERMS şi importanţa lor

ASPECTE CLINICE ALE EVALUĂRII ŞI RECUPERĂRII MEMBRULUI SUPERIOR SPASTIC LA COPILUL CU PARALIZIE CEREBRALĂ INFANTILĂ

Property Management pentru NPL-uri

Applying TwoStep Cluster Analysis for Identifying Bank Customers Profile

Europe by Satellite Ghid de instalare. Europe by Satellite. Ghid de instalare

DESIGN OF AN EXPERT SYSTEM FOR EFFICIENT SELECTION OF DATA MINING METHOD

PROGRAM DE CALCUL PENTRU MONITORIZAREA CALITĂŢII APEI ȊN REŢELELE DE DISTRIBUŢIE A APEI

Controlul aplicaţiilor ce funcţionează pe sisteme Windows prin intermediul dispozitivelor Android

Manual pentru Instalarea Certificatului Digital Calificat DigiSign

NUMERICAL ANALYSIS OF COMPOSITE STEEL CONCRETE STRUCTURAL SHEAR WALLS WITH STEEL ENCASED PROFILES

privat / Montag, den 01. Februar 2010 um 00:00 Uhr - Aktualisiert Montag, den 05. März 2012 um 10:18 Uhr

ENGLEZA JURIDICA LEGAL ENGLISH MIHAIL KOGALNICEANU UNIVERSITY IASI UNIVERSITATEA MIHAIL KOGALNICEANU IASI SEMINAR MATERIAL SUPORT DE CURS DREPT AN II

SISTEMUL DE OPERARE WINDOWS XP

Analele Universităţii Constantin Brâncuşi din Târgu Jiu, Seria Economie, Nr. 1/2009

Analiza SWOT - instrument managerial pentru eficientizarea activităţii

Funds transfer pricing in banking. Transferul intern al fondurilor în mediul bancar

UNIVERSITATEA DE MEDICINĂ ŞI FARMACIE Gr. T. POPA FACULTATEA DE MEDICINĂ IAŞI TEZA DE DOCTORAT

Utilizarea indicatorilor de masurare a performantei (KPI) in companiile din Romania

II. JavaScript date şi operatori

MANUAL PENTRU Windows 7

REZUMATUL TEZEI DE DOCTORAT

THE UNCERTAINTY ANALYSIS OF THE PIPELINE SYSTEM

SEMANTIC CLASSIFICATION OF VERY HIGH RESOLUTION EARTH OBSERVATION IMAGE CONTENT BASED ON TOPOLOGICAL INFORMATION

Furnizarea de servicii hosting la limita dintre content şi comunicaţii electronice

Manual pentru Instalarea Certificatului Digital Calificat DigiSign

DESIGNING A DRIP IRRIGATION SYSTEM USING HYDROCALC IRRIGATION PLANNING PROIECTAREA UNUI SISTEM DE IRIGAŢII PRIN PICURARE UTILIZÂND PROGRAMUL HYDROCALC

Money and the Key Aspects of Financial Management

Risk Management Aspects Related to the Current International Financial Crisis

STOMIILE LA PACIENŢII CU CANCER DE COLON NEMETASTATIC. STUDIU PROSPECTIV ASUPRA CALITĂŢII VIEŢII

Cartea gesturilor. Peter Collett. Cum putem citi gândurile oamenilor din acţiunile lor. de psihologul emisiunii Big Brother

Segmentarea pieţei activitate definitorie a marketingului relaţional. Studiu de caz: sectorul bancar de retail

2. Caracterul (parţial) obligatoriu al hotărârii preliminare a CJUE Hotărârea preliminară a CJUE este obligatorie pentru instanţa de trimitere, dar nu

BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU

Instalarea MetaTrader Data Center

Curs 1 - Introducere.

MANAGEMENTUL RESURSELOR UMANE

COMMUNICATION B2C COMMUNICATION IN ROMANIA, BASED ON CTA AND KEYWORD RESEARCH

intelligent management Data Center 2013 Servicii şi Infrastructură

UNIVERSITATEA DIN ORADEA FACULTATEA DE MEDICINĂ ŞI FARMACIE

Aplicaţii clinice ale markerilor tumorali PSA total şi PSA liber

Sistemul Familiei in Panorama Sociala Lukas Derks

METODE MODERNE DE IDENTIFICARE A RISCURILOR ÎN MANAGEMENTUL RISCULUI

INFOGRAFICĂ. Aplicatii cu AUTOCAD

Romanian entrepreneurial environment, key aspect in investment decision. Mediul intreprenorial în România, aspect cheie în decizia de investiţii

Tabelul de concordanţă la proiectul Regulamentului privind ajutorul de minimis

PN-II-RU-TE

COMPENSATION ISSUES IN CASE OF OCCUPATIONAL DISEASES AND ACCIDENTS

CAPITALUL UMAN ŞI INVESTIŢIA ÎN EDUCAŢIE. Le capital humain et l investissement dans l éducation

INTELIGENŢĂ ÎN BUSINESS INTELLIGENCE. The Intelligence in Business Intelligence

ROMÂNIA MINISTERUL EDUCAŢIEI NAŢIONALE

TRAUMATOLOGIE ŞI ORTOPEDIE

Manual de evaluare. Mary Williams

DIGITIZAREA PARCELELOR AGRICOLE FERMIERI CARE NU AU MAI SOLICITAT PLATA UNICĂ PE UNITATE DE SUPRAFAŢĂ (S.A.P.S.) ÎN CAMPANIILE ANTERIOARE ( )

LEGE Nr. 98/2016 din 19 mai 2016 privind achiziţiile publice EMITENT: PARLAMENTUL ROMÂNIEI PUBLICATĂ ÎN: MONITORUL OFICIAL NR. 390 din 23 mai 2016

Chapter 3 - Adoption of new technologies and market orientation Organizations

Anularea actelor frauduloase ale debitorului insolvent

Transcription:

Regresia liniară simplă Introducere Să presupunem că suntem interesaţi să facem un studiu cu privire la relaţia dintre nivelul cunoştinţelor de matematică al studenţilor la psihologie şi rezultatele la cursul de statistică. În acest scop, evaluăm cunoştinţele de matematică şi cunoştinţele de statistică, după care aplicăm testul de corelaţie liniară Pearson între cele două serii de valori. Coeficientul r ne va spune cât de intensă este relaţia dintre cele două variabile. Cu cât acesta va fi mai mare, cu atât relaţia dintre cunoştinţele de matematică şi rezultatele la statistică este mai mare. La limită, dacă r=1 atunci între cele două variabile este o asociere perfectă. În acelaşi timp, semnul corelaţiei (+ sau -) ne va spune în ce mod se relaţionează cele două variabile. Astfel, dacă semnul este +, atunci pe măsură ce valorile unei variabile cresc, cresc şi valorile celeilalte variabile. Dacă semnul este -, atunci valorile unei variabile cresc, în timp ce valorile celeilalte variabile scad. Pe scurt, coeficientul de corelaţie descrie intensitatea şi sensul relaţiei dintre cele două variabile. Să presupunem că am descoperit o corelaţie semnificativă între cunoştinţele de matematică şi rezultatele la statistică. Întrebarea firească pe care ne-o putem pune este dacă putem face o predicţie asupra rezultatului la statistică, înainte de parcurgerea cursului, pornind de la evaluarea cunoştinţelor de matematică. Acest obiectiv este posibil prin analiza de regresie, una dintre utilizările practice importante ale analizei de corelaţie. Dacă aflăm corelaţia dintre două variabile putem să prezicem valorile uneia dintre ele (denumită variabilă criteriu ) pe baza valorilor celeilalte (denumită variabilă predictor ) 1. Acest lucru nu trebuie interpretat în sensul unei relaţii cauzale între cunoştinţele de matematică şi rezultatele la statistică. Este suficient să ne gândim că relaţia dintre ele poate fi determinată de alte variabile, cum ar fi: motivaţia şcolară, tipul de inteligenţă (abstractă sau intuitivă), metoda de predare etc. Predicţia perfectă Esenţa conceptului de corelaţie, aceea de variaţie concomitentă a valorilor a două variabile, permite fundamentarea unei proceduri de predicţie reciprocă între variabilele respective. Să ne plasăm în situaţia în care două variabile exprimate în valori z corelează perfect (r=±1). În acest caz, orice valoare z x corespunde unei valori z y identice. Cu alte cuvinte, dacă ştim că două variabile au o corelaţie liniară egală cu 1 (indiferent de semn) putem prezice orice valoare a unei variabile pe baza valorii celeilalte, pe baza relaţiei: z z y ' x Formula 3.4 Formula de mai sus descrie modul de predicţie în valori z pentru variabila Y, pornind de la valorile variabilei X, numită din acest motiv predictor. Pentru că valoarea lui Y din formula de mai sus este una prezisă, se notează cu indicele prim. Să ne imaginăm că am descoperi o corelaţie perfectă (r=+1) între scorul la un test de cunoştinţe de matematică (X) şi cel la un test de cunoştinţe de statistică (Y). Conform formulei, pentru o valoare oarecare a lui X, să zicem, z x=1.5 vom prezice o valoare identică pentru Y, z y =1.5. Adică atunci când o valoare X este mai mare decât media cu 1.5 abateri standard, valoarea corespunzătoare a lui Y este tot la 1.5 abateri standard faţă de medie, indiferent în ce unităţi de măsură este exprimată. În acelaşi sens observăm că, dacă valoarea lui z x creşte cu o unitate (z x=1.6), valoarea prezisă z y creşte cu aceeaşi unitate (z y =1.6). Dacă ilustrăm grafic această acest tip de predicţie, obţinem o imagine în care punctele corespunzând intersecţiei perechilor de valori se plasează perfect pe o linie dreaptă, ca în imaginea de mai jos: 1 Teoretic vorbind, oricare dintre variabilele unei corelaţii poate fi predictor sau criteriu, practic însă, distribuirea în aceste roluri depinde de context. Astfel, ar fi ilogic să prezicem rezultatele la matematică pe baza rezultatelor la statistică, dacă aceasta din urmă se învaţă mai târziu. Numerotarea formulelor se face în contextul cursurilor din semestrul I. 1/11

3,5 3,0,5,0 1,5 1,0,5 z(y) 0,0 0,0,5 1,0 1,5,0,5 3,0 3,5 z(x) Imaginea este tipică pentru predicţia în cazul unei corelaţii perfecte pozitive (r=+1), pentru o corelaţie negativă, linia punctelor de predicţie ar urma o traiectorie dinspre stânga sus spre dreapta jos a axelor de coordonate. Imaginea de mai sus ilustrează un caz particular, în care atât variabila X cât şi variabila Y au originea în 0, ceea ce înseamnă că cele mai mici valori ale lor sunt 0 (exprimate în scoruri z). Predicţia în cazul corelaţiei imperfecte Corelaţiile perfecte sunt însă cu totul excepţionale şi, de fapt, lipsite de sens în cazul unor variabile despre care se presupune că măsoară caracteristici diferite. Corelaţiile măsurate pe variabile reale au valori mai mari sau mai mici, care se plasează în jurul lui 0. Să presupunem că am obţinut o corelaţie semnificativă, pozitivă, între cunoştinţele de matematică şi rezultatele la statistică. Acest lucru ne spune că performanţa la statistică este într-o măsură asociată cu nivelul cunoştinţelor de matematică, dar are şi o parte care nu are nicio legătură cu aceasta. În acest context, predicţia suportă riscul unei erori dată de faptul că doar o parte din variaţia unei variabile este însoţită (explicată) de variaţia celeilalte variabile. Soluţia pentru luarea în considerare a acestui aspect este dată prin formula modificată: z r * ' z y x Formula 3.5 unde r este valoarea coeficientului de corelaţie dintre cele două variabile. Formula ne spune că o valoare prezisă z Y va fi egală cu valoarea z X corespunzătoare, înmulţită cu coeficientul de corelaţie dintre variabilele X şi Y. Vom observa că în această variantă de formulă, atunci când r=+1, se păstrează identitatea dintre valoarea predictor şi valoarea criteriu (afirmaţie valabilă şi pentru r=-1 cu specificaţia că valoarea criteriu are semn schimbat). În situaţia în care valorile lui r devin din ce în ce mai aproape de 0, atunci z Y va rezulta cu valori din ce în ce mai mici, tinzând spre zero, atunci când r=0. Să ne amintim că valoarea 0 reprezintă chiar media unei distribuţii z, ceea ce înseamnă că în cazul corelaţiilor din ce în ce mai mici, valorile de predicţiei tind spre medie. Noţiunea de regresia către medie Conceptul de regresie a fost introdus de Sir Francis Galton (18-1911) care, studiind relaţia dintre înălţimea copiilor şi a părinţilor a observat că părinţii cu înălţimi excesive tind să aibă copii cu înălţime mai mică decât a lor, adică mai aproape de medie decât a părinţilor. Să luăm un exemplu ilustrativ. Galton a găsit un coeficient de corelaţie între înălţimea părinţilor (X) şi cea a copiilor (Y) r=+0.67. Putem deci prezice înălţimea copilului dacă ştim că înălţimea medie a doi părinţi oarecare, exprimată în scoruri z, este z x= (adică cu două abateri standard mai înalţi decât media): z y ' 0.67 * 1.34 /11

Aşa cum se observă, părinţii a căror înălţime cu două abateri standard mai mare decât media, pot avea copii a căror înălţime să se abată doar cu 1.34 abateri standard de la medie. Galton a denumit această tendinţă ca regresie către mediocritate, dar termenul consacrat acum este cel de regresie către medie. Faptul că se bazează pe corelaţia de tip liniar ne permite să vorbim de o regresie liniară către medie. Linia de regresie Având reprezentarea norului de puncte specific unei anumite corelaţii, tendinţa relaţiei este dată de dreapta care aproximează cel mai bine variaţia perechilor de valori X/Y. Traiectoria acestei linii se fixează pe baza unui model matematic, numit metoda celor mai mici pătrate, care asigură minimizarea distanţelor dintre punctele reale şi linia de predicţie, numită şi linie de regresie, dintr-un motiv pe care îl vom discuta puţin mai târziu. În imaginea de mai jos avem o ilustrare grafică a liniei de regresie în condiţiile unei corelaţii imperfecte (r=+0.74). După cum observăm, în cazul unei corelaţii imperfecte punctele reale sunt distribuite în jurul punctelor care compun dreapta de regresie, distanţa dintre acestea fiind notată cu ε (epsilon) şi reprezentând eroarea de estimare în fiecare punct al graficului. Evident, cu cât suma distanţelor (Σε i) este mai mare, cu atât eroarea de predicţie este mai mare, iar acest lucru se întâmplă pe măsură ce coeficienţii de corelaţie sunt mai mici (norul de puncte fiind mai împrăştiat). În esenţă, pentru a putea trasa dreapta de regresie a două variabile ne sunt necesare punctul de origine al acesteia şi înclinarea, sau panta. Odată aflate, putem trasa linia de regresie utilizând formula clasică a liniei drepte: unde: Y ' a b yx yx * X (Formula 3.6) Y este valoarea prezisă a fiecărui punct de pe dreaptă a yx este originea dreptei sau termenul liber al ecuaţiei, de fapt punctul în care linia de regresie intersectează ordonata (axa Oy). b yx este panta liniei de regresie X este valoare predictor a variabilei Y În ce priveşte panta, dacă privim formula 3.5, observăm că poate fi înţeleasă şi, implicit, exprimată, ca fracţiuni din valorile variabilei X, fracţiuni determinate de valoarea lui r. Astfel, dacă r=1, pentru o unitate a lui X avem o înclinare de aceeaşi unitate a lui Y. Atunci când r=0.5, de exemplu, pentru a anumită unitate a variabilei X avem o jumătate din unitatea valorii lui Y. Atunci când corelaţia este perfectă, toate punctele se situează pe linia de regresie. Când corelaţia este diferită de 1, punctele se situează în jurul liniei de regresie într-un nor, cu atât mai îndepărtat de aceasta cu cât corelaţia este mai mică. Intuitiv, linia de regresie poate fi văzută ca o medie a norului de puncte, 3/11

fiind trasată astfel încât distanţele faţă de punctele distribuţiei celor două variabile să fie similare de o parte şi de alta a liniei. Expresia grafică a liniei regresiei este diferită, în funcţie de punctul de origine şi de unghiul de pantă al dreptei. Drepte de regresie cu aceeaşi origine, dar cu pante diferite Drepte de regresie cu aceeaşi pantă, dar cu origini diferite Punctul de origine reprezintă, de fapt, valoarea lui Y corespunzătoare celei mai mici valori a lui X. Atunci când aceste valori sunt identice, punctul de origine este în originea graficului. De exemplu, în imaginea din stânga, observăm că valorii 0 pentru X îi corespunde valoarea 40 pentru Y, pentru ambele drepte de regresie. În imaginea din dreapta, însă, valorii 0 pentru X îi corespund diferite valori pe axa Y. Formula de calcul a regresiei pentru scorurile primare (brute) Formula 3.5 este adecvată pentru situaţia în care operăm cu scorurile standard (z): Pentru a opera direct cu scorurile primare (brute) ale variabilelor, trebuie operate o serie de transformări succesive ale acestei formule, până va fi adusă la o formă care să corespundă ecuaţiei liniei drepte, prezentată mai sus. Vom prezenta aici numai rezultatul final al acestor transformări, care se exprimă în următoarea formulă de calcul pentru linia de regresie: Y ' z r * ' z y x y y * r * x * r x x y * X Formula 3.7 care poate fi privită ca expresie a ecuaţiei generice de regresie liniară mai sus menţionate: Y ' ayx byx * X Relativa complexitate a ecuaţiei de regresie liniară este compensată de faptul că, în prezent, rezolvarea ei cade în sarcina programelor specializate. Singurul motiv pentru care am introdus aici formula ecuaţiei de regresie este acela de a înţelege că pentru realizarea predicţiei unei anumite valori Y este necesar să cunoaştem valoarea predictor X, punctul de origine al dreptei (termenul liber al ecuaţiei, a yx) şi panta liniei de regresie (b yx). Atât a yx cât şi b yx rezultă din analiza de regresie şi sunt utilizate ulterior în predicţia oricărei valori Y pornind de la orice valoare X. 4/11

Analiza reziduală Aşa cum am văzut, linia de regresie reprezintă doar o estimare a relaţiei dintre cele două variabile. Ea se obţine, de fapt, prin căutarea unui traseu prin norul de puncte astfel încât distanţa însumată dintre dreaptă şi punctele de deasupra să fie egală cu distanţa însumată faţă de punctele de sub linie. În cazul unei corelaţii perfecte toate punctele de intersecţie ale valorilor celor două variabile se află exact pe dreapta de regresie. În cazul corelaţiilor imperfecte distanţele dintre puncte şi dreapta de regresie exprimă, de fapt, eroarea de estimare a asocierii dintre variabile. Distanţa dintre poziţia reală a punctelor şi cea estimată cu ajutorul liniei de regresie se numeşte valoare reziduală şi exprimă, desigur, o eroare de estimare. Din acest motiv nici panta (unghiul de înclinare al liniei), nu este exact de 45 o. Cu cât suma distanţelor de la fiecare punct la linia de regresie este mai mare, cu atât eroarea de estimare este mai pronunţată. Pătratul sumei tuturor distanţelor dintre valorile de pe linie şi punctele din afara liniei de regresie reprezintă ceea ce se numeşte varianţa estimării sau varianţa reziduală, şi se calculează astfel: Y Y ' est ( y) N (Formula 3.8) Cu cât vor fi mai apropiate punctele de intersecţie de linia de regresie, cu atât mai puţină eroare vom avea în predicţie şi, implicit, o corelaţie mai mare. Invers, cu cât punctele de intersecţie vor fi mai îndepărtate de linia de regresie, cu atât cu atât valoarea reziduală va fi mai mare iar corelaţia va fi mai mică. La limită, pentru o corelaţie egală cu 0, linia de regresie va avea o traiectorie orizontală, înclinarea ei fiind 0. Calcularea ecuaţiei de regresie cu SPSS Vom prezenta un exemplu fictiv de analiză de regresie între nivelul cunoştinţelor de matematică şi rezultatele finale la cursul de statistică. Condiţii de aplicare a analizei de regresie Din punct de vedere statistic, condiţiile variabilelor care sunt supuse analizei de regresie sunt aceleaşi ca în cazul corelaţiei deoarece regresia liniară este o aplicaţie a acesteia: variabile măsurate pe scală de interval sau de raport şi normalitatea distribuţiei variabilelor. Aranjarea datelor Structura de variabile este similară analizei de corelaţie (vezi imaginea alăturată). Procedura: În principiu, analiza de regresie începe cu coeficientul de corelaţie dintre variabile şi vizualizarea imaginii scatterplot. În cazul nostru, urmând procedura prezentată mai sus, am obţinut o corelaţie r=+0.74 (p=0.00). Acest rezultat confirmă existenţa unei legături pozitive semnificative între cunoştinţele de matematică şi performanţa la statistică. O idee mai exactă ne oferă coeficientul de determinare r =0,54. Acesta ne spune că 54% din variaţia performanţei la statistică este explicată de variaţia valorilor la variabila cunoştinţe de matematică. Deducem că restul de 46% din performanţa la statistică este explicată de alte variabile, necunoscute în această fază 3. 3 Facem precizarea că valorile şi aprecierile nu se bazează pe un studiu real. 5/11

Pe baza acestor concluzii se poate trece la analiza de regresie a cărei finalitate este aceea de obţinere a coeficienţilor a (termenul liber, sau originea dreptei de regresie) şi b (panta dreptei de regresie), cu ajutorul cărora se poate estima performanţa la statistică pe baza rezultatului la un test de cunoştinţe matematice aplicat în prima zi de şcoală. Neîndoielnic, o astfel de procedură s-ar justifica mai ales pentru identificarea studenţilor cu potenţiale dificultăţi şi care, tocmai fiind avertizaţi în legătură cu aceste dificultăţi, vor putea să acorde statisticii o atenţie sporită, în vederea obţinerii unui rezultat peste nivelul celui prezis. Lansarea procedurii: Statistics-Regression-Linear... În caseta principală Linear Regression se trece variabila criteriu în zona Dependent iar variabila predictor, în zona Independent(s). În caseta Statistics, bifăm Estimates pentru obţinerea coeficienţilor de regresie (opţiune implicită) În caseta Regression Save, bifăm Predicted Values-Unstandardized şi Residuals- Unstandardized, care vor avea ca efect crearea de variabile distincte în baza de date. Prediction interval (individual) va calcula limitele de încredere pentru valorile prezise. Valorile prezise sunt valorile rezultate pe baza modelului de predicţie. Valorile reziduale se calculează ca diferenţă între valorile variabilei criteriu si cele prezise pe baza modelului de regresie. 6/11

Analiza rezultatelor Tabelul Model Summary oferă valoarea coeficientului de regresie, notat cu R, care este identic cu coeficientul de corelaţie dintre cele două variabile. Interpretarea este similară coeficientului de corelaţie simplă, la fel ca şi pentru R, care este coeficientul de determinare al lui R. Valoarea lui ne spune că 55% din variaţia performanţei la statistică este explicată de variaţia variabilei cunoştinţe de matematică. Adjusted R Square este o corecţie a lui R în funcţie de numărul de predictori şi numărul de subiecţi. ANOVA(b) Model Sum of Squares df Mean Square F Sig. 1 Regression 35.064 1 35.064 15.899.00(a) Residual 8.670 13.05 Total 63.733 14 a Predictors: (Constant), Performanta la statistica b Dependent Variable: Aptitudini matematice Tabelul ANOVA include rezultatul testului de semnificaţie pentru R. La fel ca şi coeficientul de corelaţie Pearson, coeficientul de regresie (R) poate fi semnificativ sau nesemnificativ. Spre deosebire de r însă, testarea semnificaţiei lui R se face prin raportare la distribuţia Fisher. Concret, citim valoarea Sig. (echivalentul SPSS al lui p). Dacă Sig. este egal sau mai mic decât pragul alfa (0.05), decidem respingerea ipotezei de nul. Dacă Sig. este mai mare de 0.05, decidem acceptarea ipotezei de nul şi respingem ipoteza unei relaţii semnificative între predictor şi criteriu. În cazul nostru, Sig.=0.00, ceea ce ne îndreptăţeşte să respingem ipoteza de nul şi să acceptăm că există o relaţie semnificativă între performanţa matematică şi cea statistică. Tabelul Coefficients conţine coeficienţii B (nestandardizaţi, exprimaţi în valorile variabilei predictor) şi coeficientul beta (standardizat, exprimat în valori z), care pot fi utilizaţi, la alegere, în ecuaţia de predicţie. Astfel, pe baza acestor coeficienţi, în anul următor de studiu, dacă un student realizează un scor de 30 la testul de cunoştinţe de matematică, se poate estima performanţa finală la statistică cu ajutorul relaţiei: stat _ fin a b * mat _ in 3.406 0.854*30 9.0 unde 3.406 este originea iar 0.854 este panta dreptei de regresie. Sau, dacă predicţia se face pe baza unui scor standardizat z al variabilei mat_in (să zicem, 0.93), atunci: 7/11

stat _ fin beta* mat _ in 0.74*0.93 0.69 În acest caz termenul liber are valoarea 0, deoarece originea dreptei pentru scoruri standardizate se află în 0. Desigur, scorurile astfel prezise sunt estimări, atâta timp cât corelaţia dintre variabile nu este perfectă. Iar estimările conţin cu atât mai multă eroare cu cât corelaţia dintre variabile este mai mică (punctele graficului de corelaţie fiind mai îndepărtate de dreapta de regresie). La finalul procedurii analizei de regresie, cu setările de mai sus, în baza de date apar câteva variabile noi, aşa cum se vede în imaginea de mai jos: Variabila pre_1, conţine valorile prezise pe baza modelului de regresie. Variabila res_1, conţine diferenţa dintre valoarea reală şi valoarea prezisă. Variabilele lici_1 şi lici_, conţin limitele inferioară şi superioară ale intervalului de încredere pentru fiecare valoare în parte. Pentru a înţelege mai bine problema limitelor, să privim prima valoare prezisă de pe coloana pre_1 (5.598). Cu un nivel de încredere de 95% (echivalent cu o probabilitate de eroare de 0.05), putem spune că valoarea adevărată pentru stat_fin prezisă pe baza valorii mat_in=6, s-ar afla în intervalul 1.77 şi 9.41. În fine, rezultatele conţin şi imaginea scatterplot a relaţiei dintre valorile mat_in şi scorurile z ale variabilei pre_1. 8/11

Imaginea este identică cu ceea ce am prezentat în cazul corelaţiei. Singura deosebire este dată de trasarea dreptei. Aceasta se face de către operator, în felul următor: se acţionează dublu clic de mouse pe imaginea graficului din Viewer. prin care... graficul este trecut deschis într-o fereastră individuală de editare, în care... se execută procedura Chart-Options-Fit Line- Fit Options. La capătul acestei serii de acţiuni apare caseta de mai jos unde se marchează Linear regression. Facem precizarea că acest procedeu de trasare a liniei în interiorul scatterplot-ului este utilizabil şi în cazul corelaţiei. Dacă se alege alt model decât cel liniar (de exemplu, Quadratic regression) se va obţine linia de regresie sub formă curbilinie, punând în evidenţă abaterile de la modelul liniar. Acest lucru este cu deosebire util atunci când corelaţia este mică, fapt care se poate datora faptului că relaţia dintre variabile nu urmează un model liniar (vezi exemplul din prima secţiune, bazat pe corelaţia dintre scorurile z şi probabilităţile de sub curba normală). Ce utilizăm, corelaţia sau regresia? Corelaţia şi regresia liniară sunt similare şi, de aceea, uşor de confundat. În unele situaţii pot fi utilizate ambele proceduri, dar fiecare dintre ele sunt recomandabile cu precădere în anumite situaţii, astfel: Se calculează corelaţia liniară atunci când există două variabile măsurate pe aceiaşi subiecţi şi se doreşte evaluarea gradului de asociere între variabile; Se calculează regresia liniară atunci când una dintre variabile precede şi poate fi cauza celeilalte variabile; atunci când una dintre variabile este manipulată, se calculează regresia; Atenţie, calculele regresiei nu sunt simetrice, ca urmare, inversând variabilele în ecuaţia de regresie se va obţine o linie de regresie diferită, în timp ce, dacă se inversează ordinea variabilelor în calcularea corelaţiei, se obţine acelaşi coeficient r. Cea mai firească utilizare a analizei de regresie este în situaţiile în care dorim să facem predicţii. De exemplu, dacă am efectuat analiza de regresie între cunoştinţele de matematică şi performanţa finală la cursul de statistică, într-un an, putem, în anul următor, să estimăm rezultatul final la statistică pe baza parametrilor ecuaţiei de regresie calculaţi anterior. În acest scop, aplicăm acelaşi test de cunoştinţe de matematică, după care construim predicţii pentru fiecare student în parte. Finalitatea acestui demers ar putea fi aceea de identifica din timp studenţii care au cele mai mari şanse de a nu obţine notă de trecere, şi de a efectua cu ei o pregătire suplimentară, care să prevină această situaţie. Dar predicţia este una dintre procedurile specifice examenelor psihologice de selecţi, în care rezultatul la un test psihologic poate servi pentru selecţia candidaţilor care au cele mai bune şanse de a realiza performanţe acceptabile într-un anumit domeniu de activitate. De exemplu, dacă am efectuat o analiză de regresie între coeficientul de inteligenţă şi performanţa şcolară pe un lot de 9/11

candidaţi la admiterea într-o şcoală de zbor, putem ulterior să estimăm nivelul performanţei de zbor a altor subiecţi doar prin evaluarea inteligenţei lor. De asemenea, analiza de regresie este utilă în controlul statistic al variabilelor externe, acelea care se suprapun peste variabilele studiate, şi al căror efect dorim să îl eliminăm. Acest demers este specific unor proceduri statistice avansate (regresia multiplă şi analiza de covarianţă) pe care nu ne propunem să le discutăm aici. Corecţia restricţiei de amplitudine Un factor recunoscut de subapreciere a calităţii predicţiei în situaţii de selecţie (validitatea metodelor de selecţie psihologică) este aşa numitul efect de restricţie al amplitudinii. Studiile asupra relaţiei dintre performanţa la testele de selecţie şi performanţa în procesul de instruire se efectuează frecvent pe eşantioane limitate, rezultate în urma unei decizii de selecţie, prin care doar o parte a candidaţilor sunt declaraţi admişi. Aceasta face ca studiile validare (corelaţia dintre rezultatul la testul psihologic şi performanţa în activitate) să se efectueze numai pe subiecţii care au fost declaraţi admişi, adică cei pentru care performanţa la testele psihologice are un grad de variaţie mai mic, tocmai din cauza respingerii celor cu performanţe reduse la testul de selecţie. Acest fenomen a fost denumit restricţie de amplitudine şi este considerat responsabil pentru concluzii incorecte în studiile de validare. Thorndike (1949), citat de Carreta & Ree (003), a oferit un dramatic exemplu al acestui efect. Un grup experimental de 1036 candidaţi piloţi din US Army Air Corps au fost admişi în procesul de instruire în anul 1944, indiferent de scorul obţinut la cinci teste de aptitudini. Ulterior, au fost calculate corelaţiile dintre performanţa la teste şi un criteriu de performanţă de instruire pentru toţi cei 1036 candidaţi şi, separat, pentru 136 de candidaţi care ar fi fost admişi, dacă s-ar fi aplicat standardul de selecţie existent în uz. Scorul compozit rezultat din cele cinci teste psihologice a obţinut o corelaţie de 0.64 pentru întregul lot evaluat (fără restricţie de amplitudine) şi numai 0.18 pentru lotul care ar fi putut fi selectat conform standardului (cu restricţie de amplitudine). Cea mai dramatică diferenţă s-a constatat pentru testul de coordonare psihomotorie, unde corelaţia pentru lotul nerestricţionat a fost de 0.40, iar pentru lotul restricţionat de -0.03! În medie, coeficienţii de corelaţie pentru lotul nerestricţionat s-au dovedit mai mari cu 0.9 faţă de lotul restricţionat. Exemplul de mai sus este dovada clară că validitatea calculată pe loturi restricţionate în amplitudine (o expresie care are în vedere o împrăştiere mai mică a variabilelor predictor), are o valoare mai mică decât în realitate, prin reducerea importanţei cauzale a variabilei predictor asupra variabilei criteriu (Goldberg, 1991). Ca urmare, calcularea şi raportarea coeficienţilor de corelaţie fără a se ţine cont de efectul de restricţie a amplitudinii, poate conduce la decizii de selecţie greşite. Soluţia acestei probleme constă în procedura de corecţie de continuitate a coeficientului de corelaţie. Ea se poate face, fie la nivel univariat, atunci când avem un singur predictor, fie la nivel multivariat, atunci când există mai mulţi predictori (teste psihologice) pentru un anumit criteriu de performanţă (Ree & Carretta, 1994). Pentru exemplificare, vom reda mai jos doar un calcul al corecţiei de continuitate univariată, utilizând una dintre formulele uzuale pentru acest scop: r XY r X xy x 1 rxy X rxy unde: r XY=corelaţia corectată r xy=corelaţia necorectată σ X=abaterea standard a grupului integral (totalul celor evaluaţi iniţial) σ x=abaterea standard a grupului selecţionat (cei admişi) Este evident faptul că pentru a putea efectua corecţia este necesar să păstrăm datele pentru întregul lot testat la selecţie. Să presupunem că valoarea coeficientului de corelaţie dintre scorul la un test de inteligenţă şi performanţa şcolară, calculat pe un lot de elevi admişi în urma unui examen de 10/11

selecţie, este de 0.9. Tabelul de mai jos cuprinde parametrii lotului integral (nerestricţionat) şi cei ai lotului admis (restricţionat). Parametrii lotului integral Parametrii lotului restricţionat (totalul candidaţilor evaluaţi) (candidaţii admişi) m X=110 m x=17 σ X=17 σ x=11 Înlocuim datele în formulă: r XY 17*0.9 11 * 1 0.9 17 *0.9 0.4 Aşadar, corelaţia corectată dintre testul de inteligenţă şi criteriul de validare este mai mare decât cea obţinută (r corectat=0.4 faţă de r necorectat=9). Vom reţine că, în măsura în care împrăştierea datelor restricţionate (prin selecţie) este mai mică decât împrăştierea datelor integrale, iar media datelor restricţionate este mai mare decât cea a datelor integrale, coeficientul de corelaţie corectat ( adevărat ) este mai mare decât cel calculat. Cu alte cuvinte, în situaţii de acest gen, coeficienţii de corelaţie obţinuţi subapreciază valoarea reală a legăturii dintre variabile. Chiar şi după aplicarea corecţiei, se apreciază că se menţine o tendinţă de subestimare a validităţii (Linn, Harnish, & Dunbar, 1981). Atunci când se utilizează procedura de corecţie este recomandabil să se raporteze atât valoarea necorectată, cât şi valoarea corectată a coeficientului de corelaţie, chiar dacă doar aceasta din urmă va fi luată în considerare la elaborarea concluziilor. Această procedură de corecţie este extrem de utilă mai ales pentru situaţiile în care se urmăreşte validarea unor teste în procedurile de selecţie a personalului. Concluzii Regresia liniară simplă este o procedură de predicţie, pe baza corelaţiei dintre două variabile cantitative (I/R). Precizia predicţiei este dată de valoarea coeficientului de corelaţie Pearson dintre variabile. Cu cât r este mai mare, cu atât predicţia valorilor unei variabile (numită criteriu) pornind de la valorile celeilalte variabile (numită predictor) este mai bună. La limită, când r=1, predicţia este perfectă. Modelul de regresie se exprimă grafic printr-o dreaptă, al cărui traseu prin norul de puncte minimizează distanţele dintre punctele dreptei şi cele ale scatterplot-ului corelaţiei. Ecuaţia de regresie, în termenii scorurilor brute este Y =a yx+b yx*x, unde Y reprezintă valorile prezise, a yx reprezintă punctul de origine al liniei de regresie, b yx înclinarea acesteia, iar X, valorile variabilei predictor. Împrăştierea valorilor în jurul liniei de regresie se numeşte varianţă reziduală (sau varianţa estimării) şi exprimă gradul de eroare (imprecizie) al modelului de predicţie. Eroarea de estimare este 0 atunci când corelaţia este perfectă şi din ce în ce mai mare, pe măsură ce valorile lui r sunt mai mici. Utilitatea regresiei liniare este în studii de predicţie, de regulă, în contextul unor examene de selecţie psihologică. 11/11