Regresia liniară simplă Introducere Să presupunem că suntem interesaţi să facem un studiu cu privire la relaţia dintre nivelul cunoştinţelor de matematică al studenţilor la psihologie şi rezultatele la cursul de statistică. În acest scop, evaluăm cunoştinţele de matematică şi cunoştinţele de statistică, după care aplicăm testul de corelaţie liniară Pearson între cele două serii de valori. Coeficientul r ne va spune cât de intensă este relaţia dintre cele două variabile. Cu cât acesta va fi mai mare, cu atât relaţia dintre cunoştinţele de matematică şi rezultatele la statistică este mai mare. La limită, dacă r=1 atunci între cele două variabile este o asociere perfectă. În acelaşi timp, semnul corelaţiei (+ sau -) ne va spune în ce mod se relaţionează cele două variabile. Astfel, dacă semnul este +, atunci pe măsură ce valorile unei variabile cresc, cresc şi valorile celeilalte variabile. Dacă semnul este -, atunci valorile unei variabile cresc, în timp ce valorile celeilalte variabile scad. Pe scurt, coeficientul de corelaţie descrie intensitatea şi sensul relaţiei dintre cele două variabile. Să presupunem că am descoperit o corelaţie semnificativă între cunoştinţele de matematică şi rezultatele la statistică. Întrebarea firească pe care ne-o putem pune este dacă putem face o predicţie asupra rezultatului la statistică, înainte de parcurgerea cursului, pornind de la evaluarea cunoştinţelor de matematică. Acest obiectiv este posibil prin analiza de regresie, una dintre utilizările practice importante ale analizei de corelaţie. Dacă aflăm corelaţia dintre două variabile putem să prezicem valorile uneia dintre ele (denumită variabilă criteriu ) pe baza valorilor celeilalte (denumită variabilă predictor ) 1. Acest lucru nu trebuie interpretat în sensul unei relaţii cauzale între cunoştinţele de matematică şi rezultatele la statistică. Este suficient să ne gândim că relaţia dintre ele poate fi determinată de alte variabile, cum ar fi: motivaţia şcolară, tipul de inteligenţă (abstractă sau intuitivă), metoda de predare etc. Predicţia perfectă Esenţa conceptului de corelaţie, aceea de variaţie concomitentă a valorilor a două variabile, permite fundamentarea unei proceduri de predicţie reciprocă între variabilele respective. Să ne plasăm în situaţia în care două variabile exprimate în valori z corelează perfect (r=±1). În acest caz, orice valoare z x corespunde unei valori z y identice. Cu alte cuvinte, dacă ştim că două variabile au o corelaţie liniară egală cu 1 (indiferent de semn) putem prezice orice valoare a unei variabile pe baza valorii celeilalte, pe baza relaţiei: z z y ' x Formula 3.4 Formula de mai sus descrie modul de predicţie în valori z pentru variabila Y, pornind de la valorile variabilei X, numită din acest motiv predictor. Pentru că valoarea lui Y din formula de mai sus este una prezisă, se notează cu indicele prim. Să ne imaginăm că am descoperi o corelaţie perfectă (r=+1) între scorul la un test de cunoştinţe de matematică (X) şi cel la un test de cunoştinţe de statistică (Y). Conform formulei, pentru o valoare oarecare a lui X, să zicem, z x=1.5 vom prezice o valoare identică pentru Y, z y =1.5. Adică atunci când o valoare X este mai mare decât media cu 1.5 abateri standard, valoarea corespunzătoare a lui Y este tot la 1.5 abateri standard faţă de medie, indiferent în ce unităţi de măsură este exprimată. În acelaşi sens observăm că, dacă valoarea lui z x creşte cu o unitate (z x=1.6), valoarea prezisă z y creşte cu aceeaşi unitate (z y =1.6). Dacă ilustrăm grafic această acest tip de predicţie, obţinem o imagine în care punctele corespunzând intersecţiei perechilor de valori se plasează perfect pe o linie dreaptă, ca în imaginea de mai jos: 1 Teoretic vorbind, oricare dintre variabilele unei corelaţii poate fi predictor sau criteriu, practic însă, distribuirea în aceste roluri depinde de context. Astfel, ar fi ilogic să prezicem rezultatele la matematică pe baza rezultatelor la statistică, dacă aceasta din urmă se învaţă mai târziu. Numerotarea formulelor se face în contextul cursurilor din semestrul I. 1/11
3,5 3,0,5,0 1,5 1,0,5 z(y) 0,0 0,0,5 1,0 1,5,0,5 3,0 3,5 z(x) Imaginea este tipică pentru predicţia în cazul unei corelaţii perfecte pozitive (r=+1), pentru o corelaţie negativă, linia punctelor de predicţie ar urma o traiectorie dinspre stânga sus spre dreapta jos a axelor de coordonate. Imaginea de mai sus ilustrează un caz particular, în care atât variabila X cât şi variabila Y au originea în 0, ceea ce înseamnă că cele mai mici valori ale lor sunt 0 (exprimate în scoruri z). Predicţia în cazul corelaţiei imperfecte Corelaţiile perfecte sunt însă cu totul excepţionale şi, de fapt, lipsite de sens în cazul unor variabile despre care se presupune că măsoară caracteristici diferite. Corelaţiile măsurate pe variabile reale au valori mai mari sau mai mici, care se plasează în jurul lui 0. Să presupunem că am obţinut o corelaţie semnificativă, pozitivă, între cunoştinţele de matematică şi rezultatele la statistică. Acest lucru ne spune că performanţa la statistică este într-o măsură asociată cu nivelul cunoştinţelor de matematică, dar are şi o parte care nu are nicio legătură cu aceasta. În acest context, predicţia suportă riscul unei erori dată de faptul că doar o parte din variaţia unei variabile este însoţită (explicată) de variaţia celeilalte variabile. Soluţia pentru luarea în considerare a acestui aspect este dată prin formula modificată: z r * ' z y x Formula 3.5 unde r este valoarea coeficientului de corelaţie dintre cele două variabile. Formula ne spune că o valoare prezisă z Y va fi egală cu valoarea z X corespunzătoare, înmulţită cu coeficientul de corelaţie dintre variabilele X şi Y. Vom observa că în această variantă de formulă, atunci când r=+1, se păstrează identitatea dintre valoarea predictor şi valoarea criteriu (afirmaţie valabilă şi pentru r=-1 cu specificaţia că valoarea criteriu are semn schimbat). În situaţia în care valorile lui r devin din ce în ce mai aproape de 0, atunci z Y va rezulta cu valori din ce în ce mai mici, tinzând spre zero, atunci când r=0. Să ne amintim că valoarea 0 reprezintă chiar media unei distribuţii z, ceea ce înseamnă că în cazul corelaţiilor din ce în ce mai mici, valorile de predicţiei tind spre medie. Noţiunea de regresia către medie Conceptul de regresie a fost introdus de Sir Francis Galton (18-1911) care, studiind relaţia dintre înălţimea copiilor şi a părinţilor a observat că părinţii cu înălţimi excesive tind să aibă copii cu înălţime mai mică decât a lor, adică mai aproape de medie decât a părinţilor. Să luăm un exemplu ilustrativ. Galton a găsit un coeficient de corelaţie între înălţimea părinţilor (X) şi cea a copiilor (Y) r=+0.67. Putem deci prezice înălţimea copilului dacă ştim că înălţimea medie a doi părinţi oarecare, exprimată în scoruri z, este z x= (adică cu două abateri standard mai înalţi decât media): z y ' 0.67 * 1.34 /11
Aşa cum se observă, părinţii a căror înălţime cu două abateri standard mai mare decât media, pot avea copii a căror înălţime să se abată doar cu 1.34 abateri standard de la medie. Galton a denumit această tendinţă ca regresie către mediocritate, dar termenul consacrat acum este cel de regresie către medie. Faptul că se bazează pe corelaţia de tip liniar ne permite să vorbim de o regresie liniară către medie. Linia de regresie Având reprezentarea norului de puncte specific unei anumite corelaţii, tendinţa relaţiei este dată de dreapta care aproximează cel mai bine variaţia perechilor de valori X/Y. Traiectoria acestei linii se fixează pe baza unui model matematic, numit metoda celor mai mici pătrate, care asigură minimizarea distanţelor dintre punctele reale şi linia de predicţie, numită şi linie de regresie, dintr-un motiv pe care îl vom discuta puţin mai târziu. În imaginea de mai jos avem o ilustrare grafică a liniei de regresie în condiţiile unei corelaţii imperfecte (r=+0.74). După cum observăm, în cazul unei corelaţii imperfecte punctele reale sunt distribuite în jurul punctelor care compun dreapta de regresie, distanţa dintre acestea fiind notată cu ε (epsilon) şi reprezentând eroarea de estimare în fiecare punct al graficului. Evident, cu cât suma distanţelor (Σε i) este mai mare, cu atât eroarea de predicţie este mai mare, iar acest lucru se întâmplă pe măsură ce coeficienţii de corelaţie sunt mai mici (norul de puncte fiind mai împrăştiat). În esenţă, pentru a putea trasa dreapta de regresie a două variabile ne sunt necesare punctul de origine al acesteia şi înclinarea, sau panta. Odată aflate, putem trasa linia de regresie utilizând formula clasică a liniei drepte: unde: Y ' a b yx yx * X (Formula 3.6) Y este valoarea prezisă a fiecărui punct de pe dreaptă a yx este originea dreptei sau termenul liber al ecuaţiei, de fapt punctul în care linia de regresie intersectează ordonata (axa Oy). b yx este panta liniei de regresie X este valoare predictor a variabilei Y În ce priveşte panta, dacă privim formula 3.5, observăm că poate fi înţeleasă şi, implicit, exprimată, ca fracţiuni din valorile variabilei X, fracţiuni determinate de valoarea lui r. Astfel, dacă r=1, pentru o unitate a lui X avem o înclinare de aceeaşi unitate a lui Y. Atunci când r=0.5, de exemplu, pentru a anumită unitate a variabilei X avem o jumătate din unitatea valorii lui Y. Atunci când corelaţia este perfectă, toate punctele se situează pe linia de regresie. Când corelaţia este diferită de 1, punctele se situează în jurul liniei de regresie într-un nor, cu atât mai îndepărtat de aceasta cu cât corelaţia este mai mică. Intuitiv, linia de regresie poate fi văzută ca o medie a norului de puncte, 3/11
fiind trasată astfel încât distanţele faţă de punctele distribuţiei celor două variabile să fie similare de o parte şi de alta a liniei. Expresia grafică a liniei regresiei este diferită, în funcţie de punctul de origine şi de unghiul de pantă al dreptei. Drepte de regresie cu aceeaşi origine, dar cu pante diferite Drepte de regresie cu aceeaşi pantă, dar cu origini diferite Punctul de origine reprezintă, de fapt, valoarea lui Y corespunzătoare celei mai mici valori a lui X. Atunci când aceste valori sunt identice, punctul de origine este în originea graficului. De exemplu, în imaginea din stânga, observăm că valorii 0 pentru X îi corespunde valoarea 40 pentru Y, pentru ambele drepte de regresie. În imaginea din dreapta, însă, valorii 0 pentru X îi corespund diferite valori pe axa Y. Formula de calcul a regresiei pentru scorurile primare (brute) Formula 3.5 este adecvată pentru situaţia în care operăm cu scorurile standard (z): Pentru a opera direct cu scorurile primare (brute) ale variabilelor, trebuie operate o serie de transformări succesive ale acestei formule, până va fi adusă la o formă care să corespundă ecuaţiei liniei drepte, prezentată mai sus. Vom prezenta aici numai rezultatul final al acestor transformări, care se exprimă în următoarea formulă de calcul pentru linia de regresie: Y ' z r * ' z y x y y * r * x * r x x y * X Formula 3.7 care poate fi privită ca expresie a ecuaţiei generice de regresie liniară mai sus menţionate: Y ' ayx byx * X Relativa complexitate a ecuaţiei de regresie liniară este compensată de faptul că, în prezent, rezolvarea ei cade în sarcina programelor specializate. Singurul motiv pentru care am introdus aici formula ecuaţiei de regresie este acela de a înţelege că pentru realizarea predicţiei unei anumite valori Y este necesar să cunoaştem valoarea predictor X, punctul de origine al dreptei (termenul liber al ecuaţiei, a yx) şi panta liniei de regresie (b yx). Atât a yx cât şi b yx rezultă din analiza de regresie şi sunt utilizate ulterior în predicţia oricărei valori Y pornind de la orice valoare X. 4/11
Analiza reziduală Aşa cum am văzut, linia de regresie reprezintă doar o estimare a relaţiei dintre cele două variabile. Ea se obţine, de fapt, prin căutarea unui traseu prin norul de puncte astfel încât distanţa însumată dintre dreaptă şi punctele de deasupra să fie egală cu distanţa însumată faţă de punctele de sub linie. În cazul unei corelaţii perfecte toate punctele de intersecţie ale valorilor celor două variabile se află exact pe dreapta de regresie. În cazul corelaţiilor imperfecte distanţele dintre puncte şi dreapta de regresie exprimă, de fapt, eroarea de estimare a asocierii dintre variabile. Distanţa dintre poziţia reală a punctelor şi cea estimată cu ajutorul liniei de regresie se numeşte valoare reziduală şi exprimă, desigur, o eroare de estimare. Din acest motiv nici panta (unghiul de înclinare al liniei), nu este exact de 45 o. Cu cât suma distanţelor de la fiecare punct la linia de regresie este mai mare, cu atât eroarea de estimare este mai pronunţată. Pătratul sumei tuturor distanţelor dintre valorile de pe linie şi punctele din afara liniei de regresie reprezintă ceea ce se numeşte varianţa estimării sau varianţa reziduală, şi se calculează astfel: Y Y ' est ( y) N (Formula 3.8) Cu cât vor fi mai apropiate punctele de intersecţie de linia de regresie, cu atât mai puţină eroare vom avea în predicţie şi, implicit, o corelaţie mai mare. Invers, cu cât punctele de intersecţie vor fi mai îndepărtate de linia de regresie, cu atât cu atât valoarea reziduală va fi mai mare iar corelaţia va fi mai mică. La limită, pentru o corelaţie egală cu 0, linia de regresie va avea o traiectorie orizontală, înclinarea ei fiind 0. Calcularea ecuaţiei de regresie cu SPSS Vom prezenta un exemplu fictiv de analiză de regresie între nivelul cunoştinţelor de matematică şi rezultatele finale la cursul de statistică. Condiţii de aplicare a analizei de regresie Din punct de vedere statistic, condiţiile variabilelor care sunt supuse analizei de regresie sunt aceleaşi ca în cazul corelaţiei deoarece regresia liniară este o aplicaţie a acesteia: variabile măsurate pe scală de interval sau de raport şi normalitatea distribuţiei variabilelor. Aranjarea datelor Structura de variabile este similară analizei de corelaţie (vezi imaginea alăturată). Procedura: În principiu, analiza de regresie începe cu coeficientul de corelaţie dintre variabile şi vizualizarea imaginii scatterplot. În cazul nostru, urmând procedura prezentată mai sus, am obţinut o corelaţie r=+0.74 (p=0.00). Acest rezultat confirmă existenţa unei legături pozitive semnificative între cunoştinţele de matematică şi performanţa la statistică. O idee mai exactă ne oferă coeficientul de determinare r =0,54. Acesta ne spune că 54% din variaţia performanţei la statistică este explicată de variaţia valorilor la variabila cunoştinţe de matematică. Deducem că restul de 46% din performanţa la statistică este explicată de alte variabile, necunoscute în această fază 3. 3 Facem precizarea că valorile şi aprecierile nu se bazează pe un studiu real. 5/11
Pe baza acestor concluzii se poate trece la analiza de regresie a cărei finalitate este aceea de obţinere a coeficienţilor a (termenul liber, sau originea dreptei de regresie) şi b (panta dreptei de regresie), cu ajutorul cărora se poate estima performanţa la statistică pe baza rezultatului la un test de cunoştinţe matematice aplicat în prima zi de şcoală. Neîndoielnic, o astfel de procedură s-ar justifica mai ales pentru identificarea studenţilor cu potenţiale dificultăţi şi care, tocmai fiind avertizaţi în legătură cu aceste dificultăţi, vor putea să acorde statisticii o atenţie sporită, în vederea obţinerii unui rezultat peste nivelul celui prezis. Lansarea procedurii: Statistics-Regression-Linear... În caseta principală Linear Regression se trece variabila criteriu în zona Dependent iar variabila predictor, în zona Independent(s). În caseta Statistics, bifăm Estimates pentru obţinerea coeficienţilor de regresie (opţiune implicită) În caseta Regression Save, bifăm Predicted Values-Unstandardized şi Residuals- Unstandardized, care vor avea ca efect crearea de variabile distincte în baza de date. Prediction interval (individual) va calcula limitele de încredere pentru valorile prezise. Valorile prezise sunt valorile rezultate pe baza modelului de predicţie. Valorile reziduale se calculează ca diferenţă între valorile variabilei criteriu si cele prezise pe baza modelului de regresie. 6/11
Analiza rezultatelor Tabelul Model Summary oferă valoarea coeficientului de regresie, notat cu R, care este identic cu coeficientul de corelaţie dintre cele două variabile. Interpretarea este similară coeficientului de corelaţie simplă, la fel ca şi pentru R, care este coeficientul de determinare al lui R. Valoarea lui ne spune că 55% din variaţia performanţei la statistică este explicată de variaţia variabilei cunoştinţe de matematică. Adjusted R Square este o corecţie a lui R în funcţie de numărul de predictori şi numărul de subiecţi. ANOVA(b) Model Sum of Squares df Mean Square F Sig. 1 Regression 35.064 1 35.064 15.899.00(a) Residual 8.670 13.05 Total 63.733 14 a Predictors: (Constant), Performanta la statistica b Dependent Variable: Aptitudini matematice Tabelul ANOVA include rezultatul testului de semnificaţie pentru R. La fel ca şi coeficientul de corelaţie Pearson, coeficientul de regresie (R) poate fi semnificativ sau nesemnificativ. Spre deosebire de r însă, testarea semnificaţiei lui R se face prin raportare la distribuţia Fisher. Concret, citim valoarea Sig. (echivalentul SPSS al lui p). Dacă Sig. este egal sau mai mic decât pragul alfa (0.05), decidem respingerea ipotezei de nul. Dacă Sig. este mai mare de 0.05, decidem acceptarea ipotezei de nul şi respingem ipoteza unei relaţii semnificative între predictor şi criteriu. În cazul nostru, Sig.=0.00, ceea ce ne îndreptăţeşte să respingem ipoteza de nul şi să acceptăm că există o relaţie semnificativă între performanţa matematică şi cea statistică. Tabelul Coefficients conţine coeficienţii B (nestandardizaţi, exprimaţi în valorile variabilei predictor) şi coeficientul beta (standardizat, exprimat în valori z), care pot fi utilizaţi, la alegere, în ecuaţia de predicţie. Astfel, pe baza acestor coeficienţi, în anul următor de studiu, dacă un student realizează un scor de 30 la testul de cunoştinţe de matematică, se poate estima performanţa finală la statistică cu ajutorul relaţiei: stat _ fin a b * mat _ in 3.406 0.854*30 9.0 unde 3.406 este originea iar 0.854 este panta dreptei de regresie. Sau, dacă predicţia se face pe baza unui scor standardizat z al variabilei mat_in (să zicem, 0.93), atunci: 7/11
stat _ fin beta* mat _ in 0.74*0.93 0.69 În acest caz termenul liber are valoarea 0, deoarece originea dreptei pentru scoruri standardizate se află în 0. Desigur, scorurile astfel prezise sunt estimări, atâta timp cât corelaţia dintre variabile nu este perfectă. Iar estimările conţin cu atât mai multă eroare cu cât corelaţia dintre variabile este mai mică (punctele graficului de corelaţie fiind mai îndepărtate de dreapta de regresie). La finalul procedurii analizei de regresie, cu setările de mai sus, în baza de date apar câteva variabile noi, aşa cum se vede în imaginea de mai jos: Variabila pre_1, conţine valorile prezise pe baza modelului de regresie. Variabila res_1, conţine diferenţa dintre valoarea reală şi valoarea prezisă. Variabilele lici_1 şi lici_, conţin limitele inferioară şi superioară ale intervalului de încredere pentru fiecare valoare în parte. Pentru a înţelege mai bine problema limitelor, să privim prima valoare prezisă de pe coloana pre_1 (5.598). Cu un nivel de încredere de 95% (echivalent cu o probabilitate de eroare de 0.05), putem spune că valoarea adevărată pentru stat_fin prezisă pe baza valorii mat_in=6, s-ar afla în intervalul 1.77 şi 9.41. În fine, rezultatele conţin şi imaginea scatterplot a relaţiei dintre valorile mat_in şi scorurile z ale variabilei pre_1. 8/11
Imaginea este identică cu ceea ce am prezentat în cazul corelaţiei. Singura deosebire este dată de trasarea dreptei. Aceasta se face de către operator, în felul următor: se acţionează dublu clic de mouse pe imaginea graficului din Viewer. prin care... graficul este trecut deschis într-o fereastră individuală de editare, în care... se execută procedura Chart-Options-Fit Line- Fit Options. La capătul acestei serii de acţiuni apare caseta de mai jos unde se marchează Linear regression. Facem precizarea că acest procedeu de trasare a liniei în interiorul scatterplot-ului este utilizabil şi în cazul corelaţiei. Dacă se alege alt model decât cel liniar (de exemplu, Quadratic regression) se va obţine linia de regresie sub formă curbilinie, punând în evidenţă abaterile de la modelul liniar. Acest lucru este cu deosebire util atunci când corelaţia este mică, fapt care se poate datora faptului că relaţia dintre variabile nu urmează un model liniar (vezi exemplul din prima secţiune, bazat pe corelaţia dintre scorurile z şi probabilităţile de sub curba normală). Ce utilizăm, corelaţia sau regresia? Corelaţia şi regresia liniară sunt similare şi, de aceea, uşor de confundat. În unele situaţii pot fi utilizate ambele proceduri, dar fiecare dintre ele sunt recomandabile cu precădere în anumite situaţii, astfel: Se calculează corelaţia liniară atunci când există două variabile măsurate pe aceiaşi subiecţi şi se doreşte evaluarea gradului de asociere între variabile; Se calculează regresia liniară atunci când una dintre variabile precede şi poate fi cauza celeilalte variabile; atunci când una dintre variabile este manipulată, se calculează regresia; Atenţie, calculele regresiei nu sunt simetrice, ca urmare, inversând variabilele în ecuaţia de regresie se va obţine o linie de regresie diferită, în timp ce, dacă se inversează ordinea variabilelor în calcularea corelaţiei, se obţine acelaşi coeficient r. Cea mai firească utilizare a analizei de regresie este în situaţiile în care dorim să facem predicţii. De exemplu, dacă am efectuat analiza de regresie între cunoştinţele de matematică şi performanţa finală la cursul de statistică, într-un an, putem, în anul următor, să estimăm rezultatul final la statistică pe baza parametrilor ecuaţiei de regresie calculaţi anterior. În acest scop, aplicăm acelaşi test de cunoştinţe de matematică, după care construim predicţii pentru fiecare student în parte. Finalitatea acestui demers ar putea fi aceea de identifica din timp studenţii care au cele mai mari şanse de a nu obţine notă de trecere, şi de a efectua cu ei o pregătire suplimentară, care să prevină această situaţie. Dar predicţia este una dintre procedurile specifice examenelor psihologice de selecţi, în care rezultatul la un test psihologic poate servi pentru selecţia candidaţilor care au cele mai bune şanse de a realiza performanţe acceptabile într-un anumit domeniu de activitate. De exemplu, dacă am efectuat o analiză de regresie între coeficientul de inteligenţă şi performanţa şcolară pe un lot de 9/11
candidaţi la admiterea într-o şcoală de zbor, putem ulterior să estimăm nivelul performanţei de zbor a altor subiecţi doar prin evaluarea inteligenţei lor. De asemenea, analiza de regresie este utilă în controlul statistic al variabilelor externe, acelea care se suprapun peste variabilele studiate, şi al căror efect dorim să îl eliminăm. Acest demers este specific unor proceduri statistice avansate (regresia multiplă şi analiza de covarianţă) pe care nu ne propunem să le discutăm aici. Corecţia restricţiei de amplitudine Un factor recunoscut de subapreciere a calităţii predicţiei în situaţii de selecţie (validitatea metodelor de selecţie psihologică) este aşa numitul efect de restricţie al amplitudinii. Studiile asupra relaţiei dintre performanţa la testele de selecţie şi performanţa în procesul de instruire se efectuează frecvent pe eşantioane limitate, rezultate în urma unei decizii de selecţie, prin care doar o parte a candidaţilor sunt declaraţi admişi. Aceasta face ca studiile validare (corelaţia dintre rezultatul la testul psihologic şi performanţa în activitate) să se efectueze numai pe subiecţii care au fost declaraţi admişi, adică cei pentru care performanţa la testele psihologice are un grad de variaţie mai mic, tocmai din cauza respingerii celor cu performanţe reduse la testul de selecţie. Acest fenomen a fost denumit restricţie de amplitudine şi este considerat responsabil pentru concluzii incorecte în studiile de validare. Thorndike (1949), citat de Carreta & Ree (003), a oferit un dramatic exemplu al acestui efect. Un grup experimental de 1036 candidaţi piloţi din US Army Air Corps au fost admişi în procesul de instruire în anul 1944, indiferent de scorul obţinut la cinci teste de aptitudini. Ulterior, au fost calculate corelaţiile dintre performanţa la teste şi un criteriu de performanţă de instruire pentru toţi cei 1036 candidaţi şi, separat, pentru 136 de candidaţi care ar fi fost admişi, dacă s-ar fi aplicat standardul de selecţie existent în uz. Scorul compozit rezultat din cele cinci teste psihologice a obţinut o corelaţie de 0.64 pentru întregul lot evaluat (fără restricţie de amplitudine) şi numai 0.18 pentru lotul care ar fi putut fi selectat conform standardului (cu restricţie de amplitudine). Cea mai dramatică diferenţă s-a constatat pentru testul de coordonare psihomotorie, unde corelaţia pentru lotul nerestricţionat a fost de 0.40, iar pentru lotul restricţionat de -0.03! În medie, coeficienţii de corelaţie pentru lotul nerestricţionat s-au dovedit mai mari cu 0.9 faţă de lotul restricţionat. Exemplul de mai sus este dovada clară că validitatea calculată pe loturi restricţionate în amplitudine (o expresie care are în vedere o împrăştiere mai mică a variabilelor predictor), are o valoare mai mică decât în realitate, prin reducerea importanţei cauzale a variabilei predictor asupra variabilei criteriu (Goldberg, 1991). Ca urmare, calcularea şi raportarea coeficienţilor de corelaţie fără a se ţine cont de efectul de restricţie a amplitudinii, poate conduce la decizii de selecţie greşite. Soluţia acestei probleme constă în procedura de corecţie de continuitate a coeficientului de corelaţie. Ea se poate face, fie la nivel univariat, atunci când avem un singur predictor, fie la nivel multivariat, atunci când există mai mulţi predictori (teste psihologice) pentru un anumit criteriu de performanţă (Ree & Carretta, 1994). Pentru exemplificare, vom reda mai jos doar un calcul al corecţiei de continuitate univariată, utilizând una dintre formulele uzuale pentru acest scop: r XY r X xy x 1 rxy X rxy unde: r XY=corelaţia corectată r xy=corelaţia necorectată σ X=abaterea standard a grupului integral (totalul celor evaluaţi iniţial) σ x=abaterea standard a grupului selecţionat (cei admişi) Este evident faptul că pentru a putea efectua corecţia este necesar să păstrăm datele pentru întregul lot testat la selecţie. Să presupunem că valoarea coeficientului de corelaţie dintre scorul la un test de inteligenţă şi performanţa şcolară, calculat pe un lot de elevi admişi în urma unui examen de 10/11
selecţie, este de 0.9. Tabelul de mai jos cuprinde parametrii lotului integral (nerestricţionat) şi cei ai lotului admis (restricţionat). Parametrii lotului integral Parametrii lotului restricţionat (totalul candidaţilor evaluaţi) (candidaţii admişi) m X=110 m x=17 σ X=17 σ x=11 Înlocuim datele în formulă: r XY 17*0.9 11 * 1 0.9 17 *0.9 0.4 Aşadar, corelaţia corectată dintre testul de inteligenţă şi criteriul de validare este mai mare decât cea obţinută (r corectat=0.4 faţă de r necorectat=9). Vom reţine că, în măsura în care împrăştierea datelor restricţionate (prin selecţie) este mai mică decât împrăştierea datelor integrale, iar media datelor restricţionate este mai mare decât cea a datelor integrale, coeficientul de corelaţie corectat ( adevărat ) este mai mare decât cel calculat. Cu alte cuvinte, în situaţii de acest gen, coeficienţii de corelaţie obţinuţi subapreciază valoarea reală a legăturii dintre variabile. Chiar şi după aplicarea corecţiei, se apreciază că se menţine o tendinţă de subestimare a validităţii (Linn, Harnish, & Dunbar, 1981). Atunci când se utilizează procedura de corecţie este recomandabil să se raporteze atât valoarea necorectată, cât şi valoarea corectată a coeficientului de corelaţie, chiar dacă doar aceasta din urmă va fi luată în considerare la elaborarea concluziilor. Această procedură de corecţie este extrem de utilă mai ales pentru situaţiile în care se urmăreşte validarea unor teste în procedurile de selecţie a personalului. Concluzii Regresia liniară simplă este o procedură de predicţie, pe baza corelaţiei dintre două variabile cantitative (I/R). Precizia predicţiei este dată de valoarea coeficientului de corelaţie Pearson dintre variabile. Cu cât r este mai mare, cu atât predicţia valorilor unei variabile (numită criteriu) pornind de la valorile celeilalte variabile (numită predictor) este mai bună. La limită, când r=1, predicţia este perfectă. Modelul de regresie se exprimă grafic printr-o dreaptă, al cărui traseu prin norul de puncte minimizează distanţele dintre punctele dreptei şi cele ale scatterplot-ului corelaţiei. Ecuaţia de regresie, în termenii scorurilor brute este Y =a yx+b yx*x, unde Y reprezintă valorile prezise, a yx reprezintă punctul de origine al liniei de regresie, b yx înclinarea acesteia, iar X, valorile variabilei predictor. Împrăştierea valorilor în jurul liniei de regresie se numeşte varianţă reziduală (sau varianţa estimării) şi exprimă gradul de eroare (imprecizie) al modelului de predicţie. Eroarea de estimare este 0 atunci când corelaţia este perfectă şi din ce în ce mai mare, pe măsură ce valorile lui r sunt mai mici. Utilitatea regresiei liniare este în studii de predicţie, de regulă, în contextul unor examene de selecţie psihologică. 11/11