FORUM STATISTICUM SLOVACUM

Size: px
Start display at page:

Download "FORUM STATISTICUM SLOVACUM"

Transcription

1 FORUM STATISTICUM SLOVACUM I SSN /

2 Slovenská štatistická a demografická spoločnosť Miletičova 3, Bratislava Plán akcií na rok 2016: FERNSTAT 2016 apríl máj 2016, Univerzita Mateja Bela Banská Bystrica EKOMSTAT 2016: 30. seminár štatistiky pre výskumnú a hospodársku prax máj 2016, Trenčianske Teplice 18. Slovenská štatistická konferencia jún 2016, Košice Výpočtová štatistika 2016: 25. medzinárodný seminár december 2016, Bratislava Prehliadka prác mladých štatistikov a demografov december 2016, Bratislava Regionálne akcie priebežne Diskusné popoludnia a prednášky priebežne

3 FORUM STATISTICUM SLOVACUM 6/ FOREWORD Dear colleagues, we propose the sixth issue of the eleventh volume of the scientific peer-reviewed journal published by the Slovak statistical and demographical society (SSDS). This issue comprises contributions that are content-compatible with the topic Computational statistics. Editors: Janka Medová, Iveta Stankovičová, Tomáš Želinský. Reviewers: doc. Ing. Iveta Stankovičová, PhD., doc. Ing. Tomáš Želinský, PhD., PaedDr. Janka Medová, PhD., doc. RNDr. Jitka Bartošová, Ph.D., Ing. Tomáš Löster, Ph.D., doc. Ing. Jitka Langhamrová, CSc. Assoc. Prof. Ing. Iveta Stankovičová, PhD. President of SSDS

4 2 FORUM STATISTICUM SLOVACUM 6/2015 PREDHOVOR Vážené kolegyne, vážení kolegovia, predkladáme šieste číslo jedenásteho ročníka vedeckého recenzovaného časopisu Slovenskej štatistickej a demografickej spoločnosti (SŠDS). Toto číslo je zostavené z príspevkov, ktoré sú obsahovo orientované v súlade s tematikou Výpočtová štatistika. Editori: Janka Medová, Iveta Stankovičová, Tomáš Želinský. Recenzenti: doc. Ing. Iveta Stankovičová, PhD., doc. Ing. Tomáš Želinský, PhD., PaedDr. Janka Medová, PhD., doc. RNDr. Jitka Bartošová, Ph.D., Ing. Tomáš Löster, Ph.D., doc. Ing. Jitka Langhamrová, CSc. doc. Ing. Iveta Stankovičová, PhD. predsedníčka SŠDS

5 FORUM STATISTICUM SLOVACUM 6/ Změny monetární chudoby v Čechách a na Slovensku vlivem distribuce sociálních transferů Change in monetary poverty in Czech Republic and Slovakia as an effect of social transfer allocation Jitka Bartošová, Vladislav Bína Abstract: The presented paper is focused on analysis of reduction in monetary poverty of individuals in the Czech Republic and Slovakia as a result of social transfer allocation to households. Quantification was performed using Foster-Greer-Thoerbecke additive measures of poverty risk-of-poverty, poverty gap and severity of poverty. The computations were based on equalised incomes of individuals (years ) before and after taking social transfers into account. Thus we can partially evaluate impact of world-wide economic crisis on the development of social situation of inhabitants in both countries. According to the fact that social transfers belong among the mandatory expenditures of the state, its development reflects yet another important problem that contemporary economies deal with, namely ageing of population. It can be expected that the economic crisis together with unfavourable demographic changes leads to the change in values of monetary poverty indicators of incomes without social transfers and affects also the reduction of social transfers. Abstrakt: Předložený příspěvek je zaměřen na analýzu redukce monetární chudoby jedinců v Čechách a na Slovensku v důsledku distribuce sociálních transferů domácnostem. Pro kvantifikaci monetární chudoby byly použity Foster-Greer-Thoerbeckeovy aditivní míry chudoby riziko, hloubka a závažnost. K výpočtům byly použity ekvivalizované hodnoty příjmů osob před a po započtení sociálních transferů v letech 2005 až Budeme mít tedy možnost částečně posoudit dopad celosvětové hospodářské krize na vývoj sociální situace obyvatelstva v obou zemích. Vzhledem k tomu, že sociální transfery náleží k mandatorním výdajům státu, odráží se v tomto vývoji také dalším významným problémem, se kterým se současné ekonomiky potýkají, a to je stárnutí populace. Lze očekávat, že hospodářská krize v kombinaci s nepříznivým demografickým vývojem se projeví jak v hodnotách indikátorů monetární chudoby před započtením sociálních transferů, tak i v jejich redukci. Key words: equalised income of individual, EU-SILC, monetary poverty, social transfers. Kľúčové slová: ekvivalizovaný příjem osoby, EU-SILC, monetární chudoba, sociální transfery. JEL classification: C10, D31, D63 1. Úvod Světová hospodářská krize, provázená vysokou mírou nezaměstnanosti a podnikatelské nejistoty, společně s rostoucí zadlužeností státního i soukromého sektoru má za následek celkovou hospodářskou i politickou destabilizaci a působí nepříznivě na kooperaci států v rámci EU. V této obtížné situaci, kdy jsou vlády nuceny všemi prostředky omezovat své schodkové rozpočty, vstupuje ještě celosvětový fenomén stárnutí populace spojený s dalším navyšováním mandatorních výdajů státu. Tento nepříznivý demografický vývoj, provázený rostoucí závislostí na očekávané pracovní aktivitě obyvatelstva, vyžaduje uvážlivé zásahy do hospodářské struktury i do sociální politiky především do politiky zaměstnanosti a sociální soudržnosti. Nejvíce se současná hospodářská krize dotýká těch nejchudších, tj. domácností ohrožených monetární chudobou a sociálním vyloučením. Evropské státy jsou v současné době postaveny před úkol navrhnout a realizovat dílčí opatření, která by v souladu s globální

6 4 FORUM STATISTICUM SLOVACUM 6/2015 strategií Evropa 2020 vedla ke zmírnění negativního dopadu hospodářské krize na obyvatelstvo. Ožehavost a aktuálnost této problematiky dotvrzuje řada článků věnovaných analýzám příjmové nerovnosti, rizika monetární chudoby a materiální deprivace, nezaměstnanosti a demografického vývoje, které byly v poslední době publikovány v odborných a vědeckých časopisech. U nás i v zahraničí. Z českých a slovenských publikací můžeme jmenovat např. práce Bartošové a Želinského (2013), Bílkové (2012), Fialy a Langhamrové (2014), Michálka a Veselovské (2012), Pauhofové (2012), Stankovičové, Vlačuhy a Ivančíkové (2013), Večerníka (2013), Želinského a Pauhofové (2013). Další četné publikace, které s touto problematikou úzce souvisí, se zabývají modelováním příjmové, resp. výdajové distribuce a diagnostikou faktorů, které ji ovlivňují. V posledních letech byly publikovány např. práce Malé (2013), Marka a Vrabce (2013), Pacákové, Lindy a Sipkové (2012), Řezankové a Löstera (2013), Řezankové a Želinského (2014)., Sipkové a Sipka (2012), Šimpacha (2013), Želinského a Stankovičové (2012) a další. Datová základna je tvořena výsledky výběrového šetření příjmů a životních podmínek domácností EU-SILC (European Union Statistics on Income and Living Conditions) z let 2005 až Základní jednotkou členění je hospodařící domácnost a její osoby, které mají ve vybraném bytě jediné či hlavní bydliště. Šetření je povinné pro všechny členské státy Evropské Unie a získaný vzorek je reprezentativní. 2. Měření chudoby Chudoba i její prohlubování v době hospodářské krize je obecně považováno za vážný společenský problém, který se nedotýká pouze obyvatel třetího světa, ale i obyvatel rozvinutých zemí včetně evropských. Současná hospodářská krize se nejvíce dotýká těch nejchudších, kterými jsou domácnosti nacházející se pod hranicí relativní chudoby nebo v její blízkosti. K redukci chudoby jednotlivců může přispět cílená distribuce sociálních transferů domácnostem. Lze však očekávat, že hospodářská krize v kombinaci s nepříznivým demografickým vývojem (stárnutím populace) se negativně odrazí v hodnotách indikátorů chudoby před i po započtení sociálních transferů do celkových příjmů domácností. Pojem chudoba je definován několika způsoby, které se liší především podle oblasti, na kterou se hodnocení chudoby zaměřuje, a prostředků, které k tomuto účelu využívá. Vždy se však jedná o nalezení určité hranice, pod níž nejsou lidé schopni uspokojovat určité základní potřeby, ať už z hlediska objektivního či subjektivního, absolutního či relativního. V rámci objektivního přístupu se pak k hodnocení míry chudoby používají absolutní nebo relativní metody. Absolutní přístup se zpravidla používá ke zjišťování míry chudoby v rozvojových zemích, relativní přístup je využíván v ekonomicky vyspělých zemích a jeho princip vymezil profesor Peter Townsend z London School of Economics. Z jeho definice vychází i definice chudoby přijatá Evropskou komisí v roce 1984, podle níž lze za chudé považovat osoby, rodiny a skupiny osob, jejichž zdroje (materiální, kulturní a sociální) jsou tak omezené, že je vylučují z minimálně akceptovatelného způsobu života členských států EU, v nichž žijí. Jednotná metodika používaná v EU dává předpoklad pro vzájemné porovnávání chudoby či blahobytu v rámci členských zemí Unie Indikátory monetární chudoby Mezinárodně uznávanou veličinou používanou pro posuzování a porovnávání relativní míry chudoby ve vyspělých zemích je hranice rizika monetární chudoby (poverty threshold). Jedná se o relativní hodnotu, která nemonitoruje přímo finanční situaci členů domácnosti, nýbrž umožňuje porovnávat možnosti jedinců oproti ostatním členům dané společnosti

7 FORUM STATISTICUM SLOVACUM 6/ (obvykle v rámci státu či regionu). Podle P. Townsenda se pod hranicí chudoby nacházejí jedinci, či domácnosti, které si nemohou dovolit určité potraviny, oblečení, vzdělání, atp. běžné v jejich společnosti. Výpočet hranice a měr ohrožení monetární chudobou se podle metodiky EU opírá o ekvivalizovaný příjem osob. Jedná se o celkový disponibilní příjem domácnosti přepočtený na spotřební jednotku, který je (podle metodiky používané v EU) přiřazen všem členům domácnosti. Pro více informací viz např. Bartošová (2013). Za hranici chudoby je v zemích Evropské unie stanoveno 60 % mediánu národního ekvivalentního příjmu osob přepočteného v paritě kupní sily. Hranice rizika monetární chudoby slouží k posuzování a porovnávání blahobytu jedinců v zemích EU, nedává však právní nárok osobám na vyměřování a pobírání sociálních dávek. Například v České republice představuje společensky uznávanou minimální hranicí příjmů tzv. životní minimum. Jeho hodnota je určena státními orgány centrálně a je vodítkem pro posuzování hmotné nouze (materiální deprivace). Kromě životního minima je státem definované ještě tzv. existenční minimum, což je minimální hranice peněžních příjmů, která se považuje za nezbytnou k zajištění výživy a ostatních základních osobních potřeb na úrovni umožňující přežití. 1 Podle tohoto zákona částka existenčního i životního minima nezahrnuje potřebné náklady na bydlení a zvyšuje se dle vývoje spotřebitelských cen Foster-Greer-Thoerbeckeovy aditivní míry Pro zjišťování relativní peněžní chudoby jsou obvykle využívány indikátory, které náleží do skupiny aditivních Foster-Greer-Thorbeckeových měr chudoby (Foster, Greer a Thorbecke, 1984), daných obecně vztahem, 1 (1) kde z > 0 je předem daný práh chudoby,,,, je vektor příjmů domácnosti setříděných podle velikosti, q je počet domácností nacházejících se pod prahem chudoby a n je celkový počet domácností. Parametr α podmiňuje míru citlivosti na velikost deprivace těch, kteří se nacházejí pod prahem chudoby (viz Morduch, 2005). Pro α > 1 začne být hodnota distribučně citlivá a s růstem α roste její citlivost na hloubku poklesu osob pod hranicí chudoby. Pro by monitorovala pouze chudobu skupiny těch nejchudších osob ve výběru (více informací viz Ravallion, 1992). Volbou α = 0 dostaneme první, nejpoužívanější Foster-Greer-Thoerbeckeovu míru riziko monetární chudoby 0. Platí 0, (2) Hlavní výhodou této míry je její jednoduchost, nevýhodou je naopak její necitlivost na rozdíly v rozsahu chudoby. Pokud se například chudý jedinec stane ještě chudším, nebo naopak, pokud se velmi chudý jedinec stane méně chudým, hodnota 0 se nezmění. Volbou α = 1 získáme další běžně používanou Foster-Greer-Thoerbeckeovu míru hloubku monetární chudoby 1, které je dána vztahem 1, 1 (3) Hodnota 1 se odvíjí od vzdálenosti ekvivalentního příjmu jedince od hranice chudoby. Poskytuje tedy informaci o rozsahu chudoby. Ani tato míra však není příliš citlivá k rozdělení 1 Ministerstvo práce a sociálních věcí

8 6 FORUM STATISTICUM SLOVACUM 6/2015 příjmů monetárně chudých domácností a nezachytí dostatečně efektivně, pokud se stane chudá osoba ještě chudší. Tento nedostatek odstraňuje volba α = 2. Pro α = 2 dostaneme další třetí Foster-Greer-Thoerbeckeovu míru závažnost monetární chudoby 2, danou jako 2, 1 (4) Tato míra bere do úvahy nerovnost mezi chudými a reaguje na zhoršení situace osoby chudé na ještě chudší. Její hlavní nevýhodou je obtížná interpretace. Přesto je považována za indikátor vhodný pro monitorování nedostatečnosti příjmů z hlediska těch nejchudších skupin obyvatelstva. 3. Vývoj indikátorů monetární chudoby v Čechách a na Slovensku v letech a jejich změny vlivem sociálních transferů Pro sledování vlivu distribuce sociálních transferů na monetární chudobu byly vypočteny hranice a všechny tři indikátory z ekvivalizovaných příjmů osob zvlášť před a po započtení sociálních transferů. Tyto hodnoty byly doplněny o informaci, o kolik se indikátory změnily (zvýšily / snížily) započtením transferů do příjmů domácností. Vývoj hranice monetární chudoby s ohledem na započtení / nezapočtení sociálních transferů do příjmů obyvatelstva v Čechách a na Slovensku (Ts_CZ / Tb_CZ a Ts_SK / Tb_SK) dokumentují tabulka 1 a obrázek 1. Další tři tabulky a grafy ukazují vývoj Fosterreer-Thorbeckeových indikátorů monetární chudoby při započtení / nezapočtení sociálních transferů. Jedná se o hodnoty rizika chudoby (FGT(0)s_CZ / FGT(0)b_CZ a FGT(0)s_SK / FGT(0)b_SK), hloubky chudoby (FGT(1)s_CZ / FGT(1)b_CZ a FGT(1)s_SK / FGT(1)b_SK) a závažnosti chudoby (FGT(2)s_CZ / FGT(2)b_CZ a FGT(2)s_SK / FGT(2)b_SK). Podle výsledků uvedených v tabulce 1 je hranice monetární chudoby v tomto období vyšší v Čechách než na Slovensku před i po započtení sociálních transferů. Tento rozdíl však není velký a postupně se snižuje (dochází ke konvergenci), jak dokumentuje obrázek 1. Rovněž můžeme pozorovat, že tempo růstu hranice chudoby se v důsledku krize zpomalilo. Rovněž ve vývoji rizika monetární chudoby (viz tabulka 2 a obrázek 2) se v obou státech projevila krize. Do té doby klesající hodnoty začaly opět narůstat (na Slovensku rychleji). V roce 2011 se vrátily na hodnoty z roku 2004, v případě Slovenska je mírně převýšily. Pouze v případě rizika chudoby před započtením transferů v Čechách došlo pouze ke stagnaci. Snížení procenta osob nacházejících se pod hranicí chudoby vlivem sociálních transferů se v Čechách pohybovalo v rozmezí 10,90 % (2005) a 7,09 % (2011). Na Slovensku bylo toto snížení menší pohybovalo se mezi 8,45 % (2004) a 5,68 % (2008). Tab.1: Vývoj hranice monetární chudoby s transfery (Ts) a bez transferů (Tb) v Čechách a na Slovensku v letech 2004 až Referenční období SILC2005 SILC2006 SILC2007 SILC2008 SILC2009 SILC2010 SILC2011 SILC2012 Ts_CZ 2539, , , , , , , ,79 Tb_CZ 2320, , , , , , , ,79 Zvýšení_CZ 219,06 272,72 276,77 385,25 393,09 371,05 357,02 349,99 Ts_SK 1693, , , , , , , ,21 Tb_SK 1545, , , , , , , ,80 Zvýšení _SK 147,98 155,74 141,59 200,08 209,31 236,40 231,68 255,41

9 FORUM STATISTICUM SLOVACUM 6/ Hranice monetární chudoby v Čechách a na Slovensku s transfery (Ts) a bez transferů (Tb) Hranice chudoby (EUR/rok) Referenční období Ts_CZ Ts_SK Tb_CZ Tb_SK Obr. 1: Vývoj hranice monetární chudoby s transfery (Ts) a bez transferů (Tb) v Čechách a na Slovensku v letech 2004 až Tab. 2: Vývoj rizika monetární chudoby s transfery (FGT(0)s) a bez transferů (FGT(0)b) v Čechách a na Slovensku v letech 2004 až Referenční období SILC2005 SILC2006 SILC2007 SILC2008 SILC2009 SILC2010 SILC2011 SILC2012 FGT(0)s_CZ 7,81 % 7,00 % 7,12 % 6,01 % 6,23 % 6,50 % 7,21 % 7,39 % FGT(0)b_CZ 17,91 % 17,90 % 16,74 % 15,91 % 14,49 % 14,34 % 14,94 % 14,48 % Snížení _CZ 10,09 % 10,90 % 9,62 % 9,90 % 8,26 % 7,85 % 7,72 % 7,09 % FGT(0)s_SK 10,47 % 9,70 % 8,87 % 8,54 % 9,57 % 10,04 % 10,67 % 11,30 % FGT(0)b_SK 18,92 % 17,06 % 16,17 % 15,80 % 15,25 % 17,47 % 17,45 % 17,95 % Snížení _SK 8,45 % 7,36 % 7,30 % 7,26 % 5,68 % 7,42 % 6,77 % 6,65 % 20% 18% Riziko monetární chudoby v Čechách a na Slovensku s transfery (FGT(0)s) a bez transferů (FGT(0)b) Riziko chudoby 16% 14% 12% 10% 8% 6% Referenční období FGT(0)s_CZ FGT(0)s_SK FGT(0)b_CZ FGT(0)b_SK Obr. 2: Vývoj rizika monetární chudoby v Čechách a na Slovensku v letech 2004 až 2011 s transfery (FGT(0)s) a bez transferů (FGT(0)b).

10 8 FORUM STATISTICUM SLOVACUM 6/2015 Jak ukazují hodnoty uvedené v tabulkách a obrázcích 3 a 4, vývoj dalších dvou ukazatelů chudoby hloubky a závažnosti byl podobný. Je zajímavé, že vliv krize se výrazně negativně projevil pouze na Slovensku, a to v případě hloubky a závažnosti chudoby před započtením sociálních transferů. V České republice naopak po celé období docházelo u těchto ukazatelů před započtením transferů k trvalému poklesu. Tab.3: Vývoj hloubky monetární chudoby s transfery (FGT(1)s) a bez transferů (FGT(1)b) v Čechách a na Slovensku v letech 2004 až Referenční období SILC2005 SILC2006 SILC2007 SILC2008 SILC2009 SILC2010 SILC2011 SILC2012 FGT(1)s_CZ 0,0177 0,0143 0,0157 0,0145 0,0149 0,0170 0,0176 0,0178 FGT(1)b_CZ 0,0843 0,0790 0,0779 0,0673 0,0596 0,0611 0,0586 0,0587 Snížení _CZ 0,0665 0,0648 0,0621 0,0529 0,0447 0,0441 0,0410 0,0409 FGT(1)s_SK 0,0323 0,0255 0,0242 0,0244 0,0271 0,0314 0,0317 0,0313 FGT(1)b_SK 0,0923 0,0672 0,0634 0,0589 0,0611 0,0776 0,0772 0,0734 Snížení _SK 0,0600 0,0417 0,0391 0,0345 0,0340 0,0462 0,0455 0,0421 0,11 Hloubka monetární chudoby v Čechách a na Slovensku s transfery (FGT(1)s) a bez transferů (FGT(1)b) Hloubka chudoby 0,09 0,07 0,05 0,03 0, FGT(1)s_CZ FGT(1)s_SK FGT(1)b_CZ FGT(1)b_SK Referenční období Obr. 3: Vývoj hloubky monetární chudoby v Čechách a na Slovensku v letech 2004 až 2011 s transfery (FGT(1)s) a bez transferů (FGT(1)b). Tab.4: Vývoj závažnosti monetární chudoby s transfery (FGT(2)s) a bez transferů (FGT(2)b) v Čechách a na Slovensku v letech 2004 až Referenční období SILC2005 SILC2006 SILC2007 SILC2008 SILC2009 SILC2010 SILC2011 SILC2012 FGT(2)s_CZ 0,0066 0,0049 0,0058 0,0059 0,0060 0,0069 0,0072 0,0070 FGT(2)b_CZ 0,0606 0,0558 0,0560 0,0459 0,0412 0,0424 0,0387 0,0400 Snížení_CZ 0,0540 0,0510 0,0503 0,0400 0,0352 0,0355 0,0315 0,0330 FGT(2)s_SK 0,0317 0,0110 0,0113 0,0136 0,0133 0,0156 0,0157 0,0151 FGT(2)b_SK 0,0886 0,0453 0,0410 0,0398 0,0408 0,0534 0,0536 0,0497 Snížení _SK 0,0569 0,0343 0,0297 0,0263 0,0275 0,0379 0,0378 0,0346

11 FORUM STATISTICUM SLOVACUM 6/ Závažnost chudoby 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0,00 Závažnost monetární chudoby v Čechách a na Slovensku s transfery (FGT(2)s) a bez transferů (FGT(2)b) Referenční období FGT(2)s_CZ FGT(2)s_SK FGT(2)b_CZ FGT(2)b_SK Obr. 4: Vývoj závažnosti monetární chudoby v Čechách a na Slovensku v letech 2004 až 2011 s transfery (FGT(2)s) a bez transferů (FGT(2)b). 5. Závěr Z provedené analýzy vyplynulo, že pozitivní ovlivnění indikátorů monetární chudoby je v Čechách vesměs větší než na Slovensku. Zvolené časové rozmezí (2004 až 2011) nám umožnilo sledovat vliv celosvětové hospodářské krize na trend vývoje Foster-Greer-Thoerbeckeových indikátorů monetární chudoby. Nesmíme však zapomenout, že negativní důsledky hospodářské krize, které se zde viditelně projevily, jsou umocňovány negativními důsledky současného demografického vývoje (stárnutím populace). Oba tyto faktory zvyšují šanci jedince na pokles pod hranici chudoby. Současně zapříčiňují také růst zatížení státního rozpočtu vyšším objemem sociálních transferů vyplácených ve formě podpor v nezaměstnanosti a starobních důchodů. Efektivnímu nastavení distribuce sociálních transferů, které by přispělo k výraznější redukci chudoby, tedy v současné době do značné míry brání nepříznivý vývoj státních finančních prostředků, který se projevuje růstem zadluženosti a opakovanými schodkovými rozpočty. Literatura BARTOŠOVÁ, J Finanční potenciál domácností kvantitativní metody a analýzy. Praha: Professional Publishing. BARTOŠOVÁ, J. ŽELINSKÝ, T Extent of poverty in the Czech and Slovak Republics fifteen years after split. Post-Communist Economies, roč. 25, č. 1, s BÍLKOVÁ, D Recent Development of the Wage and Income Distribution in the Czech Republic. Prague Economic Papers. roč. 21, č. 2, s FIALA, T. LANGHAMROVÁ, J Modelling of the Future Development of the Total Amount of Premium Paid and Total Amount of Old-Age Pensions in the Czech Republic. Politická ekonomie, roč. 62, č. 2, s FOSTER, J. GREER, J. THORBECKE, E.A Class of Decomposable Poverty Measures. Econometrica, roč. 52, č. 3, s LABUDOVÁ, V. VOJTKOVÁ, M. LINDA, B Application of multidimensional methods to measure poverty. E+M Ekonomie a management. roč. 13, č. 1, s

12 10 FORUM STATISTICUM SLOVACUM 6/2015 MALÁ, I Použití konečných směsí logaritmicko-normálních rozdělení pro modelování příjmů českých domácností. Politická ekonomie, roč. 61, č. 3, s MAREK, L. VRABEC, M Probability Models of Wage Distribution. In: Vojáčková, H. (ed.): Proceedings of 31 th International Conference Mathematical Methods in Economics Jihlava: Vysoká škola polytechnická, s MICHÁLEK, A. VESELOVSKÁ, Z Vývoj a komparácia vybraných charakteristík nerovnosti a chudoby v krajinách EU. In: Pauhofová, I., Želinský, T. (eds.): Nerovnosť a chudoba v Európskej únii a na Slovensku. Košice: TU Košice, s MORDUCH, J Poverty Measures. Handbook on Poverty Statistics: Concepts, Methods and Policy Use. New York: United Nations, Department of Economic and Social Affairs. PACÁKOVÁ, V. LINDA, B. SIPKOVÁ, L' Distribution and Factors of the Highest Wages in the Slovak Republic. Ekonomický časopis, roč. 60, č. 9, s PAUHOFOVÁ, I Generovanie chudoby vo vidieckych regiónov Slovenska v krízovom období. In: Pauhofová, I., Želinský, T. (eds.): Nerovnosť a chudoba v Európskej únii a na Slovensku. Košice: TU Košice, s RAVALLION, M Poverty lines in theory and practice. Living Standards Measurement Study. Working Paper No Washington, DC: World Bank. ŘEZANKOVÁ, H. LÖSTER, T Shluková analýza domácností charakterizovaných kategoriálními ukazateli. E+M. Ekonomie a Management, roč. 16, č. 3, s ŘEZANKOVÁ, H. ŽELINSKÝ, T Factors of Material Deprivation Rate in the Czech Republic by Household Type. Ekonomický časopis, roč. 62, č. 4, s SIPKOVÁ, L'. SIPKO, J Analysis of Income Inequality of Employees in the Slovak Republic. In: Löster, T., Pavelka, T. (eds.): 6 th International Days of Statistics and Economics, Conference Proceedings. Slaný: Melandrium, s STANKOVIČOVÁ, I. VLAČUHA, R. IVANČÍKOVÁ, L Trend Analysis of Monetary Poverty Measures in the Slovak and Czech Republic. In: Löster, T., Pavelka, T. (eds.): 7 th International Days of Statistics and Economics, Conference Proceedings. Slaný: Melandrium, s ŠIMPACH, O Application of ClusterAnalysis on Demographic Development of Municipalities in the Districts of Liberecky Region. In: Löster, T., Pavelka, T. (eds.): 7 th International Days of Statistics and Economics, Conference Proceedings. Slaný: Melandrium, s VEČERNÍK, J The changing role of education in the distribution of earnings and household income: the Czech Republic in Economics of Transition, roč. 21, č. 1, s ŽELINSKÝ, T. PAUHOFOVÁ, I High Income Households in Eastern EU Countries. In: Hu, J.(ed.): 3 rd Conference on Applied Social Science (ICASS 2013), roč. 1, s ŽELINSKÝ, T. STANKOVIČOVÁ, I Spatial Aspects of Poverty in Slovakia. In: Löster, T., Pavelka, T. (eds.): 6 th International Days of Statistics and Economics, Conference Proceedings. Slaný: Melandrium, s Adresa autora: Jitka Bartošová, doc. RNDr., Ph.D. Fakulta managementu, VŠE v Praze Jarošovská 1117/II, Jindřichův Hradec [email protected] Vladislav Bína, doc., Ing., Ph.D. Fakulta managementu, VŠE v Praze Jarošovská 1117/II, Jindřichův Hradec [email protected]

13 FORUM STATISTICUM SLOVACUM 6/ Miera (skóre) ziskovej efektívnosti kontra tradičné ukazovatele výkonnosti Profit efficiency measure (score) versus traditional performance indicators Martin Boďa Abstract: Amongst the proponents of data envelopment analysis (DEA), the dominant opinion is that traditional financial indicators constructed as simple (yet meaningful and wellinterpretable) ratios are not a suitable means to capture performance of units that operate in a multiple-input multiple-output environment. It is therewith accentuated and argued that in evaluating performance of such units comprehensive efficiency measures should be used and they may be obtained in a DEA framework. Responding to this critique, situated in the field of banking and using the data on Slovak commercial banks, the paper undertakes a case study in order to compare DEA-based profit efficiency scores with several traditional profitability indicators and to assess their mutual information content. Abstrakt: Medzi zástancami obalovej analýzy údajov (data envelopment analysis: DEA) prevláda názor, že tradičné finančné ukazovatele konštruované ako jednoduché (síce zmysluplné a dobre interpretovateľné) podiely nie sú vhodným prostriedkom pre obsiahnutie výkonnosti jednotiek, ktoré operujú v podmienkach viacerých vstupov a výstupov. Zdôrazňuje argumentuje sa pritom, že pri hodnotení výkonnosti takýchto jednotiek by bolo vhodnejšie používať všeobecnejšie miery efektívnosti, ktoré môžu byť získané aj prostredníctvom DEA. V reakcii na túto kritiku sa článok zameriava na oblasť bankovníctva a na prípadovej štúdii Slovenských komerčných bánk porovnáva skóre ziskovej efektívnosti získané v rámci DEA s niekoľkými tradičnými ukazovateľmi rentability s cieľom vyhodnotiť ich vzájomnú informačnú hodnotu. Key words: performance, commercial bank, profit efficiency, profitability ratios. Kľúčové slová: výkonnosť, komerčná banka, zisková efektívnosť, ukazovatele rentability. JEL classification: M Úvod Článok sa sústreďuje na metódy hodnotenia výkonnosti rozhodovacích jednotiek (typicky podnikateľských subjektov), ktoré v rámci svojej činnosti realizujú či už fyzickú, alebo konceptuálnu transformáciu vstupov na výstupy. Hoci analytická časť článku vzťahuje hodnotenie výkonnosti na komerčné banky ako názorný príklad rozhodovacích jednotiek, rámec uvádzaných súvislostí sa dotýka ľubovoľnej organizačnej samostatnej jednotky (napríklad podnikateľského subjektu, neziskovej organizácie alebo armádnej zložky), u ktorej možno uvažovať o vstupoch a výstupoch. Obvykle sa táto výkonnosť hodnotí za pomoci jednoduchých finančných ukazovateľov, ktoré merajú výsledný (a spravidla) monetárny efekt sledovanej transformačnej činnosti. Ide spravidla o pomerové ukazovatele rentability, ale používajú sa aj pomerové ukazovatele produktivity. V prvom prípade v čitateli figuruje vhodná analógia zisku a v menovateli sa nachádza vhodná veličina zviazaná so vstupmi alebo výstupmi príslušnej činnosti, podľa čoho charakterizujú buď návratnosť (pasívnych) investovaných zdrojov, alebo zhodnotenie (aktívnych) prostriedkov zapojených do hodnotenej činnosti. Má sa za to, že ide pri ukazovateľoch rentability o syntetické ukazovatele výkonnosti, ktoré vypovedajú o úspešnosti celého rozhodovacieho procesu, o čom svedčí aj skutočnosť, že s obľubou bývajú dezagregované na iné (parciálne) finančné ukazovatele v dupontovskom duchu. V tomto kontexte majú ukazovatele produktivity nižšiu informačnú hodnotu, keďže tieto obvykle dávajú do pomeru výstupy a vstupy, čím sa charakterizuje schopnosť vstupu generovať výstupy. V ich čitateli nie je uvedený zisk, ktorý by umožňoval hodnotiť výsledný efekt rozhodovacej činnosti.

14 12 FORUM STATISTICUM SLOVACUM 6/2015 V prípade viacerých (a spravidla heterogénnych) vstupov a viacerých (a často tiež heterogénnych) výstupov možno voči použitiu jednoduchých pomerových ukazovateľov formulovať rad metodologických výhrad (pozri napr. články autorov Paradi a Zhu, 2013, s. 62; LaPlante a Paradi, 2015, s ). Tieto výhrady možno zhrnúť do nastávajúceho výpočtu: (1.) Jednotlivé pomerové ukazovatele sú schopné informačne postihnúť iba partikulárnu vybranú stránku celého hodnoteného procesu a iba určitý aspekt výkonnosti. (2.) Je fakticky možné konštruovať neohraničený počet pomerových ukazovateľov majúcich relevantnú vypovedaciu schopnosť, avšak poskytujúcich konfliktné hodnotenie a rozporné výsledky. (3.) Svojou technickou konštrukciou tým, že vystupujú v podobe podielu dvoch veličín zodpovedajú podmienkam variabilných výnosov z rozsahu. (4.) Hoci pomerové ukazovatele dávajú informáciu o určitom aspekte výkonnosti, neposkytujú návod (benchmark) pre slabšie hodnotené jednotky, ako majú postupovať pri náprave. (5.) V kontexte komplexnejších hodnotených procesov s varietou vstupov a výstupov je možné zo strany hodnotených subjektov namietať ich nedokonalosti v bodoch (1.) až (4.), tvrdiac, že sú nespravodlivé a neadekvátne, čím sa neutralizuje ich zamýšľaný normatívny potenciál a hodnotenie môže zostať samoúčelné. Takto formulované výhrady pochádzajú z literatúry venovanej metodológii a aplikácii obalovej analýzy údajov (data envelopment analysis: DEA) v rámci hodnotenia výkonnosti rozhodovacích jednotiek potenciálne operujúcimi s viacerými vstupmi s cieľom dosiahnuť relatívne maximálne (a viaceré) výstupy. Vychádzajúc z mikroekonomickej teórie produkcie, poskytuje DEA metodológia rozpracované (a stále zdokonaľované) metodické postupy pre meranie technickej, alokačnej či celkovej ekonomickej efektívnosti rozhodovacích jednotiek vo viacerých kontextoch transformačných procesov. Hoci samotnou podstatou DEA je hodnotenie efektívnosti (a nie výkonnosti v širšom slova zmysle), výsledné skóre (technickej, alokačnej či ekonomickej) efektívnosti zahrňuje v sebe informáciu o všetkých vstupoch a výstupoch hodnoteného procesu, jednak z množstevného hľadiska (technická a ekonomická efektívnosť), jednak z hodnotového hľadiska (alokačná a ekonomická efektívnosť). Preto možno cez skóre technickej efektívnosti merať komplexným spôsobom produktívnosť ako špecifický rys výkonnosti a pomocou skóre ekonomickej efektívnosti reprezentovať univerzálny ukazovateľ globálnej výkonnosti. Z tejto úvahy vychádza aj tento článok, v ktorom sa v súhlase s konvenciou výkonnosť suroguje ekonomickou efektívnosťou. Keď sa rozhodovací proces uskutočňuje v podmienkach, že je možné ovplyvňovať jeho vstupnú aj výstupnú stránku, vtedy sa frekventovane používa termín zisková efektívnosť, čím sa vyjadruje skutočnosť, že ambíciou je dosahovať zisk. Miera ziskovej efektívnosti má potom poskytovať informáciu o dosiahnutej technickej efektívnosti (ktorá vyjadruje schopnosť dosahovať maximálne výstupy pri minimálnej spotrebe vstupov vo fyzických jednotkách) a o dosiahnutej alokačnej efektívnosti (ktorá vyjadruje schopnosť alokovať optimálnu kombináciu/proporciu vstupov pri dosahovaní optimálnej kombinácie/proporcie výstupov vzhľadom na dané ceny vstupov a výstupov). Miera ziskovej efektívnosti potom meria schopnosť nielen realizovať rozhodovací proces pri daných množstvách (bez ohľadu na ceny), ale aj v optimálny kombinácii (bez ohľadu na množstvo) tak, aby bol naplňovaný krátkodobý zisk maximalizujúci cieľ daného rozhodovania. Čím je vyššia táto schopnosť, tým je vyššia aj výkonnosť. Na rozdiel od pomerových ukazovateľov sa explicitne prihliada na jednotlivé vstupy a výstupy a ich ceny. Pomerové ukazovatele výkonnosti v sebe obvykle zahŕňajú informáciu o nich obvykle implicitne v agregovanej podobe. Kritické vnímanie pomerových ukazovateľov výkonnosti je motiváciou tohto článku, ktorý má za cieľ porovnať vypovedaciu zhodu miery (skóre) ziskovej efektívnosti s niektorými pomerovými ukazovateľmi výkonnosti. Toto porovnanie sa realizuje formou prípadovej štúdie týkajúcej sa vzorky slovenských bánk za obdobie od 2000 do 2011 a dátovej množiny

15 FORUM STATISTICUM SLOVACUM 6/ použitej v článku Boďu a Zimkovej (2015). Z metodického hľadiska sa porovnanie zakladá na štyroch operacionalizujúcich voľbách: (i.) špecifikácia modelu bankovej produkcie, podľa ktorého komerčné banky konvertujú prácu a fyzický kapitál na depozitné a kreditné bankové služby, (ii.) rozdelenie skúmaného obdobia 12 rokov na 3 homogénne úseky s rovnakými produkčnými podmienkami, (iii.) voľba primeraného DEA modelu ziskovej efektívnosti spolu s určením ekonomických podmienok produkčného procesu, (iv.) výber relevantných pomerových ukazovateľov výkonnosti. Tieto metodické body sú priblížené v nasledujúcej druhej časti článku. Tretia časť článku obsahuje výsledky a po nej nasleduje záverečná časť vyhradená pre stručný komentár k získaným výsledkom. Výsledky pritom ukazujú, že voľba ukazovateľa výkonnosti je kľúčovým prvkom celého procesu výkonnosti a že nemožno zaručiť, že skóre ziskovej efektívnosti získané v rámci DEA modelu a nejaký vhodne zvolený pomerový ukazovateľ výkonnosti povedú k identickým záverom ohľadom meranej výkonnosti. Nielenže sa môže hodnotenie v niektorých jednotlivých prípadoch odlišovať, ale dokonca globálne hodnotenie môže byť nezlúčiteľné a pomerový ukazovateľ a skóre efektívnosti môžu produkovať úplne odchodné a obrátené hodnotenie. 2. Rámcová metodika a dáta Poňatie výkonnosti je vždy potrebné prispôsobiť konkrétnym okolnostiam jej merania a predmetu hodnotenej činnosti. Síce sa v prípade komerčných bánk pre ich špecifické postavenie ako finančného subjektu aplikuje niekoľko odlišných teoretických prístupov vysvetľujúcich ich raison d'être a opisujúcich podstatu ich transformačného procesu, prevalentnými prístupmi k modelovaniu správania komerčných bánk sú produkčný prístup a intermediačný prístup (pozri napr. Ahn a Le, 2014, s. 18). Kým produkčný prístup vníma komerčnú banku ako producenta bankových služieb predovšetkým depozitného či kreditného charakteru používajúceho pri tejto transformácii inak bežné vstupy ako práca či fyzický kapitál, intermediačný prístup ju charakterizuje ako finančného sprostredkovateľa používajúceho tieto vstupy na konverziu depozít na úvery. Medzi prístupmi je zásadný rozdiel v chápaní depozít, kým v produkčnom prístupe sú výstupom (tzn. sú produkované), v intermediačnom prístupe sú vstupom (tzn. sú intermediované). V článku sa predpokladá, že banky sa v krátkodobom horizonte snažia maximalizovať zisk z poskytovaných bankových služieb či intermediačnej činnosti. Niekedy je náležité predpokladať správanie orientované napr. iba na minimalizáciu nákladov (pozri napr. Zimková, 2015). Dokonca sú situácie, napr. pri subjektoch verejnej správy, keď sa stačí orientovať pri hodnotení výkonnosti na technickú efektívnosť (pozri napr. Buleca a Mura, 2014). Je azda paradoxné, že uplatniac optiku výsadnej ziskovej orientácie bánk sú depozitá bez ohľadu na zvolený prístup nákladotvorným elementom transformačného procesu. Depozitné bankové služby sa správajú svojimi úrokovými nákladmi ako nákladový prvok transformácie, hoci sú podľa produkčného prístupu výstupom. V dôsledku toho je ich potrebné pri vlastnom meraní ziskovej efektívnosti (založenom na použitom DEA modeli) zaradiť na stranu vstupov, a teda postupovať ako pri samotnom intermediačnom prístupe. V dôsledku toho výsledné hodnotenie výkonnosti mierou (skóre) ziskovej efektívnosti je teda univerzálne a nezávislé na podkladovom teoretickom modeli bankovej produkcie. Voľba štyroch produkčných premenných, ako aj operacionalizácia jednotkových nákladov a cien asociovaných so zvolenými premennými mapuje tabuľka 1. Depozitá tu majú v zmysle uvedeného hybridné postavenie. Dátová množina použitá v článku týkajúca sa 11 komerčných bánk operujúcich v rokoch na Slovensku bola prevzatá od Boďu a Zimkovej (2015). Svojím objemom aktív reprezentuje väčšinu slovenského bankového sektora (s podielom na celkových aktívach slovenského bankového sektora vyšším ako 90 %). Dáta boli získané od TREND Holding, s. r. o., Bratislava, a skompilované z účtovných závierok jednotlivých bánk za sledované roky

16 14 FORUM STATISTICUM SLOVACUM 6/ Pre účely tohto článku nie je potrebný zoznam komerčných bánk tvoriacich dátovú množinu, čitateľ ho však môže spolu s dovysvetľujúcimi poznámkami k dátovej množine nájsť v prípade záujmu v článku Boďu a Zimkovej (2015, s ). Predpokladá sa ďalej, že obdobie sledovaných 12 rokov možno rozdeliť do troch homogénnych úsekov, počas ktorých množina produkčných vlastností a ňou diktovaná hranica produkčných možností zostáva inertná a bezo zmeny. Ide o obdobia rokov , , Tieto časové úseky budú označované postupne ako "fáza I", "fáza II" a "fáza III". Počas fázy I sa postupne završovala transformácia slovenskej ekonomiky, ktorá sa v bankovom sektore prejavila privatizáciou a reštrukturalizáciou najväčších slovenských bánk, ako aj čistením bankových bilancií zaťažených nelikvidnými aktívami. Fáza II sa začína pristúpením Slovenska do Európskej únie a končí sa vstupom Slovenska do eurozóny. Počas tejto fázy slovenské banky implementovali nový systém corporate governance a prešli na svetové trendy v oblasti bankovníctva z hľadiska komunikácie s klientmi a približovania bankových služieb vyselektovaným klientskym segmentom. Vo fáze II došlo k etablovaniu služieb investičného bankovníctva, správy aktív a hypotekárnych služieb. Naostatok fáza III je charakterizovaná úspešným zvládnutím prevzatia novej meny a manifestáciami ekonomickej krízy, ktorá spôsobila malým slovenským bankám existenčné ťažkosti. Hypotéza o časovej invariancii množiny produkčných možností umožnila spojenie dát o individuálnych komerčných bankách v rôznych rokoch tej istej fázy a rezultovala v používanie "bankorokov". Iba údaje o štyroch bankorokoch neboli kompletné (ČSOB / Istrobanka 2007 & Citibank 2009, 2010, 2011), v dôsledku čoho fáza I je reprezentovaná 44 bankorokmi, fáza II 54 bankorokmi a fáza III celkovo 41 bankorokmi. DEA model ziskovej efektívnosti bol v implementovaný pre každú fázu individuálne, čím sa plne rešpektoval ekonomický vývoj počas sledovaného obdobia 12 rokov. S cieľom zabezpečiť porovnateľnosť medzi rôznymi rokmi boli dáta použité pri analýze deflované na cenovú úroveň roku 2000 za pomoci deflátora HDP získaného z Eurostatu. V prípade pracovnej sily boli deflované jednotkové osobné náklady a v prípade ostatných troch produkčných jednotiek pre zamedzenie dvojitého deflovania boli deflované monetárne položky vyjadrujúce ich objem (teda boli deflované fixné aktíva, celkové zdroje od klientov a úverové pohľadávky voči klientom), a nie s nimi asociované jednotkové náklady či výnosy. Tab. 1: Operacionalizácia vstupných a výstupných premenných a ich ocenenie Produkčná premenná Obsahové vymedzenie Ocenenie vo vzťahu k tvorbe zisku Pracovná prepočítaný evidenčný počet zamestnancov osobné náklady v tis. na 1 zamestnanca sila priemerný v účtovnom období v prepočítanom evidenčnom počte Fyzický fixné aktíva v tis. nakupované výkony, informačné technológie kapitál k ročnému súvahovému dňu a odpisy v na 1 fixných aktív Celkové celkové zdroje od klientov v tis. úrokové náklady depozitá k ročnému súvahovému dňu v na 1 prijatých depozít Celkové úverové pohľadávky voči klientom v tis. úrokové výnosy úvery k ročnému súvahovému dňu v na 1 poskytnutých úverov Vstupy Výstupy Pri meraní ziskovej efektívnosti komerčných bánk bol použitý podielový model ziskovej efektívnosti (tzv. "profit ratio model") navrhnutý a bližšie opísaný v monografii Coopera et al. (2007, s ). V tomto DEA modeli sa maximalizuje vzájomný pomer výnosov a nákladov, t. j. podiel ϑ := výnosy / náklady. Následne sa porovnáva optimálne riešenie ϑ so skutočným podielom ϑ a definuje sa miera ziskovej efektívnosti π vzťahom π := ϑ / ϑ. Pretože ϑ ϑ, hneď možno vidieť, že π [0,1], pričom hodnota 1 sa dosiahne v prípade, keď ϑ = ϑ, tzn. keď ide o ziskovo efektívnu produkciu (v tomto prípade komerčnej banky). Pretože podiel ϑ sám o sebe mapuje previs výnosov nad náklady, resp. koľkonásobne sú výnosy

17 FORUM STATISTICUM SLOVACUM 6/ vyššie ako náklady, komunikuje schopnosť dosahovať zisk. Miera ziskovej efektívnosti ϑ následne vyjadruje, ako veľmi (v percentuálnej mierke) sa zhoduje skutočné dosahovanie zisku s ekonomicky optimálnym dosahovaním zisku. Tento ekonomicky optimálny zisk je maximálny možný zisk za daných produkčných podmienok. Oproti tomuto modelu sa používa častejšie rozdielová verzia, keď sa pracuje s rozdielom výnosov a nákladov, tzn. priamo so ziskom ζ := výnosy náklady, ale tento prístup nie je univerzálny a použiteľný, keď sa vyskytuje veľa deficitných produkcií vykazujúcich zápornú hodnotu zisku. Pri výpočte skóre ziskovej efektívnosti (teda odhadovaní príslušnej miery ziskovej efektívnosti) sa použila aplikácia DEA-Solver-PRO 10.0 od firmy SAITECH, Inc. Model sa vzhľadom na poznámky o ekonomickom vývoji slovenského bankového sektora aplikoval pre každú fázu samostatne, použijúc separátne postupne 44, 54 a 41 pozorovaní. Nutné je zdôrazniť po terminologickej stránke, že zisková efektívnosť sa meria podielom π (mierou ziskovej efektívnosti) a tento sa vzhľadom na observačný a stochastický charakter dát odhaduje a výsledný odhad sa potom nazýva skóre. Aplikácia podielového modelu ziskovej efektívnosti sprevádzal predpoklad variabilných výnosov z rozsahu, ktorý "dáva väčšiu voľnosť" prevádzkovým podmienkam jednotlivých komerčných bánk. Jednak ide o predpoklad univerzálny (subsumujúci aj prípad konštantných výnosov z rozsahu), jednak lepšie zodpovedá realite bankovej produkcie. Nemožno pri násobnej úprave (zvýšení či znížení) vstupov očakávať rovnako násobnú zmenu (zvýšenie či zníženie) výstupov. Medzi pracovnou silou a fixnými aktívami na strane vstupov a depozitami a úvermi na strane výstupov (pri produkčnom prístupe), resp. medzi pracovnou silou, fixnými aktívami a depozitami ako vstupmi a úvermi ako výstupom (pri intermediačnom prístupe) takýto vzájomne multiplikačný vzťah nie je. Jeho absencia poukazuje skôr na to, že komerčné banky operujú v prostredí variabilných výnosov z rozsahu. Pomerové ukazovatele výkonnosti porovnávané čo do informačnej hodnoty a kompatiblity s mierou (skóre) ziskovej efektívnosti ako globálnej miery výkonnosti protežovanej zástancami DEA metodológie boli zvolené so zreteľom na prijatý koncepčný pohľad na transformačný proces komerčnej banky. Kým pracovná sila, fyzický kapitál a depozitá prispievajú do tvorby zisku po nákladovej stránke (teda zisk zaťažujú a znižujú), úvery sú v dikcii produkčných premenných špecifikovaných v tabuľke 1 jedinou výnosotvornou premennou, ktorá prispieva k tvorbe zisku pozitívne. Pre zabezpečenie konzistentnosti porovnávania je poňatie zisku redukovať tiež vzhľadom na uvažovaný transformačný proces komerčnej banky a obmedziť ho iba na úroveň hrubej marže ("gross margin"). Hrubá marža je tu v článku definovaná ako hrubá úroková marža ("gross interest margin", teda rozpätie úrokov z úverov a depozít) znížená o celkové osobné náklady a náklady na fixné aktíva. Potom je možné sledovať generovanie zisku reprezentovaného hrubou maržou vo vzťahu (a.) k vynaloženým nákladom, (b.) k zapojenej pracovnej sile a (c.) k využívaným fixným aktívam. Rovnako cez prizmu produkčného prístupu je relevantné vyhodnocovať dosahovanie zisku reprezentovaného hrubou úrokovou maržou v relácii (d.) k produkovaným bankovým službám. Takto sú postupne definované ukazovatele (a.) rentability nákladov, (b.) rentability pracovnej sily, (c.) rentability fixných aktív a (d.) rentability bankových služieb. Definícia ukazovateľov a ich interpretačný obsah sú obsiahnuté v tabuľke 2. Treba doplniť, že hoci rentabilita pracovnej sily a rentabilita fyzických aktív pripomínajú ukazovatele produktivity, ktoré sú obvykle sledované vo výrobnom procese s materializovanými výstupmi, ide však v skutočnosti o ukazovatele rentability, pretože v čitateli vystupuje zisk v určitej forme ako adekvátny redukovaný ocenený výstup. Prirodzene, ukazovateľ rentability fixných aktív má skôr doplnkový charakter. Ukazovateľ rentability bankových služieb prislúcha pohľadu na výkonnosť diktovanému produkčným prístupom, a nie je vhodný pre intermediačný prístup.

18 16 FORUM STATISTICUM SLOVACUM 6/2015 Tab. 2: Definícia a metodický obsah uvažovaných ukazovateľov výkonnosti Ukazovateľ výkonnosti Definičné vymedzenie Obsahová náplň Rentabilita nákladov Rentabilita pracovnej sily Rentabilita fixných aktív Rentabilita bankových služieb hrubá marža náklady vstupov hrubá marža evidenčný # zamestnancov hrubá marža fixné aktíva hrubá úroková marža celkové depozitá + celkové úvery Ukazovateľ charakterizuje schopnosť nákladov generovať zisk. Vyjadruje, koľko zisku v modeli základnej bankovej produkcie prinieslo 1 vynaložených nákladov. Ukazovateľ charakterizuje schopnosť pracovnej sily dosahovať zisk. Kvantifikuje, koľkými zisku v modeli základnej bankovej produkcie prispelo úsilie jedného zamestnanca. Ukazovateľ charakterizuje ziskotvornú schopnosť fyzického kapitálu. Meria, koľko zisku v modeli základnej bankovej produkcie prinieslo 1 viazané vo fixných aktívach. Ukazovateľ opisuje ziskotvorný efekt poskytovania bankových služieb. Vyjadruje, koľkými čistých úrokov prispelo k tvorbe zisku 1 prijatých depozít a poskytnutých úverov. Poznámka: ) Náklady vstupov sú súčtom osobných nákladov, nákladov na fyzické aktíva a úrokov platených za depozitá. Hrubá úroková marža je rozdielom medzi úrokmi získanými z úverov a úrokmi platenými za depozitá. Hrubá marža je hrubá úroková marža po odpočítaní osobných nákladov a nákladov na fyzické aktíva (alebo ekvivalentne rozdiel úrokov získaných z depozít a nákladov vstupov). Mieru ziskovej efektívnosti a tiež všetky uvažované pomerové ukazovatele rentability je potrebné maximalizovať. Vyššie hodnoty totiž nasvedčujú vo všeobecnosti vyššej výkonnosti. 3. Výsledky Výsledky sú pre názornosť a vyššiu vypovedaciu schopnosť spracované najmä graficky a takto sú prezentované na obrázkoch 1 a 2, ktoré umožňujú vizuálne posúdiť zhodu medzi sledovanými ukazovateľmi výkonnosti. O stupni korelačnej zhody informuje následne tabuľka 3. Pri vlastnom spracovaní výsledkov bol použitý softvér R (R Core Team, 2013) a jeho knižnice car (Fox a Weisberg, 2011) a MASS (Venables a Ripley, 2002). Na obrázku 1 sú formou rozptylových diagramov vzájomne porovnávané pomerové ukazovatele rentability prezentované v tabuľke 2 (na vertikálnej osi) so skóre ziskovej efektívnosti (na horizontálnej osi). Toto porovnanie sa týka celého sledovaného obdobia 12 rokov a všetkých 11 komerčných bánk, teda (s prihliadnutím na chýbajúce bankoroky), teda zahrňuje všetkých 139 pozorovaní. Cez pozorovania je v jednotlivých grafoch znázornený robustný M-odhad regresnej priamky a neparametrický odhad regresného vzťahu získaný metódou LOESS (s vyhladzovacím oknom zahrňujúcim 75 % pozorovaní a za použitia lokálnych kvadratických polynómov), ktoré lepšie indikujú smer vzájomného súvisu a umožňujú prípadne posúdiť silu zhody v znázorňovanej výkonnosti. Analogickú informáciu prezentuje obrázok 2, avšak diferencovane pre jednotlivé tri fázy identifikované vo vývoji slovenského bankového sektora. Pre každú fázu je znázornený iba samostatný LOESS odhad regresného vzťahu, pre lepšiu čitateľnosť informácie sa od odhadov regresnej priamky upustilo. Pre správnu interpretáciu grafov na obrázku 1 a 2 sa žiada podotknúť, že DEA modely majú tendenciu nadhodnocovať meranú efektívnosť, a preto treba relatívne častý výskyt ziskovo efektívnych prípadov (indikovaných hodnotou 1 skóre ziskovej efektívnosti) vnímať ako inherentný (i keď málo zdôrazňovaný) nedostatok DEA metodológie.

19 FORUM STATISTICUM SLOVACUM 6/ Obr. 1: Zhoda medzi pomerovými ukazovateľmi výkonnosti a skóre ziskovej efektívnosti (pre celé obdobie) Poznatky získané z vizuálnej investigácie obrázkov 1 a 2 možno zhrnúť v dvoch bodoch vystihujúcich vzájomný súvis medzi ukazovateľmi globálne pre celé obdobie a pre jednotlivé čiastkové úseky, resp. fázy: 1. Až na ukazovateľ rentability bankových služieb, vo všeobecnosti uvažované pomerové ukazovatele výkonnosti vykazujú kladný súvis so skóre ziskovej efektívnosti. Vyššia výkonnosť indikovaná pomerovým ukazovateľom výkonnosti je spravidla indikovaná aj skóre ziskovej efektívnosti, a naopak. Závisí však aj od výberu partikulárneho ukazovateľa výkonnosti, pretože presne opačný súvis je preukázaný pri ukazovateli rentability bankových služieb, pri ktorom sa ukazuje, že vo všeobecnosti nižšie skóre ziskovej efektívnosti je dosahované pri vyššej hodnote tohto pomerového ukazovateľa. 2. Je zjavné, že vypovedacia kompatibilita medzi pomerovými ukazovateľmi výkonnosti a skóre ziskovej efektívnosti je ovplyvnená štrukturálnym vývojom bankového sektora. Odhliadnuc od ukazovateľa rentability bankových služieb, kým vo fázach I a II je badateľná pomerne úzka informačná previazanosť pomerových ukazovateľov efektívnosti a skóre technickej efektívnosti, vo fáze III je informačná kompatibilita výrazne narušená.

20 18 FORUM STATISTICUM SLOVACUM 6/2015 Skôr sa indikuje inverzný vzťah, ktorý spôsobuje pri agregácii za celé obdobie dojem heteroskedasticity. Pokiaľ ide o ukazovateľ rentability bankových služieb, vo fáze I akoby boli tento ukazovateľ a skóre ziskovej efektívnosti nekorelované a v ďalších fázach je protizmyselne vzájomný súvis negatívny. Zaujímavé je numericky ohodnotiť zhodu medzi hodnotami pomerových ukazovateľov výkonnosti a skóre ziskovej efektívnosti. Toto ohodnotenie je obsahom tabuľky 3 a je realizované variantne pomocou korelačných koeficientov. Postupne sú v tejto tabuľke reportované Pearsonov a Spearmanov korelačný koeficient a robustný korelačný koeficient získaný metódou MVE pre všetkých 139 bankorokov obsiahnutých v dátovej sade a pre 111 bankorokov so skóre ziskovej efektívnosti nižším ako 1. Vylúčenie pozorovaní bankorokov, ktoré poukazujú na ziskovú efektívnosť, je výrazom snahy reflektovať tendenciu použitej DEA metodológie nadhodnocovať efektívnosť. Je pravdepodobné, že nie každá z bánk identifikovaná v niektorom roku ako ziskovo efektívna bola totiž naozaj ziskovo efektívnou. Obr. 2: Zhoda medzi pomerovými ukazovateľmi výkonnosti a skóre ziskovej efektívnosti (pre jednotlivé fázy)

21 FORUM STATISTICUM SLOVACUM 6/ Tabuľka 3 nepoukazuje na obzvlášť výraznú silu v závislosti medzi sledovanými štyrmi pomerovými ukazovateľmi výkonnosti a skóre ziskovej efektívnosti. Ako aj bolo viditeľné na obrázkoch 2 a 3, v prípade ukazovateľov rentability nákladov, rentability pracovnej sily a rentability fixných aktív sa ukazuje priamy súvis so skóre ziskovej efektívnosti a pri ukazovateli rentability bankových služieb je tento súvis zistený negatívny. Vyššie hodnoty Spearmanovho korelačného koeficientu pri prvých troch sledovaných ukazovateľoch rentability naznačujú, že súvislosť so skóre ziskovej efektívnosti je skôr poradová než v striktne lineárnom zmysle. Prekvapujúce je, že ani použitie robustnej verzie korelačných koeficientov a ani očistenie dátovej vzorky ukazovateľov o dubiózne situácie, keď skóre technickej efektívnosti môže klamlivo ukazovať na vynikajúcu výkonnosť, nevedie k iným záverom a celkový pohľad sa de facto vôbec nemení. Tab. 3: Korelácia medzi pomerovými ukazovateľmi výkonnosti a skóre ziskovej efektívnosti (pre celé obdobie) Korelačný koeficient Rentabilita nákladov Rentabilita pracovnej sily Rentabilita fixných aktív Rentabilita bankových služieb Všetky pozorovania bankorokov Pearsonov Spearmanov Robustný MVE Pozorovania bankorokov, kedy skóre ziskovej efektívnosti sa rôzni od jednotky Pearsonov Spearmanov Robustný MVE Záver I keď si skúmaná problematika zasluhuje hlbšiu pozornosť a detailnejšie skúmanie, aj napriek apológii DEA metodológie medzi jej používateľmi nejestvuje zjavný dôvod si myslieť, že použitím vhodného DEA modelu sa získajú vierohodnejšie výsledky ohľadom výkonnosti. Fundamentálne rozdiely v hodnotení výkonnosti medzi konceptom ziskovej efektívnosti a názorným konceptom sprostredkovaným pomerovými ukazovateľmi ukazujú, že voľba nástroja pre hodnotenie výkonnosti je kľúčovým elementom celého procesu. Zatiaľ čo ukazovatele rentability nákladov, pracovnej sily a fixných aktív patria viac či menej k štandardným ukazovateľom výkonnosti (s tým, že špecificky v oblasti bankovníctva je voľba posledného ukazovateľa nekonvenčná), ukazovateľ rentability bankových služieb zodpovedá produkčnému prístupu k bankovej transformácii. Výrazná dištinkcia medzi hodnotami tohto ukazovateľa skóre ziskovej efektívnosti môže pochádzať zo skutočnosti, že skutočný podkladový model, ktorým sa riadi bankové správanie a banková produkcia, môže skôr zodpovedať intermediačnému ako produkčnému prístupu. Ako dokumentuje aj literatúra (Paradi a Zhu, 2013; Ahn a Le, 2014, s. 18), tento prístup je skutočne typickejší pre komerčné banky, na ktoré sa nahliada na ekonomické subjekty zabezpečujúce sprostredkovateľskú funkciu, kým produkčný prístup je vhodnejší na pobočkovej úrovni. Faktor, ktorý môže ovplyvniť hodnotenie výkonnosti a spravidla ho v dlhšom horizonte aj ovplyvňuje, je štrukturálna zmena v procese zabezpečovanej transformácie. Takáto zmena dokáže zjavne zavážiť, ak je nástroj hodnotenia výkonnosti fundovaný na DEA metodológii, ktorá je citlivá na technológiu transformácie vstupov na výstupy. Zmena v tejto technológii v čase má nutne evidentný a bezprostredný vplyv na výsledné hodnotenie výkonnosti, ako to bolo odsledovateľné na vzťahu pomerových ukazovateľov výkonnosti a skóre ziskovej výkonnosti.

22 20 FORUM STATISTICUM SLOVACUM 6/2015 Článok vznikol pri riešení a s podporou projektu VEGA č. 1/0757/15 Rozšírenie teoretickej konštrukcie SCP paradigmy a hypotézy efektívnej štruktúry v bankovníctve a poisťovníctve o aspekt rizika a ich empirická validácia v podmienkach Slovenskej republiky. Literatúra AHN, H., LE, M. H An insight into the specification of the input-output set for DEAbased bank efficiency measurement. In Management Review Quarterly, roč. 64, č. 1, s BOĎA, M., ZIMKOVÁ, E Efficiency in the Slovak banking industry: a comparison of three approaches. In Prague Economic Papers, roč. 24, č. 4, s BULECA, J., MURA, L Quantification of the efficiency of public administration by data envelopment analysis. In Procedia Economics and Finance, zv. 15, s COOPER, W. W., SEIFORD, L. M., TONE, K Data envelopment analysis: a comprehensive text with models, applications, references and DEA-Solver software. 2. vyd. New York: Springer. 492 s. ISBN FOX, J., WEISBERG, S An R companion to applied regression. 2. vyd. Thousand Oaks (CA): Sage. 472 s. ISBN LAPLANTE, A. E., PARADI, J. C Evaluation of bank branch growth potential using data envelopment analysis. In Omega, zv. 52, apríl 2015, s PARADI, J. C., ZHU, H A survey on bank branch efficiency and performance research with data envelopment analysis. In Omega, zv. 41, č. 1, s R CORE TEAM R: a language and environment for statistical computing. Viedeň: R Foundation for Statistical Computing, VENABLES, W. N., RIPLEY, B. D Modern applied statistics with S. 4. vyd. New York: Springer. 495 s. ISBN ZIMKOVÁ, E Cost efficiency of Slovak commercial banks under the standpoint of the intermediation approach. In: Conference Proceedings 18th Applications of Mathematics and Statistics in Economics. Praha: Vysoká škola ekonomická v Praze, Oeconomica, cz/proceedings. Adresa autora: Martin Boďa, Mgr. Ing., PhD. Univerzita Mateja Bela v Banskej Bystrici Ekonomická fakulta Tajovského 10, Banská Bystrica [email protected]

23 FORUM STATISTICUM SLOVACUM 6/ Teorie extrémní hodnoty s intervalově cenzorovanými daty: Případová studie doby nezaměstnanosti v pokrizové České republice Extreme Value Theory Using Interval Censored Data: Case Study of Unemployment Duration in the Post-crisis Czech Repbulic Adam Čabla Abstract: The presented paper deals with the problem of modelling unemployment duration for the people with the largest values of this duration. It combines two standard approaches extreme value theory and survival analysis for analysing interval censored data. Throughout the paper the basics of the methodology are presented and the generalized extreme value distribution and the generalized Pareto distribution are estimated via maximum likelihood estimates. The main results are in the form of comparison of quantile functions and quantile estimates via three different parametric methods and side results are hazard and survival functions. Abstrakt: Aktuální článek se zabývá problémem modelování doby nezaměstnanosti u lidí, u kterých je tato doba největší. Kombinuje dva standardní přístupy teorii extrémní hodnoty a analýzu přežití pro analyzování intervalově cenzorovaných dat. V článku jsou nastíněny základy metodologie a pomocí metody maximální věrohohodnosti jsou odhadnuty zobecněné rozdělení extrémní hodnoty a zobecněné Paretovo rozdělení. Hlavním výstupem článku jsou srovnání kvantilových funkcí a odhady vysokých kvantilů pomocí tří rozdílných parametrický metod. Vedlejšími výsledky jsou rizikové funkce a funkce přežití Key words: extreme value theory, survival analysis, interval censoring, quantile estimates, unemployment duration Kľúčové slová: teorie extrémní hodnoty, analýza přežití, intervalové cenzorování, odhady kvantilů, doba nezaměstnanosti JEL classification: C13, C24, E24, J64 1. Introduction The unemployment is one of the leading problems of modern economies and as such is often described by national statistic offices in terms of unemployment rate, but little is usually said about unemployment duration. The usual statistic that covers the topic is the rate of longterm unemployment i.e. the rate of those who are unemployed longer than one year. Statistics about average time-point unemployment duration for selected countries are provided by [15]. A deeper look at the unemployment duration in the Czech Republic was provided in [7], [8] and more recently in [3], [4], [13] and [14]. The main contribution of the paper to current understanding of the unemployment issue is to provide deeper insight into the probabilistic distribution of the unemployment duration in the Czech Republic during recovery period and especially about its right tail distribution, i.e. about the probability distribution of the largest unemployment durations. From the methodological point of view the paper presents connection of two approaches the first is extreme value theory and the second is survival analysis. This is quite unusual since extreme value theory usually does not cope with censored data and since the survival analysis uses accelerated failure time or proportional hazards models to model probability distribution, which are incompatible with generalized extreme value distribution or generalized Pareto distribution used for modelling right tails, and does not discuss the issue.

24 22 FORUM STATISTICUM SLOVACUM 6/2015 The paper is divided into several other parts - first describes how data were collected, which is crucial for understanding choices of methodology; then there are several chapters that briefly describes methodology and lastly the paper presents results. 2. Data Data comes from the Labour Force Surveys (LFS) from five quarters Q4/2013 Q1/2014. The LFS is done quarterly and 20 % of the participants are changed every quarter. In other words, each participant takes part in five consecutive surveys. In one survey there are approximately thousands of participants. [5] One of the questions asks for the duration of the job search and another one asks for the duration of the current job. As a person is questioned over a year and a quarter, one can find those, who obtained job in this survey period and compute the search duration. Every participant was checked on their entry to the LFS and in the end of their participation. As the answers to the stated questions are interval censored, so is the consequent duration. Finally 673 of participants who found a job were found. The unemployment duration is recorded in months. The last step was different for each of the two basic methods of extreme value theory. For block maxima method the data were sorted randomly and then divided into 66 subsets of 10 and 1 subset of 14. From each of these subsets only the maximum was selected to the final dataset. For peaks over threshold method the largest 10 % of observations, i.e. 67, were selected to the dataset. Because observations are interval censored, the exact value is not known and it is impossible to select exact maximum or the largest 10 % of observations. The main criteria was centre of the interval and if the interval was right censored, it was supposed to be the largest observation. If two right observations were competing for selection, the left boundary was the selection criteria. It is important to keep in mind that the paper deals only with the unemployment duration of the participants, who were unemployed to begin with (unlike being economically inactive) and then found a job within a time period of one to five quarters. 3. Description of probability distribution In survival analysis the description of probability distribution is usually made through survival function or hazard function. The survival function S(t) gives the probability that random variable T exceeds the specified time t. S( t) P( T t) 1 F( t). (1) The hazard function h(t) is the instantaneous potential per unit time for the event to occur, given that the individual has survived up to time t. In any analysis survival function can be transformed to hazard function or vice versa. P( t T t t T t ds( t) / dt f ( t) h( t) l im. (2) t0 t S( t) S( t) Being more specific here, the random variable T is the time of finding a job for an unemployed person. Survival function S(t) is the probability, that an unemployed person has not found a job at time t and finally hazard function h(t) is the instantaneous potential that an unemployed person will find employment. [10]

25 FORUM STATISTICUM SLOVACUM 6/ Interval censoring and maximum likelihood estimate Data are called censored when the exact value is unknown, but is known to fall within some interval (L i, R i ]. If only L i is known, than it is the case of right censoring (L i ; ). If only R i is known, than it is the case of left censoring (- ; R i ]. From this point of view interval censoring is the most general way to describe censored data. [10] In the dataset there are 654 interval censored values and 19 right censored values. The dataset for block maxima method contains 57 interval censored values and 16 right censored values whereas the dataset for peaks over threshold method contains 54 interval censored and all 19 right censored values. The difference is due to the method of datasets selection (see chapter 2). All models are estimated by maximum likelihood estimate (MLE). Given the assumption that censoring times are independent of each other and of survival times, the maximum likelihood function is n. L ) F ( Ri ) F( Li ) S ( Li ) S( Ri ) i1 n (θ. (3) Since there is no reason to think that the assumption does not hold, the MLE estimates can be used. Equation 3 shows that under the interval censoring each observation contributes two pieces of information to the likelihood, S(L i ) and S(R i ), which follows the same distributional function and S(- ) = 0 and S( ) = 1. [12] 5. Turnbull estimate Turnbull estimate is iterative procedure first suggested by [18] specifically for the purpose of estimating interval censored data. It is non-parametric maximum likelihood estimate, sometimes called by abbreviation NPMLE. In the paper Turnbull estimates have the function to show the comparison of different fits. The procedure goes like described e.g. in [11]: i1 Let 0 = τ 0 < τ 1 < τ m be a grid of time points which includes all the points L i, R i for the points i = 1,, n. For the ith observation define a weight α ij to be 1 if the interval (τ j-1, τ j ] is contained in the interval (L i, R i ] and 0, otherwise. Note that α ij indicates whether event which occurs in the interval (L i, R i ] could have occurred at τ j. An initial guess at S(τ) is made. The algorithm is as follows: 1. Compute theprobability of an event occurring at time τ j,. p j S( j1 ) S( j ), j 1,..., m (4) 2. Estimate the number of events which occurred at τ j by n ij p j. d j. (5) m i1 p k j 3. Compute the estimated number at risk at time τ j by jk 4. Compute the updated product-limit estimator using the pseudo data found in Steps 2 and 3. If the updated estimate of S is close to the old version of S for all τ j s, stop the iterative process, otherwise repeat Steps 1 3, using the updated estimate of S. k Turnbull estimate is usually not suitable for obtaining estimates of large quantiles because the result is in form of intervals with probabilities that the random variable is within the

26 24 FORUM STATISTICUM SLOVACUM 6/2015 interval and does not make any assumptions about probability distribution within interval (sometimes it is assumed to be uniformly distributed, which is used in the figures throughout the paper). 6. Block maxima method Block maxima method is one of two main methods for estimating very high quantiles of almost any distribution. According to Fisher-Tippet theorem the distribution of maxima of independent identically distributed random variables are asymptotically distributed according to a generalized extreme value distribution with cumulative distribution function 1 x H ( x) exp 1 if 0, (6) x H ( x) exp exp if 0. If ξ > 0, than the distribution is Fréchet, if ξ < 0 the distribution is Weibull and if ξ = 0 than the distribution is Gumbell. The behaviour of right tail of the cumulative distribution function F(x) foreshadows value of parameter ξ. The selected maxima of the distribution with cumulative distribution function F(x) converge to one of the three above mentioned distributions in distribution and the distribution is said to be in a maximum domain of attraction (MDA). MDA for some known distributions is in the Table 1. Table 1: Maximum Domain of Attraction for some known distributions MDA General tail behaviour Distributions Gumbel Exponential Normal, Log-normal, Exponential, Gamma, Rayleigh Fréchet Power Pareto, Cauchy, Student Weibull Finite end Uniform, Beta This method is naturally used in the cases where there are evident independent intervals, e.g. in the case of annual maxima of time series. [9] The usual method of estimating the parameters are maximum likelihood method, method of general weighted moments or method of probability weighted moments, which are consistent. Method of maximum likelihood have good properties if ξ > and are usually unattainable if ξ < -1. [19] 7. Peaks over threshold Peaks over threshold is the second main method for estimating very high quantiles of almost any distribution. According to the Pickand-Balkema-de Haan theorem values of random variable that exceeds certain sufficiently high threshold u for a large class of distributions converges to generalized Pareto distribution with cumulative distribution function 1 - x H ( x) 1 1 if 0, x H ( x) 1 exp if 0. (7)

27 FORUM STATISTICUM SLOVACUM 6/ The parameter ξ connects generalized extreme value distribution and generalized Pareto distribution. If ξ > 0, than the distribution is Pareto, if ξ < 0 the distribution is Beta and if ξ = 0 than the distribution is exponential. The value x in the equation 7 is calculated as x = x u, where x is the original value and u is selected threshold. There are several methods for threshold selection, usually graphical ad hoc approaches of which good summarizing article was provided by [16]. In the paper the threshold was set to obtain 10 % of all observations and the threshold u is 21 months. For parameter estimates there are several specific methods naming de Haan method, CME method [1] and more general methods are maximum likelihood or probability weighted moments method. Again, if ξ > -0.5, the MLE method yields consistent results. [19] 8. Computational Environment Since parameter estimates in survival analysis of interval censored data are usually done through AFT models, the in-built procedures in software (SAS, R package interval, S+) can handle only family of log-location-scale distributions and their transformations. Of these distributions only Gumbell and exponential are the part of generalized extreme value distribution and generalized Pareto distribution respectively. AFT models use Weibull distribution, but in a form with two parameters, not three. Hence the most computations in the paper are from MS Excel using Solver Add-in and GRG non-linear or Evolution solver. Nevertheless the Turnbull estimates come from R package interval. [6], [17] 9. Results Solving MLE for generalized extreme value distribution the parameter ξ converges to zero and σ to infinity. Since if ξ = 0 the Gumbell is appropriate distribution from the family of extreme value distributions. Second argument for the use of Gumbell distribution is the distribution of the whole unemployment duration which is best fitted by log-logistic or lognormal distribution, see Table 1. [4] MLEs of parameters are μ = and σ = and log-likelihood is Survival function estimates via Turnbull estimate and Gumbell distribution described above are in the Figure 1. Note the unsuitability of Turnbull estimate for obtaining large values of quantiles. Fig. 1: Survival functions of block maxima method

28 26 FORUM STATISTICUM SLOVACUM 6/2015 Solving MLE for generalized Pareto distribution yields the same result about the parameter ξ, which should come as no surprise. As described in chapters 6 and 7, if the distribution of the generalized extreme value distribution converges to Gumbell distribution, the generalized Pareto distribution converges to exponential distribution. MLE of parameter β is and log-likelihood is Survival function estimates via Turnbull estimate and exponential distribution described above are in the Figure 2. Fig. 2: Survival functions of peaks over threshold method Hazard function h(t) is increasing monotonous for Gumbell distribution (Figure 3) and constant for exponential distribution (h(t) = 1/β; Figure 4). Quantile functions for Gumbell and exponential distributions are Q( p) ln( ln( p)), Q( p) ln(1 p), respectively. (8) The direct estimates of quantiles with block maxima method yields the quantiles of maxims of tens in the presented case. So the x 0.99 quantile of whole distribution is x 0.9 of maxims of tens, the x quantile of whole distribution is x 0.99 of maxims etc. x x (GEV). (9) p 10( p0.9) Direct estimates of quantiles with peak over threshold method yields the quantiles of observations above the threshold. So if the threshold is set at x 0.9 quantile of the whole distribution, than x 0.99 quantile of the whole distribution is set as x 0.9 quantile of generalized Pareto distribution plus threshold u etc. x u x (GPD). (10) p 10( p0.9) In the Table 2 there are estimates of selected quantiles via extreme value theory and via log-logistic model presented in [4]. Figure 5 pictures quantile functions from the p = to the p = From both Table 2 and Figure 5 it is quite obvious that block maxima method estimates are the most conservative whereas in the area of p between and the peaks over threshold method yields the largest estimates and for the lower and the largest values of p the log-logistic distribution originally used for modelling unemployment duration yields the largest estimates.

29 FORUM STATISTICUM SLOVACUM 6/ Fig. 3: Hazard function of Gumbell distribution (μ = ; σ = ) Fig. 4: Hazard function of exponential distribution (β = ) Table 2: Estimates of selected quantiles Quantile Log-logistic estimates BMM estimates POT estimates x x x x x

30 28 FORUM STATISTICUM SLOVACUM 6/2015 Fig. 5: Right tails of quantile functions of three models 10. Conclusion The paper dealt with the topic of unemployment duration in the post-crisis period, specifically right tail of the distribution of unemployment duration in the year It described basics of extreme value theory and survival analysis, in the context of interval censored data obtained from Labour Force Surveys. Results show that right tail distribution converges to exponential distribution and distribution of maxima of randomly selected tens of observations converges to Gumbell distribution. Largest estimates were provided by peaks over threshold method for the interval of p between and whereas for different p the largest estimate was little surprisingly that of standard log-logistic distribution for the whole dataset. The paper describes and deepens understanding of the situation on labour market by providing additional methodology and focusing on the right tail of the probability distribution of unemployment duration. Acknowledgments The support of the grant scheme IG by the University of Economics IGA is gladly acknowledged. Literature [1] ČABLA, Adam. Peaks Over Threshold in Modelling of the Czech Household Income Distribution. In: LÖSTER, Tomáš a Tomáš PAVELKA. International Days of Statistics and Economics: Conference Proceedings [online]. Slaný: Melandrium, 2011, , s. 10 [cit ]. ISBN On-line: [2] ČABLA, Adam Unemployment duration in the Czech Republic. Prague In: The 6th International Days of Statistics and Economics, Conference Proceedings. Prague, 2012, pp ISBN [3] ČABLA, Adam. Unemployment Duration before and during The Economic Crisis in The Czech Republic. Acta Aerarii Publici, 2014, roč. 11, č. speciální, s ISSN

31 FORUM STATISTICUM SLOVACUM 6/ [4] ČABLA, Adam. Unemployment Duration in the Czech Republic After the Economic Crisis. In: Applications of Mathematics and Statistics in Economics AMSE [CD ROM]. Jindřichův Hradec, Praha : University of Economics, Prague, Oeconomica Publishing House, s. ISBN [5] EUROSTAT. European Union Labour Force Survey [online] [cit ] [6] FAY, Michael P Package "interval". R Project. [Online] [Citation: ] [7] JAROŠOVÁ, Eva Modelovani delky trvani nezamestnanosti. Statistika 3/2006: [8] JAROŠOVÁ E., MALÁ I., ESSER M., POPELKA J Modelling time of Unemployment via Loglocation-scale Model. COMPSTAT 2004 Symposium: 1 8. [9] JARUŠKOVÁ, D., and HANEK, M. (2006) Peaks over threshold method in comparison with block-maxima method for estimating high return levels of several Northern Moravia precipitation and discharges series. Journal of Hydrology and Hydromechanics, 54, [10] KLEINBAUM, David G., Mitchel KLEIN. Survival Analysis: A Self-Learning Text, Third Edition. New York: Springer-Verlag, ISBN [11] KLEIN, John P., MOESCHBERGER, MELVIN L Survival Analysis: Techniques for Censored and Truncated Data. New York: Springer-Verlag New Your, Inc., [12] LIU, Xian. Survival analysis: models and applications. Peking: Higher Education Press, 2012, xii, 446 p. ISBN [13] MALÁ, Ivana. Použití konečných směsí pravděpodobnostních rozdělení pro modelování rozdělení doby nezaměstnanosti v České republice. Acta Oeconomica Pragensia, 2013, roč. 21, č. 5, s ISSN eissn [14] MALÁ, Ivana. Modelling of the distribution of the unemployment duration in the Czech Republic. In: 29th International Workshop on Statistical Modelling. [online] Göttingen, Bremen : Georg-August-University, 2014, s URL: [15] OECD.Stat. Average duration of unemployment. [online] [cit ]. [16] TANAKA, S., & TAKARA, K. (2002) A study on threshold selection in POT analysis of extreme floods. The Extremes of the Extremes: Extraordinary Floods, 271, [17] THERNEAU, Terry Package "survival". R Project. [Online] [Citation: ] [18] TURNBULL, B. W The Empirical Distribution Function with Arbitrarily Grouped, Censored and Truncated Data. Journal of the Royal Statistical Society B : E [19] Vojtěch, J. (2011). Využití teorie extrémních hodnot při řízení operačních rizik (Dissertation). Vysoká škola ekonomická v Praze Adress: Ing. Adam Čabla University of Economics in Prague, Department of statistics and probability Nám. W. Churchilla 1938/4, Praha 3, [email protected]

32 30 FORUM STATISTICUM SLOVACUM 6/2015 Vývoj štruktúry indexu EURO STOXX 50 v čase s využitím metódy najmenšej kostry Time development of the EURO STOXX 50 Structure Using the Minimum Spanning Tree Aproach Jakub Danko Abstract: The article presents the method of identification EURO STOXX 50 index, which is based on mutual relationships between individual shares forming this index. Structure is there identified by R. Mantengna's (1999) methodology that is known as the methodology of Minimum Spanning Tree. It identifies the dominant correlation relationships between individual shares forming this index in the presented research. Minimum Spanning Trees are assessed on the 20 day rolling windows return during the period of December 2008 October These structures are then divided into four groups in pursuance of logarithmic return series of the EURO STOXX 50. The aim is to identify and compare some graph properties of the groups during the analysed time period. Abstrakt: V článku je prezentovaný spôsob identifikácie burzového indexu EURO STOXX 50, ktorý je založený na vzájomných vzťahoch medzi jednotlivými akciami tvoriacimi tento index. Štruktúra je tu identifikovaná metodológiou R. Mantegnu (1999) známej ako metóda najmenšej kostry grafu (Minimum Spanning Tree). Tá v prezentovanom výskume identifikuje dominantné korelačné vzťahy medzi jednotlivými akciami, z ktorých pozostáva daný index. Najmenšie kostry grafu sú odhadované z korelačných matíc logaritmických denných výnosností časových okien analyzovaných akcií v období od decembra 2008 do októbra Následne sú tieto najmenšie kostry rozdelené do štyroch skupín na základe logaritmických výnosností samotného indexu EURO STOXX 50 s cieľom identifikácie a komparácie určitých grafových charakteristík jednotlivých skupín v čase. Key words: Minimum Spanning Tree, EURO STOXX 50, Graph Theory, Graph Properties. Kľúčové slová: Najmenšia kostra grafu, EURO STOXX 50, Teória grafov, Grafové charakteristiky. JEL classification: C58 1. Úvod Finančné trhy sú dynamicky sa meniacou veličinou. Je preto veľmi dôležité sledovať vývoj ich štruktúry v čase. Cieľom článku je preto s využitím metódy najmenšej kostry, ktorá je jednou z metód diskrétnej matematiky (teória grafov), sledovať časový vývoj štruktúry konkrétneho trhového indexu. Za predmetný trhový index sme si vybrali EURO STOXX 50, v ktorom sme v sledovanom období sledovali meniacu sa štruktúru akcií, ktoré tento index tvoria. Základy metodológie najmenšej kostry grafu s cieľom pochopenia štruktúry kapitálových trhov položil Rosario Mantegna (1999). [2] Onnela a Chakraborti (2003) tiež vychádzajú z výpočtu minimálnej kostry grafu, avšak na rozdiel od predchádzajúceho prístupu má funkcia mapujúca korelácie medzi vrcholmi na vzdialenosti nelineárny priebeh. Túto novú sieťovú štruktúru pomenovali dynamický graf akcií. [7] Bonanno a Caldarelli (2004) sa zaoberali tým, ako vplýva na výnosnosť finančných inštrumentov časový horizont a zistili, že s klesajúcim časovým horizontom sa štruktúra grafu reprezentujúceho trh postupne mení z komplexnej na jednoduchú. Zaoberali sa tiež volatilitou časových radov cien akcií a finančnými trhmi z globálneho pohľadu. [8] Následne začali autori využívať pri analýze pokročilejšie metódy teórie grafov, napríklad reprezentáciu trhu planárnymi grafmi (grafy,

33 FORUM STATISTICUM SLOVACUM 6/ ktorých hrany sa nepretínajú). Podobná metodológia sa začala využívať aj pri analyzovaní trhu s menovými pármi, teda pri analýze výmenných kurzov Mizuno, Takayasu (2005) [9], Naylor, Rose, Moyle (2007). [10] Medzi najnovšie analýzy patria práce autorov Kenett, Tumminello, Mantegna (2010) [11], kde sa autori zaoberajú takzvanými parciálnymi koreláciami. Tieto parciálne korelácie následne využívajú ako nástroj na nájdenie najrelevantnejších hrán v grafe. Taktiež vychádzajú z planárnych grafov a v práci popisujú aj nový typ závislej siete, u ktorej zahrnutie hrán, respektíve prepojení závisí od stredných hodnôt a štandardných odchýlok jednotlivých uzlov (vrcholov) tejto siete. Vyššie spomenutí autori pri svojich analýzach prevažne využívajú údaje z New York Stock Exchange (NYSE), jedna z analýz vychádzala aj z Tel Aviv Stock Exchange (TASE). [1] 2. Popis údajovej štruktúry Index EURO STOXX 50 pozostáva z 50 akcií vybraných európskych spoločností, ktoré predstavujú tzv. blue chips európskej ekonomiky. Tieto spoločnosti sú uvedené v Tabuľke 1 a ako môžeme sledovať v spomínanej tabuľke, ide o akcie z 7 rôznych krajín a 16 odvetví európskej ekonomiky. Najviac spoločností má domicil vo Francúzsku (19) a Nemecku (14). Z pohľadu sektorovej štruktúry najviac prevláda sektor bankovníctva (8 spoločností), energetické spoločnosti a spoločnosti produkujúce tovary a služby pre priemyselný sektor (po 5 spoločností) 1. Tabuľka 1 Vnútorná skladba indexu EURO STOXX 50 Ticker Company Country Supersector ABI.BR Anheuser-Busch InBev SA/NV Belgium Food and Beverage AI.PA L'Air Liquide SA France Chemicals AIR.PA AIRBUS GROUP France Industrial Goods and Services ALV.DE Allianz SE Germany Insurance ASML.AS ASML HLDG Netherlands Technology BAS.DE BASF SE Germany Chemicals BAYN.DE Bayer AG Germany Chemicals BBVA.MC BBVA Spain Banks BMW.DE Bayerische Motoren Werke Aktiengesellschaft Germany Automobiles and Parts BN.PA Danone France Food and Beverage BNP.PA BNP Paribas SA France Banks CA.PA Carrefour SA France Retail CS.PA AXA Group France Insurance DAI.DE Daimler AG Germany Automobiles and Parts DBK.DE Deutsche Bank AG Germany Banks DG.PA VINCI S.A. France Construction and Materials DPW.DE Deutsche Post AG Germany Industrial Goods and Services DTE.DE Deutsche Telekom AG Germany Telecommunications EI.PA Essilor International SA France Health Care ENEL.MI Enel SpA Italy Utilities ENI.MI Eni SpA Italy Oil and Gas EOAN.DE E.ON SE Germany Utilities FP.PA TOTAL S.A. France Oil and Gas G.MI Assicurazioni Generali S.p.A. Italy Insurance GLE.PA Societe Generale Group France Banks GSZ.PA ENGIE SA France Utilities IBE.MC IBERDROLA Spain Utilities INGA.AS ING GROUP Netherlands Banks ISP.MI Intesa Sanpaolo S.p.A. Italy Banks ITX.MC INDITEX Spain Retail MC.PA LVMH Moët Hennessy Louis Vuitton SA France Personal and Household Goods MUV2.DE Münchener Rückversicherungs-Gesellschaft Aktiengesellschaft Germany Insurance NOK1V.HE Nokia Corporation Finland Technology OR.PA L'Oreal SA France Personal and Household Goods ORA.PA Orange France Telecommunications PHIA.AS ROY.PHILIPS Netherlands Industrial Goods and Services REP.MC REPSOL Spain Oil and Gas 1 Pre podrobnejšiu charakteristiku a analýzu vnútornej skladby indexu na základe krajín a sektorov viď Danko (2015) [6]

34 32 FORUM STATISTICUM SLOVACUM 6/2015 RWE.DE RWE AG Germany Utilities SAN.MC BANCO SANTANDER Spain Banks SAN.PA Sanofi France Health Care SAP.DE SAP SE Germany Technology SGO.PA Compagnie de Saint-Gobain S.A. France Construction and Materials SIE.DE Siemens Aktiengesellschaft Germany Industrial Goods and Services SU.PA Schneider Electric SE France Industrial Goods and Services TEF.MC TELEFONICA Spain Telecommunications UCG.MI UniCredit S.p.A. Italy Banks UL.PA UNIBAIL-RODAMCO France Real Estate UNA.AS UNILEVER CERT Netherlands Personal and Household Goods VIV.PA Vivendi S.A. France Media VOW3.DE Volkswagen Germany Automobiles and Parts Vlastné spracovanie podľa [12] a [13] Časové rady upravených uzatváracích cien (Adjusted Close Price) týchto 50 finančných nástrojov sme analyzovali v období od decembra 2008 do októbra Našim cieľom bolo sledovanie štruktúry daného indexu, čo chápeme ako vzájomný vzťah medzi jednotlivými zložkami tohto indexu. Vzhľadom k tomu, že skladba indexu sa v čase mení, potrebovali sme také časové obdobie, v ktorom bola skladba indexu homogénna. To nám umožnilo práve spomínané obdobie od konca roka 2008 po súčasnosť, konkrétne od do Pre každú z akcií sme vypočítali logaritmické denné výnosnosti podľa vzorca: ln ln ln (1) kde je hodnota konkrétnej akcie v čase. Na začiatku analýzy sme vychádzali z vyše logaritmických denných výnosnosti pre každú jednu akciu tvoriacu EURO STOXX 50. Následne sme využili prístup neprekrývajúcich sa časových okien dĺžky 20. Daná dĺžka sa vo všeobecnosti často používa, nakoľko približne predstavuje dĺžku jedného obchodného mesiaca. Keďže pozorovaní bolo 1 769, týmto spôsobom sme vytvorili 88 neprekrývajúcich sa časových okien, prvé v období , posledné v období V týchto oknách sme mali informácie o logaritmických výnosnostiach všetkých akcií za sledované obdobia. Následne sme z týchto výnosností pre každé jedno časové okno vypočítali korelačnú maticu, v ktorej hodnota v i tom riadku a j tom stĺpci predstavuje Pearsonov korelačný koeficient medzi i tou a j tou akciou daný vzťahom:,, (2). kde čitateľ predstavuje kovarianciu medzi i tou a j tou akciou a v menovateli je uvedený súčin štandardných odchýlok týchto akcií. Keďže sme mali 50 akcií tvoriacich analyzovaný index, výsledné korelačné matice predstavujú štvorcové symetrické matice rozmeru 50 x 50 s jednotkovou hlavnou diagonálou. Vzhľadom k tomu, že sme analyzovali 88 časových okien, vzniklo nám 88 korelačných matíc, ktoré tvorili základ pre výpočet najmenších kostier grafu a následné analýzy uvedené v nasledujúcej časti. 3. Analýza Veľmi vhodným reprezentantom vzťahu jednotlivých finančných nástrojov tvoriacich analyzovaný index sa javí graf, ako nástroj diskrétnej matematiky. Graf je definovaný množinou vrcholov, ktoré v našom prípade predstavovali jednotlivé akcie tvoriace analyzovaný index a množinou hrán, ktoré predstavovali nejaký vzťah medzi vrcholmi. Vhodným vzťahom medzi vrcholmi by mohla byť vzdialenosť týchto vrcholov, teda vzdialenosť medzi akciami v danom indexe. Otázkou je, ako definovať vzdialenosť medzi akciami tvoriacimi index. Ak chceme uvažovať o vzdialenosti, musíme definovať konkrétnu

35 FORUM STATISTICUM SLOVACUM 6/ metriku. Ako prvá uvažovaná metrika by mohlo byť využitie korelačného koeficientu uvedeného v predchádzajúcej časti. Samotný korelačný koeficient však nemôže byť metrikou vzdialenosti nakoľko nadobúda hodnoty z intervalu <-1; 1> pričom z fyzikálnej definície vzdialenosť nemôže mať záporné hodnoty. Aj keď korelačný koeficient samotný nemôže byť metrikou vzdialenosti, pomôže nám pri výpočte tejto vzdialenosti. Tu preberáme prístup viacerých autorov [2], [3], [4], ktorí využívajú vzťah:, 21, (3) kde, predstavuje vzdialenosť medzi i tou a j tou akciou v indexe a, korelačný koeficient medzi týmito akciami. Obrázok 1 Graf závislosti vzdialenosti od korelačného koeficientu Vlastné spracovanie podľa rovnice (3) v programe R Ako môžeme vidieť na Obrázku 1, v ktorom sme zobrazili závislosť vzdialenosti od korelačného koeficientu, funkcia vzdialenosti má so zvyšujúcim sa korelačným koeficientom klesajúci priebeh. Najväčšiu vzdialenosť (rovnú 2) dosahuje dvojica akcií, ktoré majú absolútne negatívnu koreláciu rovnú 1 (vid čierny krúžok). Najmenšiu vzdialenosť rovnú 0 má dvojica akcií s absolútne pozitívnou koreláciou (vid čierny trojuholník). Čierny štvorec v grafe predstavuje vzdialenosť dvoch nezávislých finančných nástrojov (s korelačným koeficientom rovným 0 a vzdialenosťou rovnou 2). Takto sme korelačné matice pretransformovali na matice vzdialeností, ktoré slúžili na zostrojenie grafov. Celá analýza prebiehala v prostredí programu R, pričom na prácu s grafmi sme využívali knižnicu igraph. Ak je graf reprezentovaný maticou vzdialenosti, dá sa v ňom vypočítať najmenšia kostra. Vychádzame pri tom z toho, že každý súvislý graf má kostru, pričom táto kostra predstavuje taký podgraf grafu, ktorý obsahuje všetky vrcholy (je faktorom), je súvislý a nemá kružnice (je stromom). Ak graf má nejaké hranové ohodnotenie (v našom prípade dĺžka hrany), potom určite musí v grafe existovať aspoň jedna taká kostra, ktorá má minimálny súčet hranových ohodnotení a takúto kostru budeme nazývať minimálna (najmenšia). Existuje viacero algoritmov na hľadanie najmenšej kostry grafu, reprezentovaného maticou vzdialenosti, napríklad Kruskalov alebo Primov algoritmus. [5] Knižnica igraph pri výpočte najmenšej kostry využíva Primov algoritmus na hranovo vážených grafoch (reprezentovaných maticou vzdialenosti). Algoritmus je nasledovný: v prvom kroku zvolíme ľubovoľný vrchol a do kostry pridáme hranu s minimálnym ohodnotením, ktorá s týmto vrcholom inciduje. Takto nám vznikne strom. Následne v ďalších krokoch k aktuálnemu stromu pridáme hranu, ktorej jeden vrchol leží v strome a druhý leží mimo stromu a to takú, ktorá má minimálne ohodnotenie. Minimálna kostra súvislého grafu s n vrcholmi teda predstavuje graf s n vrcholmi a n 1 hranami. [5]

36 34 FORUM STATISTICUM SLOVACUM 6/2015 Matice vzdialeností odhadnuté z korelačných matíc 88 neprekrývajúcich sa časových okien logaritmických výnosností predstavovali základ k výpočtu kompletných grafov. Z týchto grafov sme odhadli najmenšie kostry, ktoré sme považovali za reprezentantov vnútornej štruktúry analyzovaného indexu v sledovaných časových oknách. Takto sme získali 88 najmenších kostier grafu (jedna kostra za jedno časové okno). Keďže sa vnútorná štruktúra analyzovaného indexu mení v čase, tieto kostry majú v rôznych časových oknách rôzny tvar. Ako príklad uvádzame porovnanie najmenšej kostry prvého a posledného okna na Obrázku 2. Obrázok 2 Porovnanie najmenšej kostry prvého a posledného analyzovaného časového okna Vlastné spracovanie v programe R Cieľom bolo nájsť a poukázať na odlišnosti štruktúry trhu v jednotlivých obdobiach. Predpokladáme, že štruktúra trhu v konkrétnom období, ktorú reprezentujeme najmenšou kostrou konkrétneho časového okna sa mení v závislosti od situácie, ktorá na trhu nastáva. Inú štruktúru má trh v prípade pohybu do strany (nezávislý vývoj cien a výnosností akcií), inú v prípade prudkých nárastov a poklesov. Z pohľadu teórie grafov predpokladáme, že v prípade prudkých nárastov a poklesov majú výnosnosti akcií tendenciu skorelovať medzi sebou a v prípade najmenšej kostry grafu vytvoria tvar takzvanej hviezdy (jedna akcia ako centrum grafu, z ktorej vychádza množstvo ďalších akcií). Naopak pri nezávislých výnosnostiach môžeme sledovať graf s takzvanými dlhšími cestami. Tieto vlastnosti najmenších kostier možno sledovať prostredníctvom niektorých grafových charakteristík. Prvou z nich je stupeň vrcholu, ktorý predstavuje počet hrán, ktoré vychádzajú z konkrétneho vrcholu. Grafová štruktúra hviezda sa vyznačuje jedným vrcholom s vysokým stupňom a mnohými vrcholmi s nižšími stupňami, naopak tvar cesty má graf, kde väčšina vrcholov je nízkeho stupňa, najčastejšie 2. Ďalšou grafovou charakteristikou, na základe ktorej možno odlišovať vnútornú štruktúru grafov je takzvaná excentricita jeho vrcholov. Excentricita vrcholu predstavuje najdlhšiu vzdialenosť konkrétneho vrcholu od jeho najvzdialenejšieho vrcholu. Minimum z excentricít sa nazýva polomer grafu, maximum z excentricít sa nazýva priemer grafu. Vrchol, ktorý má minimálnu excentricitu sa nachádza v takzvanom centre grafu. Vrcholy grafu, ktorého štruktúra má tvar hviezdy majú nízku excentricitu, teda graf samotný má nízku hodnotu polomeru aj priemeru. Vrchol s najväčším stupňom sa nachádza v centre grafu s minimálnou excentricitou. Čo sa týka grafu s tvarom cesty tam bývajú excentricity vrcholov väčšie a hlavne takéto grafy majú veľký polomer a priemer.

37 FORUM STATISTICUM SLOVACUM 6/ V našej analýze sme predpokladali, že vnútorná štruktúra indexu EURO STOXX 50, a teda tvar najmenších kostier, je najviac determinovaný výnosnosťou tohto indexu. Vypočítali sme si preto 20 dňové logaritmické výnosnosti tohto indexu korešpondujúce s časovými oknami. Za každé jedno z 88 časových období sme vypočítali najmenšiu kostru (vypočítanú z výnosností 50 finančných nástrojov tvoriacich daný index) a okrem toho aj 20 dňovú logaritmickú výnosnosť celého indexu. Tieto výnosnosti sme rozdelili do 4 skupín podľa kvartilov, s cieľom rovnakého počtu prvkov v každej skupine. Ako môžeme vidieť na Obrázku 3 prvú skupinu tvoria časové okná s logaritmickou výnosnosťou indexu EURO STOXX -0,2044 až -0,0330. Druhú skupinu časové okná s výnosnosťou -0,0330 až 0,0004, tretiu skupinu časové okná s výnosnosťou 0,0004 až 0,0250 a štvrtú skupinu časové okná s výnosnosťou 0,0250 až 0,3556. Obrázok 3 Boxplot 20 dňových logaritmických výnosností indexu EURO STOXX 50 Vlastné spracovanie v programe R Z 88 časových okien takto vznikli 4 skupiny po 22 pozorovaní. Cieľom bolo zistiť, či najmenšie kostry nachádzajúce sa v konkrétnej skupine majú nejaké spoločné vlastnosti a či sa medzi sebou skupiny nejako odlišujú. Najmenšie kostry sme sa preto rozhodli reprezentovať binárnou maticou susednosti, ktorá predstavuje štvorcovú symetrickú maticu, v ktorej susednosť dvoch vrcholov je daná jednotkou a nesusednosť nulou. V našom prípade mali tieto matice rozmer 50 x 50 vzhľadom k tomu, že analyzovaný index je tvorený 50 finančnými nástrojmi. Následne sme matice susednosti každej skupiny spočítali a dostali sme tak pre každú jednu skupinu jednu maticu, ktorá danú skupinu reprezentovala. Hodnota v i tom riadku a j tom stĺpci tejto matice hovorí o tom, koľkokrát sa hrana daná vrcholmi i a j nachádzala v súčte najmenších kostier tvoriacich danú skupinu. Čím väčšia je táto hodnota, tým dôležitejšia je táto hrana z pohľadu reprezentácie danej skupiny. Týmto spôsobom sme vypočítali pre každú zo štyroch skupín jednu takúto agregovanú maticu susednosti. Vzhľadom k tomu, že platí:, 0: (4)

38 36 FORUM STATISTICUM SLOVACUM 6/2015 môžeme vypočítaním prevrátených hodnôt týchto matíc vypočítať nové matice, ktoré budú predstavovať základ na výpočet reprezentatívnych najmenších kostier za jednotlivé skupiny. Vzhľadom k tomu, že nulou nedelíme, sme z hodnôt kde bola v agregovaných maticiach nula prevrátené hodnoty nepočítali. Tieto prevrátené hodnoty sme počítali z dôvodu, že v reprezentatívnej najmenšej kostre sme chceli práve tie hrany, ktoré majú v agregovanej matici najväčšie hodnoty a algoritmus najmenšej kostry funguje naopak na princípe najmenších hrán. Agregáciou najmenších kostier sme vypočítali reprezentatívne najmenšie kostry za jednotlivé skupiny rozdelené na základe výnosností indexu EURO STOXX 50, ktoré sú uvedené na Obrázku 4. Obrázok 4 Reprezentatívne najmenšie kostry pre jednotlivé skupiny dané logaritmickými výnosnosťami indexu EURO STOXX 50 Vlastné spracovanie v programe R Prvá a štvrtá skupina predstavuje extrémne výnosnosti na trhu (veľké poklesy a veľké nárasty). Druhá a tretia skupina skôr menšie výkyvy a relatívnu stabilitu trhu. Z pohľadu tvaru reprezentatívnej najmenšej kostry je hlavne v druhej skupine (relatívne stabilný trh) možno sledovať tvar dlhej cesty, čím sa náš predpoklad o štruktúre s týmto tvarom potvrdil. Polomer reprezentatívnej najmenšej kostry v prípade tejto skupiny je 12 a priemer až 24, čo je najviac spomedzi všetkých skupín a vypovedá o prítomnosti dlhej cesty. V prvej, respektíve štvrtej skupine zase očakávame takú štruktúru, ktorá je väčšmi previazaná k sebe vzhľadom na prudké poklesy respektíve nárasty. To by mohlo byť dané nižším polomerom, respektíve priemerom najmenších kostier týchto skupín. V nami vykonanej analýze však tieto skupiny nevykazujú výrazne odlišné hodnoty priemerov, respektíve polomerov. Čo je však zjavné aj z Obrázku 4 je to, že prvá a hlavne štvrtá skupina má väčšiu početnosť vrcholov väčšieho stupňa, čo je taktiež známka väčšej koncentrácie a previazanosti akcií. Napríklad prvá skupina má až 24 % vrcholov stupňa 3, čo je najviac spomedzi všetkých skupín. Štvrtá skupina má

39 FORUM STATISTICUM SLOVACUM 6/ zase ako jediná aj jeden vrchol stupňa 5. Rozdelenie stupňov vrcholov v jednotlivých skupinách môžeme sledovať na Obrázku 5. Obrázok 5 Rozdelenie početnosti stupňov vrcholov v jednotlivých skupinách Vlastné spracovanie v programe R Na záver ešte uvádzame súhrnnú tabuľku grafových charakteristík jednotlivých skupín. Ide konkrétne o polomer a priemer grafov a distribúciu stupňov vrcholov podľa jednotlivých skupín. V nej možno sledovať určité odlišnosti jednotlivých skupín, asi najvýraznejšie sa odlišuje druhá skupina svojim vysokým priemerom, čo vypovedá o prítomnosti dlhej cesty v tejto štruktúre a stabilite daného trhového režimu. Výrazné poklesy, respektíve nárasty v prvej, respektíve štvrtej skupine možno sledovať na základe väčšej početnosti vrcholov vyšších stupňov, najmä stupňa 3, 4 a v prípade 4. skupiny aj stupňa 5. Tabuľka 2 Súhrnné grafové charakteristiky jednotlivých skupín polomer priemer stupeň 1 stupeň 2 stupeň 3 stupeň 4 stupeň 5 1. skupina ,36 0,36 0,24 0, skupina ,36 0,38 0,2 0, skupina ,3 0,5 0,14 0, skupina ,32 0,46 0,18 0,02 0,02 Vlastné spracovanie v programe R 4. Záver Výsledky analýzy vypovedajú o tom, že metóda najmenšej kostry je veľmi vhodná pri identifikácii a popise trhových štruktúr. Na základe výnosnosti analyzovaného indexu sa nám podarilo identifikovať určité trhové štruktúry, respektíve režimy, ktoré sme v práci nazývali skupinami. Poukázali sme na odlišnosti v grafových charakteristikách týchto skupín. Ukázali sme, že vnútorná štruktúra nami analyzovaného indexu sa v čase mení a na jej tvar má vplyv výnosnosť na trhu. Analýzu je v budúcnosti možno doplniť o zohľadnenie určitých časových posunov (lagov), nakoľko možno predpokladať, že štruktúra sa v závislosti od situácie na trhu

40 38 FORUM STATISTICUM SLOVACUM 6/2015 mení s určitým časovým oneskorením. Ďalej je možné sa zamerať na časový vývoj režimov, kde by sme mohli poukázať na to, či má trh skôr tendenciu zostávať v jednom režime alebo naopak dochádza k častému presunu z jedného režimu do druhého. Tu by sa zase dalo sledovať, ktoré režimy majú tendenciu presunu do ktorých s cieľom určitej predikcie budúceho vývoja na trhu. Literatúra [1] FINANCIAL NETWORK ANALYTICS (FNA): A Short History of Correlation Networks Research. [online]. [cit ]. Dostupné na: < [2] MANTEGNA, R. N Hierarchical structure in financial markets. In: The European Physical Journal B, vol. 11, issue 1, s [3] YINGHUA ZHANG Stock Market Network Topology Analysis Based on a Minimum Spanning Tree Approach. Thesis. [4] MISKIEWICZ, J Analysis of Time Series Correlation. The Choice of Distance Metrics and Network Structure. In: Acta Physica Polonica A, vol. 121, No. 2-B, s. B89 B94. [5] CZAP, J Teória grafov. Nepublikované študijné materiály zverejnené v MOODLE, EkF TU v Košiciach. [6] DANKO, J Analýza štruktúry indexu EURO STOXX 50 s využitím metódy najmenšej kostry. In: Forum Statisticum Slovacum 3/2015, s [7] ONNELA, J. P. CHAKRABORTI, A. KASKI, K. KERTÉSZ, J. KANTO, A Asset Trees and Asset Graphs in Financial Markets. In: Physica Scripta, vol. T106, s [8] BONANNO, G. CALDARELLI, G. LILLO, F. MICCICHÉ, S. VANDEWALLE, N. MANTEGNA, R. N Networks of Equities in Financial Markets. In: The European Physical Journal B, vol. 38, s [9] MIZUNO, T. TAKAYASU, H. TAKAYASU, M Correlation Networks Among Currencies. In: Physica A: Statistical Mechanics and its Applications, vol. 364, s [10] NAYLOR, M. ROSE, L. MOYLE, B Topology of Foreign Exchanges Markets Using Hierarchical Structure Methods. In: Physica A: Statistical Mechanics and its Applications, vol. 390, issue 4, s [11] KENETT, D. TUMMINELLO, M. MADI, A. GERSHGOREN, G. MANTEGNA, R. N. BEN-JACOB, E Dominating Clasp of the Financial Sector Revealed by Partial Correlation Analysis of the Stock Market. In: PLoS ONE, vol. 5, issue 12. [12] Internetová stránka indexov STOXX. [online]. [cit ] Dostupné na: < [13] Internetová stránka Finance Yahoo. [online]. [cit ]. Dostupné na: < Adresa autora: Jakub Danko, Ing. Ekonomická fakulta TU v Košiciach Boženy Němcovej 32 [email protected]

41 FORUM STATISTICUM SLOVACUM 6/ Změny rodinného stavu, dosaženém vzdělání a plodnosti žen v ČR v období Changes of marital status, education attained and fertility of females in the Czech Republic in the period Tomáš Fiala, Jitka Langhamrová, Jana Langhamrová Abstract: In the period there were substantial changes in marital status, highest education attained and fertility of females in the Czech Republic. The age at marriage rose, more females remain single. The proportion of females with tertiary education increased. Fertility declined and moved to higher age, the proportion of illegitimate births grew. The paper contains the analysis of fertility of females according to age, marital status and highest education attained simultaneously. The analysis is based on a special data from the census. Abstrakt: V období došlo k výrazným změnám rodinného stavu, nejvyššího dosaženého vzdělání a plodnosti žen v České republice. Zvýšil se věk při sňatku žen, více jich zůstává svobodných. Zároveň vzrostl podíl žen s vyšším vzděláním. Plodnost poklesla, přesunula se do vyššího věku, vzrostl podíl dětí narozených mimo manželství. Článek přináší analýzu týkající se plodnosti žen současně podle věku, rodinného stavu a nejvyššího dosaženého vzdělání vycházející ze speciálních dat sčítání lidu. Key words: fertility, marital status, highest education attained, Czech Republic Klíčová slova: plodnost, rodinný stav, nejvyšší dosažené vzdělání, Česká republika JEL classification: J110, J120, J Úvod Pro roce 1989 došlo v České republice k velkým nejen politickým, ale i ekonomickým sociálním změnám a v jejich důsledku i ke změnám demografického chování. Kromě dalšího snižování úmrtnosti došlo k výrazné změně sňatkového a reprodukčního chování žen. Podobně jako v zemích západní, severní a jižní Evropy začaly i české ženy odkládat rození dětí do vyššího věku. Proto došlo, zejména ve druhé polovině 90. let minulého století k poměrně prudkému poklesu plodnosti zejména mladších žen, který byl od počátku tohoto století vystřídán postupným růstem plodnosti žen vyšších věkových kategorií. Celková plodnost žen však ani v současné době stále nedosahuje úrovně z roku (Kocourková, 2008). Současně došlo rovněž k odkládání sňatků do vyššího věku i ke snižování sňatečnosti. Zatímco dříve bylo těhotenství poměrně častým důvodem k uzavírání sňatku, aby se dítě narodilo jako manželské, po roce 1990 poměrně rychle roste podíl dětí narozených svobodným ženám (např. Burcin et al., 2010). Vzrostla úroveň vzdělanosti, výrazně se zvýšil podíl žen s vyšším vzděláním. I to byla jedna z příčin poklesu plodnosti žen. Článek se zabývá porovnáním struktury žen podle věku, rodinného stavu a nejvyššího dokončeného vzdělání na počátku roku 1991 a roku 2001 a rovněž srovnáním plodnosti žen v obdobích a Uvedené okamžiky, resp. období byly zvoleny proto, aby bylo možno využít podrobná data ze sčítání lidu.

42 40 FORUM STATISTICUM SLOVACUM 6/ Změny věkové a pohlavní struktury žen v reprodukčním věku a jejich struktury podle rodinného stavu Sčítání lidu poskytuje údaje o počtech obyvatel tříděné podle řady znaků, mimo jiné podle věku, rodinného stavu a vzdělání. Speciální data poskytnutá ČSÚ obsahovala třídění podle všech těchto tří znaků současně. Na základě roku narození byl věk žen přepočten k , resp. k Byly uvažovány pouze 4 základní kategorie rodinného stavu žen (svobodná, vdaná, rozvedená, resp. ovdovělá) a pouze 4 základní kategorie vzdělání (základní, střední bez maturity, střední s maturitou, vyšší). Vzniká tedy 16 kombinací kategorií rodinného stavu a vzdělání. V některých kategoriích je přitom počet žen poměrně malý, proto byla analýza prováděna pouze podle pětiletých věkových skupin reprodukčního věku žen dokončených let. V porovnání s rokem 1991 byl v roce 2011 ve věku nad 20 let mnohem větší podíl žen svobodných. Zatímco v roce 1991 byla mezi 20 24letými ženami svobodná pouze o něco více než třetina, o 20 let později v téže věkové kategorii to bylo více než 90 % a i mezi 30 34letými byla více než třetina svobodných. Zvýšil se rovněž podíl rozvedených žen, který v posledních dvou nejvyšších věkových kategoriích reprodukčního věku dosahoval v roce 2011 téměř 25 % (Obr. 1). Zdroj: vlastní výpočty na základě speciálních dat ČSÚ ze SLDB 1991 a Obr. 1: Složení žen v reprodukčním věku podle rodinného stavu (v %) Proti roku 1991 však byla v roce 2011 výrazně vyšší vzdělanost žen. Téměř každá třetí 25 29letá žena měla ukončené vyšší vzdělání a nadpoloviční podíl 20 24letých žen s maturitou nasvědčuje tomu, že růst vzdělanosti žen bude pokračovat. Vzhledem k tomu, že vysokoškolačky mívají děti zpravidla v pozdějším věku, to však může být jedna z příčin současné nižší plodnosti (Rychtaříková, 2004). Poznamenejme ještě, že několik procent žen v každé věkové kategorii vzdělání neuvedlo (Obr. 2). Zdroj: vlastní výpočty na základě speciálních dat ČSÚ ze SLDB 1991 a Obr. 2: Složení žen v reprodukčním věku podle vzdělání (v %)

43 FORUM STATISTICUM SLOVACUM 6/ Rodinný stav ženy může do určité míry souviset s dosaženým vzděláním. Lze například předpokládat, že ženy s vyšším vzděláním mohou být pro řadu mužů atraktivnější jako budoucí manželky, na druhou stranu některé z těchto žen možná hůře hledají manžela, který by splňoval jejich očekávání a předpoklady. Na druhou stranu mohlo být u některých žen právě vzdělávání důvodem k odkládání sňatku na dobu po ukončení studia. Zdroj: vlastní výpočty na základě speciálních dat ČSÚ ze SLDB 1991 a Obr. 3: Podíly žen daného věku, rodinného stavu a vzdělání z celkového počtu žen daného věku a vzdělání (v %)

44 42 FORUM STATISTICUM SLOVACUM 6/2015 V řadě věkových skupin jsou podíly svobodných žen nejvyšší mezi ženami s vyšším vzděláním. Příčinou může být odkládání sňatku z důvodu studia nebo i vyšší náročnost při výběru partnera. Ve vyšších věkových kategoriích v roce 2011 jsou však nejvyšší podíly svobodných mezi ženami se základním vzděláním, což by mohlo svědčit o nezájmu těchto žen uzavírat trvalé svazky nebo naopak o jejich nižší atraktivitě jako manželek. V uvedeném roce pozorujeme v těchto věkových kategoriích nejvyšší podíl vdaných žen mezi ženami s vyšším vzděláním. Je to ve věku, kdy již většina žen má vzdělání ukončené a právě vysokoškolačky mohou být pro některé muže jako partnerky velmi atraktivní. Mezi ženami s vyšším vzděláním jsou rovněž nejnižší podíly rozvedených. Příčinou může být mimo jiné skutečnost, že uzavírají sňatky později než ženy s nižším vzděláním. Rovněž podíl vdov je nejnižší právě mezi vysokoškolačkami. Lze totiž očekávat, že často mají manžely rovněž s vysokoškolským vzděláním, tedy s nižší úmrtností. 3. Plodnost žen podle věku, rodinného stavu a vzdělání v letech a Pro analýzu plodnosti že byla vybrána právě tato období, aby bylo možné použít údaje ze sčítání lidu jako střední stavy. Dopouštíme se samozřejmě určité nepřesnosti, neboť používáme počty osob v okamžiku sčítání jako počáteční stavy roku sčítání. Hodnota věku však byla přepočtena podle ročníku narození, jedinou chybou je proto zanedbání vlivu úmrtnosti (která je ovšem u žen v reprodukčním věku zanedbatelná) a migrace v období od počátku roku do okamžiku sčítání. Jako živě narozených byla použita speciální data ČSÚ, která jsou tříděna nejen podle věku matky, ale i jejího rodinného stavu a vzdělání. Vzhledem k velmi nízké plodnosti žen na konci reprodukčního období nejsou v grafech zobrazeny intervaly 45 49letých. Zdroj: vlastní výpočty na základě speciálních dat ČSÚ ze SLDB 1991 a 2011 a dat o narozených z let 1990, 1991, 2010, Obr. 4: Specifické míry plodnosti žen podle rodinného stavu (v ) Zdroj: vlastní výpočty na základě speciálních dat ČSÚ ze SLDB 1991 a 2011 a dat o narozených z let 1990, 1991, 2010, Obr. 5: Specifické míry plodnosti žen podle vzdělání (v )

45 FORUM STATISTICUM SLOVACUM 6/ Zdroj: vlastní výpočty na základě speciálních dat ČSÚ ze SLDB 1991 a 2011 a dat o narozených z let 1990, 1991, 2010, Obr. 6: Podíly žen daného věku, rodinného stavu a vzdělání z celkového počtu žen daného věku a vzdělání (v %)

46 44 FORUM STATISTICUM SLOVACUM 6/2015 Ve většině věkových skupin je pochopitelně výrazně nejvyšší plodnost vdaných žen (Obr. 4). Patrné je to zejména v období , kdy se více než 90 % dětí rodilo v manželství, a tedy plodnost vdaných žen mnohonásobně převyšovala plodnost žen v ostatních rodinných stavech. Nejvyšších hodnot dosahuje tato plodnost v nejmladších věkových skupinách. V nízkém věku uzavíraly sňatek zpravidla především ženy, které chtěly mít brzy dítě nebo dokonce již dítě čekaly. Zatímco plodnost vdaných žen s věkem klesá, plodnost svobodných mírně roste, v roce 2011 je dokonce u 35letých a starších žen vyšší než plodnost vdaných. Příčinou může být mimo jiné to, že některé ženy, které neúspěšně hledají manžela, se nakonec vzhledem k svému věku rozhodnou mít dítě za svobodna. Rozdíly v plodnosti žen podle vzdělání (Obr. 5) nejsou tak velké jako podle rodinného stavu. Ve věkové skupině 15 19letých mají nejvyšší plodnost ženy se středním vzděláním bez maturity. Jedná se zřejmě většinou o ženy, které se po vyučení rozhodly nepokračovat dále ve studiu a založit rodinu. V období je pro další věkové kategorie je patrná poměrně vysoká plodnost žen již ve věkové skupině 20 24letých, nižší plodnost žen s maturitou je zřejmě způsobena tím, že některé dále studují na vysoké škole a děti mají až po jejím ukončení (vyšší plodnost žen s vyšším vzděláním v dalších věkových skupinách). V období je patrné odkládání plodnosti žen (zejména s vyšším vzděláním) do vyššího věku, mezi 20 24letými mají výrazně vyšší plodnost pouze ženy se základním vzděláním či středním bez maturity. Mezi svobodnými ženami mají v mladších věkových skupinách výrazně vyšší plodnost ženy se základním vzděláním či středním vzděláním bez maturity (Obr. 6). Rovněž u rozvedených žen je většinou nejvyšší plodnost žen se základním vzděláním. Podobný charakter má plodnost ovdovělých žen, jejich počet je však velmi malý, takže výsledky mají omezenou vypovídací schopnost. Naopak u vdaných žen je patrná poměrně vysoká plodnost žen s vyšším vzděláním. To by mohlo svědčit o tom, že tyto ženy více preferují rození dětí až po uzavření manželství. 4. Závěr Struktura žen v reprodukčním věku na počátku roku 1991 a na počátku roku 2011 se velmi výrazně liší. Vzhledem ke snížení sňatečnosti a odkládání sňatků do vyššího věku je v roce 2011 mnohem vyšší podíl svobodných i rozvedených žen, naopak se snížily podíly žen vdaných. Zvýšila se však úroveň vzdělání žen. Především v mladších věkových kategoriích je v roce 2011 v porovnání s rokem 1991 vyšší podíly žen s maturitou či vyšším vzděláním, ubylo naopak žen bez maturity. Uvedené skutečnosti měly za následek i vývoj plodnosti žen. Plodnost svobodných žen byla v období mnohem vyšší než v období před dvaceti lety, Zvýšila se plodnost starších žen, naopak výrazně poklesla plodnost žen mladších, zejména 15 19letých. Průřezové ukazatele však mají omezenou vypovídací schopnost, neboť v průběhu reprodukčního období si většina žen dále zvyšuje vzdělání a dochází ke změnám rodinného stavu. Důležitým doplněním analýzy vlivu rodinného stavu a vzdělání na plodnost žen by byly ukazatele kohortní, které rovněž v omezené míře poskytuje sčítání lidu (např. ČSÚ, 2011, Fiala et al., 2015). Tento příspěvek vznikl za podpory GAČR S Projekce populace České republiky podle úrovně vzdělání a rodinného stavu a IGA VŠE 68/2014 Ekonomické a zdravotní souvislosti stárnutí populace.

47 FORUM STATISTICUM SLOVACUM 6/ Literatura BURCIN, B.,FIALOVÁ, L., RYCHTAŘÍKOVÁ, J. a kol Demografická situace České republiky. Proměny a kontexty , Slon, Praha,. Český statistický úřad Plodnost žen, SLDB 2011, květen 2013, kód publikace: FIALA, T., LANGHAMROVÁ, Ji., LANGHAMROVÁ, Ja., CSÉFALVAIOVÁ, K Porodnost v České republice ve světle Sčítání lidu, domů a bytů. In: Transformácia slovenskej spoločnosti vo svetle výsledkov posledných troch populačných cenzov. Trenčianské Teplice, Trenčianské Teplice : Slovenská štatistická a demografická spoločnosť, s ISBN KOCOURKOVÁ, J Současný baby-boom v České republice a rodinná politika. Demografie, 50, s RYCHTAŘÍKOVÁ, J Změny v generační plodnosti v České republice se zaměřením na vzdělání žen, Demografie, 46, 2, s Adresa autorů: Tomáš Fiala, RNDr., CSc. Katedra demografie Fakulta informatiky a statistiky VŠE Praha nám. W. Churchilla 4, Praha 3 Česká republika [email protected] Jitka Langhamrová, doc., Ing., CSc. Katedra demografie Fakulta informatiky a statistiky VŠE Praha nám. W. Churchilla 4, Praha 3 Česká republika [email protected] Jana Langhamrová, Ing., Katedra statistiky Fakulta informatiky a statistiky VŠE Praha Nám. W. Churchilla 4, Praha 3 Česká republika [email protected]

48 46 FORUM STATISTICUM SLOVACUM 6/2015 Statistický odhad s minimální skórovou funkcí a jeho robustnost Minimum score statistical estimation and its robustness Richard Finger, Václav Kůs Abstract: We introduce a class of statistical distances called score functions. Simulation results comparing robustness of minimum distance score estimators with other types of wellknown minimum distance estimators are presented. We show that modified score kernel of the Kolmogorov distance exhibits better robustness for high-valued outliers and we propose further modifications. Abstrakt: Představíme novou třídu statistických vzdáleností nazývaných skórové funkce. Pomocí simulace provedeme srovnání robustnosti odhadů s minimální skórovou vzdáleností s jinými známými robustními odhady. Ukážeme, že modifikované skórové kernely založené na Kolmogorovské vzdálenosti vykazují lepší robustnost vůči vzdáleným outlierům a navrhneme další zlepšení. Key words: divergences, score function, minimum distance estimators, robustness. Kľúčové slová: divergence, skórová funkce, odhady s minimální vzdáleností, robustnost. JEL classification: C13, C15, C61, C63 1. Introduction The purpose of this article is to study the properties of score functions. We are interested in score functions because they are a generalisation of a very-well known class of statistical distances called φ divergences. These can be used in statistics for common purposes such as minimum distance estimation. In this article we focus on robustness of particular class of score functions which were designed as a generalisation of the Kolmogorov distance. 2. Score functions In this section we define score functions and show that they form a superset of the family of φ divergences. For more details about φ divergences see [3]. Definition 1 Let P,Q P(X,A). Let D A be a set of finite or countable partitions of X. We define score function of P and Q by M ϱ (P,Q)= A D Q(A)ϱ( (Q(A) P(A))/P(A) ), (1) where the score kernel ϱ:( 1, ) [0, ) is a function which is nonincreasing on ( 1,0) and nondecreasing on (0, ), with ϱ(0)=0 and max{ϱ( 1),ϱ( )}>0. To complete the definition we put with the convention "0 =0", where 0, 0 ϱ( 1):=lim y 1 ϱ(y), ϱ( ):=lim y ϱ(y) and ϱ( 1)/ :=lim y 1 ϱ(y)/(1+y) 1. Further, we define supremum score function M ϱ * by where C is a class of partitions. M ϱ * (P,Q)=supD C M ϱ (P,Q) (2)

49 FORUM STATISTICUM SLOVACUM 6/ The following theorems show the relationship between score functions and φ divergences. Theorem 1 Let ϱ be a score kernel. If the function φ(t)=ϱ((1 t)/t),t (0, ) is convex on (0, ) and strictly convex at t=1 and C contains all A measurable finite partitions of X then M ϱ * (F,G)=Dφ (F,G) is a φ divergence. Theorem 2 Let φ be a divergence function. If we set ϱ(y)=φ( 1/(1+y) )+φ' + (1)( y/(1+y) ), y ( 1, ), (3) then ϱ is a score kernel and M ϱ * (F,G)=Dφ (F,G) if C contains all A measurable finite partitions of X. We can see that the family of score functions contains the family of φ divergences. In fact, it also contains the Kolmogorov distance which shows that it is a more general class of statistical distances. This fact is expressed in the following theorem. Theorem 3 Let the score kernel ϱ be equal to and (X,A)=(R,B), where B is the Borel σ algebra on R. If ϱ(y)= y /(1+y), y ( 1,+ ) (4) C={{(,x],(x,+ )}: x R} (5) then the score function M ϱ * (F,G) is proportional to the Kolmogorov distance dk (F,G). 3. Robustness Suppose we want to estimate the parameter Θ 0 of the true distribution P Θ0 P Θ. If our measuring apparatus is perfect and our model is right, we measure (X 1,,X n ) observations and apply our statistical estimator. Out pops a very accurate estimate of Θ 0. In reality, however, our apparatus in not perfect and our assumptions might not be quite right. Different types of errors come into play. The result is a mixture of relevant data with some amount of noise. Now the question is, how much does the noise influence the result we obtain from our estimator. Ideally, we want to construct the estimators such that they are sensitive to changes in parameter Θ and at the same time ignore the noise. Such estimators we call robust. In reality, of course, we have to make a compromise. Let us consider the observation space (X,A) with the set of all probability distributions P. Let P,Q P and ε [0,1] and let us denote the convex combination of P and Q by P ε (Q)=(1 ε)p+εq. We use this type of distribution mixture to test the robustness of our estimators. For this purpose we use a computer simulation. 4. Simulation For the purposes of simulation we use a computer program written in Java. First our program generates a dataset of size n. Since we are interested in the robustness of the estimators, we generate contaminated data coming from the convex combination of distributions (1 ε)p Θ0 +εq where P Θ0 is the true distribution and Q is the contaminating distribution. Then a minimization procedure is applied within some family of distributions P Θ to obtain our estimate. The whole experiment is repeated K times and the results are averaged. The individual steps of the simulation are described further in more detail.

50 48 FORUM STATISTICUM SLOVACUM 6/2015 Let us look at our class of score functions. Our goal is to find new robust estimators. In [2] we defined the supremum score function in the following way M ϱ * (P,Q)=supD C A D Q(A)ϱ(( Q(A) P(A))/P(A) ). (6) In accordance with the definition of minimum distance estimator, we replace Q with the empirical distribution P n (A)= 1/n i=1 n IA (X i ), to obtain the distance function d ϱ (P,P n )=sup D C P A D n (A)ϱ( (P n (A) P(A))/P(A) ). (7) This, however, is a general form of the score function. We still need to specify the class of partitions C and the kernel function ϱ. In our simulation, we choose the class of partitions to be C={{(,x],(x,+ )}:x R}. For the kernel function ϱ we choose the function dependent on parameter β through ϱ β (t)=( t /(1+t) ) β, (8) such that for β=1 we obtain the Kolmogorov distance. In Figure 1 we can see the function ϱ β for different values of the parameter β. As we will see, the shape of the kernel function influences the robustness of the resulting estimator. Figure 1: Shapes of the functions ϱ β. Now we test the robustness of a minimum distance estimator which uses our modified Kolmogorov distance with different values of β on a Normal distribution contaminated by the Cauchy distribution C(2,10). This distribution simulates contamination by high-value outliers. To compute the distance function we use a discrete grid minimization algorithm.

51 FORUM STATISTICUM SLOVACUM 6/ Results In the simulation we compare the performance of our Score-Kolmogorov functions with the minimum distance Rényi estimator and the maximum likelihood estimator. For more details about Rényi estimators see [1]. The results are shown in Figures 4 and 5. For complete set of results see [2]. In Figure 2 we can see five graphs for five values of contamination ε. On each graph the mean L 1 norm is plotted against the sample size n. The L 1 norm basically tells us how good is our estimate of the true density overall. In Figure 3 we can find two sets of five graphs, but now for five sample sizes n. Here, mean estimate of μ and σ 2 averaged over 1000 realizations of the experiment is plotted against increasing values of contamination ε. Figure 2: Mean L 1 norm plotted against the size n of the dataset for data from the N(0,1) distribution contaminated by C(2,10). (MLE is out of range) First thing we can notice is that all estimators are on par, when we have uncontaminated data (including the MLE which is not in the graphs). When we add contamination, however, things begin to change. It is immediately obvious that the MLE estimator is not robust against this type of contamination (MLE values are so high, we could not include it in our figures, see results in Figures 4 and 5). On the other hand, the minimum Rényi distance estimator shows a very good robustness against high-valued outliers.

52 50 FORUM STATISTICUM SLOVACUM 6/2015 Figure 3: Mean estimate of μ and σ 2 plotted against the value of contamination ε for data from the N(0,1) distribution contaminated by C(2,10). (MLE is out of range)

53 FORUM STATISTICUM SLOVACUM 6/ Figure 4: Complete set of results

54 52 FORUM STATISTICUM SLOVACUM 6/2015 Figure 5: Complete set of results

55 FORUM STATISTICUM SLOVACUM 6/ Further, as we can see in Figure 2 we were able to slightly improve robustness of the Kolmogorov estimator (β=1) for higher values of n by taking smaller values of β<1. Nevertheless, the Rényi estimator still remains the more robust by a large margin. On the other hand, we can observe opposite trend for low values of n 20 where we seem to have worsened the estimates by choosing smaller values of β. In Figure 3 we can see how increasing values of contamination influence the resulting estimates for μ and σ 2. Again we can see that the Rényi estimator is the least influenced by the outliers. Nevertheless, we observe very good robustness of all the estimators in Figure 2 compared to the MLE estimator. Acknowledgments This work was supported by the grant SGS15/214/OHK4/3T/14 and INGO II - LG References [1] DEMUT R. Robust properties of minimum divergence density estimators. Master thesis, FNSPE CTU, [2] FINGER R. Minimum distance (divergence) statistical point estimators and their properties. Research Thesis, FNSPE CTU, [3] PARDO L. Statistical Interference Based on Divergence Measures. Taylor and Francis Group, Boca Raton - London - New York, Adresa autorů: Richard Finger, Bc. (2. ročník Mgr) Katedra matematiky, FJFI ČVUT v Praze Trojanova 339/13, Praha 2 [email protected] Václav Kůs, Ing., Ph.D. Katedra matematiky, FJFI ČVUT v Praze Trojanova 339/13, Praha 2 [email protected]

56 54 FORUM STATISTICUM SLOVACUM 6/2015 Robustified Total Least Squares estimators and their evaluations Odhady pomocí robustifikovaných úplných nejmenších čtverců a jejich výpočet Jiří Franc Abstract: Classical robust regression estimators, such as Least Trimmed Squares, are not consistent in error-in-variables models, where the explanatory variables are measured with a random error. The most frequent approaches in such a cases are Instrumental Variables and Total Least Squares estimation. This contribution deals with robustification of Total Least Squares and present methods based on the idea of trimming, or downweighting of the influential points. Three different ways how to evaluate them are described and the accuracy of fast resampling algorithm is discussed and compared to two exact algorithms inspired by Branch-and-Bound and Borders Scanning Algorithms. Abstrakt: Klasické robustní odhady parametrů v regresním modelu, jako nejmenší usekané čtverce, jsou nekonzistentní v error-in-variables modelu, kde vysvětlované proměnné jsou měřeny s náhodnou chybou. Nejčastěji se v těchto případech používají odhady pomocí Instrumentálních proměnných a pomocí Úplných nejmenších čtverců. Tento příspěvek představuje právě robustifikaci Úplných nejmenších čtverců pomocí usekání, popřípadě převážení vlivných pozorováních. Jsou představeny tři metody jak tyto robustní odhady vyčíslit a rychlý přibližný algoritmus založený na převzorkování je porovnán s exaktními algoritmy založenými na Branch-and-Bound and Borders Scanning algoritmech. Key words: Robust regression, Orthogonal regression, Total Least Trimmed Squares, Total Least Weighted Squares, Branch-and-Bound algorithm, Borders Scanning Algorithm. Kľúčové slová: Robustní regrese, Ortogonální regrese, Úplné nejmenší usekané čtverce, Úplné nejmenší vážené čtverce, Branch-and-Bound algoritmus, Borders Scanning algoritmus. JEL classification: C13, C24, C25, C26, C63 1. Introduction Let us consider the overdetermined set of linear equations, where is vector of response (dependent) variable, matrix of predictors (independent variables), unknown parameter vector and we have more equations than unknowns, i.e.. In this text we assume that has full column rank. The parameter estimation problem is defined as an optimization problem, where an appropriate cost function depending on the data set is minimized over estimated parameters. In statistics is this problem usually described by the multiple linear regression model and the most frequently used estimator is the ordinary least square (OLS) ^,. This approximation is obtained as a solution of the optimization problem ^, min, subject to. ^, is called a OLS solution to the previous problem and is called the vector of residuals, or corresponding OLS correction. If the the data matrix is error free and the response variable is corrupted by independent and identically distributed (iid) errors, 0, and, 0, then the OLS estimator is best linear unbiased estimator (BLUE) [12].

57 FORUM STATISTICUM SLOVACUM 6/ Not only in econometrics, the explanatory variables are frequently assumed to be correlated with the random errors such that lim 0. If we now apply OLS estimators, we get an inconsistent estimate of. One of the best known example of the situation, when the orthogonality condition fails, is the model in which the explanatory variables are measured with a random error. There are number of possibilities how to cope with it, the most noted and used methods are instrumental variables (IV) and total least squares (TLS), sometimes called errors-in-variables (EIV), or orthogonal regression. Instrumental variables and its robustified version (IWV) is described in [2] among others and its disadvantage is that the credibility of the estimates hinges on the selection of suitable instruments. To find such instrumental variables that are not correlated with the error term and that are highly correlated with the explanatory variables can be hard. For this reason is better to use TLS model. The TLS method (see [6], [16], and [10] among others) is motivated by the asymmetry of the OLS method where the dependent variable is corrected while the independent variables not. The TLS problem looks for the minimal corrections on the given data, and seeks to ^, min,,, subject to. ^, is called a TLS solution to the previous problem and, is called the corresponding TLS correction. The suitable norm used in the previous definition is the Frobenius norm. The TLS method is equivalent to computing the hyperplane that minimizes the sum of the squared orthogonal distances from the data points to the fitting hyperplane. ^, argmin,1,1 1 argmin 1 and to solve this problem, we have to find,,true values, such that,, 1 0 for some and at the same time,, is minimal. Golub and Van Loan [6] presented the analysis, as well as the basic algorithm, based on the Eckart-Young-Mirsky theorem and singular value decomposition (SVD). The basic algorithm was afterwards generalized by Van Huffel and Vandevalle [16] to all cases in which the Golub - Van Loans s fails to produce a solution and introduced so called non-generic solutions of TLS. In our multi-input single-output cases when the matrix has full rank, the vectorized perturbation matrix, is a random, normally distributed vector, with zero mean and diagonal covariance matrix, where is the unknown scaling factor, the solution of the TLS problem always exists [10]. The latest computational and theoretical framework for treating the TLS problem was presented by Paige and Strakos [11]. Their approach based on the Golub-Kahan bidiagonalization to the matrix, is called core problem and more information about this approach can be found in [8]. If the linear modeling problem contains the intercept or some columns of are known exactly, the TLS solution does not give the accurate estimation. It is natural to require that the corresponding columns of the data matrix be unperturbed since they are known exactly. The generalization of the TLS approach is called Mixed Least Squares - Total Least Squares problem (LS-TLS).

58 56 FORUM STATISTICUM SLOVACUM 6/2015 Let us denote partition,,,, and assume that the columns of are error free and. Then the mixed LS-TLS estimator is defined by ^, min,,, subject to. By varying from zero to, the mixed LS-TLS problem can handle also with any OLS or TLS problem. To solve the mixed LS-TLS problem, due to [16], we us QR factorization. At first we solve the TLS problem of reduced dimension and after that we compute the first components of ^,. Unfortunately all mentioned estimators are very sensitive to occurrence of outliers and can give untrustworthy results, if contamination of data occur. Classical robust regression estimators, such as least trimmed squares, can resist to this problem, but on the other hand they are not consistent when orthogonality condition is broken and both independent and some dependent variables are considered to be measured with a random error. The method which can cope with this problem is robustified version of the mixed Least Squares - Total Least Squares method, based on the idea of down-weighting the influential points. 2. Robustified LS-TLS estimator The robustification of TLS is based on the principle of robustification of OLS method called least trimmed squares (LTS) introduced by Rousseeuw in [13] and on the method of least weighted squares (LWS) introduced by Víšek in [17]. The estimator based on a trimming is called total least trimmed squares (TLTS) and minimizes the sum of the smallest squared orthogonal distances of data points s from the th dimensional fitting hyperplane and we introduced it in [3]. To compute the robustified mixed LS-TLS estimation we need to identify the influential points from both parts and downweight (trimm) them. The -th orthogonal distances for mixed LS-TLS estimator is denoted by and defined by 1,. The -th vertical distances for the mixed LS-TLS estimator is denoted by and defined by. The mixed least trimmed squares - total least trimmed squares (LTS-TLTS) estimator minimizes the sum of the smallest squared distances, which is given as the sum of both parts (orthogonal and vertical). ^, argmin where is an optional parameter satisfying and is the -th least mixed distance,. If we add continuous weight function and instead sharp trimming we,

59 FORUM STATISTICUM SLOVACUM 6/ obtain the mixed least weighted squares - total least weighted squares (LWS-TLWS) estimator: ^,, argmin argmin 1, 1, where weights are defined by the weight function : 0,1 0,1, which is absolutely continuous, 0 1 and non-increasing with bounded derivative from below by a nonnegative constant and, is the random rank of the -th residual. LTS-TLTS is so called half-sample estimator and its existence is given by the existence of ordinary LS-TLS estimation for subsamples of size. The solution of LTS-TLTS (or LWS- TLWS) always exists and the breakdown point of the LTS-TLTS estimator can achieve 50%. Discussion and proofs are in [3], where is also showed and discussed that LTS-TLTS estimator is neither regression equivariant nor scale and matrix affine equivariant. 3. Algorithms and computational aspects The optional function of LTS-TLTS is continuous, non-convex, non-differentiable and has multiple local minima, whose number commonly rises with the number of observations and unknowns. It is obvious that the LTS-TLTS estimator coincides with the LS-TLS estimator for the subset of observations whose sum of distances is minimal. Since the classical finite exhaustive algorithm has to compute the sum of squared orthogonal distances for all subsets (for LWS-TLWS the exhaustive algorithm has to evaluate! ordinary LS-TLS problems). Since all algorithms for calculating mixed LTS-TLTS are similar to algorithms for TLTS we demonstrate the approaches on it. Approximative algorithms The FAST algorithm is based on the idea of PROGRESS algorithm for LTS proposed by Rousseeuw and Leroy [14] and improved into FAST-LTS algorithm by Rousseeuw and Van Driessen in [15]. The algorithm is very simple and aims to find the h-subset which yields the smallest objective function. The algorithm usually finds a local minimum which is close to the global one (but not necessarily equal). A key element of the algorithm is the fact that starting from any h-subset, it is possible to construct another h-subset yielding a lower value of the objective function. The idea is to construct many different initial h-subsets, apply previous steps until convergence, and keep the solution with the lowest value of the objective function. In spite of the algorithm gives reasonable estimations and is very fast, Hawkins and Olive [7] proved that elemental concentration algorithms with fixed number of iterations are zero breakdown. The 2-opt algorithm and its generalization -opt algorithm are local searching algorithms based on swapping every single observation, pairs of observation, and set of observations from untrimmed part with the set of observations, with the same cardinality, from the trimmed part. This algorithm is iterative and the number of attempts grows very quickly with increasing and. Another approximative algorithms such as algorithms based on theory of simulated annealing or on genetic algorithms produced similar or worse results compared with -opt or concentration algorithms and the computational times were many times grater.

60 58 FORUM STATISTICUM SLOVACUM 6/2015 Borders Scanning Algorithm - BSA BSA is the exact algorithm firstly introduced for LTS by K. Klouda [9] and for TLTS by J. Franc in [5].. The idea of this algorithm is in scanning of the objective function of TLTS. The idea of the algorithm is to find all compositions of the objective function, in given part find the local minimum and the global minimum must be among them. The graph of a comparison of optional functions for LTS and TLTS estimations are shown in Figure 1 Figure 1: Example of LTS and TLTS optional functions with observations, and trimming parameter (Solid line is minimum). We are looking for a set containing such a s that given a hyperplanes which divide into halves the distance between the -th and 1-th most distant points from a given hyperplane. In accordance with [9] we can find such a finite subsets of candidates of being an element of the set. We evaluate squared distances for all data points and all suspected, sort them and if, then. For all suspected we evaluate the cost function and the cost function of the TLTS estimator is that one with the minimal value. Branch-and-bound algorithm (BAB) BAB is the exact algorithms inspired by BAB algorithm for LTS presented by José Agulló [1] and guarantees global optimality. The algorithm passes through the tree with levels, 1 roots and terminal nodes. The tree has at the level, where, nodes. In each node we evaluate the cost function, compare the results with actual best value and we cut all children of given node or continue in examination. The example of the tree for 6 observations and coverage equal 3 is showed in the Figure 2.

61 FORUM STATISTICUM SLOVACUM 6/ Figure 2: Tree for 6 observations and coverage equal to 3. The cutting step in the BAB algorithm, that decrease the computational time compared with the exhaustive algorithm, is based on the fact that the sum of squared orthogonal distances cannot decrease when one or several observations are added to the current subset. As the initial estimate we can use the FAST algorithm. 4. Accuracy of resampling algorithm Since resampling algorithm is very fast, but does not guarantee the finding of a global optimal solution, we compare the accuracy of approximative LTS-TLTS algorithm for simulations with varying number of observations and number of iterations in the resampling algorithm. The results for 2,4 and 6 with an intercept and number of repetition 100 are presented in the Table 1. The coverage is changing with and is computed as ceil0.7. That means that we expect the contamination of the data set till 30%. Data points are generated from two different linear models, were 80% of data points come from a model which is estimated and 20% of data points are outliers from another linear model. Proportion of right estimation for approximate FAST LTS-TLTS algorithm Number of iterations No. observations p=2 p=4 p=6 n % 97% 100% 92% 100% 100% 50% 61% 100% 15 94% 100% 100% 89% 100% 100% 50% 45% 100% 20 97% 100% 100% 90% 100% 100% 45% 59% 100% 25 95% 100% 100% 95% 100% 100% 43% 79% 100% 30 97% 100% 100% 86% 97% 100% 51% 86% 100% % 100% 100% 93% 97% 100% 49% 87% 100% 40 90% 100% 100% 88% 93% 100% 52% 90% 100% 45 93% 98% 100% 92% 97% 100% 41% 88% 100% 50 91% 100% 100% 87% 93% 100% 46% 82% 100% Table 1: The accuracy of FAST resampling algorithm for various number of observations from error-in-variables model with intercept, 20% of contamination, and h=ceil(0.7)n. From these results is obvious, that the accuracy of the approximative reweighted algorithm is increasing with more iterations (more different initial estimates) and for number of iterations equal to 500 is for small samples usually the same as the exact algorithms (BAB

62 60 FORUM STATISTICUM SLOVACUM 6/2015 and BSA). Since the probability that the approximative algorithm can end in the local minimum is nonzero, we recommend to use for small samples ( 50) the exact algorithm. Exact algorithm based on evaluation of all computations of LS-TLS works in practice only if the number of observations is less than 20. The speed of BAB is more dependent on number of observations. As we showed in [4], the BAB algorithm is unusable for 60 on common PC s. Another disadvantage of BAB algorithm is its large variability in time consumption for different replications. BSA is in this point more stable and the deviation is not more than 20% from the time mean value obtained from several replications. The time consumption grow up much more faster in relation to number of regression parameters than number of observations. BSA algorithm can be used for data sets with 6 and 80. Acknowledgement This paper was written with the support of the Czech Science Foundation project No S "Robust methods for nonstandard situations, their diagnostics and implementations. References [1] J. Agulló. New algorithms for computing the least trimmed squares regression estimator. Computational Statistics and Data Analysis, 36(4): , [2] J. Franc. Robustified instrumental variables, Master thesis. Faculty of Nuclear Sciences and Physical Engineering, Czech Technical University in Prague, Prague, [3] J. Franc. Introduction to Total Least Trimmed Squares Estimation. In Doktorandské dny Proceeding, pages 33 41, Prague, CTU. [4] J. Franc. Some computational aspects of robustifed total least squares. In SPMS 2011 Stochastic and Physical Monitoring Systems - Proceedings, pages 35 47, Prague, CTU. [5] J. Franc. Borders Scanning Algorithm to Solving Total Least Trimmed Squares Estimation. In Doktorandské dny Proceedings, Prgue, CTU. [6] G. Golub and C. Van Loan. An analysis of the total least squares problem. SIAM J. Numerical Analysis, 17: , [7] D. M. Hawkins and D. J. Olive. Inconsistency of resampling algorithms for high breakdown regression estimators and a new algorithm. Journal of the American Statistical Association, 97: , [8] I. Hnětynková, M. Plešinger, Sima M., Z. Strakoš, and S. Van Huffel. The total least squares problem in AX b. a new classification with the relationship to the classical works. 2011, 32: , SIAM J. Matrix Annal. Appl. [9] K. Klouda. Bsa - exact algorithm computing lts estimate. arxiv: , [10] I. Markovsky and S. Van Huffel. Overview of total least squares methods. Signal Processing, 87(10): , [11] C. C. Paige and Z. Strakoš. Core problems in linear algebraic systems. 2006, 27: , SIAM Journal on Matrix Analysis and Applications. [12] A. C. Rao and H. Toutenburg. Linear Models: Least Squares and Alternatives. Springer Science, New York, [13] P. J. Rousseeuw. Least median of squares regression. Journal of the American Statistical Association, (79): , [14] P. J. Rousseeuw and A. M. Leroy. Robust Regression and Outlier Detection. John Wiley & Sons, Inc., New York, 1987.

63 FORUM STATISTICUM SLOVACUM 6/ [15] P. J. Rousseeuw and K. Van Driessen. Computing LTS regression for large data sets. Data Mining and Knowledge Discovery, (12), [16] S. Van Huffel and J. Vandewalle. The Total Least Squares Problem: Computational Aspects and Analysis. SIAM, Philadelphia, [17] J. Á. Víšek. Regression with high breakdown point. Robust 2000, pages , Adresa autora: Jiří Franc, Ing. (Ph.D. studnet) Katedra matematiky, FJFI ČVUT v Praze Trojanova 339/13, Praha 2 [email protected]

64 62 FORUM STATISTICUM SLOVACUM 6/2015 JavaScript jako nástroj interaktivní výuky statistiky a dalších kvantitativních metod JavaScript as an Instrument for Teaching of Statistics and Other Quantitative Methods Interactively Jiří Henzler Abstrakt: Článek pojednává o interaktivní výukové metodě užívající HTML stránky s odkazy na internet a s výpočetními programy v JavaScriptu. To umožňuje provádět ilustrativní výpočty přímo na stránkách, které studenti sledují během přednášky nebo cvičení, takže studenti neztrácejí kontakt s odpovídajícím slovním nebo formálním výkladem daného pojmu na stejné stránce. Studenti mohou využít tyto stránky i jako cvičební texty: mohou do interaktivních programů vkládat vlastní data a sledovat, jak změna dat ovlivňuje výsledek. Předkládaný článek vychází z myšlenek Jiřího Žváčka a jeho publikačního systému Stahroun. Původní systém sloužil jako učebnice statistiky, ale může být používán i v jiných oblastech kvantitativních metod. Autor na tomto základě vyvinul interaktivní HTML stránky pro finanční matematiku. Abstract: The paper deals with an interactive teaching method using HTML pages with implemented JavaScript interactive computations and web links. Simple illustrative exemplifying calculations can be done just on the screened presentation during the lectures so that students do not lose touch with the corresponding verbal and formal explanation of the notion on the same page. On the other hand the students use the HTML pages as an exercise book, they can insert their own data and observe how the changing of the input data can change the result. The presented paper comes out the ideas of Jiří Žváček and his special publishing system Stahroun. The original system served for the textbook of statistics, but the system can be used in other fields of quantitative methods; the author developed HTML pages for mathematical finance with computations on the base of JavaScript. Klíčová slova: HTML stránky, JavaScript, kvantitativní metody, statistika, interaktivní výuka Keywords: HTML pages, JavaScript, quantitative methods, statistics, interactive teaching JEL classification: A23, C40, C63 1. Introduction At present, many professional software products concerning teaching quantitative methods (e.g. mathematics, statistics or computer science) are available on internet. One can find plain text with hypertext links explaining the mentioned notions, in some parts with interactive examples of distributions (LANE, 2015), chapters in PDF format (GERSTMAN, 2015), chapters in PDF format build with PDFTeX text editor, with interactive programs in JavaScript (SOJKA, 2003), chapters as separate HTML pages, in some of them JavaScript for calculation of various statistical characteristics (ARSHMAN, 2015) advanced JavaScript interaction programs in financial mathematics (e.g. loan or mortgage payments, the future value of an investment, and inflation) are used e.g. in a textbook of MCFEDRIES (2001).

65 FORUM STATISTICUM SLOVACUM 6/ In any of the above given works, all potentialities of the HTML pages have not been fully evolved. A publishing system Stahroun integrating several HTML pages into a compact unit developed by Jiří Žváček in The original web site is not available any more, but the system was used in a statistics textbook of ŽVÁČEK and HENZLER (2010) and it was further developed by the author of this paper for the field of econometrics and financial mathematics. Single HTML pages with interactive computations stripped out from the book can be used separately; it facilitates communication with students. In this paper, the main features of the publishing system Stahroun are described and its applications in teaching statistics and financial mathematics are presented. 2. A single HTML page Interactive computations in a HTML page First, the structure of a single HTML page with interactive JavaScript program is described. The structure of the whole publishing system Stahroun enabling the movement through the book is depicted in the second subchapter. Finally, an example of using the system in other field then originally developed for, namely in finance mathematics, is given. Interactive computations are often provided with various data sets and/or it is possible to input one's own sets of data either from the keyboard or from other files using clipboard by shortcuts Ctrl-C and Ctrl-V. When online, interactive computations can easily be realised through links by external programs and; a return to the current HTML page is made possible simply by the go-back-topage key. The external links to according pages are situated at the bottom of the page. In the following example the author used a JavaScript program implied in a HTML page in which the notion of quantile is explained. The quantile is defined according to HENDL (2012). The part of HTML page quantiles.htm is depicted on Fig. 1 and Fig. 2, respectively. Fig. 1: Part of the HTML page quantiles. htm containing interactive computation of a quantile that is based on a JavaScript program Fig. 2: The same as at the Fig. 1 for other input data and consequently other output

66 64 FORUM STATISTICUM SLOVACUM 6/2015 Interactive computations are often provided with various data sets and/or it is possible to input one's own sets of data either from the keyboard or from other files using clipboard by shortcuts Ctrl-C and Ctrl-V. 3. Publishing system Stahroun - movement throughout the book In contrary to classical web pages generally constructed in form of a tree, the system Stahroun developed by Jiří Žváček enables several possibilities of progression on the book. User can choose from them the one the most suitable for him. Among the users of the web pages the motion by mouse the most common one; in the presented system a clicking of the mouse enables not only moving to neighbouring pages but also to any chapter of the book or "outside of the book", i.e. to the web links. Movement to the beginning of the book is realizable by clicking on the icon "Interstat" or to the icon "Introduction (see the Fig. 3 the page is translated into English. Colour background is not seen on the picture) at the top bar; one goes back to the first page of the textbook. Movement to the chapter or subchapter of the textbook is as follows: At the top of the page is the icon bar with containing menu, i.e. usual horizontal offer of clickable icons representing chapters of the book and enabling quick access to subjects in demand. The moving of the mouse over an icon makes visible a tree of corresponding clickable icons of subchapters, of paragraphs and so on. The mouse thus enables the direct access to the page with searched subject-matter. Browsing through the content of the book using icon Content: Clicking on the icon Content enables viewing the whole tree of chapters, subchapters and paragraphs and going the desired item. Similarly as in the preceding section with the menu bar, the clicking to the name of the item opens the corresponding page. Fig. 3: Head of a HTML page of the Statistics Textbook Interstat (translated into English)

67 FORUM STATISTICUM SLOVACUM 6/ Movement to the related item: On the most of the pages of the textbook Interstat there are cross-references to the related articles in the book in the form of hypertext links. They are preceded by a red mark (see the top of the Fig. 3). Motion throughout the book enabled by keyboard is also possible: The up and down cursor keys enable the movement to the top and bottom of the page. Movement to the preceding and the following page: At the bottom of the visible part of the page there is a menu bar that can be seen all the time while scrolling the page. On the bottom menu bar there are several icons. Clicking on icon "Preceding" we go back to the previous page of the textbook. Clicking on icon "Next" enables moving to the next page of the textbook (those two icons are not visible in the Figure 3 as a single page has been translated into English only). Movement to the top of the present page is made possible by the clicking of the icon "Top". Clicking on items "Help" and "Introduction" causes moving to appropriate pages. 4. Using HTML pages with JavaScript based interactive computation in other fields of quantitative methods The above described mode of teaching can be applied also in other courses, e.g. in financial mathematics. The interactive computations can be place either in the middle of explanation of the new subject at lesson and/or on the detached page for individual work of the students (see Fig. 4). Fig. 4: HTML page of the Financial Mathematics Textbook 5. Results The publishing system Stahroun and some chapters from internet textbook of Jiří Žváček have been adapted and enlarged to serve as a textbook to basic course of statistics at Metropolitan University Prague in form of CD-ROM (ŽVÁČEK and HENZLER, 2010). Textbook can be handled even offline. In case of web connection many external links enabling further interactive computations and simulations or alternative explanations and addons to lectured part of statistics. Experience obtained with practical use of textbook enables further enhancement of teaching process and the textbook itself. Despite a rather limited potentiality of the JavaScript language its merits for teaching purposes in connection with publishing system Stahroun were sufficiently proved. The other

68 66 FORUM STATISTICUM SLOVACUM 6/2015 way is to integrate these calculations into the lecturing. This can be done by using JavaScript based calculations on the HTML pages used in lecture. To explain some basic notion from the field of quantitative methods, a teacher usually calculates a simple example. In case of more complex calculations the teacher uses usually an example with prefabricated result; the connection between input data and the final result thus may be less comprehensible to students. This is valid even more by explaining the differences or similarities between two or more related notions. To make the matter more clear, one can use more prefabricated examples with sharply different input data or use some online statistical software. One can use standard and well known Microsoft Excel or more sophisticated SAS software. The use of these external tools breaks apart the smooth way of explaining and so it is more effective in seminars than in lectures. As a feed-back from the side of students, author presents the reactions of students of the full-time form of study of the course Mathematical Methods in Managerial Practice (financial mathematics and regression analysis) held at the University of Business in Prague at the winter semester in From anonymous questionnaire, statements partly or fully concerning used teaching techniques and materials have been chosen: Statement 1. Lesson: explanation was comprehensible, lecture was well prepared and structured, appropriate means of presentation were used (answers in Tab. 1). The first column in the table shows all options available to students. The second column shows the number of students who selected a particular option. The third column shows the percentage of students who answered the question. The fourth column shows the percentage of students who filled in the survey sheet for this course (question may be unanswered, thus numbers in these two columns may differ). The last column shows the percentage of all students whose registration to this course was confirmed and thus could fill in the survey sheet. Tab. 1: Structure of student answers to Statement 1 Alternative Number % of all respondents % of all participants I fully agree I nearly agree I rather agree I partly agree I rather disagree % of all enrolled students I nearly disagree Source: University of Commerce in Prague

69 FORUM STATISTICUM SLOVACUM 6/ Statement 2. Seminar: explanation was comprehensible, lecture was well prepared and structured, appropriate means of presentation were used - answers in Tab. 2. Tab. 2: Structure of student answers to Statement 2 Alternative Number % of all respondents % of all participants I fully agree I nearly agree I rather agree I partly agree I rather disagree I nearly disagree Source: University of Commerce in Prague % of all enrolled students Statement 3. Teacher was effectively using teaching aids available at the university intranet (answers in Tab. 3). Explanation: The only teaching aids used were the above described HTML pages. Tab. 3: Structure of student answers to Statement 3 Alternative Number % of all respondents % of all participants I fully agree I nearly agree I partly agree % of all enrolled students I nearly disagree Source: University of Commerce in Prague This survey can be found at the server of the University of Commerce in Prague and is available by courtesy of the administrator of the university intranet Mgr. Pavel Neset, Ph.D. vso-praha.eu). The data of the survey are valid to the date February 23, Conclusion The above described system Stahroun enables effective style of teaching not only in the field of statistics, for which it was constructed, but also in other branches of science. The quick orientation though the whole book is great advantage over the classic paper textbooks. The interactive JavaScript programs serve not only to quick realisation of cumbersome computations but also for clarification of computed notions: each student can pursue by inserting various plain sets of data the changes of the final value and by that to penetrate the nature of the notion. This is especially useful for less gifted students who are not able to conceive this nature from the formula of the notion. This aspect is especially suitable by e- learning. Web links at the bottom of pages serve to enlargement of the taught matter and often mediate other view to that.

70 68 FORUM STATISTICUM SLOVACUM 6/2015 This concept of teaching had been used by author at the course of Statistics in International Business for full-time students at the Metropolitan University in Prague in the years , at the course of Econometrics at the Metropolitan University in Prague in the years At present, the author has been using it at the Metropolitan university in Prague at the course of Statistics in State Administration for part-time students at the Metropolitan university in Prague (since 2008) and at the University of Business at the course of Mathematical Methods in Managerial Practice (financial mathematics and regression analysis) and at the various courses of statistics (since 2013). 7. Acknowledgement The author thanks to doc. ing. Jiří Žváček, CSc. for all-embracing assistance in building the above described HTML pages and thus in the formation of this paper. 8. References 1 ARSHAM, H Statistical Thinking for Managerial Decisions [online]. [cit ]. URL: 2 GERSTMAN, B. B StatPrimer [online]. Version 6.4. [cit ]. URL: 3 HENDL, J Přehled statistických metod (Statistical Methods Overview). 4th revised and enlarged edition. Prague: Portál. ISBN LANE, D. L HyperStat. Online Statistics Textbook. [online]. [cit ]. URL: 5 MCFEDRIES, P Special Edition Using JavaScript. Pearson Education, Que Publishing SOJKA, P Interactive Teaching Materials in PDF using JavaScript. In: Proceedings of the 8th annual conference on Innovation and technology in computer science education, Thessaloniki, Greece, s ISBN University of Commerce in Prague [online]. [cit ]. URL: 8 ŽVÁČEK, J. - HENZLER, J Statistika pro ekonomy (Statistics for Economists). 2nd rev. and enlarged edition. Prague: Metropolitan University, ISBN Author s address: Jiří Henzler, Doc. RNDr. CSc. University of Business in Prague Vysoká škola obchodní v Praze, o.p.s. Spálená 76/ Praha 1 Nové Město [email protected]

71 FORUM STATISTICUM SLOVACUM 6/ Porovnania odhadov v modeli rastových kriviek Comparison of estimators in the growth curve model Veronika Kopčová Abstract: The growth curve model represents useful statistical model in variety of areas. The uniform variance structure is analysed and different methods for estimating the unknown parameters are shown. We show some properties of these estimators. The core of the work is comparison of these estimators using method based on MSE. Abstrakt: Model rastových kriviek je užitočným štatistickým modelom pre mnohé oblasti. V práci analyzujeme rovnomernú variančnú štruktúru a uvádzame rôzne metódy na odhadovanie neznámych parametrov. Niektoré vlastnosti týchto odhadov sú taktiež ukázané. Podstatou tejto práce je porovnanie jednotlivých metód za pomoci MSE. Key words: growth curve model, uniform structure, mean square error, maximum likelihood estimator, outer product estimator, quasi least squares method. Kľúčové slová: model rastových kriviek, rovnomerná štruktúra, stredná štvorcová chyba, maximálne vierohodný odhad, odhad vonkajšieho súčinu, metóda kvázi najmenších štvorcov. JEL classification: C13, C15, C29, C39 1. Úvod Model rastových kriviek bol zavedený v roku 1964 matematikmi Potthoff a Roy, je spojením regresnej analýzy a analýzy rozptylu. Štandardný model je v tvare:, 0, (1) kde je matica pozorovaní, je ANOVA matica, matica neznámych parametrov, je matica regresných konštánt a je matica náhodných chýb. Matica je variančná matica riadkov matice Y. Pri tomto označení p predstavuje počet meraní, n počet objektov a m počet skupín. Navyše, kde je ortogonálna projekcia na stĺpcovom priestore matice X. Jednou z hlavných úloh v štatistických modeloch je odhadovanie neznámych parametrov. V tomto modeli potrebujeme na odhadovanie strednej hodnoty odhadnúť maticu Σ. Problém pri odhadovaní môže nastať v prípade ak matica je čiastočne známa. V tom prípade si zvolíme jednoduchšiu štruktúru. Tentoraz budeme uvažovať rovnomernú variančnú štruktúru. Matica má v tomto prípade nasledujúci tvar: Σ 1, kde >0 a,1 sú neznáme parametre. Túto štruktúru prvý krát použil Lee (1988), neskôr Žežula (2006) a Ye, Wang (2009). 2. Odhady neznámych parametrov v rovnomernej štruktúre Pod podmienkou normality UMVUI-odhad variančnej matice je v tvare:. (2) Potom momentové odhady neznámych variančných parametrov odvodené Žežulom (2006), neskôr Ye, Wang (2009) sú tvaru:, 1, (3) Označujeme ich U-odhady. V ďalšom uvádzame niektoré vlastnosti týchto odhadov. Odhad parametra je nestranný, teda a. Odhad parametra ρ je vychýlený. Na odvodenie vlastností bol použitý Taylorov vzorec. Potom platí:

72 70 FORUM STATISTICUM SLOVACUM 6/ Prezentované výsledky sú prebraté z Žežula (2006), Ye, Wang (2009) a Rusnačko, Žežula (2015). Maximálne vierohodný odhad variančnej matice sa za určitých okolností dá zapísať v tvare:. (4) Tento tvar je postačujúci pre výpočet maximálne vierohodných odhadov parametrov a. Za podmienky sú definované vzťahmi: 1 (5) Označujeme ich M-odhady. Pre základné vlastnosti týchto odhadov platí: MSE Var Výsledky sú prebraté z článku Žežula (2006). Momentové odhady založené na matici nazývame odhady zmiešanej metódy, odvodené boli v článku Žežula (2006). Pod podmienkou sú odhady nasledovného tvaru: (6) 1 (7) Označujeme ich MU-odhady. Odhad parametra je nestranný, teda a, kde Odhad parametra ρ je vychýlený a pre jeho strednú hodnotu platí:

73 FORUM STATISTICUM SLOVACUM 6/ Prezentované výsledky sú prebraté z článkov Žežula (2006) a Rusnačko, Žežula (2015). Ďalší odhad variančnej matice Σ, ktorý sa nazýva odhad vonkajšieho súčinu, je v tvare: (8) Potom momentové odhady neznámych parametrov sú v nasledujúcom tvare: 1 (9) Odhad parametra je nestranný a teda teda a, kde Na vyjadrenie strednej hodnoty odhadu parametra ρ bol v článku Rusnačko, Žežula (2015) použitý Taylorov vzorec. Formula je v tvare: Výsledky sú z článkov Hu et al. (2012), Rusnačko (2014). Metóda kvázi najmenších štvorcov, ktorú popísal Chaganty (1997), je dvojstupňový proces, pričom odhady prvého stupňa sú v tvare: (11) Použitím odhadov prvého kroku, získame druhostupňové odhady: (12) (13) (14) Asymptotické vlastnosti odvodil Chaganty (2003) v nasledovnom tvare: 2 11 (10) 3. Porovnanie odhadov na základe MSE V tejto časti uvedieme porovnanie hore spomínaných odhadov na základe strednej štvorcovej chyby. Predpokladáme, že,,1. Navyše predpokladáme, že počet časových bodov prevyšuje o jedno najmenší počet bodov na odhad chyby, teda 2. Porovnanie je založené na pomere MSE. Pre niektoré odhady existuje analytické vyjadrenie týchto pomerov, pre ostatné uvádzame porovnania na základe zobrazenia priebehu pre niektoré hodnoty parametrov a simulácií. Uvažujme dáta z viacrozmerného normálneho rozdelenia.

74 72 FORUM STATISTICUM SLOVACUM 6/ Táto funkcia je rastúca, vždy záporná za daných podmienok. Nadobúda maximum v ρ=1 a je rovné nule. Teda U-odhad je lepší ako odhad vonkajšieho súčinu , kde 1 2. Je zjavné, že menovateľ je vždy kladný. Diskriminant menovateľa je vždy záporný a 1 0, teda menovateľ je kladná konvexná funkcia pre dané ρ. Funkcia je vždy kladná a teda zmiešaná metóda je lepšia ako U-odhad , 1 1 kde Je zjavné, že menovateľ je vždy kladný. Ďalej vieme ukázať, že pre 1 je diskriminant čitateľa záporný a 2 0 teda čitateľ je záporná a konkávna funkcia. Pomer je teda vždy záporný a zmiešaná metóda je lepšia ako odhad vonkajšieho súčinu. Pod podmienkou normality sú metóda maximálnej vierohodnosti a metóda kvázi najmenších štvorcov ekvivalentné, avšak nie je jednoduché ich porovnať s ostatnými odhadmi na základe presných vzorcov MSE. Preto tieto porovnania uvádzame iba na základe nasledujúcich obrázkov. Hodnoty parametrov a : 20,10,8,5; 6; 3; 1 sú použité na zobrazenie pomerov 1 a sú funkciami parametra ρ. Obr.1: Obr.2: Obr.3: Pod podmienkou normality teda uzavrieme, zmiešaná metóda je lepšia ako U-odhad a ten je lepší ako odhad vonkajšieho súčinu. Metóda maximálnej vierohodnosti a metóda kvázi najmenších štvorcov sú ekvivalentné a nie sú jednoducho porovnateľné s ostatnými. Pre metódu kvázi najmenších štvorcov máme iba asymptotické MSE. Vieme ukázať, že asymptotické MSE ostatných odhadov sú rovnaké ako pre metódu kvázi najmenších štvorcov. Z hľadiska asymptotického MSE sú teda všetky dané odhady ekvivalentné. Pozrime sa teraz na porovnania v prípade, ak nie je splnená podmienka normality. Uvažujme dáta zo studentovho t rozdelenia s 5 stupňami voľnosti. Základom porovnania budú simulácie

75 FORUM STATISTICUM SLOVACUM 6/ s počtom opakovaní Pre dáta z vyššie spomenutého rozdelenia budeme simulovať MSE parametra a zobrazíme pomery MSE ako v predošlom porovnávaní. Parametre tejto simulácie a hodnota parametra sú nasledovné: 27; 4; 2; 1. 0,2; 0,1; 0; 0,1; 0,2; 0,3; 0,4; 0,5; 0,6; 0,7; 0,8; 0,9; 0,99. Obr.4: Obr.4: Obr.4: Obr.4: Obr.4: Obr.4: Obr.4: Obr.4: Obr.4:

76 74 FORUM STATISTICUM SLOVACUM 6/2015 Obr.4: Na základe týchto obrázkov môžeme uzavrieť, že v prípade dát, ktoré nie sú z normálneho rozdelenia, ale charakterom podobného t-rozdelenia, najlepším odhadom je MLE, ďalší je QLS, ktorý je veľmi podobný s U-odhadom. Všetky doteraz spomenuté sú lepšie ako odhad vonkajšieho súčinu a najhorším odhadom je odhad zmiešanou metódou. 4. Záver Článok je založený na porovnávaní odhadov neznámych parametrov pre rovnomernú štruktúru v modeli rastových kriviek. Uvažujeme tri druhy porovnaní. V prípade normality a na základe presných vzorcov MSE pre dané odhady platí: odhad zmiešanej metódy je lepší ako U-odhad a ten je lepší ako odhad vonkajšieho súčinu, odhady MLE a QLS sú ekvivalentné a neporovnateľné s ostatnými metódami. V prípade, ak nás zaujíma asymptotické MSE, sú všetky odhady ekvivalentné. Posledné porovnanie je pre prípad, že dáta nie sú normálne rozdelené. Uvažujeme studentovo t rozdelenie s 5 stupňami voľnosti. V takom prípade je najlepším odhadom MLE, potom QLS, ktorý je podobný s U-odhadom, potom odhad vonkajšieho súčinu a najhorším odhadom je odhad zmiešanej metódy. Môžeme vidieť, že poradie odhadov sa v rôznych prípadoch líši. Na jednej strane odhad vonkajšieho súčinu patrí medzi horší odhad v každom prípade, na druhej strane odhad zmiešanej metódy je v prípade normality najlepší, ale v prípade dát zo studentovho rozdelenia najhorší. Literatúra HU, J. LIU, F. EJAZ AHMED, S Estimation of parameters in the growth curve model via an outer product least squares approach for covariance. In: Journal of Multivariate Analysis, č 108, s CHAGANTY, N. R An alternative approach to the analysis of longitudinal data via generalized estimating equations. In: Journal of Statistical Planning and Inference, č. 63, s CHAGANTY, N. R Analysis of growth curves with patterned correlation matrices using quasi-least squares. In: Journal of Statistical Planning and Inference, č. 117, s LEE, J. C Prediction and estimation of growth curves with special covariance structures. In: Journal of the American Statistical Association, č. 83, s RUSNAČKO, R Estimators of unknown parameters in the growth curve model with the uniform correlation structure based on different estimators of variance matrix. In: Coll. Biom., č. 44, s RUSNAČKO, R. ŽEŽULA, I Connection between uniform and serial correlation structure in the growth curve model. In: Metrika, DOI /s , online first. YE, R. D. Wang, S. G Estimating parameters in extended growth curve model with

77 FORUM STATISTICUM SLOVACUM 6/ special covariance structures. In: Journal of Statistical Planning and Inference, č. 139, s ŽEŽULA, I Special variance structure in the growth curve model. In: Journal of Multivariate Analysis, č. 97, s Adresa autora: Veronika Kopčová, RNDr. Prírodovedecká fakulta UPJŠ Jesenná 5, Košice Tento článok vznikol za podpory grantu VEGA MŠSR 1/0344/14

78 76 FORUM STATISTICUM SLOVACUM 6/2015 Demografický vývoj ČR a jeho dopad na ekonomiku Demographical development of the Czech Republic and its development on the economy Bohdan Linda, Jana Kubanová Abstract: The newspapers during the recent years often reports about number of population decline, its aging and at the same time about the negative impact of these events on the economy not only of the Czech Republic but also in most developed countries. This paper analyzes closely the situation in the Czech Republic since the turn of the millennium. Abstrakt: V posledních letech se v tisku často objevují zprávy o poklesu počtu obyvatel, jeho stárnutí a současně i o negativním dopadu těchto jevů na ekonomiku nejen České republiky, ale i většiny vyspělých zemí. Článek rozebírá blíže tuto situaci v České republice od přelomu tisíciletí. Key words: population, economically active population, migration, aging index Kľúčové slová: počet_obyvatel, ekonomicky_aktivní_obyvatelstvo, migrace, index_stáří JEL classification: J1 1. Úvod Na rozdíl od celkové světové populace, která rychle roste a mládne, se vyspělé země potýkají s úbytkem původního obyvatelstva a jeho stárnutím. Tento problém je zapříčiněn především snižováním fertility, která je v současnosti v České republice hluboko pod hodnotou 2,1, potřebné pro zachování populace a částečně i prodlužováním střední délky života. Pokles velikosti produktivní generace má negativní dopad na ekonomiku státu. Protože populační změny mají dlouhou setrvačnost, měla by je vláda pokládat za prioritní a přednostně se s nimi zabývat. 2. Počet obyvatel Nejdůležitějším faktorem ovlivňujícím počet obyvatel je počet narozených dětí. 3,00 2,50 2,00 1,50 1,00 0,50 0, Obr. 1 Úhrnná plodnost obyvatelstva České republiky od roku 1964 Zdroj: vlastní výpočty na základě údajů Českého statistického úřadu

79 FORUM STATISTICUM SLOVACUM 6/ Objektivním faktem je dlouhodobé snižování porodnosti, jejíž systematický pokles nastal v polovině šedesátých let minulého století, kdy úhrnná plodnost v roce 1964 se dostala z hodnoty 2,36 na hodnotu 1,56 v roce 1964, viz obr. 1. Výjimku tvořilo období , kdy se úhrnná plodnost dostala nad hodnotu 2,1, potřebnou k udržení původní populace, kdy se rodily tzv. Husákovy děti. I když plodnost od roku 2000 roste z hodnoty 1,14 na hodnotu 1,53, stále je hluboko pod mírou udržitelnosti populace viz obr Obr. 2 Počty obyvatel České republiky v období Zdroj: vlastní výpočty na základě údajů Českého statistického úřadu Přesto počet obyvatel České republiky neklesá, naopak, z hodnoty v roce 2000 vzrostl na hodnotu v roce 2014, tj. o obyvatel, viz obr. 2. Propad v počtu obyvatel v důsledku snižování plodnosti je překryt zvyšujícím se počtem trvale žijících cizinců v České republice, viz obr Obr. 3 Počty dlouhodobě žijících cizinců v České republice Zdroj: vlastní výpočty na základě údajů Českého statistického úřadu

80 78 FORUM STATISTICUM SLOVACUM 6/ Generační složení obyvatelstva Z hlediska generačního složení se obyvatelstvo dělí do tří generačních skupin: dětská biologická generace 0-14 let, rodičovská biologická generace let, prarodičovská biologická generace 50 + let. Vývoj těchto generačních skupin je patrný z obr. 4, ve kterém je procentuálně znázorněn podíl jednotlivých skupin na celkovém počtu obyvatel. V uvedeném období podíl dětské generace klesl o dvě procenta, podíl rodičovské o čtyři procenta. 60% 50% 40% 30% 20% 10% 0% dětská generace rodičovská gen prarodič. Gen Obr. 4 Vývoj generačního složení obyvatelstva Zdroj: vlastní výpočty na základě údajů Českého statistického úřadu Na druhé straně vzrostl podíl prarodičovské generace o pět procent. Zatím změny těchto podílů nejsou tak hrozivé. Pokud bychom však uvažovali i index stáří, tento za uvedené období vzrostl o 23%, viz obr ,5 2 1,5 1 0,5 0 Obr. 5 Vývoj indexu stáří Zdroj: vlastní výpočty na základě údajů Českého statistického úřadu

81 FORUM STATISTICUM SLOVACUM 6/ Ekonomické dopady Všeobecně se za ekonomicky aktivní obyvatelstvo považuje věková kategorie let. Tím je rozděleno obyvatelstvo do tří ekonomických kategorií předproduktivní generace 0-19 let, produktivní generace let, poproduktivní generace Procentuální vývoj těchto tří kategorií je uveden na obr % 60% 50% 40% 30% 20% 10% 0% předprod. gen produkt. gen poprodukt. gen Obr. 6 Procentuální vývoj tří ekonomických kategorií obyvatelstva Zdroj: vlastní výpočty na základě údajů Českého statistického úřadu Z grafu je patrno, že složení obyvatelstva z tohoto hlediska se podstatným způsobem nemění. Podíl předproduktivní generace se zmenšil o 3 procenta, podíl produktivní generace zůstává zachován a podíl poproduktivní generace se zvýšil o 4 procenta. Vzhledem k neměnícímu se podílu produktivní generace v blízké budoucnosti se nedají očekávat významné ekonomické změny. Nepříjemně však vyznívá, porovnáme-li vzájemně pokles podílu předproduktivní generace a nárůst podílu poproduktivní generace. V budoucnu by tento vývoj mohl zapříčinit propad důchodového systému. 0,300 0,250 0,200 0,150 0,100 0,050 0,000 Obr. 7 Vývoj indexu závislosti seniorů Zdroj: vlastní výpočty na základě údajů Českého statistického úřadu

82 80 FORUM STATISTICUM SLOVACUM 6/2015 Ekonomickou udržitelnost důchodového systému charakterizuje především index závislosti seniorů, který je podílem poproduktivní generace a produktivní generace. Nepříznivý vývoj tohoto indexu je patrný z obr. 7. Jeho hodnota se zvýšila o 30%. Lepší představu nám dá převrácená hodnota tohoto ukazatele, vyjadřující počet ekonomicky činných obyvatel na jednoho důchodce. Tento počet poklesl z hodnoty 4,56 na hodnotu 3,5 v průběhu posledních 15 let. 5. Závěr Z uvedených statistik plyne, že zatím se nemusíme obávat změn celkového počtu obyvatel. Avšak vzhledem ke snižující se fertilitě lze očekávat pokles původního obyvatelstva, který se bude zrychlovat. Tento pokles je v současnosti vyrovnáván migrací, jejíž budoucnost však můžeme jen stěží předvídat, vzhledem k současným problémům s ekonomickými běženci v Evropě. Bude-li i nadále pokračovat pokles fertility, může to mít nepříznivý dopad na ekonomiku státu, především v oblasti důchodového systému. Ze sedmdesátých let minulého století však máme zkušenost, že fertilitu lze ovlivnit aktivní politikou státu v oblasti podpory mladých rodin. Nad touto skutečností by se měla zamyslet především vláda a parlament České republiky. Literatura [1] Obyvatelstvo - roční časové řady. Český statistický úřad [online] Dostupné z: [2] Trvale a dlouhodobě usazení cizinci v ČR; Dostupné z: [3] Pohyb obyvatelstva v Českých zemích , analytické údaje Dostupné z: Adresa autorov: Bohdan Linda, doc, RNDr., CSc. Fakulta ekonomicko-správní, Univerzita Pardubice Studentská 95, Pardubice [email protected] Jana Kubanová, doc, PaedDr., CSc. Fakulta ekonomicko-správní, Univerzita Pardubice Studentská 95, Pardubice [email protected]

83 FORUM STATISTICUM SLOVACUM 6/ Zhlukovanie priemyselných odvetví v Poľsku podľa ich finančných výsledkov Clustering of the Polish industrial sectors according to their financial results Erika Liptáková, Lukáš Mikuš Abstract: At present, it is used grouping industrial sectors according to NACE classification in the EU countries. However, this classification is not indicative of the structure of industry in terms of significance and the similarity of economic performance of individual industrial groups. NACE itself is substantially only a list of sectors in terms of the variety of their place of business, the type of manufacture and final products. Therefore, we propose an alternative grouping of industrial sectors with using one of the tools of multivariate statistical methods (cluster analysis). Due to the availability of appropriate data, we analyze production and manufacturing sectors of the Polish industry in terms of economic fundamentals, i.e. financial performance and size s characteristics of the sectors. Abstrakt: V súčasnosti sa v krajinách Európskej únie používa zoskupenie odvetví priemyslu podľa klasifikácie NACE. Táto klasifikácia však nenapovedá nič o štruktúre priemyslu z hľadiska významnosti a podobností ekonomických výsledkov jednotlivých zoskupených odvetví. Samotná klasifikácia NACE je v podstate len zoznamom výrobných odvetví z hľadiska rôznorodosti ich ekonomickej činnosti, druhu výroby a konečných produktov. Preto v príspevku navrhujeme alternatívne zoskupenie odvetví priemyslu, a to s využitím jedného z nástrojov viacrozmerných štatistických metód - zhlukovej analýzy. Vzhľadom k dostupnosti vhodných údajov analyzujeme výrobné a spracovateľské odvetvia poľského priemyslu z pohľadu ekonomických fundamentov, t.j. finančných výsledkov a veľkostnej charakteristiky odvetví. Key words: cluster analysis, principal component analysis, manufacturing sector, production sector, industry Kľúčové slová: zhluková analýza, analýza hlavných komponentov, spracovateľské odvetvie, výrobné odvetvie, priemysel JEL classification: D24, C10 1. Úvod V každej krajine je nosnou súčasťou hospodárstva najmä výrobná sféra a výrobné odvetvia. Tieto odvetvia sa navzájom líšia z hľadiska zamerania výrobných aktivít a vyrábaných produktov a preto je štruktúra odvetví pre každú krajinu iná, a teda, pre ňu charakteristická. Každé odvetvie je zároveň ovplyvňované historickými predpokladmi, súčasnými ekonomickými trendmi, cyklami alebo situáciou a na základe týchto vplyvov dosahuje rôzne ekonomické výsledky. Môžeme skúmať dosiahnuté ekonomické výsledky, exportnú výkonnosť odvetví, či mieru investičnej a inovačnej činnosti podnikov v odvetviach pomocou finančných ukazovateľov. Na základe podobnosti resp. odlišnosti aktivít a výsledkov, meraných pomocou takýchto rôznych ukazovateľov a zozbieraných údajov, vieme vytvoriť zoznam podobných odvetví národného hospodárstva, odrážajúci charakteristickú štruktúru jednotlivých výrobných a spracovateľských odvetví v národnom hospodárstve. Cieľom príspevku je analýza výrobných a spracovateľských

84 82 FORUM STATISTICUM SLOVACUM 6/2015 odvetví národného hospodárstva z hľadiska ekonomických výsledkov ich činnosti. Výsledkom analýzy je stručný a jasný prehľad štruktúry tejto sekcie národného hospodárstva podľa zoskupených odvetví, na princípe ich reálnej ekonomickej výkonnosti. 2. Prehľad literatúry Inšpiráciou pre tento príspevok bol článok trojice autorov Duqueho, Reya a Gómeza (2009) zaoberajúci sa zhlukovaním odvetví priemyslu v Kolumbii. Pre potreby vykonania analýzy v prostredí programu R sa problematike zhlukovej analýzy a analýzy hlavných komponentov (PCA) s konkrétnymi postupmi analýzy v programe R venujú zo slovenských autorov Král (2009) a zo zahraničných autorov napríklad Gareth (2013). Keďže cieľom príspevku je návrh alternatívnej klasifikácii k NACE, dostupné informácie o tejto klasifikácii, jej význame, postupoch jej zostavenia a od nej odvodených klasifikáciách je možné nájsť v oficiálnych materiáloch publikovaných inštitúciou Eurostat (2008). 3. Metodika Z vhodných viacrozmerných štatistických metód boli použité metódy zhlukovej analýzy, ktorá, na určitej úrovni analýzy, nevyhnutne obsahuje analýzu hlavných komponentov (PCA). Zhluková analýza je štatistická metóda, ktorá sa používa na zoskupenie objektov podľa určitých, logicky vybraných premenných. Je založená na myšlienke zoskupenia podobných objektov do skupín, ktoré sa od seba navzájom líšia. Jednou z požadovaných podmienok pre správne vykonanie analýzy je absencia multikorelácie medzi premennými. Na splnenie tejto podmienky je vhodné vykonať na začiatku PCA analýzu, ktorej cieľom je, okrem iného, aj zjednodušenie vzájomných vzťahov medzi premennými a zníženie počtu premenných. Výsledkom je možnosť analyzovať menší počet navzájom nekorelovaných premenných, tzv. komponentov, ktoré v sebe ponechávajú informáciu z pôvodných premenných o ich variabilite a vzájomnej korelácii. Za vhodnú softvérovú podporu na vykonanie analýzy bol vybraný štatistický a ekonometrický program R, určený na spracovanie údajov, ich analýzu a následné grafické zobrazenie výsledkov. Príspevok obsahuje i stručnú charakteristiku NACE (integrovaný systém klasifikácií ekonomických činností a produkcie), ktorý je používaný vo všetkých krajinách Európskej únie. 4. Údaje Údaje sú získané z publikácií a databáz Centrálneho štatistického úradu Poľska za rok 2012, publikovaných v roku 2013, rozdelených podľa NACE Rev. 2 klasifikácie, najmä oddiel C výrobné a spracovateľské odvetvia priemyslu, divízie (okrem divízie 32 - Iná výroba). Údaje sú získané za výrobné spoločnosti, bez ohľadu na formu vlastníctva, s počtom zamestnancov vyšším ako 9 zamestnancov. V analýze boli použité nasledujúce premenné: Celkové príjmy - celkový príjem z ekonomických činností (predaj tovaru, služieb, materiálu, finančné činnosti) v roku 2012, v miliónoch PLN. Celkové príjmy (za firmu) - celkový príjem z ekonomických činností (predaj tovaru, služieb, materiálu, finančné činnosti) v roku 2012, v miliónoch PLN, prepočítaných na jednu firmu.

85 FORUM STATISTICUM SLOVACUM 6/ Celkové náklady (za firmu) - celkové náklady na dosiahnutie tržieb z celkovej ekonomickej aktivity (predaj tovaru, služieb, materiálu, finančná činnosť) v roku 2012, v miliónoch PLN, prepočítaných na jednu firmu. Celkové záväzky (za firmu) - celkové záväzky priemyselných výrobných podnikov v miliónoch PLN v roku 2012, prepočítaných na jednu firmu, zahŕňajú bankové pôžičky a úvery, krátkodobé a dlhodobé záväzky. Zisk / strata - hodnota čistého (po zaplatení daní a odvodov) zisku, resp. straty v roku 2012, ku koncu bežného hospodárskeho roka, v miliónoch PLN. Počet firiem počet výrobných priemyselných podnikov s počtom zamestnancov viac ako 9, v roku 2012 v jednotlivých odvetviach, zaradených do odvetvia podľa prevažnej miery výroby v odvetviu priemyslu na základe metódy pridanej hodnoty. Podiel počtu firiem so ziskom podiel počtu spoločností, ktoré dosiahli v roku 2012 čistý zisk z operácií na celkovom počte spoločností v odvetví, prepočítaných na jednu firmu. Zisk / strata (za firmu) - hodnota čistého (po zaplatení daní a odvodov) zisku, resp. straty v roku 2012, ku koncu bežného hospodárskeho roka, v miliónoch PLN. Pridaná hodnota - vyjadrenie hrubého výstupu výroby po odčítaní medzispotreby, v miliónoch PLN, za rok 2012, v bežných cenách. Počet zamestnancov - v tisícoch osôb, priemerný počet zamestnaných osôb v odvetví priemyslu v roku 2012, (t.j. údaj ku dňu ). Priemerná mzda - priemerná hrubá mesačná mzda zamestnanca v PLN v roku 2012 (vrátane daní, sociálnych príspevkov zamestnávateľa a odmien). Produktivita práce vyjadrená v percentách za rok 2012, vypočítaná metódou pridanej hodnoty, u pracovníkov s vyplácanou mzdou, v stálych cenách, s bázou v predchádzajúcom roku. Vstupom do analýzy je 23 priemyselných odvetví podľa NACE Rev. 2 (Tab.1). 5. NACE klasifikácia NACE (Nomenclature générale des activités économiques dans les Communautés Européennes, resp. General Industrial Classification of Economic Activities within the European Communities) je integrovaný systém klasifikácií ekonomických činností a produkcie, ktorého úlohou je poskytnúť spoločný rámec pri zbere a prezentácii veľkého množstva štatistických dát podľa ekonomických činností v oblasti hospodárskej štatistiky, napr. pri výrobe, zamestnanosti alebo národných účtoch. NACE zabezpečuje porovnateľnosť vypracovaných štatistík na jeho základe, medzi krajinami celej Európskej únie i so svetovými štatistikami, pričom jeho používanie je povinné pre všetky štáty EÚ (Eurostat, 2008). Ide o hierarchický systém, kedy sa jednotlivé klasifikácie členia do ďalších podrobnejších kategórií, umožňujúcim zbierať a prezentovať informácie na rôznych úrovniach. NACE klasifikuje ekonomické činnosti spôsobom priradenia každej štatistickej jednotke, ktorá vykonáva istú ekonomickú činnosť, kód NACE. Ekonomické činnosti vieme charakterizovať rôznymi vstupmi, výrobným postupom a výstupmi (výrobkami alebo službami). Aktuálne sa používa verzia NACE Rev.2 (od 1. januára 2008). Tab. 1 Výrobné a spracovateľské odvetvia podľa klasifikácie NACE Výroba potravinárskych výrobkov Výroba nápojov Výroba tabakových výrobkov Výroba textílií a textilných výrobkov Výroba odevov Výroba ostatných nekovových minerálnych výrobkov Výroba základných kovov Výroba kovových konštrukcií a kovových výrobkov, okrem strojov a

86 84 FORUM STATISTICUM SLOVACUM 6/2015 Výroba kože a kožených výrobkov Výroba dreva, výroba drevených, korkových výrobkov okrem nábytku Výroba papiera a výrobkov z papiera Tlač a reprodukcia záznamových médií Výroba koksu a rafinovaných ropných produktov Výroba chemických látok a chemických prípravkov Výroba farmaceutických výrobkov Výroba gumy a plastových výrobkov zariadení Výroba počítačov, elektronických a optických prístrojov a zariadení Výroba elektrických zariadení Výroba strojov a zariadení Výroba motorových vozidiel, prívesov a návesov Výroba ostatných dopravných prostriedkov Výroba nábytku Oprava a inštalácia strojov a zariadení 6. Postup analýzy Prvotným vstupom do zhlukovej analýzy bola dátová matica, ktorá mala 12 premenných a 23 pozorovaní. Avšak pre využitie zhlukovej analýzy bolo potrebné splniť predpoklady, z ktorých najdôležitejšie sú dve: premenné mali byť navzájom nezávislé a mal sa odstrániť vplyv veľkých rozdielov v rozptyloch hodnôt. Druhá podmienka bola splnená pomocou štandardizácie premenných a vzájomná nezávislosť premenných bola zabezpečená PCA analýzou. Z toho dôvodu zhluková analýza nadväzovala na vykonanú PCA analýzu a východiskovými údajmi boli výstupy z PCA analýzy. V nasledujúcom uvádzame jednotlivé kroky analýzy: 1. Testovanie korelácie medzi premennými korelačná matica. 2. Štandardizácia premenných kvôli odstráneniu vplyvu rôznych jednotiek. 3. Kontrola vhodnosti údajov pre vykonanie PCA analýzy, ktorá je potrebná z dôvodu očistenia údajov od vzájomnej korelácie premenných KMO (Kaiser-Mayer-Olkin) kritérium, Bartlettov test sféricity. 4. PCA analýza vykonaná s použitím korelačnej matice údajov. 5. Výber vhodného, resp. postačujúceho počtu komponentov pomocou Kaiserovho kritéria, kritéria vlastných čísel, kritéria percenta vysvetlenej variability. 6. Testovanie korelácie komponentov korelačná matica. 7. Získanie komponentného skóre pre vytvorené komponenty, ktorých je postačujúci počet, zachovávajúcich určité, čo najvyššie, percento pôvodnej variability údajov a jeho použitie ako vstupné dáta pre zhlukovú analýzu. 8. Vykonanie hierarchického aglomeračného zhlukovania Metódou najbližšieho suseda, Metódou priemerných vzdialeností a Wardovou metódou. 9. Určenie najvhodnejšej metódy a najlepšieho počtu vytvorených zhlukov za túto metódu pomocou funkcie v programe R obsahujúcej 30 testov a kritérií. 10. Zaradenie odvetví do vhodného počtu zhlukov podľa najvhodnejšej metódy zhlukovania a prezentácia tohto zaradenia pomocou dendrogramu. 11. Výpočet priemerných hodnôt premenných za vytvorené zhluky odvetví. 12. Grafické potvrdenie správnosti vykonania analýzy pomocou zhlukového grafu. Testovanie vhodnosti údajov pre PCA Po preskúmaní korelačnej matice sme zistili určité korelácie, ktoré sú podmienkou pre vykonanie PCA. Čiastkové hodnoty KMO kritéria (v programe R funkcia KMO ) pre jednotlivé premenné preukázali vhodnosť údajov (premenných) pre PCA, pretože boli vyššie ako 0,5 (Hebák, 2007). Testovanie vhodnosti údajov pre PCA sme vykonali aj pomocou Bartlettovho testu sféricity. Na základe p-hodnoty rovnej 1,603263e-105 sme zamietli H0:

87 FORUM STATISTICUM SLOVACUM 6/ Korelačná matica je jednotková (tzn. premenné nie sú korelované) v prospech alternatívnej hypotézy premenné sú korelované, čo svedčí o vhodnosti údajov pre PCA (Meloun & Militký, 1998). Analýza hlavných komponentov (PCA) Z výstupu z analýzy hlavných komponentov (pozn. v programe R použitá funkcia princomp ) môžeme, okrem iného, vyčítať vhodný (t.j. postačujúci) počet hlavných komponentov na základe kritéria vlastných čísel - do úvahy berieme počet komponentov, pri ktorých je vlastné číslo väčšie ako 1 (Kral, 2009). Ide o prvý riadok výstupu (Tab. 2). Na základe tohto kritéria je vhodný počet komponentov 2. Druhé kritérium je kritérium percenta vysvetlenej variability - v tomto prípade berieme do úvahy kumulatívne vysvetlené percento danými faktormi (komponentmi), pričom začneme od komponenta vysvetľujúceho najviac variability a postupne pridávame ďalšie komponenty. Prijateľný počet komponentov je v prípade, že je vysvetlených okolo % variability (Hebák &Hustopecký, 1987). Na základe výstupu analýzy postačujú opäť 2 komponenty (pri druhom je kumulatívne vysvetlené percento variability danými komponentmi až 85%). Ide o tretí riadok výstupu. Ďalšou možnosťou je využitie grafického kritéria - Kaiserovo kritérium zobrazené v tzv. scree plote (Coghlan, 2014) (vedľa Tab. 2). Aj toto kritérium navrhuje použitie 2 komponentov. Kaiserovo kritérium je na grafe zobrazené zelenou čiarou. Tab. 2: Charakteristiky komponentov Standard deviation Proportion of Variance Cumulative Proportion Comp.1 2,2650 0,4275 0,4275 Comp.2 2,1542 0,3867 0,8142 Comp.3 0,9551 0,0760 0,8902 Comp.4 0,8193 0,0559 0,9462 Comp.5 0,5636 0,0265 0,9727 Zhluková analýza Vstupnými údajmi zhlukovej analýzy bola matica údajov pozostávajúca z komponentného skóre z dvoch hlavných komponentov získaných z pôvodných 12 premenných za 23 pozorovaní. Výstup z PCA analýzy sme testovali na splnenie podmienky nekorelovanosti premenných. Na základe korelačnej matice a korelačných koeficientov pre dva hlavné komponenty sme mohli potvrdiť neprítomnosť korelácie medzi nimi. Tieto 2 komponenty v sebe obsahujú informáciu o variabilite pôvodných 12 premenných a boli teda vhodné pre vykonanie zhlukovej analýzy. Následne bola vykonaná samotná zhluková analýza pomocou hierarchických aglomeračných metód. Požili sme Wardovu metódu, Metódu priemernej vzdialenosti a

88 86 FORUM STATISTICUM SLOVACUM 6/2015 Metódu najbližšieho suseda (v programe R pomocou funkcie hclust so zadefinovaním použitej metódy, t.j. ward, average, single ). Posúdenie kvality rozkladu Program R ponúka mnoho funkcií na posúdenie kvality rozkladu na jednotlivé zhluky. Jednou z nich je funkcia NbClust, ktorá obsahuje cez 30 kritérií a testov. Pomocou tejto funkcie je možné určiť najvhodnejší počet výsledných zhlukov a výber vhodnej metódy. V našom prípade sme chceli dosiahnuť minimálne 4 zhluky (t.j. získať podrobnejšie rozdelenie odvetví ako iba na najhoršiu skupinu, priemernú a najlepšiu) až po 12 zhlukov (z dôvodu dosiahnutia menšieho počtu skupín klasifikácie, ako je medzinárodne uznávaná SNA/NACE agregácia NACE klasifikácie do 13 kategórií). Na základe vypočítaných kritérií za vytvorené zhluky pri Wardovej metóde a Metóde najbližšieho suseda bolo za odporúčaný najlepší počet výsledných zhlukov považované zhlukovanie do 4 zhlukov, čo odporúčalo zhodne 7 kritérií. Za vhodnejšie sme ale považovali podrobnejšie vytvorenie 6 zhlukov pri Metóde priemerných vzdialeností, čo odporúčalo až 11 kritérií. 7. Výsledok zhlukovej analýzy Výsledkom zhlukovej analýzy bolo vytvorenie 6 charakteristických zhlukov, ktoré sme graficky prezentovali pomocou dendrogramu (Obr. 1Chyba! Nenašiel sa žiaden zdroj odkazov.) a pomocou zhlukových grafov zoskupujúcich jednotlivé body v súradnicovej sústave (Obr. 1). Druhý zo spomínaných grafov nám taktiež potvrdil správnosť vykonania zhlukovej analýzy, pretože žiadna oblasť zoskupenia sa neprekrýva. Zhluky 1, 3, a 5 pozostávajú iba z jedného zahrnutého pozorovania (odvetvia priemyslu), z dôvodu vysokej miery odlišnosti od ostatných odvetví. Rozdelenie odvetví do jednotlivých zhlukov prezentuje nasledujúca tabuľka (Tab. 3): Tab. 3: Rozdelenie sektorov do zhlukov (výstup z programu R) Zhluk Odvetvia 1 potraviny 2 dopravné prostriedky tlač kože farmaceutiká kovy nápoje textil odevy 3 tabak nekovové 4 chemikálie opravy nábytok strojárstvo PC výrobky drevo elektronika papier 5 koks a rafinéria 6 auto kovové výrobky guma a plast Na interpretáciu vlastností zhlukov sme použili priemerné hodnoty pôvodných premenných za jednotlivé odvetvia zahrnuté v zhlukoch (Tab. 4). Tučným písmom sú zvýraznené najlepšie hodnoty premenných, tučným písmom s kurzívou sú zvýraznené druhé najlepšie hodnoty premenných (ak tieto nie sú príliš vzdialené od najlepších hodnôt). Popis zhlukov Zhluk č.1: Potravinársky priemysel je najväčší sektor priemyslu, podľa hodnôt celkového príjmu, zisku, pridanej hodnoty, počtu zamestnancov alebo počtu firiem v odvetví. Z premenných za firmu však hodnoty nedosahujú výrazne vyššie hodnoty ako ostatné sektory. Vysoká dôležitosť tohto sektora spočíva hlavne v jeho veľkosti. Ide o pomerne zdravý sektor,

89 FORUM STATISTICUM SLOVACUM 6/ čo odráža vysoká hodnota premennej podiel firiem so ziskom. Sektor sa však vyznačuje nízkou priemernou mzdou. Obr. 1: Dendrogram zhlukov a graf zhlukov (výstup z programu R) Tab. 4: Priemerné hodnoty premenných za zhluky (výstup z programu R) Podiel počtu Zhluk Príjmy total Príjmy total firma Náklady total firma Záväzky total firma firiem so ziskom Zisk / strata ,7 73,4 70,4 20,9 81,3 6294, ,5 90,1 86,8 42,2 72,9 381, , ,9 191,8 81,8 274, ,5 65,7 62,2 22,3 79,1 1707, ,5 3832,2 3736,9 725, ,1 111,1 105,9 37,6 79,9 3665,1 Zisk / strata firma Pridaná hodnota Produktivita práce Počet firiem Počet pracovníkov Priemerná mzda 1 2, ,9 2 2, , , , , , ,5 5 77, , , , ,5

90 88 FORUM STATISTICUM SLOVACUM 6/2015 Zhluk č.2 Obsahuje 8 odvetví (viď Tab. 3). U tejto skupiny sektorov je typický nižší rozsah produkcie. Skladá sa z najmenších a, podľa mnohých premenných, najslabších odvetví. Zhluk je charakteristický odvetviami s nízkym podielom firiem, ktoré vykazujú zisk a s vysokou hodnotou rastu produktivity práce, ktorá ale nekorešponduje s relatívne nízkymi priemernými mzdami v odvetviach. V zhluku sa nachádzajú i sektory, ktoré môžeme na základe niektorých premenných zaradiť medzi výnimky v rámci skupiny. Farmaceutický sektor, sektor dopravných prostriedkov a sektor produkcie nápojov majú oveľa vyššie priemerné mzdy v porovnaní s priemerom zhluku a dosahujú aj oveľa vyššie príjmy a zisk. V týchto odvetviach pôsobí menší počet veľkých firiem. S prihliadnutím na pomer počtu zamestnancov a počtu firiem však dosahujú tieto odvetvia v ostatných premenných výsledky primerané a porovnateľné s priemerom za zhluk, čo by potvrdilo správnosť zaradenia odvetví do zhluku. Špeciálne postavenie v rámci zhluku, ale aj ostatných odvetví má odvetvie spracovania kovov. Ide o jediné odvetvie dosahujúce v roku 2012 stratu (-661,6 mil. PLN, -2,4 mil. PLN za firmu). Zhluk č.3 Odvetvie spracovania tabaku. Je to najmenšie odvetvie podľa počtu zamestnancov, alebo počtu firiem. Napriek malej veľkosti odvetvia dokázali tu pôsobiace firmy vyprodukovať vysoký príjem a zisk prepočítané na jednu pôsobiacu firmu. Tento fakt sa odráža aj vo vysokých priemerných mzdách, či v hodnote premennej podiel firiem so ziskom. Zhluk č.4 Obsahuje 9 odvetví (viď Tab. 3). Ide o stredne veľké odvetvia, kde v odvetví pracuje v priemere zamestnancov a pôsobí 652 firiem a celkové príjmy sú na úrovni 36799,5 mil. PLN. So ziskom skončil vyšší podiel firiem v porovnaní so zhlukom obsahujúcom najslabšie odvetvia. Priemerná mzda je na približne rovnakej úrovni so zhlukom 2. Podiel firiem so ziskom je vyšší v porovnaní so zhlukom 2. Zhluk č.5: Výroba koksu a rafinovaných ropných produktov. Tento sektor je jedným z najdôležitejších odvetví. Hlavným dôvodom je skutočnosť, že firmy v tomto odvetví vyrábajú produkty používané ako zdroj energie pre zvyšok odvetví. Podľa hodnôt premenných je odvetvie charakteristické vysokými príjmami za firmu a ziskom za firmu. Tieto vysoké hodnoty boli dosiahnuté v spojení s najvyššími hodnotami nákladov a záväzkov. V odvetví zopár veľkých firiem dokázalo vyprodukovať hodnoty obratu porovnateľné s najväčšími odvetviami priemyslu. Od toho sa odvíja aj mzdové ohodnotenie, ktoré je v rámci priemyslu najvyššie, a aj odpovedajúca vysoká hodnota produktivity práce. Zhluk č.6 - Výroba motorových vozidiel, prívesov a návesov, Výroba kovových konštrukcií a kovových výrobkov, okrem strojov a zariadení, Výroba gumy a plastových výrobkov. Táto skupina sa skladá hlavne z odvetví spojených s automobilovým a leteckým priemyslom. Význam týchto odvetví vzrástol po niekoľkých veľkých priamych zahraničných investíciách zo strany medzinárodných firiem, ktoré sa rozhodli vybudovať svoje závody v Poľsku. Tieto odvetvia zamestnávajú veľké množstvo ľudí a produkujú vysokú hodnotu príjmov. Charakteristické sú však nízkou produktivitou práce a relatívne nízkymi priemernými mzdami. Záver V príspevku je prezentovaný návrh iného (ako NACE klasifikácia) možného zoskupenia priemyselných odvetví v Poľsku, a to podľa ich hospodárskych výsledkov a veľkostnej charakteristiky. Toto zoskupenie odvetví bolo realizované pomocou viacrozmerných štatistických metód, a to zhlukovou analýzou, ktorej predchádzala analýza hlavných komponentov. Navrhované zoskupenie vytvára viac primeranú klasifikáciu priemyselných

91 FORUM STATISTICUM SLOVACUM 6/ odvetví uvedených v skupinách s podobnými vlastnosťami, ktoré umožňujú ľahší popis odvetví. Tento typ analýzy poľského spracovateľského priemyslu môže slúžiť ako pomôcka v makroekonomických rozhodovacích procesoch a v porovnaní poľskej priemyselnej štruktúry. Literatúra CENTRAL STATISTICAL OFFICE OF POLAND [online]. Dotupné na internete: COGHLAN, A A Little Book of R For Multivariate Analysis. [online]. s Dostupné na internete: DUQUE, J. - REY, S. - GÓMEZ, D Identifying industry clusters in Colombia based on graph theory. In: Ensayos sobre Política económica [online]. č. 59. Dostupné na internete: < ISSN EUROSTAT: NACE Rev Statistical classification of economic activites in the European Community. European Commission. 363 s. ISSN GARETH, J. et al An introduction to statistical learning with applications in R. New York : Springer. s ISBN HEBÁK, P. - HUSTOPECKÝ, J Vícerozměrné statistické metody s aplikacemi. Praha: SNTL Nakladatelství technické literatury, s. HEBÁK, P. et al Vícerozměrné statistické metody (3). 3.Vyd. Praha : Informatotium, 271 s. ISBN CHARRAD, M. et al Package NbClust : Determining the best number of clusters in a data set. [online]. 9 s. Dostupné na internete: < KRAL, P. et al Viacrozmerné štatistické metódy so zameraním na riešenie problémov ekonomickej praxe. 1.Vyd. Banská Bystrica: Univerzita Mateja Bela, Ekonomická fakulta v Banskej Bystrici. 175 s. ISBN MAIMON, O. - ROKACH, L.: Clustering methods. In: Data mining and knowledge discovery handbook. [online]. Tel-Aviv University. Dostupné na internete: < MELOUN, M. - MILITKÝ, J Metoda hlavních komponent a exploratorní analýza vícerozměrných dat [online]. East Publishing Praha. Dostupné na internete: NACE Rev. 2 : ZÁKLADNÉ USMERNENIA [online]. Štatistický úrad SR. [cit ]. Dostupné na internete: < STANKOVIČOVÁ, I. - VOJTKOVÁ, M Viacrozmerné štatistické metódy s aplikáciami. Bratislava : Iura Edition, s. ISBN WAGNER, S. - WAGNER, D Comparing clusterings : An overview. [online]. 19 s. Dostupné na internete: < Adresa autorov: Erika Liptáková, RNDr., PhD. Ekonomická fakulta Technickej univerzity Němcovej 32, Košice [email protected] Lukáš Mikuš, Ing. Ekonomická fakulta Technickej univerzity Němcovej 32, Košice [email protected]

92 90 FORUM STATISTICUM SLOVACUM 6/2015 Srovnání koeficientů pro stanovení optimálního počtu shluků ve shlukové analýze v různých podmínkách Comparison of coefficients for determining the optimal number of clusters in the cluster analysis in different conditions Tomáš Löster Abstract: Cluster analysis is the multivariate method, which aim is classification of objects. The main aim is to make clusters, where objects inside created groups (clusters) are the most similar, and objects from two different clusters are the least similar. In the current literature, there are many methods and many measures of distances that can be combined. Various combinations of methods and distances give different results. At the same time, it is necessary to determine the optimal number of clusters into which the clusters are classified. Even in this case it is not clearly addressed conjunction of method and coefficient how to receive best results. The main aim of this article is to evaluate selected factors to determine the number of clusters in combination with different methods. We used 32 existing files from the database The UCI Machine Learning Repository to evaluation of coefficients. Simultaneously we evaluated 20 generated files. Abstrakt: Shluková analýza je vícerozměrná metoda, jejímž cílem je klasifikace objektů. Cílem je, aby si objekty uvnitř vytvořených skupin (shluků) byly co nejvíce podobné a objekty, které jsou ve dvou rozdílných shlucích byly co nejméně podobné. V současné odborné literatuře existuje mnoho metod a mnoho měr vzdáleností, které lze vzájemně kombinovat. Různé kombinace metod a vzdáleností přináší různé výsledky. Současně bývá nutné stanovit optimální počet shluků, do kterých mají být shluky klasifikovány. Ani v tomto případě není jednoznačně určeno, v kombinaci s jakou metodou a s jakou měrou vzdáleností je vhodné použit daný koeficient. Cílem tohoto článku hodnotit vybrané koeficienty pro stanovení počtu shluků v kombinacemi s různými metodami shlukování. K tumu bude využito celkem 32 existujících souborů z databáze The UCI Machine Learning Repository. Zároveň jsou hodnoceny generované soubory, kterých bylo celkem 20. Key words: Cluster analysis, coefficients, optimal number of clusters, methods of cluster analysis. Klíčová slova: Shluková analýza, koeficienty, optimální počet shluků, metody shlukové analýzy. JEL classification: C 38, C40 1. Úvod Shluková analýza je vícerozměrná statistická metoda, jejímž cílem je klasifikace objektů, viz Stankovičová (2007) či Löster (2014a). Cílem je, aby si objekty uvnitř vytvořených skupin (shluků) byly co nejvíce podobné a objekty, které jsou ve dvou rozdílných shlucích byly co nejméně podobné. Tato metoda je velmi oblíbená a používaná k různým sociálněekonomickým studiím, viz například Řezanková, Löster (2013). K nim lze využívat různá data, jako jsou například mzdová a příjmová rozdělení, údaje i nezaměstnanosti, viz například Bílková (2012) či Megyesiová (1999). V současné odborné literatuře existuje mnoho metod a mnoho měr vzdáleností, které lze vzájemně kombinovat. Různé kombinace metod a vzdáleností přináší různé výsledky. Současně bývá nutné stanovit optimální počet shluků, do kterých mají být shluky klasifikovány, viz Löster (2014a). Ani v jednom případě není jednoznačně určeno, v kombinaci s jakou metodou a jakou měrou vzdáleností je vhodné použit daný koeficient. Cílem tohoto článku hodnotit vybrané koeficienty pro stanovení počtu

93 FORUM STATISTICUM SLOVACUM 6/ shluků v kombinacemi s různými metodami shlukování. K tomu bude využito celkem 32 existujících souborů z databáze The UCI Machine Learning Repository. Zároveň pro získání ucelené představy je hodnoceno 20 generovaných souborů, které byly vygenerovány v předem stanovených podmínkách pro získání objektivního hodnocení koeficientů. 2. Metody shlukové analýzy V současné odborné literatuře existuje mnoho metod, pomocí kterých je možné shlukovat jednotlivé objekty do shluků. Mezi nejznámější patří metoda nejbližšího souseda, nejvzdálenějšího souseda, metoda průměrné vazby, centroidní metoda a Wardova metoda. Tyto metody se liší jednak dobou vzniku, jednak samotným principem shlukování. Podrobný popis těchto metod je uveden například v Löster (2014a). Pro stanovení vzdáleností objektů lze využít například Euklidovu vzdálenost, případně Mahalanobisovu vzdálenost, jejichž princip je uveden například v Gan (2007). Za základní nedostatek Euklidovy míry vzdálenosti bývá uváděno, že ji není možné použít v případě, že jsou objekty korelované. Tento problém řeší Mahalanobisova míra vzdálenosti. Jak však ukazuje řada studií, viz například Löster (2014b) či Löster (2015), v případě, že jsou proměné, které charakterizují jednotlivé objekty korelované, Euklidova míra vzdálenosti neposkytuje významně horší výsledky. Z tohoto důvodu bude pro srovnání využita pouze Euklidova míra vzdálenosti. Ke stanovení optimálního počtu shluků lze využít různé koeficienty. Mezi nejznámější koeficienty, které jsou implementovány například do systému SYSTAT lze zařadit: CHF, PTS, Dunnův koeficient, Daviesův Bouldinův či RMSSTD koeficient. Tyto koeficienty jsou podrobně popsány například v Löster (2014a), Gan (2007) či Řezanková (2009). Tyto koeficienty stanovují optimální počet shluků různými způsoby. Některé vychází z rozkladu varibality na mezishlukovou a vnitroshlukovou složku, tj. jsou analogií F-testu z analýzy rozptylu, jiné využívají míry vzdáleností. Při stanovení počtu shluků se hledá extrém tohto koeficientu v rámci předem stanoveného počtu shluků, viz tabulka 1. Tab. 1: Vybraná kritéria pro hodnocení výsledků disjunktního shlukování Koeficient Hledaný extrém CHF index (pseudo F) maximum PTS index (T-kvadrát) minimum RMSSTD minimum Daviesův-Bouldinův (DB) minimum Dunnův separační index maximum Při stanovení počtu shluků se obecně postupuje tak, že za optimální počet shluků je považována ta hodnota, z předem stanoveného intervalu, která odpovídá nejvíce koeficientům. 3. Srovnání koeficientů v různých podmínkách Pro vyhodnocení koeficientů pro stanovení optimálního počtu shluků v kombinacemi s různými metodami shlukování bylo využito celkem 32 reálných datových souborů, které pocházejí ze známé databáze The UCI Machine Learning Repository, viz webová adresa: V této databázi jsou zahrnuty různé datové soubory, které mají předem známý počet shluků a tak je vyhodnocení daných koeficientů s jejich použitím možné. Jedná se o následující datové soubory: Wine, Iris, Abalone,

94 92 FORUM STATISTICUM SLOVACUM 6/2015 Cardiotocography, German Credit Data, Banknote Authentication, Blood Transfusion Service Center, Climate Model Simulation Crashes, Connectionist Bench (Sonar, Mines vs. Rocks), Ecoli, Echocardiogram, Energy Efficiency, Fertility, Haberman's Survival, Indian Liver Patient, Connectionist Bench (Vowel Recognition - Deterding Data), Ionosphere, Musk (Version 1), Parkinson Speach, Pima Indians Diabetes, QSAR Biodegradation, QSAR Biodegradation NV 1, QSAR Biodegradation NV 2, Seeds, Statlog (Vehicle Silhouettes) a+b, Statlog (Vehicle Silhouettes) a+g, Vertebral Column, Wall-Following Robot Navigation Data, Wholesale Customers, Susy NV 1, Susy NV 2 and Susy NV 3. Na základě kombinace různých koeficientů a různých metod shlukování byly získány různé výsledky optimálního počtu shluků, které poskytly jednotlivé koeficienty. Jednotlivé koeficienty byly hodnoceny podle pravidel v tabulce 1 a počty správně odhadnutých počtů shluků byly porovnány se známým počtem shluků. V tabulce 2 jsou uvedeny počty případů, ve kterých jednotlivé koeficienty správně určily počet shluků při použití různých metod shlukování v kombinaci s Euklidovskou mírou vzdálenosti. Vyplývá z ní například, že nejlepších výsledků bylo dosaženo při použití metody nejvzdálenějšího souseda při použití Dunnova koeficientu. Úspěšnost při stanovení optimálního počtu shluků byla 59, 38 %. Jako nepoužitelný se jeví RMSSTD koeficient, jehož úspěšnost v kombinaci s žádnou metodou nepřevýšila 20 %. Tab. 2: Podíly správně odhadnutých počtu shluků (v %) u reálných datových souborů Metoda/koeficient RMSSTD CHF PTS D-B Dunn Nejbližšího souseda 9,38 53,13 50,00 59,38 59,38 Nejvzdálenějšího souseda 18,75 31,25 31,25 50,00 31,25 Centroidní metoda 18,75 43,75 25,00 56,25 50,00 Průměrná vzdálenost 18,75 31,25 28,13 53,13 56,25 Wardova metoda 18,75 34,38 53,13 25,00 31,25 Source: vlastní výpočet Grafické vyjádření úspěšnosti jednotlivých koeficientů je patrné z obrázku 1. Za sumárně nejúspěšnější koeficienty při použití Euklidovské míry vzdálenosti je možno považovat Davies-Bouldinův a Dunnův index.

95 FORUM STATISTICUM SLOVACUM 6/ ,00 50,00 40,00 30,00 20,00 10,00 Nejbližšího souseda Nejvzdálenějšího souseda Centroidní metoda Průměrná vzdálenost Wardova metoda 0,00 Obr. 1: Grafické znázornění úspěšnosti vybraných koeficientů na reálných souborech Pro získání ucelené představy o úspěšnosti jednotlivých koeficientů byly hodnoceny taktéž umělé soubory, které byly získány pomocí generátoru shluků. Generátor shluků využívá k řešení generátor náhodných čísel a s jeho pomocí vygeneruje předem stanovený počet shluků. Do nich zařadí podle náhodně umístěných centroidů jednotlivých shluků celkem n i objektů do každého shluku, které jsou vždy charakterizovány pomocí m proměnných. Kromě uvedených parametrů je nutné stanovit separaci shluků, tj. určit, jak jsou jednotlivé shluky od sebe vzdálené. V rámci tohto výzkumu se jedná o shluky, které byly relativně dobře separované. Tab. 2: Podíly správně odhadnutých počtu shluků (v %) u umělých souborů Metoda/koeficient CHF Dunn RMSSTD D-B PTS Nejbližšího souseda 70,00 55,00 70,00 70,00 65,00 Nejvzdálenějšího souseda 85,00 55,00 75,00 60,00 60,00 Centroidní metoda 75,00 60,00 75,00 50,00 55,00 Průměrná vzdálenost 85,00 70,00 75,00 60,00 55,00 Wardova metoda 80,00 50,00 75,00 60,00 50,00 Source: vlastní výpočet

96 94 FORUM STATISTICUM SLOVACUM 6/ ,00 80,00 70,00 60,00 50,00 40,00 30,00 Nejbližšího souseda Nejvzdálenějšího souseda Centroidní metoda Průměrná vzdálenost Wardova metoda 20,00 10,00 0,00 CHF Dunn RMSSTD D-B PTS Obr. 2: Grafické znázornění úspěšnosti vybraných koeficientů na umělých souborech Na základě uvedených výsledků je zřejmé, že úspěšnost daných koeficientů je vyšší, než v případě reálných souborů. Je to způsobeno tím, že jednotlivé shluky jsou relativně dobře separované, což v případě reálných datových souborů může selhávat. V takovém případě je úspěšnost koeficientů nižší. V případě dobře separovaných shluků je jako nejvhodnější koeficient pro stanovení optimálního počtu shluků považován CHF koeficient. 4. Závěr Shluková analýza je vícerozměrná statistická metoda, která se využívá ke klasifikaci objektů do shluků. Existuje mnoho metod shlukování a zároveň existuje mnoho měr vzdáleností mezi jednotlivými objekty. Kombinace různých metod a různých měr vzdáleností přináší různé výsledky. Současná odborná literatura neřeší jednotlivé kombinace a není nikde uvedeno, která kombinace je nejúspěšnější. Součástí shlukové analýzy bývá obvykle také stanovení optimálního počtu shluků, do kterých mají být jednotlivé objekty klasifikovány. I v tomto případě existuje mnoho koeficientů, které lze k této úloze využít. Volba koeficientu je ovlivněna také metodou shlukování a zároveň zvolenou mírou vzdáleností mezi jednotlivými objekty. Cílem tohoto článku bylo na 32 reálných datových souborech najít vhodné kombinace, které přinášejí nejlepší výsledky. Bylo srovnáváno celkem 5 metod shlukování a 5 koeficientů pro stanovení optimálního počtu shluků. Zároveň byly pro získání ucelené představy o použitelnosti koeficientů zvolena také skupina 20 umělých souborů, které byly hodnoceny za předem jasně definovaných podmínek. Mezi nejdůležitější byla zařazena separace shluků. Na základě různých kombinací byla zkoumána úspěšnost ve spojitosti ve spojení s Euklidovskou mírou vzdálenosti, protože ta je požažována na základě řady studií za nejvhodnější. Bylo zjištěno, že v případě, že shluky jsou dobře separované, úspěšnost koeficientů je vysoká. Nejvhodnější je v tomto případě CHF koeficent. Jeho úspěšnost je v takovém případě mnohdy vyšší, než

97 FORUM STATISTICUM SLOVACUM 6/ %. Pokud jsou shluky značně překryté, tj. špatně separované, úspěšnost těchto koeficientů selhává. V tomto případě by jistě bylo vhodnější modifikovat některou z měr pro fuzzy shlukování, které vychází z měr příslušností jednotlivých objektů do shluků a využít je i pro stanovení disjunktních shluků. Literatura BÍLKOVÁ, D Development of wage distribution of the czech republic in recent years by highest education attainment and forecasts for 2011 and In Loster Tomas, Pavelka Tomas (Eds.), 6th International Days of Statistics and Economics (pp ). ISBN GAN, G., MA CH., WU J Data Clustering Theory, Algorithms, and Applications, ASA, Philadelphia. LÖSTER, T Evaluation of Coefficients for Determining the Optimal Number of Clusters in Cluster Analysis on Real Data Sets. In: The 9th International Days of Statistics and Economics. [online] Praha, Slaný : Melandrium, 2015, s ISBN LÖSTER, T. 2014a. Metody shlukové analýzy a jejich hodnocení. 1. vyd. Slaný: Melandrium. LÖSTER, T. 2014b. The Evaluation of CHF coefficient in determining the number of clusters using Euclidean distance measure. In: The 8th International Days of Statistics and Economics. [online] Praha, Slaný : Melandrium, 2014, s ISBN MEGYESIOVÁ, S Nezamestnanosť na Slovensku a v okolitých krajinách. In Acta oeconomica Cassoviensia No 3. Podnikovohospodárksa fakulta EU so sídlom v Košiciach. ŘEZANKOVÁ, H., HÚSEK, D., a SNÁŠEL, V Shluková analýza dat, Prague: Professional Publishing. ŘEZANKOVÁ, H., LOSTER, T Shlukova analyza domacnosti charakterizovanych kategorialnimi ukazateli. E+M. Ekonomie a Management. STANKOVIČOVÁ, I., VOJTKOVÁ, M. 2007: Viacrozmerné štatistické metódy s aplikáciami,ekonómia, Bratislava. Adresa autora: Tomáš Löster, Ing., Ph.D. Vysoká škola ekonomická v Praze nám. W. Churchilla 4, Praha 3 [email protected]

98 96 FORUM STATISTICUM SLOVACUM 6/2015 Reálne menové kurzy a vonkajšie nerovnováhy v krajinách PIGS Real Exchange Rates and External Imbalances in PIGS Countries Rajmund Mirdala Abstract: Asynchronous current account trends between North and South of the Euro Area were accompanied by significant appreciations of real exchange rate in the periphery economies since the establishment of the Euro area. This negative trend originated in the strong shifts in consumer prices and unit labor costs in these countries relative to the countries of the Euro Area core. As a result, the issue is whether the real exchange rate is a significant driver of persisting current account imbalances in the Euro Area. In the paper we analyze main aspects of current account adjustments in PIGS countries. From estimated VAR model we calculate responses of the current account to the real exchange rate (REER calculated on CPI and ULC base) shock. To provide more rigorous insight into the problem of the current account adjustments according to real exchange rate dynamics we estimate the model for each particular country employing data for two subsequent periods and Abstrakt: Asynchrónny vývoj bežných účtov platobných bilancií medzi krajinami jadra a periférie Eurozóny bol sprevádzaný výrazným posilňovaním reálnych menových kurzov v periférnych ekonomikách od samotného vzniku jednotnej menovej únie. Tento negatívny trend bol spôsobený rastom spotrebiteľských cien a jednotkových nákladov práce prevyšujúcim ich dynamiku v krajinách tvoriacich jadro Eurozóny. Dôsledkom toho sa preto naskytá otázka, do akej miery prispieval vývoj reálneho menového kurzu k pretrvávaniu nerovnováh na bežných účtoch v Eurozóne. V príspevku budeme analyzovať pôsobenie reálnych menových kurzov na vývoj bežných účtov platobnej bilancie v krajinách PIGS. Z odhadnutého VAR modelu vypočítame impulse-response funkcie bežných účtov odrážajúcich pôsobenie šoku reálneho menového kurzu (na báze CPI a ULC). Vplyv krízového obdobia na prezentované výsledky zohľadním odhadnutím dvoch modelov pre každú krajinu za obdobie a Key words: current account, real exchange rate, economic crisis, vector autoregression, impulse-response function Kľúčové slová: bežný účet, reálny menový kurz, hospodárska kríza, vector autoregression, impulse-response function JEL klasifikácia: C32, E32, F41 1. Úvod Členské krajiny Eurozóny sú stále vystavené negatívnym dopadom hospodárskej krízy. Narastajúce ekonomické nerovnováhy sú pritom pre Eurozónu charakteristické už od jej samotného vzniku. Rozdiely v produktivite, inflácii a jednotkových nákladoch práce pritom majú dlhodobo pretrvávajúci charakter (Comunale and Hessel, 2014). Hospodárska a dlhová kríza len zvýraznila ich existenciu a voľba nevhodného hospodársko-politického mixu (uvoľnená jednotná menová politika vs nezodpovedná fiškálna politika) prispela k zintenzívneniu ich negatívnych dôsledkov. Existenciu ekonomických nerovnováh pritom možno pozorovať nielen medzi jednotlivými členskými krajinami (t.j. v podobe narastajúcich disparít medzi krajinami jadra a periférie Eurozóny), ale aj vo vnútri jednotlivých ekonomík (Gruber and Kamin, 2005). Súčasne možno pozorovať narastanie významu efektu nákazy medzi krajinami Európskej únie. Poruchy a nerovnováhy sa tak prenášajú ako medzi

99 FORUM STATISTICUM SLOVACUM 6/ jednotlivými sektormi, odvetviami a regiónmi danej krajiny, tak medzi krajinami samotnými (Berger and Nitsch, 2010). Pôsobenie negatívnych dôsledkov volatility menových kurzov (Stavárek, 2011) možno považovať za jednu z kľúčových oblastí empirického výskumu v rámci dilemy pevné verzus pohyblivé menové kurzy (Calvo and Reinhart, 2002). Analýza rôznych aspektov vývoja menových kurzov a ich pôsobenia na makroekonomickú výkonnosť so sebou prináša podstatné informácie o pôsobení efektu presúvania výdavkov medzi krajinami. Absencia flexibility nominálneho menového kurzu v podmienkach menovej únie so sebou prináša rastúcu divergenciu vo vývoji zahranično-obchodnej výkonnosti medzi jej členskými krajinami s odlišnou veľkosťou národného dôchodku pripadajúceho na jedného obyvateľa (Chen, Milesi-Ferretti and Tressel, 2012). V takýchto podmienkach potom pri nemennej veľkosti nominálneho menového kurzu dochádza k prispôsobovaniu reálnych menových kurzov prostredníctvom zmien v relatívnych cenách a jednotkových nákladoch práce, čo však nemusí byť dostatočne efektívne pri pretrvávajúcich rigiditách na národných trhoch tovarov a služieb (Berger and Nitsch, 2010). Skúmanie relatívnych zmien vo vývoji reálnych menových kurzov a s tým súvisiace prispôsobovanie bežných účtov platobných bilancií odráža existenciu kauzálnych väzieb medzi reálnym menovým kurzov a zahraničnou konkurencieschopnosťou (Rusek, 2013). Zmeny v konkurencieschopnosti spojené s pohybmi reálneho menového kurzu odrážajú vývoj relatívnych cien a jednotkových nákladov práce. Zhodnotenie reálneho menového kurzu vedie k poklesu konkurencieschopnosti domácich tovarov, nakoľko ich cena rastie rýchlejšie v porovnaní s cenami tovarov v zahraničí. Vplyvom zhodnotenia reálneho menového kurzu a následného poklesu konkurencieschopnosti domácich tovarov na zahraničných, ako aj domácich trhoch, dochádza k presúvaniu výdavkov od domácich smerom k zahraničným tovarom (Mirdala, 2013a). Negatívne pôsobenie posilnenia reálneho menového kurzu na bežný účet je podmienené nielen zmenami v dopytových preferenciách, ale aj schopnosťou domácej ekonomiky presunúť nevyužité výrobné kapacity (vznikli dôsledkom poklesu dopytu po ich produkcii so zníženou cenovou konkurencieschopnosťou) do viac perspektívnych výrobných oblastí s vysokým rastovým potenciálom (Chinn, 2005). Vznik Eurozóny a zavedenie eura predstavuje kľúčový míľnik v rámci diskusie o pozitívnych a negatívnych dôsledkoch (ne)flexibility nominálnych menových kurzov (Bayoumi, Harmsen and Turunen, 2011). Aj keď súčasný výskum prinášajúci podporné argumenty o empirickej platnosti existencie kauzálneho vzťahu medzi vývojom reálneho menového kurzu a bežným účtom prezentuje pomerne nejednoznačné výsledky (Arghyrou and Chortareas, 2008), skúsenosti z krízového obdobia smerujú pozornosť ekonómov na podstatné súvislosti fenoménu vnútornej devalvácie (Armingeon and Baccaro, 2012) a pomerne pestrú škálu jej priamych a nepriamych efektov na členské krajiny Eurozóny. Zatiaľ čo vnútorná devalvácia v krajinách s menovým kurzom v pozícii nominálnej kotvy prispieva k nárastu cenovej konkurencieschopnosti a stimuluje domáci aj zahraničný dopyt, riziká spojené s deflačný tlakmi a rozpútaním deflačnej špirály oslabujú rastový potenciál krajiny (Hetzel, 2015). Samotná Európska centrálna banka pritom prostredníctvom ďalšej vlny kvantitatívneho uvoľňovania nesleduje ako svoj primárny zámer myšlienku oživenia ekonomického rastu v Eurozóne (Christensen and Gillan, 2015). Prostredie nízkych úrokových sadzieb pritom môže viesť k oslabeniu eura na zahraničných trhoch a tým k zvýšeniu konkurencieschopnosti európskych producentov na zahraničných trhoch. Dominantná časť transakcií v rámci jednotného trhu však prebieha medzi členskými krajinami Eurozóny. Aj v tejto súvislosti preto možno konštatovať, že Eurozóne chýba vhodné automatické mechanizmy na zvyšovanie vnútornej konkurencieschopnosti, t.j. zvyšovanie konkurencieschopnosti medzi členským krajinami navzájom (Peersman, 2011).

100 98 FORUM STATISTICUM SLOVACUM 6/2015 Hospodárska kríza zintenzívnila dopytovo orientované redistribučné efekty, ktoré vyvolali protichodné, prípadne nejednoznačné efekty na bežné účty členských krajín. Zatiaľ čo na začiatku krízového obdobia sme mohli zaznamenať ich dočasné zhoršenie (s výrazne odlišnou dynamikou v rámci jednotlivých ekonomík) (Kang and Shambaugh, 2013), v neskoršom období došlo k zmierneniu nerovnováh na bežných účtoch (v podobe celkového zlepšenia, prípadne pozitívneho výhľadu) v takmer všetkých členských krajinách Eurozóny, čo možno vnímať ako dôsledok silnejúcich redistribučných efektov hospodárskej krízy na presúvanie výdavkov medzi krajinami (Gaulier and Vicard, 2012). Spojitosť medzi prebytkami a deficitmi na bežných účtoch medzi severom a juhom Eurozóny pritom obnažuje nielen charakter zahranično-obchodných, ale aj súvisiacich finančných väzieb (Hobza and Zeugner, 2014). Zatiaľ čo bežné účty medzi severom a juhom Eurozóny nemusia byť nevyhnutné vyrovnané, existencia výrazných a pretrvávajúcich bilaterálnych nerovnováh na bežných účtoch môže viesť k vzniku hospodársko-politického napätia a rigidít (Berger and Nitsch, 2012). Eurozóna sa tak ocitá v začarovanom kruhu a hospodárska politika Európskej únie stojí pred náročnými výzvami. Nerovnováhy na bežných účtoch rôzne výkonných členských krajín Eurozóny vyvolávajú už pomerne dlhé obdobie diskusie o možných kanáloch zvyšovania konkurencieschopnosti v rámci jednotnej menovej únie (Belke and Dreger, 2011). Dezinflácia nasledovaná rastúcimi deflačnými tlakmi prispela k zmenám v konkurencieschopnosti spojenými s prispôsobeniami reálnych menových kurzov prostredníctvom relatívnych cien. Zatiaľ čo vonkajšie nerovnováhy v periférnych krajinách Eurozóne boli primárne vyvolané silným rastom dopytu, ktorý bol živený rastúcou finančnou integráciou (Chen, Milesi-Ferretti and Tressel, 2012), význam zmien v samotnej konkurencieschopnosti týchto krajín je stále predmetom diskusií. Aj v tejto súvislosti možno podľa niektorých autorov (Sanchez and Varoudakis, 2013) očakávať len obmedzený vplyv vnútornej devalvácie na zmiernenie nerovnováh na bežných účtoch členských krajín Eurozóny. Súčasne je však potrebné zdôrazniť, že asymetrický vývoj na bežných účtoch medzi severom a juhom Eurozóny bol spojený s výrazným zhodnotením reálnych menových kurzov v periférnych ekonomikách, ktorý bol vyvolaný silnejšou dynamikou spotrebiteľských cien a jednotkových nákladov práce vo vzťahu k zvyšku krajín tvoriacich jadro Eurozóny (Holinski, Kool and Muysken, 2012). Z tohto dôvodu sa preto naskytá otázka, do akej miery prispieva vývoj reálneho menového kurzu k pretrvávaniu nerovnováh na bežných účtoch platobných bilancií v rámci členských krajín Eurozóny (Lane and Milesi-Ferretti, 2002). V príspevku budeme skúmať základné aspekty konkurencieschopnosti v krajinách PIGS v spojitosti s vývojom na ich bežných účtoch platobných bilancií. Hlavným cieľom bude objasnenie vplyvu neočakávaných výkyvov vo vývoji reálnych efektívnych menových kurzov (REER) na prispôsobenia bežných účtov vo vybraných krajinách jadra a periférie Eurozóny. Na tento účel využijeme VAR model, v rámci ktorého budeme skúmať reakcie bežných účtov na šoky reálnych menových kurzov (na báze CPI a ULC). Možné dôsledky krízového obdobia zohľadníme porovnaním odhadnutých výsledkov pre dva modely za obdobie (predkrízové obdobie) a (rozšírené obdobie) na uvedenej vzorke krajín. V obidvoch modeloch budeme súčasne alternovať REER na báze CPI a ULC. Porovnanie výsledkov pre obidva modely nám umožní pochopiť redistribučné efekty a vplyv na konkurencieschopnosť súvisiace s výkyvmi reálneho menového kurzu vyvolanými odlišnou dynamikou spotrebiteľských cien a jednotkových nákladov práce medzi krajinami jadra a periférie Eurozóny. 2. Prehľad literatúry Bussiere, Fratzscher and Muller (2004) analyzovali determináciu bežných účtov v 33 krajinách prostredníctvom intertemporálneho prístupu pri použití regresnej analýzy,

101 FORUM STATISTICUM SLOVACUM 6/ zohľadniac pritom efekty zmien vo fiškálnej pozícii vlády a úrovni reálnych menových kurzov. Autori konštatujú, že vývoj bilancií bežných účtov korešponduje predpokladmi intertemporálneho prístupu o rozhodovaní sa krajín medzi súčasnou a budúcou spotrebou, zohľadniac pritom súčasnú relatívnu výšku národného dôchodku. Autori Arghyrou and Chortareas (2008) skúmali dynamiku prispôsobení v rámci bežných účtov a v tejto súvislosti úlohu reálneho menového kurzu pri ovplyvňovaní vývoja na bežných účtoch v členských krajinách Eurozóny. Napriek obmedzeniam vyplývajúcim z aplikovaného metodologického prístupu autori potvrdili existenciu kauzálneho vzťahu, ktorý sa javil ako signifikantný a citlivý na rôzne nelineárne efekty. Autori Lee a Chinn (2006) analyzovali dôsledky fluktuácií reálneho menového kurzu na vývoj bežných účtov v 7 najvyspelejších svetových ekonomikách. Konštatujú, že variabilita v prispôsobeniach v rámci bežných účtov je prevažne spôsobená dočasnými šokmi, permanentné šoky výraznejšie prispievajú k variabilite reálnych menových kurzov. Ich výsledky súčasne potvrdili platnosť intertemporálneho prístupu k determinácii vonkajšej rovnováhy v otvorenej ekonomike. Autori Sek a Chuah (2011) skúmali kauzálne väzby medzi zmenami menového kurzu a vyvolanými prispôsobeniami na bežných účtoch v rámci 6 ázijských ekonomík. Autori prichádzajú k zaujímavému zisteniu, že vývoj na bežných účtoch sa vplyvom krízového obdobia výraznejšie nezmenil. Pripisujú to pôsobeniu opatrení v oblasti finančných politík, ktoré boli prijaté vládami za účelom zmiernenia nadmernej volatility menových kurzov. Autori Obstfeld a Rogoff (2005) sa zamerali na skúmania dopadov zmiernenia globálnych nerovnováh na bežných účtoch na rovnovážnu úroveň menových kurzov (USD, EUR, meny ázijských krajín) v modeli s alternatívnymi scenármi. Autori Gruber and Kamin (2005) využili panelový regresný model pre 61 krajín za účelom skúmania determinantov bežných účtov. Ich výsledky však, okrem iného, neprinášajú podporné argumenty pre objasnenie existencie značných deficitov (U.S.A.) a prebytkov (Ázia) na bežných účtoch. 3. Ekonometrický model V príspevku využijeme VAR metodológiu za účelom analýzy dopadov nepredvídaných výkyvov reálneho menového kurzu na bežné účty platobných bilancií vo vybraných krajinách Eurozóny (krajiny PIGS, Nemecko a Francúzsko). Štruktúrne šoky pôsobiace na model identifikujeme prostredníctvom Choleskyho dekompozície variančno-kovariančnej matice rezíduí modelu v redukovanej podobe. Neohraničený VAR model možno zapísať v podobe vektora kĺzavého priemeru náhodných zložiek nasledovným spôsobom: CX A( L) X B (1) t t1 t kde X t je x 1 A L je polynóm variančnokovariančných matíc koeficientov, ktoré je potrebné odhadnúť v tvare n x n vyjadrujúci vzťahy medzi endogénnymi premennými na oneskorených hodnotách, matice B a C majú tvar n x n (vlastnosti matíc B a C upresníme neskôr v súvislosti s identifikáciou štruktúrnych šokov), L je operátor oneskorenia. Člen t predstavuje n x 1 vektor chýb pôvodných štruktúrnych šokov modelu (vektor chýb modelu predstavujúci nevysvetlené zmeny endogénnych premenných, ktoré sú odrazom pôsobenia exogénnych šokov), ktoré sú identicky distribuované z normálneho rozdelenia, sériovo nekorelované a vzájomne ortogonálne: n vektor endogénnych premenných modelu, 0, ' I, ' 0 E E E t s (2) t t t t s

102 100 FORUM STATISTICUM SLOVACUM 6/2015 Vektor X t pozostáva zo šiestich endogénnych premenných: reálny output y rt,, peňažná zásoba m t, jadrová inflácia p t, dlhodobá nominálna úroková miera ir nt,, reálny menový kurz er a bežný účet platobnej bilancie cu. V rámci použitého šesťzložkového modelu rt, yt,, nominálny šok mt,, inflačný šok p, t,, šok reálneho menového kurzu ir n t er r, t a šok bežného účtu platobnej bilancie, cu n t X yrt,, mt, pt, irnt,, errt,, cut, t šokov - dopytový šok t uvažujeme o pôsobení nasledovných šiestich štruktúrnych, menovo-politický šok. Štruktúrne šoky pôsobiace na model nie je možné z rovnice (1) identifikovať priamo, čo je spôsobené komplexnosťou informácií, ktoré v sebe zahŕňajú rezíduá neohraničeného VAR modelu. Na druhej strane možno konštatovať, že šoky v redukovanej podobe VAR modelu môžu byť vzájomne korelované, dôsledkom čoho ich nemožno považovať za pôvodné štruktúrne šoky. Z tohto dôvodu je zrejmé, že štruktúrne šoky nemožno identifikovať priamo z pôvodnej podoby VAR modelu (1). Uvedený problém je však možné vyriešiť implementáciou identifikačnej schémy, ktorá nám umožní špecifikovať vzťahy medzi rezíduami VAR modelu v neohraničenej a redukovanej podobe. 1 Vynásobením výrazu (1) inverznou maticou C získavame redukovanú podobu VAR modelu (táto úprava je nevyhnutná, nakoľko štruktúrne šoky z výrazu (1) nie je možné správne identifikovať bez stanovenia dodatočných predpokladov): 1 ( ) 1 X ( ) t C A L Xt 1 C B t D L Xt 1 et (3) kde D( L ) je opätovne matica reprezentujúca vzťahy medzi endogénnymi premennými na oneskorených hodnotách a e t je n x 1 vektor normálne rozdelených šokov (šokov v redukovanej podobe), ktoré sú sériovo nekorelované, avšak môžu byť korelované medzi sebou navzájom: Ee0, Eee ' CEee ' C ' CC ', Eee ' 0 t s (4) t e t t 0 t t t s Vzťah medzi rezíduami modelu v redukovanej podobe e t a pôvodnými štruktúrnymi šokmi možno vyjadriť v nasledovnej podobe: t 1 C B t et or B t Cet (5) Po implementácii Choleskyho rekurzívnej schémy pre identifikáciu štruktúrnych šokov VAR modelu možno vzťah (5) zapísať v nasledovnom tvare: y, , r t eyr t mt, c e 21 mt, pt, c c e p, t (6) ir, t c c c eirn, t er, 1 0 r t c c c c e err, t c c c c c 1 cu, t e cu, t zo vzťahu (6) je zrejmé, že a matica B je jednotkovou maticou (t.j. všetky koeficienty matice B, ktoré ležia mimo hlavnej diagonály, sú rovné nule) a matica C je dolnou triangulárnou maticou (t.j. všetky koeficienty matice C, ktoré ležia nad hlavnou diagonálou, sú rovné nule). Správna identifikácia exogénnych štruktúrnych šokov zohľadňujúca Choleskyho zoradenie zavádza do modelu nasledovné predpoklady: Reálny output nereaguje v úvodnej perióde na šok vyvolaný ktoroukoľvek inou endogénnou premennou modelu

103 FORUM STATISTICUM SLOVACUM 6/ Peňažná zásoba nereaguje v úvodnej perióde na šok vyvolaný infláciou, úrokovými mierami, reálnym menovým kurzom a bežným účtom, pričom na jej vývoj vplýva len šok reálneho outputu Inflácia nereaguje v úvodnej perióde na šok vyvolaný úrokovými mierami, reálnym menovým kurzom a bežným účtom, pričom na jej vývoj vplýva šok reálneho outputu a peňažnej zásoby Úrokové miery nereagujú v úvodnej perióde na šok vyvolaný reálnym menovým kurzom a bežným účtom, pričom na ich vývoj vplýva šok reálneho outputu, peňažnej zásoby a inflácie Reálny menový kurz nereaguje v úvodnej perióde na len šok vyvolaný bežným účtom, pričom na jeho vývoj vplýva šok reálneho outputu, peňažnej zásoby, inflácie a úrokových sadzieb Bežný účet je v úvodnej perióde ovplyvnený šokmi všetkých endogénnych premenných modelu Po úvodnej perióde už endogénne premenné vstupujú do vzájomnej interakcie bez akýchkoľvek obmedzení. Odhadnutý VAR model využijeme na výpočet impulse-reponse funkcií za účelom analýzy reakcie bežného účtu na pozitívny jednorazový šok reálneho menového kurzu vo vybraných krajinách Eurozóny. Pre overenie robustnosti odhadovaných výsledkov odhadneme tri modely, v ktorých zohľadníme rôzne zoradenie endogénnych premenných s časovými radmi pre dve obdobia (predkrízové obdobie - model A (2000M1-2007M12) a model B (2000M1-2014M12)): 1. model X y, m, p, ir, er, cu t rt, t t nt, rt, t 2. model X y, er, m, ir, p, cu t rt, rt, t nt, t t 3. model X y, p, m, ir, er, cu t rt, t t nt, rt, t Obmena poradia nemala zásadnejší vplyv na odhadované reakcie bežného účtu na šoky vyvolané reálnym menovým kurzom, preto v nasledujúcej časti prezentujeme výsledky len pre model s východiskovým zoradením endogénnych premenných. 4. Použité dáta a výsledky Pre účely analýzu pôsobenia šoku reálneho menového kurzu na vývoj bežných účtov vo vybraných krajinách Eurozóny sme využili mesačné údaje za obdobie 2000M1-2007M12 (model A) pozostávajúce z 96 pozorovaní a za obdobie 2000M1-2014M12 (model B) pozostávajúce zo 180 pozorovaní pre nasledujúce endogénne premenné - priemyselná produkcia 1 (nominálny objem priemyselnej produkcie deflovaný spriemerovaným indexom PPI), peňažná zásoba (peňažný agregát M2), inflácia (jadrová inflácia), dlhodobá nominálna úroková miera (dlhodobá úroková miera na vládne dlhopisy s dobou splatnosti 10 rokov), reálny menový kurz (nominálny efektívny menový kurz deflovaný indexmi CPI a ULC) a bežný účet platobnej bilancie. Časové rady pre reálne efektívne menové kurzy (REER) na báze CPI a ULC sme získali z databázy Eurostatu (Industrial countries' effective exchange rates) a pre ostatné z databázy IMF (International Financial Statistics, október 2015). 1 Časové rady pre priemyselnú produkciu sme v modeli využili kvôli absencii údajov pre reálny output na mesačnej báze.

104 102 FORUM STATISTICUM SLOVACUM 6/2015 A. Testovacie procedúry Pred samotným odhadnutím modelov v podmienkach jednotlivých krajín sme časové rady otestovali na prítomnosť jednotkového koreňa a kointegráciu. 2 Pre účely overenia stability odhadovaných VAR modelov sme využili viacero testovacích procedúr. V rezíduách modelu sme nezistili prítomnosť autokorelácie, heteroskedasticity a autoregresne podmienenej heteroskedasticity. Taktiež sme použili Jarque-Berrov test normality, pričom sme zistili, že rezíduá modelu majú normálne rozdelenie. VAR model sa taktiež javil ako stabilný (stacionárny), nakoľko sa inverzné korene modelu nachádzali vo vnútri jednotkového kruhu, hoci niekoľko koreňov sa nachádzalo (v absolútnych hodnotách) blízko jednotky. B. Impulse-response funkcie Pôsobenie zmien reálneho menového kurzu na vývoj bežného účtu platobnej bilancie v rámci vybraných členských krajín Eurozóny objasníme prostredníctvom odhadovaných reakcií bežného účtu na pozitívny (zhodnotenie REER) jednorazový šok reálneho menového kurzu. Pôsobenie zmien v konkurencieschopnosti analyzovaných krajín zohľadníme alternovaním použitého reálneho menového kurzu vypočítaného na báze CPI a ULC pre dve obdobia: a) predkrízové obdobie ( ): model A1 (REER na báze CPI) a model B1 (REER na báze ULC) a b) rozšírené obdobie ( ): model A2 (REER na báze CPI) a model B2 (REER na báze ULC). Výsledky sa javia byť citlivé na výkonnosť ekonomík (rozdiely v národnom dôchodku pripadajúcom na jedného obyvateľa), na základe čoho možno konštatovať existenciu rozdielov v reakciách bežných účtov v krajinách jadra a periférie Eurozóny. Zatiaľ čo bežné účty krajín periférie Eurozóny reagovali na zmeny reálneho menového kurzu citlivejšie (odrážajúc tak výraznejšie presúvanie výdavkov vyvolané zmenami konkurencieschopnosti), bežné účty krajín jadra Eurozóny reagovali na náhle výkyvy reálneho menového kurzu menej výrazne. Obrázok 1 sumarizuje výsledky priebehov impulse-response funkcií bežných účtov na pozitívny (zhodnotenie) jednorazový šok reálneho menového kurzu (na báze CPI) vo vybraných krajinách Eurozóny v modeloch A1 (predkrízové obdobie; ) a B1 (rozšírené obdobie; ). (Model A1) Response of CU_PT to Cholesky One S.D. ER_CPI_PT Innov ations ± 2 S.E. (Portugalsko, Model A1) Response of CU_IT to Cholesky One S.D. ER_CPI_IT Innov ations ± 2 S.E. (Taliansko, Model A1) Response of CU_GR to Cholesky One S.D. ER_CPI_GR Innov ations ± 2 S.E. (Grecko, Model A1) Response of CU_ES to Cholesky One S.D. ER_CPI_ES Innov ations ± 2 S.E. (Spanielsko, Model A1) Response of CU_DE to Cholesky One S.D. ER_CPI_DE Innov ations ± 2 S.E. (Nemecko, Model A1) Response of CU_FR to Cholesky One S.D. ER_CPI_FR Innov ations ± 2 S.E. (Francuzsko, Model A1) Detailné výsledky jednotlivých testov z priestorových dôvodov neuvádzame, na požiadanie ich môžeme poskytnúť.

105 FORUM STATISTICUM SLOVACUM 6/ (Model B1) Response of CU_PT to Cholesky One S.D. ER_CPI_PT Innov ations ± 2 S.E. (Portugalsko, Model B1) Response of CU_IT to Cholesky One S.D. ER_CPI_IT Innov ations ± 2 S.E. (Taliansko, Model B1) Response of CU_GR to Cholesky One S.D. ER_CPI_GR Innov ations ± 2 S.E. (Grecko, Model B1) Response of CU_ES to Cholesky One S.D. ER_CPI_ES Innov ations ± 2 S.E. (Spanielsko, Model B1) Response of CU_DE to Cholesky One S.D. ER_CPI_DE Innov ations ± 2 S.E. (Nemecko, Model B1) Response of CU_FR to Cholesky One S.D. ER_CPI_FR Innov ations ± 2 S.E. (Francuzsko, Model B1) Obr. 1 Reakcie bežného účtu na šok REER (na báze CPI) Poznámka: Krivky predstavujú reakcie bežného účtu platobnej bilancie (CU) na jednorazový pozitívny šok reálneho efektívneho menového kurzu (na báze CPI) (ER_CPI) vo vybraných členských krajinách Eurozóny v modeloch A1 (2000M1-2007M12) a B1 (2000M1-2014M12). Zdroj: Výpočty autora. Odhadnuté odozvy bežných účtov za predkrízové obdobie odhalili zaujímavé implikácie poklesu cenovo determinovanej (posilnenie REER na báze CPI) konkurencieschopnosti vo vybraných krajinách Eurozóny. Neočakávané posilnenie REER spôsobilo zhoršenie bežného účtu vo všetkých krajinách. Negatívny efekt šoku kulminoval v rozmedzí šiestich a dvanástich mesiacov od šoku a bol nasledovaný konvergujúcim trendom smerujúcim k rovnovážnej úrovni z obdobia pred šokom. Efekt šoku sa pritom javil v dlhom časovom období ako neutrálny vo vzťahu k vývoju bežného účtu. Súčasne sme zaznamenali mierne rozdiely v reakciách bežných účtov medzi krajinami jadra a periférie Eurozóny. Domnievame sa, že vyššia dynamika cenových hladín prispievala k poklesu konkurencieschopnosti v periférnych ekonomikách. Avšak podobné črty odoziev bežných účtov na šok reálneho menového kurzu medzi severom a juhom Eurozóny nás vedú ku konštatovaniu, že zmeny v konkurencieschopnosti na báze CPI zohrávali menej významnú úlohu pre objasnení asynchrónneho trendu vo vývoji bežných účtov v krajinách jadra a periférie Eurozóny. Aj v tejto súvislosti sa preto prikláňame k názoru (Sanchez and Varoudakis, 2013), že negatívny vývoj bežných účtov v periférnych ekonomikách bol počas predkrízového obdobia výraznejšie ovplyvňovaný dopytovými šokmi (silný rast dopytu). Krízové obdobie ovplyvnilo reakcie bežných účtov na pozitívny šok reálneho menového kurzu (na báze CPI) v obidvoch skupinách krajín, pričom sme nás to viedlo k zaujímavým zisteniam. Zatiaľ čo nábehová fáza odozvy bežného účtu na šok reálneho menového kurzu sa v rámci rozšíreného obdobia výraznejšie nezmenila (efekt šoku kulminoval do konca prvého roka od šoku), trvácnosť šoku a intenzita zhoršenia bežného účtu sa zmiernila vo všetkých krajinách. Zatiaľ čo sa vplyv dopadu šoku reálneho menového kurzu na bežný účet oslabil v obidvoch skupinách krajín, krajiny jadra Eurozóny zaznamenali menej dynamické zhoršenie vývoja bežného účtu. Na základe uvedeného sa tak krajiny jadra Eurozóny javili ako menej ohrozené poklesom cenovej konkurencieschopnosti, vo vzťahu k ich bežným účtom, vyvolanej posilnením reálneho menového kurzu.

106 104 FORUM STATISTICUM SLOVACUM 6/2015 Obrázok 2 sumarizuje výsledky priebehov impulse-response funkcií bežných účtov na pozitívny (zhodnotenie) jednorazový šok reálneho menového kurzu (na báze ULC) vo vybraných krajinách Eurozóny v modeloch A2 (predkrízové obdobie; ) a B2 (rozšírené obdobie; ). (Model A2) Response of CU_PT to Cholesky One S.D. ER_ULC_PT Innov ations ± 2 S.E. (Portugalsko, Model A2) Response of CU_IT to Cholesky One S.D. ER_ULC_IT Innov ations ± 2 S.E. (Taliansko, Model A2) Response of CU_GR to Cholesky One S.D. ER_ULC_GR Innov ations ± 2 S.E. (Grecko, Model A2) Response of CU_ES to Cholesky Response of CU_DE to Cholesky Response of CU_FR to Cholesky One S.D. ER_ULC_ES Innov ations ± 2 S.E. One S.D. ER_ULC_DE Innov ations ± 2 S.E. One S.D. ER_UL_FR Innov ations ± 2 S.E. (Spanielsko, Model A2) (Nemecko, Model A2) (Francuzsko, Model A2) (Model B2) Response of CU_PT to Cholesky Response of CU_IT to Cholesky Response of CU_GR to Cholesky One S.D. ER_ULC_PT Innov ations ± 2 S.E. One S.D. ER_ULC_IT Innov ations ± 2 S.E. One S.D. ER_ULC_GR Innov ations ± 2 S.E. (Portugalsko, Model B2) (Taliansko, Model B2) (Grecko, Model B2) Response of CU_ES to Cholesky Response of CU_DE to Cholesky Response of CU_FR to Cholesky One S.D. ER_ULC_ES Innov ations ± 2 S.E. One S.D. ER_ULC_DE Innov ations ± 2 S.E. One S.D. ER_UL_FR Innov ations ± 2 S.E. (Spanielsko, Model B2) (Nemecko, Model B2) (Francuzsko, Model B2) Obr. 2 Reakcie bežného účtu na šok REER (na báze ULC) Poznámka: Krivky predstavujú reakcie bežného účtu platobnej bilancie (CU) na jednorazový pozitívny šok reálneho efektívneho menového kurzu (na báze ULC) (ER_ULC) vo vybraných členských krajinách Eurozóny v modeloch A2 (2000M1-2007M12) a B2 (2000M1-2014M12). Zdroj: Výpočty autora. Odhadnuté odozvy bežných účtov za predkrízové obdobie odhalili zaujímavé implikácie poklesu nákladovo determinovanej (posilnenie REER na báze ULC) konkurencieschopnosti vo vybraných krajinách Eurozóny. Nečakávané zvýšenie reálneho menového kurzu viedlo k zhoršeniu vývoja bežných účtov vo všetkých sledovaných krajinách Eurozóny. Aj v tomto prípade sme však zaznamenali určité (v porovnaní s výsledkami pre REER na báze CPI výraznejšie) rozdiely v odozvách bežných účtov na šok menového kurzu medzi krajinami

107 FORUM STATISTICUM SLOVACUM 6/ jadra a periférie Eurozóny. Nábehová fáza odozvy bežného účtu sa v periférnych ekonomikách citeľne predĺžila, dôsledkom čoho negatívny efekt šoku kulminoval počas deviateho až osemnásteho mesiaca od šoku. Celková dynamika ako aj trvácnosť odozvy bežného šoku sa v tejto skupine krajín obdobne zvýšila. V prípade krajín jadra Eurozóny sme však mohli konštatovať menej výrazný dopad poklesu nákladovo determinovanej konkurencieschopnosti na vývoj ich bežných účtov. Vo výkonnejších krajinách Eurozóny sme tak mohli zaznamenať podstatne menej dynamické zhoršenie vývoja na bežnom účte spôsobené pozitívnym šokom reálneho menového kurzu. Celková dĺžka fázy konvergencie bežného účtu smerom k rovnovážnej úrovni z obdobia pred šokom bola obdobne výrazne kratšia. Krízové obdobie ovplyvnilo odozvu bežných účtov na pozitívny šok reálneho menového kurzu (na báze ULC) v obidvoch skupinách krajín. Celková expozícia bežných účtov voči poklesu nákladovo determinovanej konkurencieschopnosti sa v jednotlivých ekonomikách znížila. Pokles v intenzite a trvácnosti zhoršenia vývoja na bežnom účte vplyvom šoku reálneho menového kurzu indikuje pokles významu nákladovo determinovanej konkurencieschopnosti v krajinách, ktoré počas krízového obdobia zaznamenali len mierne zlepšenie vývoja vonkajšej nerovnováhy. Na druhej strane však menej významný vplyv reálneho menového kurzu na báze ULC na vývoj bežných účtov v krajinách, ktoré zaznamenali výraznejšie zlepšenie vývoja vonkajšej nerovnováhy počas krízového obdobia indikuje, že vnútorná devalvácia (na báze jednotkových nákladov práce) a stým súvisiace zlepšenie konkurencieschopnosti nepredstavuje pre túto skupinu krajín dostatočne účinný nástroj pre zmierňovanie vývoja nerovnováh na bežných účtoch. 5. Záver Analýza efektov spojených s dopadmi zmien cenovo a nákladovo determinovanej konkurencieschopnosti na vývoj bežných účtov platobných bilancií vo vybraných členských krajinách Eurozóny priniesla zaujímavé zistenia ohľadne možných dôsledkov existujúcich rozdielov v makroekonomickej výkonnosti medzi krajinami jadra a periférie Eurozóny na vývoj vonkajších nerovnováh v rámci jednotnej menovej únie. Naše výsledky naznačujú, že vývoj na bežných účtoch periférnych ekonomík reagoval dynamickejšie na šoky reálneho menového kurzu (na báze CPI aj ULC) v porovnaní s krajinami jadra Eurozóny. Rozdiely sú pritom výraznejšie pri skúmaní dopadov zmien v nákladovo determinovanej konkurencieschopnosti. Zatiaľ čo pokles konkurencieschopnosti (vyššia dynamika cenovej hladiny a jednotkových nákladov práce) v periférnych ekonomikách nám umožňuje objasniť výrazné zhoršenie vývoja na bežných účtoch počas predkrízového obdobia, pokles odoziev bežných účtov na šoky reálneho menového kurzu počas krízového obdobia znižuje využiteľnosť vnútornej devalvácie ako vhodného nástroja pre zmiernenie vonkajších nerovnováh v periférnych krajinách Eurozóny. Poznámka Príspevok je súčasťou riešenej výskumnej úlohy VEGA 1/0892/13 a 1/0994/15. Literatúra ARGHYROU, M.G., CHORTAREAS, G. (2008) Current Account Imbalances and Real Exchange Rates in the Euro Area, Review of International Economics, 9(5): ARMINGEON, K., BACCARO, L. (2012) Political Economy of the Sovereign Debt Crisis, Industrial Law Journal, 41(3): BAYOUMI, T., HARMSEN, R., TURUNEN, J. (2011) The Euro s Effect on Trade Imbalances, [IMF Working Paper, No. 140/2011], Washington D.C., International Monetary Fund, 16 p.

108 106 FORUM STATISTICUM SLOVACUM 6/2015 BELKE, A., DREGER, CH. (2011) Current Account Imbalances in the Euro Area: Catching up or Competitiveness?, [DIW Discussion Papers, No. 1106/2011], Berlin, German Institute for Economic Research, 21 p. BERGER, H., NITSCH, V. (2010) Euro Area Export Performance and Competitiveness, [IMF Working Paper, No. 226/2010], Washington D.C., International Monetary Fund, 30 p. BERGER, H., NITSCH, V. (2012) Bilateral Imbalances in Europe, [Darmstadt Discussion Papers in Economics, No. 214/2012], Darmstadt, Darmstadt University of Technology, 21 p. BUSSIERE, M., FRATZSCHER, M., MULLER, G.J. (2004) Current Account Dynamics in OECD and EU - An Intertemporal Approach, [European Central Bank, Working Paper, No. 311/2004] Frankfurt, European Central Bank, 38 p. CALVO, G., REINHART, C. (2002) Fear of Floating, Quarterly Journal of Economics, 117(2): CHEN, R., MILESI-FERRETTI, G.M., TRESSEL, T. (2012) External Imbalances in the Euro Area, [IMF Working Paper, No. 236/2012], Washington D.C., International Monetary Fund, 50 p. CHINN, M. (2005) A Primer on Real Effective Exchange Rates: Determinants, Overvaluation, Trade Flows and Competitive Devaluations, [NBER Working Paper, no ], Cambridge, National Bureau of Economic Research, 39 p. COMUNALE, M., HESSEL, J. (2014) Current Account Imbalances in the Euro Area: Competitiveness or Financial Cycle?, [DNB Working Paper, No. 443/2014], Amsterdam, De Nederlandsche Bank, 46 p. GAULIER, G., VICARD, V. (2012) Current Account Imbalances in the Euro Area: Competitiveness or Demand Shock?, [BDF Quarterly Selection of Articles, No. 27/2012], Paris, Banque de France, 26 p. GRUBER, J.W., KAMIN, S. (2005) Explaining the Global Pattern of Current Account Imbalances, Board of Governors of the Federal Reserve System, [Board of Governors FRS, International Finance Discussion Papers No. 846/2005], Washington D.C., Federal Reserve System, 44 p. HOBZA, A., ZEUGNER, S. (2014) The Imbalanced Balance and Its Unravelling: Current Accounts and Bilateral Financial Flows in the Euro Area, [EC Economic Papers, No. 520/2014], Brussels, European Commission, 25 p. HOLINSKI, N., KOOL, C.J.M., MUYSKEN, J. (2012) Persistent Macroeconomic Imbalances in the Euro Area: Causes and Consequences, Federal Reserve Bank of St. Louis Review, 94(1): 20 p. KANG, J.S., SHAMBAUGH, J.C. (2013) The Evolution of Current Account Deficits in the Euro Area Periphery and the Baltics: Many Paths to the Same Endpoint, [IMF Working Paper, No. 169/2013], Washington D.C., International Monetary Fund, 22 p. LANE, P., MILESI-FERRETTI, G.M. (2002) External Wealth, the Trade Balance, and the Real Exchange Rate, European Economic Review, 46(6): LEE, J., CHINN, M.D. (2006) Current Account and Real Exchange Rate Dynamics in the G7 Countries, Journal of International Money and Finance, 25(2006): MENDOZA, E.G. (1995) The Terms of Trade, the Real Exchange Rate, and Economic Fluctuations, International Economic Review, 36(1): MIRDALA, R. (2013a) Current Account Adjustments and Real Exchange Rates in the European Transition Economies, Journal of Applied Economic Sciences, 8(2): MIRDALA, R. (2013b) Fiscal Imbalances and Current Account Adjustments in the European Transition Economies, Journal of Applied Economic Sciences, 8(3): OBSTFELD, M., ROGOFF, K.S. (2005) Global Current Account Imbalances and Exchange Rate Adjustments, Brookings Papers on Economic Activity, 36(1): RUSEK, A. (2013) The Competitiveness Dynamics in the Eurozone, Global Journal of Management and Business Research Finance, 13(5):

109 FORUM STATISTICUM SLOVACUM 6/ SANCHEZ, J.L.D., VAROUDAKIS, A. (2013) Growth and Competitiveness as Factors of Eurozone External Imbalances. Evidence and Policy Implications, [WB Policy Research Working Paper, No. 6732/2013], Washington D.C., World Bank, 50 p. SEK, S.K., CHUAH, C.L. (2013) The Dynamic of the Current Account in Emerging East-Asian: Does Exchange Rate Matter? International Journal of Trade, Economics and Finance, 2(4): STAVÁREK, D. (2011) European exchange rates volatility and its asymmetrical components during the financial crisis, [Mendelu Working Papers in Business and Economics, No. 17/2011], Brno, Mendel University in Brno, 28 p. Adresa autora: Rajmund Mirdala, doc. Ing. PhD. Ekonomická fakulta Technická univerzita v Košiciach Nemcovej Košice [email protected]

110 108 FORUM STATISTICUM SLOVACUM 6/2015 Odhad produkčnej medzery na Slovensku použitím DSGE modelu Output gap estimation using the DSGE model Rajmund Mirdala, Martin Kameník Abstract: In the following paper we estimate the Slovak output gap using a DSGE model. Potential output is defined as a flexible-price equilibrium output without the existence of cost shocks. Model parameters are estimated using the Bayesian methods on Slovak data. Estimation of parameters and output gap is made using the Dynare. We also present the comparison of output gap evolution between the gap estimated as a deviation of actual output from the trend level (with the use of Hodrick-Prescott filter) and gap estimated in the model. According to model results the percentage deviation of output gap from its steady-state level was negative in 2003 and from 2003 to 2008 was positive. Abstrakt: V nasledujúcom článku odhadujeme medzeru produktu Slovenskej republiky na základe DSGE modelu. Potenciálny produkt je v modeli daný ako rovnovážny produkt pri flexibilných cenách a bez existencie nákladových šokov. Parametre modelu odhadujeme bayesiánskymi technikami na údajoch Slovenskej republiky, pričom samotný odhad parametrov a následne produkčnej medzery vykonávame prostredníctvom softvérovej platformy Dynare. V práci zároveň uvádzame porovnanie vývoja produkčnej medzery odhadnutou v podobe odchýlky skutočného produktu od trendu (s použitím Hodrick- Prescottovho filtra) a medzerou odhadnutou modelom. Modelom odhadnutá percentuálna odchýlka produkčnej medzery od svojej ustálenej hodnoty bola do roku 2003 záporná a od roku 2003 do 2008 bola kladná. Key words: DSGE, output gap Kľúčové slová: DSGE, medzera produktu JEL classification: C11, C32, E31 1. Úvod Problematika odhadu produkčnej medzery je v ekonomickej literatúre pomerne známa. Potenciálny produkt a s tým súvisiaca produkčná medzera sú nepozorovateľné veličiny, ktoré je možné odhadovať pomerne širokým množstvom metód. Odhad produkčnej medzery prostredníctvom DSGE modelov je podrobnejšie predstavený v práci autorov Vetlov et al. (2011), kde autori rozlišujú tri typy potenciálneho produktu a z toho vyplývajúce produkčné medzery. Konkrétne rozlišujú tzv. trendový produkt, efektívny produkt a prirodzený produkt ako rôzne formy potenciálneho produktu. Dané typy potenciálneho produktu sa vyznačujú určitými predpokladmi, ktoré sú detailnejšie rozobraté v spomínanej literatúre. Cieľom tohto článku je použitím jednoduchého Neokeynesiánskeho DSGE modelu odhadnúť produkčnú medzeru Slovenskej republiky. Konkrétne pôjde o model predstavený v práci autorov Hirose et al. (2007). Autori vytvorili a použili daný model na odhad medzery produktu v USA. Model predpokladá, že produkčná medzera je daná ako odchýlka skutočného produktu od rovnovážneho produktu dosahovaného pri flexibilných cenách a mzdách a absencii nákladových šokov. Herber et al. (2009) vykonali odhad produkčnej medzery na rovnakom modeli v Českej republike. Model, ktorý bude predstavený v nasledujúcej časti, je koncepčne podobný modelu Smetsa a Woutersa (2002). Interpretácia produkčnej medzery v modeli týchto autorov sa však mierne komplikovala, nakoľko tento model obsahoval mnoho šokov aj v podmienkach flexibilných cien a miezd.

111 FORUM STATISTICUM SLOVACUM 6/ Model Na úvod tejto časti len uvedieme, že detailnejšie odvodenie modelu, jednotlivých rovnovážnych podmienok je možné nájsť v práci autorov Hirose a Naganuma (Hirose a Naganuma, 2007). Model pozostáva z reprezentatívnej domácnosti, ktorá maximalizuje svoju úžitkovú funkciu za podmienky rozpočtového obmedzenia. Log-lineárnou aproximáciou (prostredníctvom Taylorovho rozvoja okolo ustáleného stavu) optimalizačných podmienok prvého rádu domácností dostávame:,,, (1), 1, (2),, (3) kde (1) predstavuje Neokeynesiánsku IS krivku, rovnica (2) reprezentuje hraničný úžitok zo spotreby a rovnica (3) predstavuje optimálnu ponuku práce (Romer, 2012). Parameter predstavuje diskontný faktor, interpretujeme ako zotrvačnosť zvyku v spotrebe a je inverzná elasticita ponuky práce. Firmy vyrábajú finálny statok použitím heterogénneho medzistatku a ten je produkovaný firmou na monopolistickom trhu. Zároveň je v modeli predstavená rigidita cien Calvovho typu, kedy firma produkujúca medzistatky v snahe o maximalizáciu zisku, má možnosť stanoviť cenu len s pravdepodobnosťou 1. Priemerná doba, počas ktorej je cena konštantná, je rovná. Rigidita Calvovho typu v modeli zohráva kľúčovú úlohu pri odvodení Neokeynesiánskej Phillipsovej krivky (Walsh, 2010), ktorá je daná ako:, (4) kde predstavuje nákladový šok, reprezentuje infláciu a premenná predstavuje reálne hraničné náklady, ktoré v log-linearizovanej podobe majú tvar:, (5) Ako bolo v úvode spomínané, existujú rôzne definície potenciálneho produktu. V tomto prípade je potenciálny produkt definovaný ako rovnovážny produkt dosahovaný pri flexibilných cenách (keď je parameter rovný 0, čo znamená, že firmy majú možnosť upraviť cenu každé obdobie.) a pri absencii nákladových šokov. Log-lineárna aproximácia potenciálneho produktu rovnovážneho produktu pri flexibilných cenách má podobu:,, (6) kde, predstavuje tentoraz hraničný úžitok zo spotreby pri flexibilných cenách:, 1. (7) Z toho vyplýva, že fluktuácie v takto zadefinovanom potenciálnom produkte, sú vyvolávané jedine dopytovým a technologickým šokom. Medzeru produktu môžeme potom definovať ako:, (8)

112 110 FORUM STATISTICUM SLOVACUM 6/2015 ktorá v log-linearizovanej podobe predstavuje percentuálnu odchýlku skutočného produktu od rovnovážneho produktu pri flexibilných cenách. Centrálna banka v modeli uplatňuje monetárne pravidlo štandardného Taylorovho typu (Galí, 2007). V prípade odchýlenia inflácie alebo produkčnej medzery od svojich ustálených hodnôt, reaguje centrálna banka určitou zmenou nominálnej úrokovej sadzby. Loglinearizovaná podoba Taylorovho pravidlá ma tvar: 1,,, 0,, (9) kde 0 1 určuje zotrvačnosť úrokových sadzieb, je nominálna úroková sadzba a, je exogénny menový (resp. peňažný) šok, ktorý môže zahŕňať napríklad zmeny v rýchlosti obehu peňazí a pod. Parameter 0 predstavuje elasticitu úrokovej sadzby na odchýlku aktuálnej inflácie a parameter 0 vyjadruje elasticitu úrokovej miery na medzeru produktu. V modeli zároveň absentuje vláda a medzinárodný obchod a spolu s podmienkou, že model nezahŕňa ani kapitál platí rovnovážna podmienka. Všetky premenné sú vyjadrené v percentuálnych odchýlkach od ustálenej hodnoty. V modeli sú okrem menového šoku predstavené ďalšie tri šoky. Ide o dopytový šok, nákladový šok a technologický šok. Tieto tri šoky sledujú autoregresný proces prvého rádu:,, 0 1,,, 0,, (10),, 0 1,,, 0,, (11),, 0 1,,, 0,, (12) Vhodnou substitúciou určitých premenných v uvedených rovnovážnych podmienkach vieme ich počet v modeli zredukovať. 3. Odhad parametrov K odhadu štrukturálnych parametrov modelu využívame Bayesiánske techniky (Geweke, 2005), pričom samotný odhad parametrov a nepozorovaných premenných vykonávame prostredníctvom softvérovej platformy Dynare. Za hodnoty parametrov modelu považujeme strednú hodnotu z posteriórnej hustoty pravdepodobnosti. Nakoľko často nie je možné analyticky získať strednú hodnotu z posteriórnej hustoty, ako náhrada sa využívajú napríklad tzv. Markov Chain Monte Carlo metódy, ktoré náhodným výberom generujú vzorky z danej posteriórnej hustoty. Konkrétne ide o Metropolis-Hastings algoritmus (Geweke, 2005), ktorý kombinuje priórnu informáciu o jednotlivých parametroch s funkciou vierohodnosti, ktorú v našom prípade získame Kalmanovým filtrom (Hamilton, 1994). Predtým je však potrebné odhadnúť modus posteriórneho rozdelenia, ktorý poslúži ako vstupná informácia pre Metropolis-Hastings algoritmus pri konštrukcii posteriórneho rozdelenia. Generujeme vzoriek, z ktorých iba polovica bude použitá k odhadu posteriórnej strednej hodnoty. Potom, ako sa dynamický systém upraví na tzv. stavovú formu (state space representation), je možné využiť k odhadu nepozorovaných stavov, medzi ktorými je aj medzera produktu, Kalman smoothing. Teda odhad nepozorovaných stavov na základe všetkých pozorovaných premenných (Hamilton, 1994). K odhadu parametrov modelu boli použité štvrťročné údaje Slovenskej republiky v intervale od prvého štvrťroku 1996 až po štvrtý štvrťrok 2008: tempo rastu produktu, ktorý je vyjadrený ako podiel reálneho HDP a počtu zamestnancov,

113 FORUM STATISTICUM SLOVACUM 6/ miera inflácie, pre ktorú sme použili CPI, je nominálna úroková sadzba, ktorú v modeli zastupuje medzibanková úroková sadzba platná do roku M BRIBOR. Fakt, že Slovensko je od roku 2009 členom Eurozóny nedovoľuje používať údaje a odhadovať produkčnú medzeru od tohto roku, nakoľko sa vzdalo nezávislej menovej politiky (viď. podoba Taylorovho pravidla). Údaje boli čerpané z databázy Národnej banky Slovenska a databázy OECD. Úroková miera a inflácia sú anualizované. Reálne HDP, počet zamestnancov a CPI boli sezónne očistené. Implementáciu pozorovaných premenných do modelu vykonávame podobne ako autori v spomínanom článku:, (13) 4, (14) 4, (15) kde je štvrťročné tempo rastu v ustálenom stave, je štvrťročná inflácia v ustálenom stave a nakoniec je reálna úroková miera v ustálenom stave. Priórne informácie o jednotlivých parametroch, t. z. priórna stredná hodnota, štandardná odchýlka a rozdelenie sa zhodujú s prácou autorov Senaj et al. (2010). Nakoľko nie všetky parametre sú v tejto štúdii odhadované Bayesiánskymi technikami a z dôvodu nedostatku slovenských štúdií na mikroúrovni, čerpali sme niektoré apriórne informácie o parametroch z iných prác. Konkrétne sme využili priórne informácie použité pri odhade DSGE modelu Českej republiky predstaveného autormi Musil a Vašíček (2006). Dôvodom voľby je podobnosť týchto dvoch ekonomík. Apriórne stredné hodnoty parametrov, a sme stanovili obdobným spôsobom ako autori v pôvodnom článku, a to ako historický priemer skutočných dát. Stredné hodnoty smerodajných odchýlok šokov sme ponechali rovnaké ako autori. Tabuľka 1 Priórne a posteriórne rozdelenia parametrov Parameter Prior SH Prior SO Posterior SH Rozdelenie - prior 1,00 0,50 1,9309 Gama 0,80 0,10 0,9744 Beta 1,00 0,35 0,8200 Gama 0,75 0,10 0,8620 Beta 1,90 0,40 1,7721 Normálne 0,30 0,10 0,3594 Normálne 0,75 0,10 0,8590 Beta 0,50 0,20 0,1686 Beta 0,50 0,25 0,8929 Beta 0,50 0,20 0,5050 Beta 0,50 0,5626 Inverzné gama 0,50 1,9266 Inverzné gama 0,50 2,2927 Inverzné gama 0,50 0,4530 Inverzné gama 1,10 0,80 1,0303 Gama 6,30 0,80 6,2236 Gama 3,00 0,80 2,9097 Gama Zdroj: Výpočty autorov

114 112 FORUM STATISTICUM SLOVACUM 6/2015 Na záver tejto časti je potrebné spomenúť, že výsledky konvergenčných diagnostík (Brooks a Gelman, 1998) nenaznačujú žiadne problémy s odhadom jednotlivých parametrov. Parameter sme kalibrovali na hodnotu 0, Výsledky Na úvod tejto časti popíšeme impulzné odozvy vybraných premenných na jednorazové pozitívne šoky vo výške príslušnej smerodajnej odchýlky. Konkrétne pôjde o premenné produkt, potenciálny produkt, produkčná medzera, inflácia a nominálna úroková sadzba. Môžeme si všimnúť, že technologický šok pôsobí na zvýšenie skutočného aj potenciálneho produktu. Rast potenciálneho produktu je vplyvom technologického šoku vyšší ako nárast skutočného produktu. To vedie k poklesu inflácie, ktorá má vplyvom tohto šoku krátku zotrvačnosť. Na pokles inflácie a vzniknutú negatívnu produkčnú medzeru reaguje centrálna banka znížením úrokovej miery. Obrázok 1 Odozva vybraných premenných na technologický šok Poznámka: Krivky predstavujú reakcie skutočného produktu (y), potenciálneho produktu (y_f), produkčnej medzery (gap), inflácie (pi) a nominálnej úrokovej sadzby (r) na jednorazový pozitívny technologický šok. Zdroj: Výpočty autorov Dopytový šok vyvoláva rast skutočného produktu a zároveň rast potenciálneho produktu, pričom potenciálny produkt sa odchýli od svojej ustálenej hodnoty o takmer 2% a skutočný o niečo menej. Kladný rozdiel medzi týmito premennými vyvoláva zvýšenie inflácie, ktorá cez Taylorovo pravidlo spolu so vzniknutou produkčnou medzerou vedie k rastu úrokovej miery. Obrázok 2 Odozva vybraných premenných na dopytový šok Poznámka: Krivky predstavujú reakcie skutočného produktu (y), potenciálneho produktu (y_f), produkčnej medzery (gap), inflácie (pi) a nominálnej úrokovej sadzby (r) na jednorazový pozitívny dopytový šok. Zdroj: Výpočty autorov Nákladový šok priamo cez Neokeynesiánsku Phillipsovu krivku zvyšuje infláciu, zároveň vedie k poklesu produktu. Potenciálny produkt sme zadefinovali ako produkt pri absencii nákladového šoku, to znamená, že potenciálny produkt nijak nereaguje na vzniknutý šok. Centrálna banka v reakcii na rast inflácie spôsobenej nákladovým šokom zvyšuje úrokovú mieru aj napriek tomu, že produkčná medzera je záporná (úroková miera citlivejšie reaguje na zmeny v inflácii ako zmeny v produkčnej medzere). Zároveň si môžeme všimnúť, že pokles skutočného produktu vrcholí približne v siedmom období od nákladového šoku a len pozvoľna sa vracia k svojej ustálenej hodnote.

115 FORUM STATISTICUM SLOVACUM 6/ Obrázok 3 Odozva vybraných premenných na nákladový šok Poznámka: Krivky predstavujú reakcie skutočného produktu (y), potenciálneho produktu (y_f), produkčnej medzery (gap), inflácie (pi) a nominálnej úrokovej sadzby (r) na jednorazový pozitívny nákladový šok. Zdroj: Výpočty autorov Posledný menový šok pôsobí reštriktívne na modelovú ekonomiku spôsobuje zníženie inflácie a zároveň okamžité odklonenie produktu od svojej ustálenej hodnoty. Obrázok 4 Odozva vybraných premenných na menový šok Poznámka: Krivky predstavujú reakcie skutočného produktu (y), potenciálneho produktu (y_f), produkčnej medzery (gap), inflácie (pi) a nominálnej úrokovej sadzby (r) na jednorazový pozitívny menový šok. Zdroj: Výpočty autorov Komparáciou výsledných parametrov slovenského DSGE modelu MUSE (ktorý autori odhadovali rovnakou technikou) a našich odhadov zisťujeme určité podobnosti, ale aj odlišnosti. Rozdiely prirodzene vyplývajú z odlišnej špecifikácie oboch modelov. Stredná hodnota posteriórneho rozdelenia parametra zotrvačnosti úrokových sadzieb (resp. parameter vyhladenia úrokovej sadzby) je v MUSE modeli odhadnutá na hodnotu 0,875 a v modeli 0,8590. Následne hodnota parametra, ktorý predstavuje reakciu nominálnej úrokovej sadzby na infláciu je v MUSE 2,083 a v našom modeli 1,7721. Hodnota parametra hovorí, že iba približne 14% firiem má možnosť v danom roku stanoviť cenu, a teda priemerná doba, počas ktorej je cena konštantná, je rovná približne 7 štvrťrokom. V MUSE modeli má tento parameter odlišnú posteriórnu strednú hodnotu a to 0,458. Obrázok 5 Produkčné medzery odhadnuté prostredníctvom HP filtra a DSGE modelu

116 114 FORUM STATISTICUM SLOVACUM 6/2015 Obrázok 5 zachytáva percentuálnu odchýlku skutočného produktu od potenciálneho produktu odhadnutého modelom spolu s percentuálnou odchýlkou produktu od svojho trendu. Trend pre účely porovnania bol odhadnutý Hodrick-Prescottovým filtrom s hodnotou vyhladzovacieho parametra 1600, ktorá sa odporúča používať pri štvrťročných údajoch. Pre odhad sme použili sezónne očistené reálne HDP na obyvateľa, pričom rozsah dát sa zhoduje s rozsahom použitým pre odhad parametrov modelu. Poznámka: Krivka DSGE predstavuje modelom odhadnutú percentuálnu odchýlku skutočného produktu od potenciálneho produktu, ktorý je definovaný ako produkt pri flexibilných cenách a absencii nákladových šokov, krivka HP filter predstavuje percentuálnu odchýlku skutočného produktu od svojho trendu odhadnutého HP filtrom. Zdroj: Výpočty autorov Z porovnania grafických výstupov oboch metód si môžeme všimnúť značnú odlišnosť medzi odhadnutými produkčnými medzerami. Vidíme, že začiatkom roku 1996 bola modelom odhadnutá produkčná medzera odchýlená od svojho ustáleného stavu o približne 0.3%, t. z. skutočný produkt sa nachádzal tesne pod potenciálnym produktom. Následne až do začiatku roku 1998 sa negatívna percentuálna odchýlka medzery produktu zväčšovala až na úroveň 4% od ustáleného stavu. Tu môžeme sledovať značný rozdiel medzi oboma metódami odhadu. Podľa odhadu HP filtra skutočný produkt prevyšuje potenciálny (teda existuje kladná odchýlka skutočného produktu od trendu) v období od prvého kvartálu roku 1997 až po prvý kvartál Naopak model v sledovanom období odhaduje, že existuje záporný rozdiel medzi skutočným produktom a produktom pri flexibilných cenách. Porovnateľné odchýlky a smer vývoja produkčnej medzery odhadujú obe metódy v období od prvého štvrťroku roku 2000 až po druhý štvrťrok roku Obe metódy zároveň naznačujú, že Slovenská republika bola začiatkom roku 2003 tesne za úrovňou potenciálneho produktu v kladnej produkčnej medzere. Po zvyšok obdobia (Q až Q4-2008) je modelom odhadnutá produkčná medzera na Slovensku kladná. Počiatok finančnej krízy v roku 2008 sa prejavil stagnujúcou resp. mierne klesajúcou odchýlkou produkčnej medzery od ustáleného stavu. Záporná produkčná medzera odhadnutá HP filtrom v spomínanom období Q až Q sa spočiatku zväčšuje, neskôr od Q sa začína záporná produkčná medzera zmenšovať. V prvom kvartáli roku 2008 sa skutočný produkt odchyľuje od svojho trendu o takmer 6%. Finančná kríza zapríčinila, že skutočný produkt sa dostal pod úroveň svojho trendu, a teda koncom roku 2008 vznikla záporná produkčná medzera. 5. Záver V tomto článku sme prezentovali jednoduchý neokeynesiánsky DSGE model, ktorý poslúžil k odhadu produkčnej medzery na Slovensku v rokoch K odhadu parametrov modelu sme použili bayesiánske techniky, ktoré sú v súčasnej v literatúre zaoberajúcej sa DSGE modelmi značne populárne. Na odhad nepozorovaných premenných a teda aj produkčnej medzery boli využité možnosti Kalmanovho filtra (konkrétne Kalman smoothing). Modelom odhadnutá produkčná medzera na Slovensku bola do prvého štvrťroku 2003 záporná a od tohto obdobia bola kladná. Na záver je vhodné uviesť, že metodika odhadu produkčnej medzery v prípade HP filtra sa odlišuje od metodiky DSGE modelu. Určitou nevýhodou odhadu produkčnej medzery HP filtrom je, že jej chýba určitý ekonomický obsah ide o nájdenie vhodného trendu, zatiaľ čo DSGE modely túto nevýhodu odstraňujú, pretože sú postavené na mikroekonomických základoch. To však neznamená, že by odhad produkčnej medzery HP filtrom bol nesprávny. Pre účely ďalšieho porovnania viacerých prístupov pri odhade produkčnej medzery je možné využiť odhad napríklad prostredníctvom produkčnej funkcie.

117 FORUM STATISTICUM SLOVACUM 6/ Predpoklad nezávislej menovej politiky v danom modeli výrazne obmedzoval možnosti voľby rozsahu údajov. Zároveň je potrebné povedať, že Slovensko je výrazne otvorenou ekonomikou a to nás môže viesť k názoru, že vhodnejšie by bolo uprednostniť model otvorenej ekonomiky. To ale nemusí automaticky znamenať nesprávnosť odhadu produkčnej medzery prostredníctvom vyššie popísaného modelu uzavretej ekonomiky. Poznámka Príspevok je súčasťou riešenej výskumnej úlohy VEGA 1/0892/13 a 1/0994/15. Literatúra BROOKS, S.P. GELMAN, A General Methods for Monitoring Convergence of Iterative Simulations. In: Journal of Computational and Graphical Statistics, roč 7, s GALÍ, J Monetary Policy, Inflation and Business Cycle. New Jersey: Princeton University Press. ISBN GEWEKE, J Contemporary Bayesian Econometrics and Statistics. New Jersey:John Wiley & Sons, Inc. HAMILTON, J. D Time Series Analysis. New Jersey: Princeton University Press. ISBN HERBER, P. NĚMEC, D Estimating Output Gap in the Czech Republic: DSGE Approach. In: Mathematical Methods in Economics s HIROSE, Y. NAGANUMA, S Structural Estimation of the Output Gap: A Bayesian DSGE Approach for the U.S Economy, Bank of Japan Working Paper Series, No 07-E-24. MUSIL, K. VAŠÍČEK, O Behavior of the Czech Economy: New Open Economy Macroeconomics DSGE Model. Working Papers č. 23/2006 ROMER, D Advanced Macroeconomics, Fourth Edition. New York: McGraw-Hill. ISBN SENAJ, M. VÝŠKRABKA, M. ZEMAN, J MUSE: Monetary Union and Slovak Economy model. Working and Discussion Papers WP 1/2010 SMETS, F. WOUTERS, R An Estimated Dynamic Stochastic General Equilibrium Model of the Euro Area. Working Paper Series VETLOV, I. HLDIK, T., et al Potential Output in DSGE models. Working Paper Series, Europearn Central Bank WALSH, D Monetary Theory and Policy. Cambridge, MA: The MIT Press. ISBN Adresa autorov: Rajmund Mirdala, doc. Ing. PhD. Ekonomická fakulta Technická univerzita v Košiciach Nemcovej Košice [email protected] Martin Kameník, Ing. Ekonomická fakulta Technická univerzita v Košiciach Nemcovej Košice [email protected]

118 116 FORUM STATISTICUM SLOVACUM 6/2015 Logitové modely s kategoriální vysvětlovanou proměnnou v SPSS Various Multicategory Logit Models in SPSS Iva Pecáková Abstract: There exist various generalizations of the binomial logistic regression model if the number of categories of the response variable exceeds two. When these categories cannot be ordered, the models are based on the so-called baseline logits comparing all other response categories with one selected (reference) category. In case the categories of response variable are ordered (the response variable is ordinal), the construction of model can be based on adjacent logits or on cumulative logits. The way of building of the model influences the meaning and the interpretation of its parameters. The aim of this paper is to show the selection and creating models in SPSS. Abstrakt: Existují různá zobecnění binomické logistické regrese pro vysvětlované proměnné s počtem kategorií vyšším než dvě. Pokud tyto kategorie nelze přirozeně uspořádat, modely jsou založeny na tzv. bazických logitech, které srovnávají ostatní kategorie vysvětlované proměnné s jednou vybranou (referenční) kategorií. Naopak pokud kategorie vysvětlované proměnné uspořádat lze (vysvětlovaná proměnná je ordinální), konstrukci modelu lze založit na řetězových nebo na kumulativních logitech. Způsob vytváření takového modelu ovlivňuje význam a interpretaci jeho parametrů. Cílem tohoto textu je ilustrovat výběr a tvorbu modelů v SPSS. Key words: multicategory logit models, nominal response variables, ordinal response variables Klíčová slova: logitové modely s kategoriální vysvětlovanou proměnnou, nominální vysvětlovaná proměnná, ordinální vysvětlovaná proměnná JEL classification: C8, C25 1. Introduction The logistic regression is one of the most popular model for binary response variables nowadays. This model has been also generalized for a case of categorical response variable with larger number of categories. However, while the use and interpretation of the binary logistic regression is usually straightforward, in case of multicategory logit model the number of parameters and their interpretation can be more complicated. The practical use of multicategory logit models is not so frequent. The article demonstrates how to calculate these different models in SPSS and what differences bring different approaches. 2. Methodology For a binary response random variable Y, = P(Y = 1), P(Y = 0) = 1 and y is a vector of n its independent observations, y y 1 y2... y n, the identity link between the random and systematic component of the generalized linear model E (Y ) xβ (1) is inappropriate: π 0, 1. In (1) x includes k explanatory variables X 1, X 2, X k, β k is a vector of model parameters. Furthermore, X is a data matrix x x x... x, i = 1, 2, n. consisting of values of k explanatory variables, i 1 i1 i2 ik

119 FORUM STATISTICUM SLOVACUM 6/ For the binary response variable the model employs the logit link expxβ ln xβ, thus. 1 1 expxβ Quantitative explanatory variables and indicator (for example dummy) variables for the categories of qualitative explanatory variables can be included in the matrix X. In case of the quantitative explanatory variable the unit changes of variable X j means, that the odds of j e variable Y increase times. When categories of the explanatory variable are ordered (ordinal variable) and when we can consider the linear ordering of these categories, then the meaning of the parameters of the model is the same. In case of the categorical explanatory variable the meaning of the parameters depends on j the kind of indicator variables used. When we use dummy indicators, then indicates how a change of category of the explanatory variable influences the change in logit of the response variable. The number of the indicators (and model parameters) for each explanatory categorical variable equals the number of the categories minus one. The model is more parsimonious, when the categories of the explanatory variable can be linearly ordered. However, we will suppose not a binary, but a multinomial response variable with c categories: 1 = P(Y = 1), 2 = P(Y = 2), c = P(Y = c). The specific form of the model is then influenced by the nature of the response variable: 1) To contrast all other response categories with the basic category, the baseline logits can be defined. The choice of basic category is arbitrary. If the c-the category is basic, the baseline logits can be written as and the model link as The response probability j is then ln, j = 1, 2, c 1 (3) j c j ln xβ j j = 1, 2, c 1. (4) c exp xβ exp x j β j j, β 0. 1 c (5) c c exp xβ 1 exp xβ h1 h This logit model for unordered categorical variables (multinomial logit model in SPSS) has (k + 1)(c 1) parameters altogether. Each baseline logit has its own intercept, the parameter 0j, a threshold parameter for j-th category of variable Y, j = 1, 2, c 1; the other parameters are similar meaning like in model (2). As the explanatory variables in these logit models are often categorical and the indicator variables for their categories are used, the number of the parameters can be quite large. 2) If the categories of response variable have a natural ordering (ordinal variable), the cumulative probabilities can be used to form the cumulative logits: j j h1 PY ( yj) Fj ln ln, j = 1, 2, c 1; (6) PY ( y) 1F h e (2)

120 118 FORUM STATISTICUM SLOVACUM 6/2015 P(Y y j )... F, 1 2 j j PY ( y)... 1 F. j j1 j2 c j Actually, the model for the cumulative logit can be viewed as the ordinary logit model for a binary response when PY ( 1) j and PY ( 0) j 1 j2... c; then Fj ln xβ j, j = 1, 2, c 1. (7) 1 F j The number of parameters of this model is (k + 1)(c 1) again. Each cumulative logit has its own intercept, now 01 < 02 < < 0,c 1. However, in this model we can consider (and test) whether effects j in different logits are substantially different or not. 3) In the latter case the more parsimonious model the proportional odds model is Fj ln 0 j xβ, j = 1, 2, c 1; 1 F j now x x x...,... i 1 2 x k β. (8) To estimate the parameters of logit models, the method of maximum likelihood is most preferred. However, the likelihood equations are nonlinear with respect to parameters estimated; therefore some iterative method must be applied to obtain their solution. Usually, the Newton-Raphson procedure is used for that purpose. To determine the significance of individual terms in logit model, the test of zero value of parameters based on Wald statistic can be used, W b / SEˆ ( b ), (9) j where b j is an estimate of the parameter and SEˆ( b j) is an estimate of its standard error. The distribution of this statistic is (for great n) approximately chi-square with one degree of freedom. Because of certain difficulties of this test in some situations often is rather recommended the difference in model deviances (G 2 ). The key information in this kind of analysis is in fact the likelihood (L) of the model parameters given the observed outcomes and its change (rather a change of its logarithm, log-likelihood). For two models M 1 (the simpler model without the examined variable, p 1 parameters) and M 2 (the model with the examined variable, p 2 parameters; p 1 <p 2 ) this difference, j G G G ln( L / L ) (10) M 1 M 2 2 M 1 M 2 has approximately chi-square distribution with the degrees of freedom equal to the difference in the number of parameters in the competing models (p 2 p 1 ). A commonly used indicator of model fit is R-square measure in regression models. However, R-squared measures are difficult to define for models with categorical responses, because sums of squares are not useful to determine closeness of fit. Various counterparts of this statistics have been proposed for models with categorical responses. The measure that compares the log-likelihood gain achieved by the fitted model (ln L M ) versus the model with an intercept only (null model; ln L 0 ) with the maximum potential likelihood gain (in saturated model, L S ) can be written as k

121 FORUM STATISTICUM SLOVACUM 6/ R ln L 2 0 L ln L0 ln L ln L M S. (11) When at least one explanatory variable in the model is continuous and it works with the single trials, L S = 1 and the index can be written as R ln L ln LM (12) ln L 2 0 MF (McFadden's statistic). If we suppose only categorical explanatory variables, i.e. we have binomial counts of combinations of categories of explanatory variables, ln L S is less than 0 and it holds R ln L ln L 0 G G M 0 M L. (13) 2 ln L0 ln LS G0 2 Here G is the deviance again. It can be shown in the GLM that the R-squared can be written as The same measure for the logistic regression R 2 n 0 L M 2 / 1 ( L / ). (14) R C e 2 / (ln ln M ) 1 n L L (15) 2 0 is known as Cragg Uhler statistic (also Cox Snell statistic) and its scaled version (to interval from 0 to 1) as Nagelkerke statistic. 3. The multicategory logit models in SPSS Consider data 1 from a survey sampling of the interest in working in the EU, the sample size is about We want to model the variable Interest (the interest in working in EU) with values 1 = "yes, will definitely try", 2 = "yes, will probably try", 3 = "would be interested if offered a job", 4 = "no, probably will not be interested", 5 = "no, definitely will not be interested", depending up various potential explanatory variables: Age (age in years), Sex (with categories 1 = male, 0 = female ), Education (with categories 1 = primary, 2 = secondary without A levels, 3 = secondary with A levels and 4 = tertiary ), Partner (with categories 1 = yes, 0 = no, Standard (standard of living with categories 1 = good, 2 = neither good, nor bad, 3 = bad ). We start by model (4), in SPSS 2 by Multinomial Logistic Regression. The procedure specifies last category (here 5) of the response variable as the reference (it can be changed). The explanatory variable Age is a covariate, Education and Standard are factors. SPSS uses dummy indicators to use categorical factors in logistic regression, three for Education (the reference category is tertiary ) and two for Standard; the last category is reference again. The 1 The data provided the Public Opinion Research Centre (CVVM) for a students school-leaving work in All the calculations were accomplished by using SPSS 18.0

122 120 FORUM STATISTICUM SLOVACUM 6/2015 alternative variables may be used in both ways. However, their coding other than 0 and 1, if used, will affect the intercept, but the relevant model coefficients (and modeling π j especially) remain unchanged. The output table Likelihood Ratio Tests in applied SPSS procedure includes differences in model deviances. The p-values in this table (labeled as Sig.) inform about importance of single explanatory variables. For our data this means only Standard elimination, p-value is relatively large for this variable. Software outputs of a large number of model parameter estimates are usually quite extensive and inappropriate for publication; this is true even for SPSS Figure 1. Interest in working in the EU B Std. Error Wald df Sig. Exp(B) yes, will definitely try 2,175 1,085 4,018 1,045 age -,119,017 47,267 1,000,887 sex 1,085,318 11,682 1,001 2,961 partner,794,412 3,719 1,054 2,213 [edu=1] -,421,589,511 1,475,656 [edu=2] -1,647,561 8,620 1,003,193 [edu=3] -,784,552 2,018 1,155,457 [edu=4] 0 b yes, will probably try 3,363,826 16,574 1,000 age -,116,013 75,981 1,000,891 sex 1,332,268 24,703 1,000 3,787 partner,422,322 1,713 1,191 1,525 [edu=1] -,816,472 2,984 1,084,442 [edu=2] -1,672,410 16,624 1,000,188 [edu=3] -1,209,427 7,998 1,005,299 [edu=4] 0 0 Fig 1: Part of SPSS output table Parameter Estimates Through SPSS tool Pivoting Trays can customize the table to a more advantageous form (Figure 2 for example). While the variables Age, Sex and Partner were used as covariates in the model, Education is here a factor with three dummy indicators (the reference category is a last one, tertiary ). Figure 2 includes estimates of all the parameters. The parameters with significant tests (9) on significance level 0,05 are marked with an asterisks (by author). Logit Intercept b(age) b(sex) b(partner) b(educ1) b(educ2) b(educ3) 1 / ) 2,175 0,119 1,085 0,794 0,421 1,647 0,784 2 / ) 3,363 0,116 1,332 0,422 0,816 1,672 1,209 3 / ) 3,363 0,083 0,875 0,219 1,058 1,151 0,597 4 / ) 1,963 0,036 0,417 0,241 0,368 0,437 0,109 ln( 5 ln( 5 ln( 5 ln( 5 Fig 2: Adapted SPSS output (editing author) In Figure 2 we read, that the interest in working in the EU depends on the age and sex particularly. As it may be calculate from this table, for males the estimated odds that they

123 FORUM STATISTICUM SLOVACUM 6/ will definitely try to work in the EU instead will definitely not be interested are almost three times (e 1,085 = 2,959) the estimated odds for females, if all the other variables are identical. The estimated odds of Interest responses derogate with age, the decrease is faster for the categories 1 and 2. According to (5), the estimated response probabilities for a men or women of a certain age, a certain education and without or with a partner can be determined. The pseudo R- square statistics are usually not large for this kind of models, so the value of Nagelkerke statistic (0,35) is quite satisfactory. Previous model does not respect the fact, that the response variable is ordinal. However, to use the model (7) in SPSS, the response variable (Y) must first be recoded into four dichotomous variable: 1) The first category of Y 1 is the same as that of Y, the second category of Y 1 includes the second through the fifth categories Y combined. 2) The first category of Y 2 is the first and second categories of Y, the second category of Y 1 includes the third through the fifth categories Y combined. And so on. Then we can use Multinomial Logistic Regression procedure in SPSS again. Thus, the result models are in four outputs and must be adapted in form of Figure 3, for example. Logit Intercept b(age) b(sex) b(partner) b(educ1) b(educ2) b(educ3) ln( F1 /(1 F1 )) 1,339 0,063 0,300 0,630 0,022 0,798 0,309 ln( F2 /(1 F2 )) 0,616 0,073 0,693 0,463 0,162 1,025 0,772 ln( F3 /(1 F3 )) 2,380 0,076 0,793 0,466 0,626 1,082 0,689 ln( F4 /(1 F4 )) 3,807 0,067 0,734 0,120 0,544 0,884 0,441 Fig. 3: Adapted SPSS output (editing author) However, the number of parameters in previous models is large and their interpretation is somewhat complicated. Since the response variable is ordinal, we attempt to use a more parsimonious model (8). To calculate this model we can use the SPSS procedure Ordinal Regression 3. The model (8) assumes equal slopes for all logits. However, this so-called proportional odds model can only be used, when the test of parallel lines is not significant. The test verifies that the simplified model significantly increases its deviance. In our example the p-value of this test is 0,57, so we can use Ordinal Regression procedure in SPSS to estimate the model Figure 4. The Nagelkerke statistic for the model is almost identical and the number of parameters is much smaller. Logit Intercept b(age) b(sex) b(partner) b(educ1) b(educ2) b(educ3) ln( F1 /(1 F1 )) 0,520 ln( F2 /(1 F2 )) 0,841 ln( F3 /(1 F3 )) 2,452 ln( F4 /(1 F4 )) 3,940 Fig. 4: Adapted SPSS output (editing author) 0,073 0,708 0,314 0,401 1,035 0,612 3 SPSS calculates the model in form ln( /(1 )) xβ, so the coefficients have opposite signs. F F j j 0 j

124 122 FORUM STATISTICUM SLOVACUM 6/2015 In the case of non-significant tests about parameters coefficients for some dummy indicators we can also consider reducing the number of categories of explanatory factors. We join the education category 1 ( primary ) and 2 ( secondary without A level ). So the variable Education is recoded to three new categories, 1 and 2 1, 3 2 and 4 3. The estimated model is in Figure 5. The Nagelkerke statistic for this model is the same again. Logit Intercept b(age) b(sex) b(partner) b(educ2) b(educ3) 1 /(1 F )) 2 /(1 F )) 0,075 0,690 0,447 0,849 0,619 3 /(1 F )) 4 /(1 F )) ln( F 1 0,564 ln( F 2 0,765 ln( F 3 2,351 ln( F 4 3,838 Fig. 4: Adapted SPSS output (editing author) 4. Conclusion There are two competing goals in the regression analysis: The model should be complex enough to fit the data well. On the other hand, it should be simple to interpret and to use it. The goal of this article was to demonstrate, that the logit model for categorical data analysis does not always need have many parameters. It is possible to utilize mainly the properties of the ordinal variables and to reduce the number of the model parameters. In some cases its decrease can be quite significant. References: [1] Agresti, A. (2002): Categorical Data Analysis, Second edition. New Jersey: Wiley and Sons [2] Lawal, B. (2003): Categorical Data Analysis with SAS and SPSS Applications. Lawrence Erlbaum Associates [3] Pecáková, I. (2007): Logistická regrese s vícekategoriální vysvětlovanou proměnnou. Acta Oeconomica Pragensia 15/1, pp [4] Pecáková, I. (2007): Explained Variation Measures for Models with Categorical Responses. In: AMSE 2007, pp [5] Pecáková, I. (2010): How to Choose and Interpret the Multicategory Logit Models. In: AMSE 2010, pp [6] Powers, D. A. Xie, Y. (2000): Statistical Methods for Categorical Data Analysis. New York: Academic Press [7] SPSS (1999): Professional Statistic Manual, Version Chicago: SPSS Inc. [8] Stankovičová, I. Vojtková, M. (2007): Viacrozmerné štatistické metódy s aplikáciami. Bratislava: Wolters Kluwer Authors address: Iva Pecáková, doc. Ing., CSc. VŠE Praha Nám W. Churchilla 4, Praha 3 [email protected]

125 FORUM STATISTICUM SLOVACUM 6/ Srovnání vývoje regionů České republiky a možných agregačních přístupů Compared development of Czech regions and possible aggregation approaches Ludmila Petkovová Abstract: The aim of this paper is to show the differences in the three aggregation method in the creation of composite indicators. These methods were used in the field of sustainable development for Czech Republic regions at NUTS 3 level. I used linear and geometric aggregation and one method of multi-criteria decision analysis inside the pillars and multi criteria decision-making methods in the form of Condorcet approach for pillars aggregations. All approaches are different in conception possible substitution/compensation of entering variables. The indicators used for the analysis are based on analyses of sustainable development at the regional level conducted by the Czech Statistical Office. The conclusions include a discussion over the generated order of regions. Abstrakt: Cílem tohoto příspěvku je ukázat rozdíly mezi třemi metodami agregace při tvorbě kompozitních indikátorů. Agregace je zde využita pro regiony České republiky na úrovni NUTS 3, a to v oblasti udržitelného rozvoje. Pro agregaci uvnitř pilířů bylo využito lineární agregace, geometrické agregace a vícekriteriální rozhodovací metody. Agregace pilířů je vypočtena pomocí vícekriteriální rozhodovací metody v podobě Condorcetova přístupu. Všechny použité přístupy se liší v pojetí možností substituce/kompenzace vstupujících proměnných. Indikátory použité pro analýzu vychází z analýz udržitelného rozvoje na regionální úrovni provedených Českým statistickým úřadem. Závěry obsahují diskuzi nad výsledky vytvořeného pořadí regionů. Key words: composite indicators, sustainable development, methods of aggregation, regional comparison Kľúčové slová: kompozitní indikátory, udržitelný rozvoj, metody agregace, regionální srovnání JEL classification: Q01, Q56, R11 1. Úvod Pojem udržitelný rozvoj nás intenzivně obklopuje již několik desítek let. Udržitelný rozvoj dnes prostupuje vědeckými disciplínami a politickými a právními dokumenty nejen v Evropě, ale po celém světě. Nalezení zcela vhodných indikátorů je velmi těžko proveditelné. Každopádně připustíme-li vůbec možnost zachycení takto z teoretické stránky složitých jevů, bude se jednat o kompromis mezi technickou proveditelností, veřejnou dostupností a konzistencí (Ciegis, a další, 2009). Nejen pro potřeby rozhodování, ale i pro veřejnost je vhodné, mít k dispozici, vedle podrobných informací podávaných rozsáhlými sadami indikátorů, nástroj umožňující rychlou orientaci v problematice. Tento úkol mohou plnit souhrnné indikátory, které zaznamenaly v posledních letech na mezinárodním poli velký rozkvět. Při jejich konstrukci bývá užíváno dvoustupňové agregace, kdy nejprve dochází k agregaci pilířů udržitelného rozvoje a až posléze k agregaci do jednoho indexu. K přednostem agregace velkého množství indikátorů patří schopnost sumarizovat vícerozměrné pohledy či usnadnit interpretaci trendu, kterou je obtížné vymezit z více oddělených indikátorů (Czesaný, 2006). Konstrukce těchto indikátorů s sebou ale nese i nevýhody, k nimž patří nebezpečí zjednodušování závěrů. Problematické je i stanovení okruhu indikátorů vstupujících do agregace, stanovení vah a samotného agregačního

126 124 FORUM STATISTICUM SLOVACUM 6/2015 mechanismu. Tyto oblasti jsou závislé na tvůrci indexu a mohou ovlivnit výsledné pořadí porovnávaných zemí či regionů. (Hudrlíková, 2013) V oblasti udržitelného rozvoje může kompozitní index zanedbávat nebo zamaskovávat vážné ekologické problémy a ztížit tak hledání vhodného opatření (Kates, a další, 2005). V tomto příspěvku bude ukázán rozdíl ve výsledcích při použití tří metod agregace, a to na kompozitním indikátoru udržitelného rozvoje pro kraje České republiky. 2. Data V České republice bylo provedeno porovnání udržitelného rozvoje jednotlivých krajů na základě jednotné indikátorové sady Českým statistickým úřadem v letech 2007 a následně 2010 (Český statistický úřad, 2010). Použité indikátory pocházely z národní Strategie udržitelného rozvoje z roku 2004 (Rada vlády pro udržitelný rozvoj, 2004) a ze Situační zprávy ke Strategickému rámci udržitelného rozvoje ČR (Rada vlády pro udržitelný rozvoj, 2012). Ne všechny indikátory zjišťované a vyhodnocované na celostátní úrovni je však možné zjišťovat na úrovni NUTS 3, neboť pro ně nejsou k dispozici vhodná data na úrovni krajů. Z tohoto důvodu provedl ČSÚ národní indikátorové sady. V návaznosti na práci Českého statistického úřadu byl sestaven na Vysoké škole ekonomické v Praze agregovaný indikátor pro kraje České republiky (Fischer, a další, 2013). Při výběru dat byla dodržována zásada, aby data pro výpočet indikátorů byla získána z pravidelných statistických zjišťování či jiných zdrojů, poskytujících pravidelně hodnověrné údaje v časové řadě. I přes tyto snahy je těžké sadu každoročně naplňovat novými daty. Z těchto důvodů provedl kolektiv pod vedení doc. Fischera další úpravy sady. Výsledkem je 36 indikátorů ve třech pilířích. Nevýhodou je nízký počet pozorování daný využitím krajské úrovně, který znesnadňuje využití statistických metod pro potřeby další analýzy. 3. Metody Ukazatele nejsou vyjádřeny ve stejných měrných jednotkách a je tedy třeba nejdříve provést normalizaci dat. Normalizace dat v neposlední řadě také pomáhá s nastavením směru závislostí. Indikátory byly převedeny do směru vyšší hodnota, lepší pořadí, a to pomocí minmax normalizace. Nevýhoda této metody normalizace je, že pokud vstupní data obsahují výrazně větší nebo výrazně menší hodnoty než je velikost střední hodnoty zbývajících dat, dojde k nevyužití velké většiny rozsahu. Protože není důvod předpokládat, že jeden z pilířů (či ukazatelů) je významnější než další, bylo využito rovných vah. Navíc názor na důsledky korelace mezi jednotlivými ukazateli nemusí být jednotný, jak detailněji rozvádí například Saltelli (2012). Korelace mezi ukazateli byla prozkoumána a bylo ověřeno, že není tvořena nadbytečností ukazatele či více ukazatelů. Na základě teorie o udržitelném rozvoji jsem zvolila dvojstupňovou agregaci. V prvém kroku byla provedena agregace v rámci pilířů. Ty pak byly agregovány v kroku druhém. Základní otázkou u agregačních metod je možnost kompenzace mezi ukazateli což znamená substituci nízké hodnoty jednoho ukazatele dostatečně vysokou hodnotou jiného ukazatele. Pro srovnání výsledného skóre pilířů udržitelného rozvoje byly využity tři metody lišící se právě stupněm kompenzace ukazatelů. U lineární agregace pomocí aritmetického průměru je možnost kompenzace konstantní. Geometrickou agregaci lze řadit k částečně kompenzačním metodám. Nekompenzační přístup je zde zastoupen Condorcetovou metodou odvozenou z teorie vícekriteriálního porovnání. Lineární metoda je nejčastěji užívaná z důvodu snadné srozumitelnosti a jednoduché interpretace. Plná kompenzovatelnost lineární metody může někdy vyvolat sporné otázky v odůvodnění jejího využití. Kompenzovatelnost na jednu stranu pomáhá vyrovnávat rozdíly regionů v hlediscích geografických, kulturních či přírodních, které by neměly regionální

127 FORUM STATISTICUM SLOVACUM 6/ srovnání zatěžovat. Na druhou stranu by však indikátory měly být vybrány tak, aby velmi špatné umístění nebylo způsobeno jen neovlivnitelnými podmínkami regionu, ale svědčilo o jeho horším stavu či vývoji v dané problematice v porovnání s regiony ostatními. Příkladem mohou být Environmental Performance Index (Hsu a kol., 2013) či Environmental Sustainability Index (Esty a kol., 2008). Geometrická agregace umožňuje ve srovnání s některými metodami odvozenými z teorie vícekriteriálního rozhodování nižší stupeň kompenzace. Kompenzovatelnost je zde však stále umožněna. Její stupeň ale není konstantní, a metoda je proto výhodná především pro jednotky s vysokými hodnotami ukazatelů, jejichž výsledné umístění může být při použití této metody ve srovnání s lineární agregací lepší (Lutero, 2010). Geometrická agregace je využita například při výpočtu Human Development Index (United Nations Development Programme, 2014). Condorcetovo pravidlo vychází z nelineárního porovnání a vyznačuje se nemožností substituce mezi ukazateli. V takovém případě váhy vyjadřují míru důležitosti daného dílčího ukazatele. Condorcetův přístup je založen na párových porovnáních mezi všemi uvažovanými jednotkami. Condorcet formuloval závěr, že pokud existuje jednotka, jež získá prostou většinu nad ostatními jednotkami v párovém porovnání, pak tato jednotka má být první. Nevýhoda Condorcetova přístupu spočívá v možné tvorbě cyklů, nazývaných Condorcetův efekt. K tomu dochází v případě, kdy hodnocení vstupujících ukazatelů je tranzitivní, ale agregovaný ukazatel nikoliv. V tomto případě vede Condorcetovo pravidlo k nejednoznačnému pořadí (Munda, 2008). O odstranění tohoto nedostatku se snaží více metod, mezi které patří například Copelandova metoda. Copelandova metoda (Saisana a kol., 2002) upravuje Condorcetovu metodu pomocí snížení počtu vítězství jednotky při párových porovnáních o počet porovnání, které vedou k prohře dané jednotky. Pro agregaci pilířů je lineární metoda zcela nevhodná, zde byla použita metoda vycházející z teorie více kriteriálního rozhodování (Petkovová a kol., 2013). Vansnick (1990) prokázal, že Condorcetova teorie volby je nekompenzační ve smyslu nemožnosti nahrazení jedné nízké hodnoty ukazatele dostatečně velkou hodnotou jiného ukazatele. Condorcet přináší nelineární porovnání, což implikuje nemožnost substituce mezi ukazateli. V takovém případě váhy vyjadřují míru důležitosti daného dílčího ukazatele. Z tohoto důvodu je právě Condorcetův přístup či některá z jeho modifikací přijímána jako vhodný nástroj pro agregaci subindexů do jednoho kompozitního ukazatele. Data pro všech 36 indikátorů byla získána pro roky 2006, 2008 a Pro tyto roky byl vypočten kompozitní indikátor na základě výše popsaného postupu. To znamená, že v prvém stupni agregace byly použity 3 výše popsané metody agregace, v druhém stupni pak Condorcetův přístup. Získané výsledky nám umožňují srovnání regionů v prostoru na ordinální stupnici, ale i vysledování změn a posunu po této stupnici v období let 2006 až 2010, a to jak na úrovni celého kompozitního indikátoru, tak ale i po prvním stupni agregace, což znamená pro jednotlivé pilíře udržitelného rozvoje 4. Výsledky Dvoustupňová agregace nám dovoluje porovnat výsledky i v rámci jednotlivých pilířů udržitelného rozvoje. Tabulka 1 ukazuje výsledky pro ekonomický pilíř pro roky 2006, 2008 a Z výsledků je patrné, že většina krajů kolísala ve svém umístění pouze o jednu či dvě příčky. Není překvapivé, že vedoucí pozice obsazovaly po celou tuto dobu kraje Hl. m. Praha, Středočeský a Jihomoravský. Hl. m. Praha a Jihomoravský kraj jsou zastoupeny dvěma největšími centry v republice a zastávají proto důležitou ekonomickou roli pro celou zemi. Středočeský kraj je pak zázemím hlavního města. Trochu překvapivý je v tomto ohledu propad kraje Plzeňského. Ten je dán především dramatickým poklesem produktivity práce a míry investic. V roce 2010 se na horším umístění podílel i deficit veřejných zdrojů. Své umístění si

128 126 FORUM STATISTICUM SLOVACUM 6/2015 postupně zhoršoval i kraj Pardubický. Naopak ke zlepšení došlo u krajů Moravskoslezského a Olomouckého. Tab. 1: Ekonomický pilíř Region Aritmetický průměr Geometrický průměr Copelandovo pravidlo PHA STC JHC PLZ KVA UST LIB KHR PAR VYS JHM OLM ZLN MRS Rozdíl mezi pořadím na základě lineární a geometrické agregace lze pozorovat především u kraje PHA v roce 2008 a dále pak ve ZLN v letech 2006 a Zlínský kraj dosáhl v letech 2006 a 2008 výborného výsledku v růstu HDP a produktivitě práci, naopak úroveň hrubé přidané hodnoty, míry investic a dopravních indikátorech byla obdobně jako u Hl. města Prahy velmi nízká. Tato volatilita způsobila horší umístění v případě geometrické agregace. Zajímavým výsledek podává Copelandova metoda. Zatímco geometrická agregace uvrhla Hl. m. Praha na 5. příčku, tato vícekriteriální rozhodovací metoda ho vynesla na příčku 3. Ačkoliv geometrická agregace zhoršila umístění tohoto kraje z důvodu velké variability výsledků indikátorů v rámci pilíře, dosáhl kraj co do počtu výher většiny nad nemalou množinou skupinou krajů. Výhry však byly v tomto případě velmi těsné, a to v podobě jednoho či dvou indikátorů. Mnohem větší rozdíly již ale vznikají při použití Copelandovi metody. Nejvíce lze tyto rozdíly sledovat ve Zlínském kraji v roce Tato metoda je založena na pořadích, což v tomto případě způsobilo vyšší umístění. Zlínský kraj dosáhl v porovnání se 4 jinými kraji těsné výhry (lepší výsledek v 7 indikátorech z 12), což způsobilo tak velký rozdíl ve srovnání s geometrickou agregací. Srovnání krajů v rámci sociálního pilíře je v tabulce 2. Nejlepšího umístění dosahují v rámci sociálního pilíře kraje Hl. m. Praha, Plzeňský a Královehradecký. Po celé sledované období docházelo k zhoršování výsledků v rámci kraje Pardubického. Tento pokles v umístění byl způsoben nárůstem nezaměstnanosti, poklesem výdajů na kulturu a zhoršením úmrtnostních poměrů. Sociální pilíř vykazuje menší rozdíly mezi zvolenými metodami agregace. Větší rozdíl v umístění nastal pouze v krajích Pardubice (2006) a Vysočina (2008). Pardubice dosáhly v roce 2006 velmi dobrého umístění v indikátorech politické participace, které vedly k lepším výsledkům lineární agregace. Vysočina je krajem, který v některých oblastech zcela vyniká (občanská participace, úmrtnostní poměry, střední délka života atd.) na druhou stranu

129 FORUM STATISTICUM SLOVACUM 6/ se potýká s nejnižšími výdaji na kulturu či nízkým počtem obyvatel s připojením na internet. Tato rozpolcenost kraje vytváří rozdíl mezi lineární a geometrickou agregací. Tab. 2: Sociální pilíř Region Aritmetický průměr Geometrický průměr Copelandovo pravidlo PHA STC JHC PLZ KVA UST LIB KHR PAR VYS JHM OLM ZLN MRS Copelandova metoda již zde nepřináší tak velké rozdíly v hodnocení krajů v porovnání s ekonomickým pilířem. Největší rozdíl lze sledovat u Jihočeského kraje v roce 2006, kde se jedná o rozdíl 4 míst ve srovnání s geometrickou agregací. Obdobně jako u ekonomického pilíře, je i zde tento kraj ve 4 případech jen o jeden či dva indikátory lepší než alternativní porovnávaný kraj, což vede k lepšímu výsledku než geometrická agregace. Tab. 3: Environmentální pilíř Region Aritmetický průměr Geometrický průměr Copelandovo pravidlo PHA STC JHC PLZ KVA UST LIB KHR PAR VYS JHM OLM ZLN MRS

130 128 FORUM STATISTICUM SLOVACUM 6/2015 Výsledná skóre environmentálního pilíře pro zvolené roky a metody agregace lze vidět v tabulce 3. Na předním místě se zcela shodně napříč všemi roky i metodami usadil Liberecký kraj. Po něm pak následují kraje Karlovarský a Zlínský. Na opačném konci lze naopak sledovat kraj Hl. m. Praha a Středočeský kraj. Špatných výsledků však dosáhl i kraj Moravskoslezský. Na základě Copelandova pravidla si však své postavení v letech 2008 a 2010 velmi vylepšil. Opět je důvodem těsný počet výher a velký počet remíz. Obdobně je tomu i kraje hl. m. Praha, jež v roce 2010 vykazuje v porovnání s ostatními kraji vítezství ve stejném počtu indikátorů nebo o jeden vítězí. Tab. 4: Rozpětí pořadí vypočtených na základě zvolených metod v prvním stupni agregace Region ECO SOC ENV ECO SOC ENV ECO SOC ENV PHA STC JHC PLZ KVA UST LIB KHR PAR VYS JHM OLM ZLN MRS Všechny tři metody ale ukazují na postupné zlepšování postavení Plzeňského a Ústeckého kraje. V prvním případě došlo především k snížení produkce odpadů a podílu oblastí se zhoršenou kvalitou ovzduší. V případě Ústeckého kraje se na zlepšení podílí z největší části zvýšení neinvestičních nákladů, ale také indikátory ukazující snižování emisí. Naopak k znatelnému zhoršování docházelo v Pardubickém kraji, a to z důvodu zvyšování spotřeby průmyslových hnojiv a zhoršení hodnot indikátorů hodnotících ovzduší v porovnání ostatními krajům. Srovnání rozpětí výsledků všech tří metod v jednotlivých pilířích a letech nabízí tabulka 4. Na základě této tabulky i hodnocení jednotlivých pilířů lze dobře pozorovat, že největší rozdíly jsou u pilířů ekonomického a environmentálního. Naopak sociální pilíř nevykazuje větší volatilitu výsledků. Indikátory v tomto pilíři jsou mnohem více korelované a vypovídají ve srovnání se dvěma zbylými pilíři spíše o jednom komplexním celku. Nedochází zde proto k tak značným rozdílům mezi metodami lišícími se v míře povolené kompenzace. Výsledný indikátor byl propočten na základě Condorcetova pravidla. Propočet byl proveden pouze z výsledků pocházejících z výpočtů lineární a geometrické agregace v prvním stupni. Použití této metody na výsledky Copelandovi metody v prvním stupni agregace by vedl k velkému počtu stejných pořadí ve stupni druhém. Vypočtené pořadí (tabulka 5) odpovídá výše diskutovaným výsledkům a jejich rozdílům v rámci jednotlivých pilířů. Dobrých výsledků dosáhly kraje Hl. m. Praha a Jihomoravský kraj, naopak Moravskoslezský kraj se se umístil na poslední příčce. Pro tyto kraje je charakteristické, že dosáhly velmi podobných výsledků (velmi dobrého umístění či naopak velmi špatného umístěni) ve dvou pilířích a zcela opačného výsledku v pilíři třetím.

131 FORUM STATISTICUM SLOVACUM 6/ Specifickým krajem je Hl. m. Praha. Tento kraj je vymezen hranicemi města a je centrem jak vládních, tak ale i mnoha vzdělávacích institucí a obchodních společností. Ekonomická síla a vysoce kvalifikované pracovní síly navázaní na centrální státní úřady či vědecko-výzkumná a vzdělávací pracoviště jsou hlavním důvodem předního umístění v ekonomickém a sociálním pilíři. Naopak absence ploch zemědělského a přírodního charakteru (toto přirozené zázemí města spadá administrativně již do Středočeského kraje) způsobuje umístění tohoto regionu na poslední příčce v pilíři environmentálním. V určité míře lze spatřovat podobnost v umístění v prvních dvou pilířích i u Jihomoravského kraje, jehož správním centrem je město Brno. Byť v porovnání s Prahou je Brno centrem spíše regionálního významu. Podobnost pak rozhodně není u umístění ve třetím pilíři, neboť území tohoto kraje nezahrnuje pouze samotné město (jako je tomu v případě Prahy), ale též přírodně velmi rozmanité regiony jižní Moravy. Moravskoslezský kraj dosáhl nadprůměrných výsledků v ekonomickém pilíři, jeho skóre ve zbývajících dvou oblastech je však jedno z nejhorších. Tab. 5: Index udržitelného rozvoje Condorcetova metoda Region Aritmetický průměr Geometrický průměr ECO SOC ENV ECO SOC ENV PHA STC JHC PLZ KVA UST LIB KHR PAR VYS JHM OLM ZLN MRS Velmi špatného hodnocení dosáhl i kraj Ústecký. Oba kraje již dlouhodobě patří mezi problémové regiony České republiky. V oblasti ekonomické a sociální to je způsobeno výrazným útlumem těžkého a těžebního průmyslu po roce 1990 a s tím spojeným zhoršením sociální situace obyvatel. Z hlediska životního prostředí pak jsou v obou krajích rozsáhlá území, velmi silně poškozena právě těžbou uhlí a na ni navázanou výrobou elektrické energie a v případě Moravskoslezského kraje též hutnictvím a ocelářstvím. 5. Závěr V příspěvku jsme srovnávala různé metody agregace, mezi něž patří lineární, geometrická a metody vícekriteriálního rozhodování. Pomocí těchto metod jsem vytvořila pořadí regionů České republiky na úrovni NUTS 3 v oblasti udržitelného rozvoje, resp. jeho pilířů. Metody zde používané se liší svým přístupem ke kompenzaci agregovaných ukazatelů. Vytvořená pořadí vykazují rozdíly, nicméně jejich vývoj v čase (i když zde použité časové období je z důvodu dostupnosti dat velmi krátké) je shodný na základě všech použitých metod. Lze tedy říci, že na jejich základě je možné usuzovat na vedoucí či naopak zaostávající regiony. Větší rozdíly můžeme pozorovat především u ekonomického a environmentálního pilíře, kde je velmi nízká vzájemná korelace mezi hodnocenými ukazateli. To vede k rozdílnému vývoji

132 130 FORUM STATISTICUM SLOVACUM 6/2015 pouze u omezeného počtu ukazatelů, či dokonce k protisměrným vývojům skupin ukazatelů uvnitř jednoho pilíře, a tedy i větší variabilitě. Tato variabilita je pak zdrojem rozdílů mezi metodami lišícími se svým přístupem ke kompenzaci. Zároveň se zde projevuje rozdíl v pojetí vícerozměrných rozhodovacích metod závislých pouze na pořadí a nikoliv na původních hodnotách. Tento odstup od variability dat způsobuje větší rozdíly výsledků ve srovnání s dvěma zbývajícími metodami. Velmi se zde projevila závislost na volbě indikátorů, neboť rozdíl byl dán především velmi těsnými výhrami či dokonce remízami. Je tedy možné, že změna či odebrání jediného indikátoru by mělo velký dopad na výsledné pořadí určené touto metodou. To lze hodnotit jako nevýhodu v jejím použití. Rozhodnutí o agregačním mechanismu by mělo vycházet z věcné podstaty hodnocené problematiky a výběru ukazatelů. Použití kompenzační metody znamená připuštění nerovnoměrných výsledků v souboru sledovaných ukazatelů. Na druhé straně volba plně nekompenzační metody, která zde byla reprezentována Condorcetovou metodou v úpravě Copelanda, znamená zcela odlišné pojetí problému v podobě odhlédnutí od variační struktury dat a sledování pouze pořadí, které může oproti jiným metodám zvýhodňovat jednotky, jejichž výsledky můžou být často jen slabě lepší či stejné v porovnání s jednotkami zbylými. Výsledky také ukazují na důležitost ekonomické prosperity, která v případě České republiky jde často ruku v ruce se sociální stabilitou. Následkem propojení sociální a ekonomické oblasti je však mírné potlačení vlivu environmentálního pilíře. Tento fakt lze spatřovat jak na pozicích vedoucích regionů (např. Hl. m. Praha), tak ale i na zcela opačném konci žebříčku v Ústeckém kraji. Otázkou tedy je, zda nejčastěji používaná metoda lineární agregace má vždy své opodstatnění ve věcné stránce problematiky a zda odpovídá původnímu záměru tvůrců agregovaného indikátoru. Jeho nespornou výhodou je jednoduchost, na druhou stranu jej nelze považovat za všeobecně použitelnou metodu a při tvorbě obdobných indikátorů je vhodné uvažovat pro agregaci dílčích indikátorů i metody, které kompenzaci zcela neumožňují. Literatura ČESKÝ STATISTICKÝ ÚŘAD Vybrané oblasti udržitelného rozvoje v krajích České republiky. Praha: Český statistický úřad, Dostupný z: CZESANÝ, S Indikátory udržitelného rozvoje. Statistika č. 5, pp ESTY, D. C., LEVY, K. C., DE SHERBININ, A., SREBOTNJAK, T., MARA, V Environmental Performance Index. New Haven: Yale Center for Environmental Law and Policy, FISCHER, J., a další Sistainable Development Indicators at the Regional Level in the Czech Republic. Statistika č. 1, pp HSU, A., JOHNSON, L. A. A LLOYD, A Measuring Progress: A Practical Guide From the Developers of the Environmental Performance Index (EPI). New Haven : Yale Center for Environmental Law & Policy, HUDRLÍKOVÁ, L Composite Indicators as a Useful Tool for International Comparison: The Europe 2020 Example. Prague economic papers Vol. 22, No. 4, pp ISSN KATES, R., PARRIS, T. M. A LEISEROWITZ, A. A What is Sustainable Development: Goals, Indicators, Values, and Practice. Environment: Science and Policy for Sustainable Development Vol. 47, No. 3, pp

133 FORUM STATISTICUM SLOVACUM 6/ LUTERO, G The aggregation problem in its hystorical perspective: a summary overview. Methods development of quarterly national accounts. ISTAT, National Accounts Directorate, MUNDA, G Social Multi-Criteria Evaluation for a Sustainable Economy. Springer- Verlag Berlin Heidelberg, ISBN PETKOVOVÁ, L. A HUDRLÍKOVÁ, L Využití vícekriteriálních rozhodovacích metod v regionální analýze udržitelného rozvoje. FORUM STATISTICUM SLOVACUM No. 7, pp RADA VLÁDY PRO UDRŽITELNÝ ROZVOJ Situační zpráva ke Strategickému rámci udržitelného rozvoje ČR, Praha: Ministerstvo životního prostředí. Praha : Ministerstvo životního prostředí, ISBN RADA VLÁDY PRO UDRŽITELNÝ ROZVOJ Strategie udržitelného rozvoje ČR. Praha: Úřad vlády ČR, SAISANA, M., TARANTOLA, S State-of-the-art report on current methodologies and practices for composite indicator development. European Commission : Joint Research Centre, Institute for the Protection and the Security of the Citizen, Technological and Economic Risk Management Unit, EUR EN Report. SALTELLI, A Composite Indicators: An Introduction Paper presented at the 10th JRC Annual Seminar on Composite Indicators. UNITED NATIONS DEVELOPMENT PROGRAMME Human Development Report New York: United Nations Development Programme, 2014, s ISBN VANSNICK, J. C Measurement Theory and Decision Aid. [autor knihy] C.A. Bana e Costa. Readings in Multiple Criteria Decision Aid. Springer Berlin Heidelberg, pp , ISBN Adresa autora (-ov): Ludmila Petkovová, Ing. Katedra ekonomické statistiky Fakulta informatiky a statistiky VŠE v Praze Nám. W. Churchilla 4, Praha 3 [email protected] Tento příspěvek vznikl v rámci projektu Vysoké školy ekonomické v Praze č. 55/2014 Analýza vlivu dotací na výkonnost ekonomických subjektů.

134 132 FORUM STATISTICUM SLOVACUM 6/2015 Fuzzy shlukování a bayesovský přístup k modelování nezaměstnanosti v České republice Fuzzy clustering and Bayesian approach to the modelling of unemployment in the Czech Republic Elena Říhová, Tomáš Karel, Petr Marek, Ivana Malá Abstract: Unemployment is an economic and social problem in all developed economies. It is influenced by the business cycle and particular economic situation, as well as labour market policy and demographic development. That implies the unemployment rate, short and long-term unemployment and the chances of finding a new job. In the study, data obtained from the Labour Force Sample Survey held in the Czech Republic in 2014 is used to model chances of finding a new job. Using fuzzy clustering two subgroups of the unemployed are constructed with respect to the chances of finding a new job. Bayesian estimation method is proposed to model probability of finding a new job for specific subgroups of the unemployed people. This approach is reasonable for small datasets with useful external information. Beta distribution is used as both prior and posterior probability distribution. Abstrakt: Nezaměstnanost je nejen ekonomickým, ale také sociálním problémem rozvinutých ekonomik. Není ovlivněna jen hospodářským cyklem, ale také hospodářská politika a demografický vývoj ovlivňují míru nezaměstnanosti, krátkodobou i dlouhodobou nezaměstnanost a také pravděpodobnost nalézt práci. V textu je použito fuzzy shlukování pro rozdělení nezaměstnaných do dvou skupin podle šance nalézt práci. Bayesovský přístup je použit k odhadu pravděpodobnosti nalézt práci pro různé skupiny nezaměstnaných. Tento přístup je užitečný pro využití vedlejší informace v případě malých výběrů. Rozdělení beta bylo použito jako apriorní i posteriorní rozdělení. Key words: Unemployment, Bayesian model, Fuzzy clustering Kľúčové slová: nezaměstnanost, bayesovský model, fuzzy shlukování JEL classification: C38, J64, C52 1. Introduction The problem of unemployment is considered to be one of the most serious problems in the European Union. The unemployment rate is the most widely used indicator on labour market. Not only the rate, but also the duration of unemployment is the focus of authorities, professionals and public. The problem affects not only the economic health of countries, but it also has an impact on the quality of life and mental or physical health of inhabitants. From an economic perspective, unemployment may be viewed as unused labour capacity (Eurostat, 2015). The duration of unemployment is rather non-homogenous with strong influence of characteristics as gender, education level, region of residence etc. For this reason various indicators for the whole population do not explain a lot about unemployment. It is very important to use a more detailed approach, such as considering subgroups of the unemployed defined by different demographic or other personal characteristics. For the evaluation of unemployment rate people with both short-term (for instance, those who only want to change their work) and long-term unemployment are included, however the long-term unemployment rate is also used and regularly presented. In the article individual data from the Labour Force Sample Survey (LFSS), that is performed quarterly by the Czech Statistical Office (CZSO, 2015), are analysed. Five

135 FORUM STATISTICUM SLOVACUM 6/ consecutive quarters (from the 4 th quarter 2013 to the 4 th quarter 2014) are used and all the unemployed people were included in the study. The problem of finding groups of unemployed people with good and bad perspectives is handled and the main features of these subsets (clusters, as cluster analysis is used) are identified. The goal of such analysis is to find unemployed people who should be offered financing retraining courses or other assistance. The use of fuzzy clustering is proposed to solve this problem. The chance to find a new job is of interest and it is quantified as a probability of reemployment. Although we work with large sample of the unemployed, in case of working with specific groups of people (given for example by gender, age and region) number of observations in such subsets is small or even empty subsets are present. For statistical inference based on very small samples, different Bayesian methods can be applied. The lack of data can be overcome with the use of external information (as a prior density for probability to be estimated). In the problem of unemployment, information based on people with similar age and place of living (and the same gender) was used, as (CZSO, 2015) gender, region of living or age influence strongly duration of unemployment as well as reemployment probability. All these explanatory variables needed for the construction of the prior density are included in the LFSS survey. Using of external information for the estimation of parameters enables one to reduce the variability of estimates. Posterior density of estimated parameter then utilizes prior (external) information and information included in the dataset of interest. 2. Fuzzy clustering and Bayes estimation Clustering has become a widely accepted synonym of a broad array of activities of exploratory data analysis and model development in science, engineering, life sciences, business and economics, biological and medical disciplines (Oliveira, 2007). Clustering techniques can be used to organize data (numerical, categorical, or a mixture of both) into groups based on similarities among the individual data items. In other words, clustering techniques is a tool for discovering hidden structure in a data set. There are two types of clustering: hard (classical) and fuzzy clustering. In the classical hard clustering, each data point x i in the data set of the size n, X x x belongs to one of J clusters. In case of the 1,..., n fuzzy clustering, every data point x i is assigned to all clusters, but with different membership degree. This membership degree expresses how ambiguously or definitely the data point should belong to the cluster (Höppner & all, 1999). Fuzzy clustering include many algorithms, the most accurate and frequently used is fuzzy C-means clustering (Höppner & all, 1999). The main advantage of fuzzy C-means (FCM) clustering is that it allows gradual memberships of data points to clusters measured as degrees in [0,1]. This gives the flexibility to express chance that the data points can belong to more than one cluster. FCM attempts to find the most characteristic point in each cluster, which can be considered as the centroid of the cluster and the grade of membership for each object in the clusters. However, there is another question how to determine an optional number of clusters? To solve this problem, the cluster validity indices are used. There are many cluster validity indices that have been proposed in the literature for evaluating number of FCM clusters. In the current research we will use PC (Dunn, 1974), XB (Xie, Beni, 1991) and E (Makhalova, 2015) indices. The maximum value of PC and XB indices and the minimum value of E correspond with the best fuzzy partition (indicate the optional number of clusters). Let be the probability of finding a new job in the analysed year. This quantity is allowed to have a value anywhere in the interval between 0 and 1. We use a continuous beta-

136 134 FORUM STATISTICUM SLOVACUM 6/2015 curve to model this parameter (or prior beta distribution). The beta-curve depends on two scale parameters, a and b, and Bayesians usually use this beta-curve for the modelling of distribution of probabilities because of its suitable sample space and flexible shape (Albert, 2001). The prior probability distribution was based on our external information. If we use a beta curve for prior density betaa; b, the posterior density could be modeled also by betacurve. In this case no numeric procedure is necessar, the prior parameters are updated using the information from the specific (usually small) dataset (Bolstadt, 2007). The traditional Bayesian formula to find the posterior probability density of the parameter posterior prior likelihood was used. Values are given in the tables. Expected value of posterior distribution is used as the Bayesian estimator of the probability of reemployment. All calculations were done in MATLAB and R (R Core Team. 2015). 3. Results Unemployment rates in the Czech Republic in five analysed quarters (according to CZSO, 2015) were 6.7 %, 6.8 %, 5.9 % and 5.7 %, these values reflect economic recovery after the crisis and associated improvement on the labour market. There were 4,409 unemployed people in the analysed dataset, out of them 1,078 (24.4 %) found a new job. The fuzzy C-means clustering was applied using number of members of a household, age and unemployment duration. The fuzzy C-means clustering was applied with Euclidean distance as a distance between points. As Bezdek stated (Bezdek, 1981), selected measure of distance in fuzzy C-means clustering do not influence the accuracy of the results. Using chosen variables we obtained results of fuzzy C-means clustering given in Table 1. Tab. 1 Number of clusters estimated by validity indices number of clusters PC XB E Source: Own calculations From Table 1 we can see that the optimal number of clusters is 2 (based on all three indices). To give a detail account of obtained results can be ascertain, which objects are assigned to these clusters. The first cluster can be referred as hopelessly unemployed. To this group the fuzzy clustering process assigned young people without high school education with unemployment length of more than 18 months, and older people (more than 45 years old) with unemployment duration longer than 18 months. The second cluster can be explained as unemployed, but hopeful. Young people with high school education with unemployment shorter than 18 months were assigned in this cluster. For the interpretation of clusters, the education level is crucial, although this variable was not used in the clustering procedure, as it is the qualitative variable and in C-means procedures only quantitative variables can be used. If we model the density of the parameter (probability of finding a new job for specific group of unemployed persons in the analysed year), the most important and common problem

137 FORUM STATISTICUM SLOVACUM 6/ in this modelling is the lack of data. It means that if we are modelling the probability that 23 years old high school educated man is able to find a new job, there are usually not enough relevant observations in our sample. It looks reasonable to solve this problem using the Bayesian approach, that is well useable in models where we don t have enough observations for using the classical (frequentist) statistical approach. Making inferences from the small dataset (if just a few observations is available as in our problem) doesn t make sense from the frequentist point of view. In Bayesian approach we can use external information in order to construct a prior density for estimated parameter. In the case of the 23 years old man we collect observations of men of the neighbouring ages (21-23) in the same region of living. The process is illustrated by two examples: estimation of probabilities of finding a new job (in analysed year) for 23 years old man with secondary education from the town of Semily (Liberecký kraj, NUTS3 CZ051) and for a 36 years old woman with high school education living in Karlovy Vary (NUTS3 CZ041 Karlovarský kraj). There are only 4 unemployed men at the age of 23 from Semily in the sample. If the prior information is derived from all male respondents from the whole Liberecký kraj region and from neighbouring ages (21-23 years) we obtain 15 observations. Source: Own calculations Fig 1. Probability distribution of probability of reemployment (man 23 years, living in Semily) The prior density, likelihood and posterior density are presented on Figure 1. We can see how the information contained in external dataset moves the expected value to a higher value (the difference equals 0.021) and reduces the variability of the estimated probability. The high variability of estimated probability is caused by small number of observations in the specific dataset (despite the use of Bayesian estimate). Tab 2. Comparison of prior and posterior distribution of estimated probability Expected value Std. deviation Prior distribution Likelihood Posterior distribution Source: Own calculations If we are interested in the probability of reemployment of a 36 years old woman with high school education living in Karlovy Vary, we have 3 observations in our sample. The

138 136 FORUM STATISTICUM SLOVACUM 6/2015 prior density of can be modelled using all (only 10) female unemployed from the region Karlovarský kraj with neighboring ages (35 38). Source: Own calculations Fig 2. Probability distribution of probability of reemployment (woman 36 years, living in Karlovy Vary) In Figure 2 the prior density (based on the external dataset), likelihood and posterior density of estimated probability for this specific group of unemployed persons are displayed. The prior probability of finding a new job has increased noticeably by 0.8, its standard deviation decreased (as seen in Table 3). Tab 3. Comparison of prior and posterior densities of estimated probability Expected value Standard deviation Prior distribution Likelihood Posterior distribution Source: Own calculations 4. Conclusion Fuzzy clustering and Bayesian approach to estimation was used to model the distribution of probability of finding a job, based on the data from LFSS survey in the Czech Republic in Unemployed people in 5 consecutive quarters from the sample were divided into two groups with the use of fuzzy C-means. Two clusters were selected as optimal division by three indices. These clusters can be described as hopefully and hopelessly unemployed. Members of the former group are expected to have a good perspective on the labour market, while the members of the latter might be unemployed for a long time and have a serious problem to find a new job. Young unemployed people with high school education with unemployment spell shorter than 18 months were assigned into the first group; older, less educated and people with unemployment spell longer than 18 months were assigned to the second group. Education, as a qualitative variable, was not included in the set of explanatory variables used in fuzzy clustering procedure, but the resulting clusters copy well the division according to education (to low level and high level of education). The non-homogenous population of unemployed people should be studied in more homogenous subgroups. But in the case of division into subgroups the problems of small data subsets occur. We propose a Bayesian approach to overcome this problem of insufficient number of observation in our specific group of unemployed persons in the survey. The method of estimation of probability of reemployment during analysed year was introduced. External information about similar

139 FORUM STATISTICUM SLOVACUM 6/ observations was used as a prior density in order to reduce the variability of the estimator. Consequently, the posterior density contains information from the external dataset and information obtained in the specific dataset. Acknowledgment This paper was created with the help of the Internal Grant Agency of University of Economics in Prague No. IG under the title The period of unemployment after the crisis. References [1] ALBERT, J. H. ROSSMAN. A. J Workshop Statistics: Discovery with Data, a Bayesian Approach. KeyCollege. [2] BEZDEK, J.C Pattern Recognition With Fuzzy Objective Function Algorithms. Plenium Press. New York. [3] BOLSTADT, W. M Introduction to Bayesian Statistics. John Wiley & Sons, London. [4] CZSO Czech Statistical Office. [5] DUNN, J.C A Fuzzy Relative of the ISODATA Process and its Use in Detecting Compact, Well-separated Clusters. In: J. Cybernet, s [6] EUROSTAT [7] GRANGER, C.W. NEWBOLD, P Spurious Regression in Econometrics. In: Journal of Econometrics, s [8] HOPPNER, F. KLAWONN, F. KRUSE, R. AND RUNKLER, T Fuzzy Cluster Analysis. John Wiley & Sons, New York. [9] KRUSE, R. DORING, C. LESOT, M.-J Advances in Fuzzy Clustering and its Applications, Chapter: Fundamentals of Fuzzy Clustering. John Wiley & Sons, London. [10] MAKHALOVA, E The Fuzzy Clustering Problems and Possible Solutions. In: The 9th International Days of Statistics and Economics (MSED 2015). [online] Praha, Slaný : Melandrium, 2015, s [11] OLIVIERA, J.W Advances in Fuzzy Clustering and its Applications. John Wiley & Sons, London. [12] XIE, X.L., BENI, G A validity measure for fuzzy clustering. In: IEEE Trans. Pattern Anal. Mach. Intell, s [13] R Core Team R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL Adresy autorov: Elena Říhová, Mgr. Fakulta informatiky a statistiky, VŠE v Praze nám. W. Churchilla 4, Praha 3 [email protected] Petr Marek, Ing. Fakulta informatiky a statistiky, VŠE v Praze nám. W. Churchilla 4, Praha 3 [email protected] Tomáš Karel, Ing. Fakulta informatiky a statistiky, VŠE v Praze nám. W. Churchilla 4, Praha 3 [email protected] Ivana Malá, RNDr., CSc. Fakulta informatiky a statistiky, VŠE v Praze nám. W. Churchilla 4, Praha 3 [email protected]

140 138 FORUM STATISTICUM SLOVACUM 6/2015 Analýza longitudinálních dat pomocí smíšeného lineárního modelu v programu R Longitudinal data analysis using linear mixed models in R Lukáš Sobíšek, Mária Stachová, Iva Pecáková Abstract: The contribution provides an overview of methodology and software applications that are used in longitudinal data analysis. We focus on the description of functions implemented in the statitistical system R. Namely, the functions lme() and lmer() are described and compared. These tools are used to estimate and apply the linear mixed models in panel data analyses. Abstrakt: Příspěvek poskytuje přehled metodologie a softwarových aplikací používaných pro regresní analýzu longitudinálních dat se zaměřením na popis funkcí obsažených ve statistickém systému R. Blíže jsou popsány a porovnány často používané funkce lme() a lmer(), které se využívají pro odhad lineárních smíšených modelů. Key words: Linear Mixed Models, Longitudinal Data Analysis, nlme, lme4. Klíčová slova: smíšený lineární model, analýza longitudinálních dat, nlme, lme4. JEL classification: C11 1. Úvod Panelový (longitudinální) výzkum sdružuje poznatky o subjektech (pacienti, domácnosti, zem, firmy atd.) po delší časové období. Menard (2002) definuje panelový výzkum z hlediska typu zkoumaných dat a typu použité analýzy následovně: Sledované proměnné jsou měřeny vícekrát (alespoň dvakrát) v různých časových periodách pro jednotlivé objekty pozorování. Tyto objekty pozorování (neboli případy) jsou během celého průzkumu identické (neměnné), nebo přinejmenším porovnatelné. Analýza dat zahrnuje porovnání dat z hlediska času. Umožňuje tedy sledovat vývoj proměnné v čase. Panelový průzkum umožňuje pozorovat oproti prostorovým datům kauzalitu. Je možné tedy zachytit sociální, ekonomickou, kulturní nebo politickou změnu a jiné sociální procesy úrovni jednotek výzkumu (Ruspini, 2002). Výzkumníci mohou pomocí panelového výzkumu studovat vývoj postojů, charakteristik nebo chování. Studie panelového výzkumu tak umožňuje nejen zkoumání trendů u stejného vzorku jedinců, ale také poskytuje informace o tom, jak se změnily názory, postoje a hodnoty jedinců během určitého období. Tento příspěvek shrnuje možnosti provést regresní analýzu panelových dat pomocí smíšeného lineárního modelu (LMM) ve statistickém systému R. Jedná se o přehledový článek. V kapitole 2 je stručně představen LMM. Třetí kapitola popisuje možnosti odhadu LMM ve statistickém systému R. 2. Analýza panelových dat pomocí smíšeného lineárního modelu (LMM) U pozorování naměřených u jednotlivce lze očekávat korelaci. Jeho pozorování jsou zkorelována, a tedy nejsou nezávisle identicky rozdělena (IID). Z těchto důvodů nelze pro odhadování vztahu mezi normálně rozdělenou vysvětlovanou proměnnou Y a vysvětlující proměnou X použít klasickou analýzu rozptylu (ANOVA) nebo klasický lineární regresní model (KLM). Využívají se specifické modifikace obecného lineárního modelu. Obecný lineární model umožňuje explicitně modelovat širokou škálu variačníchkovariančních struktur, a tudíž se jeho modifikace používají pro analýzu panelových dat. Mezi regresní modely, které se používají pro analýzu panelových dat a jsou specifickou

141 FORUM STATISTICUM SLOVACUM 6/ formou GLM, se řadí modely s fixními (pevnými) efekty (fixed effects models FEM), s náhodnými efekty (random effects models REM), se smíšenými efekty (mixed effect models MEM) a souhrnně je můžeme zařadit do smíšených lineárních modelů (linear mixed models - LMM). FEM a MEM jsou specifickou formou MEM. MEM obsahuje oba typy efektů (fixní a náhodné). MEM popisující hodnotu y it pro normálně rozdělenou závislou proměnnou Y pro i-tý subjekt v čase t lze zapsat pomocí Laird a Wareho formule (1982): ; ~N0,, Cov, (1) ~N0,,Cov,. j-tý fixní efekt pro i-tý subjekt v čase t značíme x jit. Regresní koeficient je značen β j pro j-tý fixní efekt X j. Koeficienty náhodných efektů pro i-tý subjekt se řídí vícerozměrným normálním rozdělením a značí se b i1,, b iq, kde q = 1, 2,, Q značí q-tý náhodný efekt. Náhodné regresory pro i-tý subjekt v čase t značíme z 1it,, z Qit. Rozptyl a kovariance mezi náhodnými efekty b q, b q jsou předpokládány konstantní mezi subjekty i. Náhodná chyba u it pro i-tý subjekt se řídí vícerozměrným normálním rozdělením. Kovarianci mezi náhodnými složkami pro i-tý subjekt lze parametrizovat. Volbou kovarianční struktury u it model umožňuje modelovat prostorovou a časovou korelaci. Jednotlivé náhodné efekty jsou nezávislé na vysvětlujících proměnných x it a pomocí nich lze vysvětlit variabilitu y it, i-té jednotky v čase t. Parametry FEM se odhadují pomocí metody maximální věrohodnosti. Náhodné efekty v REM a MEM se odhadují iterativně omezenou (reziduální) metodou maximální věrohodnosti. Vyjma schopnosti popsat kovarianční strukturu reziduí patří mezi výhody MEM (ve srovnání např. s FEM nebo marginálním modelem) následující: poradí si s chybějícími hodnotami měření a nevyřadí statistické jednotky (dále subjekty) s několika náhodně chybějícími pozorováními (Little a Rubin, 2002). Další výhodou je schopnost vypořádat se s časovou nepravidelností opakovaného měření. Více o LMM pojednává např. (Pekár a Brabec, 2012). 3. Aplikace LMM v R V dnešní době si může uživatel (statistik, výzkumník) vybrat ze široké škály statistického softwaru nabízejícího výpočet smíšených lineárních modelů, a to například v programech R, SAS, IBM SPSS Statistics, Stata, S+ a HLM. Tento příspěvek je zaměřen na systém R. Uživatele jiného software (než R) doporučuji prostudovat aplikaci LMM v SAS (Littell a spol., 1996), SPSS, Stata a MLwiN (Singer a Willett, 2003), HLM (Bryk a spol., 1988). Oblasti 3.1 a 3.2 porovnávají funkce lme a lmer z hlediska možností uživatelské specifikace modelů pomocí vybraných argumentů funkce a komplementárních funkcí. Tyto funkce jsou obsaženy v R-kových balíčcích nlme a lme4. Tyto balíčky patří mezi nejčastěji užívané. Důvodem hojného užívání těchto knihoven je široká nabídka funkcí umožňující modelovat velké množství různých typů LMM. Další výhodou těchto balíčků je to, že obsahují různé praktické nástroje (funkce) vhodné například pro diagnostiku. Tyto balíčky patří k historicky prvním a neustále se vyvíjejícím nástrojům LMM v R a lze se tedy s větší důvěrou spolehnout na jejich syntaxi.

142 140 FORUM STATISTICUM SLOVACUM 6/ Balíček nlme Funkce lme() obsažená v balíčku nlme využívá Laird-Wareho formuli (1). Přestože je v balíčku lmer (viz kap. 3.2) aplikován stejný model (1), jeho parametry odhadnuté metodou REML se mohou výrazně lišit, což na příkladech demonstruje Fox (2002), kdy v jednom případě se liší odhad a. Důvodem je odlišný optimizátor v balíčcích. V (Pinheiro a Bates, 1996) je popsána parametrizace variační-kovarianční struktury. Parametrizace je použita z důvodu numerické náročnosti výpočtu odhadu prvků variační-kovarianční matice pomocí maximalizace věrohodnostní funkce. Navrhnutá parametrizace zajišťuje, že odhadnutá matice je pozitivně semi-definitní. V nlme lze pomocí funkce lmecontrol() volit optimizátor. Optimizátor se volí pomocí nabídky opt. K dispozici je nlminb (přednastaven jako default) nebo optim. Nlminb je neomezená nebo krabicově omezená (omezení hodnot prvků vektoru odhadovaných parametrů shora nebo zdola) optimalizace využívající optimalizační metodu PORT. Metoda PORT je optimalizace převzatá z jazyka S+ a je popsána v (Fox a spol., 1978). Pro optimizátor optim si lze vybrat optimalizační metodu. Přednastavená simplexová metoda Nelder-Mead (Nelder a Mead, 1965) využívá pouze funkční hodnoty (nevyžaduje deriváty hodnot). Jedná se o robustní avšak výpočetně pomalou metodu. Alternativní metody BFGS, CG, L-BFGS-B, SANN a Brent lze vybrat pomocí nabídky optimmethod: numerická kvazi-newton iterativní metoda BFGS rovněž známá jako algoritmus variabilní metriky (variable metric algorithm) využívá funkční hodnoty a gradienty. Je vhodná pro řešení neomezené nelineární optimalizace. Podmínkou nalezení optimálního řešení je nulová hodnota gradientu, více (Nocedal a Wright, 2006), metoda sdružených gradientů CG je modifikace BFGS. CG je méně robustní než BFGS, ale z důvodu neukládání matic může konvergovat pro větší datové soubory a komplikovanější optimalizační metody. Tato metoda dosahuje nejhorších výsledků ve srovnání s ostatními uvedenými metodami dle Nashe (2014), metoda L-BFGS-B je modifikovaná L-BFGS. L-BFGS je BFGS algoritmus s limitací využité paměti vhodný pro úlohy s velkým počtem proměnných (>1000). Metody BFGS, CG a L-BFGS-B popisuje v monografii Nocedal a Wright (2006), metoda SANN je založena na simulovaném žíhání (Belisle, 1992). Simulované žíhání náleží do skupin stochastických globálních optimalizačních metod. Nevyžaduje derivace a využívá funkčních hodnot. Lze ji využít pro nediferencovatelné funkce. Ve srovnání s ostatními metodami je relativně pomalá a neobsahuje časové ukončení iterace v případě problémů s nalezením optima, metoda Brent řeší pouze úlohy v jedné dimenzi. Jedná se o komplement použitelný v kombinaci s jinými metodami. Argument correlation (zkráceně lze použít cor) funkce lme umožňuje vybrat některou z předdefinovaných kovariančních struktur a modelovat korelaci mezi rezidui pocházející pro stejný subjekt i. Struktury lze členit dle lokalizace korelace na prostorové a časové: Prostorové: corexp exponenciální prostorová korelace, corgaus - Gaussovská, corlin - lineární, corratio rionální kvadratický, corspher - sférická. Časové:

143 FORUM STATISTICUM SLOVACUM 6/ corcompsymm zaměnitelná uniformní struktura (a compound-symmetry structure corresponding to uniform correlation), kdy se odhaduje pouze jeden konstantní korelační koeficient pro všechny dvojice měření uvnitř subjektu, corsymm obecná saturovaná struktura. Jedná se o nejsložitější strukturu s minimálním omezením a možností modelovat jakoukoliv validní korelační strukturu. Jediný požadavek na matici je symetrická, pozitivně definitní matice s jedničkami na diagonále. Komplexnost může vést k výpočetním problémům, corar1 autoregrese 1. řádu s diskrétně běžícím časem (pozorování jsou provedena v diskrétních časových intervalech), corcar1 autoregrese 1. řádu se spojitě běžícím časem. Tuto strukturu lze využít pro longitudinální data s nepravidelným a malým počtem opakování měření v čase pro i-tý subjekt, corarma ARMA model (model autoregrese a klouzavých průměrů v diskrétním čase). Překlad názvů struktur do češtiny převzat (pokud uveden) z monografie (Pekár a Brabec, 2012) v níž se nachází i jejich detailní popis. Volba správné struktury vede k odhadům s menší variabilitou (odhad směrodatné chyby odhadu (SE)). Popis dostupných vnitro-subjektových korelačních struktur (volba struktury přes argument correlation) zájemce nalezne např. v (Littell a spol.m 1996, Venables a Ripley, 2002). Argument weights funkce lme umožňuje vybrat některou z předdefinovaných variančních funkcí a modelovat heteroskedasticitu reziduí σ 2 pro stejný subjekt i (Pekár a Brabec, 2012): varfixed() rozptyl je úměrný hodnotě zadané spojité kovariátě X, tedy Var(u it ) = σ 2 x it, varident() rozptyl je konstantní pro všechna pozorování v k-té úrovni kategoriální proměnné (stratu) X j a platí, kde 1, varexp() rozptyl je exponenciální funkcí kovariáty X j, varpower() rozptyl je mocninnou funkcí kovariáty X j, varconstpower() rozptyl je dán součtem konstanty a mocninné funkce kovariáty X j, varcomb() umožňuje kombinovat různé varianční funkce. V případě, že není specifikována struktura, modeluje se kovarianční struktura s konstantním rozptylem pro všech T i hodnot pro dané i. Funkce predict.lme() spočítá nejlepší lineární nezkreslené odhady koeficientů náhodných efektů. Kromě LMM umožňuje nlme odhadovat nelineární smíšené modely pomocí funkce nlme(). Autoři balíčku aplikují v nlme() nelineární smíšený model popsaný v (Lindstrom a Bates, 1990). V balíčku nlme je aplikován systém S3 objektově orientovaného programování (O-O) na rozdíl od lme4, kde je aplikován S4. Více o nlme v (Pinheiro a spol., 2015). 3.2 Balíček lme4 Stejně jako v nlme lze v lme4 odhadovat LMM funkcí lmer() a nelineární smíšené modely funkcí nlmer(). Oproti nlme jsou v tomto balíčku funkce sloužící k odhadování zobecněných lineárních smíšených modelů (glmer), díky nimž je možno modelovat Y pocházející z exponenciálního rozdělení. Knihovna lme4 nahrazuje svoji starší verzi lme4.0, která byla vyvíjena a používána do roku Optimizátor podle Neldera a Meada (1965) Nelder-Mead, nebo optimizátor bobyqa lze volit pro optimalizaci funkce lmer() a glmer() pomocí funkce lmercontrol() a glmercontrol(). Bobyqa umožňuje krabicové omezení. Minimalizuje funkci mnoha proměnných s využitím metody důvěryhodné oblasti (trust region method). Algoritmus je popsán v (Powel, 2010).

144 142 FORUM STATISTICUM SLOVACUM 6/2015 Další rozdíly mezi lme4 a nlme kromě výše zmíněných (jiný systém práce s objekty a modely (O-O), jiný optimizátor a funkce pro jiné modely než LMM) shrnuje manuál k lme4: lme4 používá moderní, efektivní metody lineární algebry implementované v balíčku Eigen, lme4 využívá referenční třídy za účelem zefektivnění práce s velkými objekty a zrychlení výpočtu, v současné době je v lme4 implementováno méně nástrojů pro modelování heteroskedasticity a korelace reziduí. Nedisponuje předdefinovanými variačnímikovariančními strukturami. Na druhou stranu je zde implementován křížový náhodný efekt, který urychlí a usnadní výpočet, lme4 je vybaven nástroji pro profilování věrohodnosti a parametrický bootstrapping, lme4 je naprogramován tak, aby byl více modulární než nlme. Tím je myšleno to, že vývojáři balíčků a koncoví uživatelé mají možnost využívat jednotlivé komponenty funkce a modifikovat či implementovat je do svých specifických aplikací LMM. Další výhodu lze spatřovat ve větší flexibilitě specifikace různých optimalizačních funkcí parametrů náhodných efektů a variačních-kovariančních struktur. Technický popis výpočtu LMM v lme4 a detailní popis výše uvedených rozdílů mezi balíčky uvádí (Bates a spol., 2015). 4. Závěr Tento příspěvek nabízí přehled literatury (metodologie, softwarové aplikace) týkající se LMM a jeho implementace ve statistickém výpočetním prostředí se zaměřením na popis základních funkcí v jazyce R. Jsou zde prezentovány rozdíly mezi populárními funkcemi lme() a lmer(). Neexistuje obecné doporučení, kterou z funkcí preferovat z hlediska odhadu parametrů, jelikož se tyto odhady od sebe významně neliší. O volbě funkce tak většinou rozhoduje zvyk uživatele. Přehled literatury a popis funkcí uvedený v tomto příspěvku lze vnímat jako výchozí orientační bod pro zájemce o LMM, který začíná s oblastí regresního modelování zkorelovaných dat s využitím systému R. Uživatelům zvyklým pracovat s jiným statistickým softwarem je doporučena relevantní literatura. V současné době se rozšiřují LMM na neparametrické a semiparametrické panelové regresní modely. Pro modelování dat, která nepocházejí z normálního rozdělení (náhodné efekty, vysvětlovaná proměnná), ale z jiného rozdělení exponenciálního typu se využívají tři přístupy: zobecněné marginální modely, zobecněné lineární modely se smíšenými efekty a Bayesovské modely. Bayesovské modely je možné využít i v situaci, kdy závislá proměnná nepochází z exponenciální rodiny. Jedná se o pseudo-zobecněný lineární model se smíšenými efekty, jehož parametry jsou odhadovány pomocí simulace Markovova řetězce Monte Carlo. Tato rozšíření jsou tématem naší další práce. Literatura BATES, D. - MAECHLER, M. - BOLKER, B. - WALKER, S Fitting Linear Mixed- Effects Models Using lme4. Journal of Statistical Software, roč. 67, č. 1, s BELISLE, C. J. P Convergence theorems for a class of simulated annealing algorithms. Journal of Applied Probability, roč. 29, s BRYK, A.S. RAUDENBUSH, S.W. SELTZER, M. CONGDON, R An Introduction to HLM: Computer Program and Users Manual. University of Chicago Department of Education, Chicago. FOX, J Linear mixed models: An appendix to An R and S-PLUS companion to applied regression [Online]

145 FORUM STATISTICUM SLOVACUM 6/ FOX, P.A. - HALL,A.D. - SCHRYER, N.L The PORT mathematical subroutine library. ACM Trans. Math. Software, roč. 4, s HSIAO, C Analysis of Panel Data. Cambridge: Cambridge University Press. LAIRD, N.M. Ware, J.H Random-Effects Models for Longitudinal Data. Biometrics, roč. 38, č. 4, s LINDSTROM, M.J. - BATES, D.M Nonlinear Mixed Effects Models for Repeated Measures Data. Biometrics, roč. 46, č. 3, s LITTELL, R.C. - MILLIKEN, G.A. STROUP, W.W. WOLFINGER, R.D SAS System for Mixed Models. SAS Institute, Inc., Cary. LITTLE, R.J.A. RUBIN, D.B Statistical Analysis with Missing Data (Second Edition). Wiley-Interscience, New York. MENARD, S Longitudinal Research (Quantitative Applications in the Social Sciences) (2 nd Edition). London: Sage Publications. NASH, J.S On best practice optimization methods in R. Journal of Statistical Software, roč. 60, č. 2, s NELDER, J.A. - MEAD,R A simplex method for function minimization. Computer Journal, roč. 7, s NOCEDAL, J. - WRIGHT, S. J Numerical Optimization (2 nd Edition). Springer, New York. PEKÁR, S. - BRABEC, M Moderní analýza biologických dat. 2. Lineární modely s korelacemi v prostředí R (1. Vydání). Masaryk University Press, Brno. PINHEIRO, J.C BATES, D.M Unconstrained Parametrizations for Variance- Covariance Matrices, Statistics and Computing, roč. 6, č. 3, s PINHEIRO, J.C. - BATES D.M. - DEBROY, S. - SARKAR, D. - R Core Team nlme: Linear and Nonlinear Mixed Effects Models. R package version Online manuál k balíčku, 2015, [online], link: POWELL, M.J.D The BOBYQA algorithm for bound constrained optimization without derivatives. Report No. DAMTP 2009/NA06, Centre for Mathematical Sciences, University of Cambridge, UK. RUSPINI, E Introduction to Longitudinal Research. London: Routledge. SINGER, J. WILLETT, J Applied Longitudinal Data Analysis: Modeling Change and Event Occurrence. Oxford University Press, New York. VENABLES, W.N. - RIPLEY, B.D Modern Applied Statistics with S (Fourth Edition). New York: Springer. Adresa autorov: Lukáš Sobíšek, Ing. VŠE Praha nám. W. Churchilla 4, Praha 3, ČR [email protected] Mária Stachová, Mgr., PhD. EF UMB B. Bystrica Tajovského 10, Banská Bystrica, SR [email protected] Iva Pecáková, doc. Ing., CSc. VŠE Praha nám. W. Churchilla 4, Praha 3, ČR [email protected] Poděkování: Tento příspěvek byl vypracován s podporou projektu VEGA 1/0647/14.

146 144 FORUM STATISTICUM SLOVACUM 6/2015 Využívanie IKT v slovenských domácnostiach v rokoch 2012 a 2015 The use of ICT in Slovak households in years 2012 and 2015 Iveta Stankovičová, Vladimíra Želonková Abstract: The aim of the article is to analyse the data from regular survey of information and communication technology (ICT) in Slovak households in years 2012 and The Statistical Office of the Slovak Republic realises this survey annually and the data are the basis for adopting measures and ensuring the development of informatisation of society. There are applied the same methodology in all EU countries, allowing comparisons of ICT development at national and international level. Abstrakt: Cieľom príspevku je analýza údajov z pravidelného zisťovania o využívaní informačno-komunikačných technológií (IKT) v domácnostiach na Slovensku v rokoch 2012 a Toto zisťovanie raz ročne realizuje Štatistický úrad SR a údaje sú podkladom na prijímanie opatrení a zabezpečenie rozvoja informatizácie spoločnosti. V krajinách Európskej únie sa pri tomto zisťovaní uplatňuje rovnaká metodika, čo umožňuje porovnávanie rozvoja IKT na národnej aj medzinárodnej úrovni. Key words: sample survey, information and communication technology (ICT), Slovak households, logistic regression Kľúčové slová: výberové štatistické zisťovanie, informačno-komunikačné technológie (IKT), domácnosti Slovenska, logistická regresia JEL classification: O15, C46, I32 1. Úvod Informačné a komunikačné technológie (IKT) sú v dnešnej modernej dobe neoddeliteľnou súčasťou našich životov. Ľuďom šetria čas a uľahčujú prácu vo viacerých pracovných odboroch: v zdravotníctve (napr. elektronické zdravotné karty), v školstve, v doprave, v bankách, na úradoch, v priemysle a v mnohých iných oblastiach. IKT neustále napredujú, a preto je nevyhnutné, aby sme tieto technológie využívali, dokázali s nimi pracovať a neustále sa vzdelávali v tejto oblasti (Európska komisia, 2011). Za posledné desaťročie sme na Slovensku v ovládaní IKT veľmi pokročili. Dokazujú to výsledky z pravidelného štatistického zisťovania o využívaní IKT. Európska komisia v roku 2002 stanovila národným štatistickým úradom uskutočniť raz ročne zisťovanie na meranie rozvoja v oblasti využívania informačných a komunikačných technológií (IKT) v podnikoch a domácnostiach. Eurostat v spolupráci s členskými krajinami EÚ a Organizáciou pre ekonomickú spoluprácu a rozvoj (OECD) vyvinul na tento účel dva modely štatistických zisťovaní: 1. pre podniky a 2. pre domácnosti. V roku 2004 Európsky parlament schválil a Európska rada (EC) prijala nariadenie č. 808/2004, ktoré určuje rozsah a obsah uvedených zisťovaní. Spomínané nariadenie, ktoré sa každoročne aktualizuje v súlade s vývojom IKT a novými potrebami používateľov dát v tejto oblasti, sa stalo rámcovým a záväzným podkladom na vykonanie štatistického zisťovania o informačnej spoločnosti. Ucelený súbor údajov o využívaní IKT v slovenských domácnostiach je porovnateľný s údajmi o využívaní IKT v domácnostiach členských štátov EÚ (Korte a kol., 2014).

147 FORUM STATISTICUM SLOVACUM 6/ Výberové štatistické zisťovanie o využívaní IKT v domácnostiach SR Na Slovensku sa zisťovanie o využívaní IKT v domácnostiach uskutočňuje v mesiacoch apríl máj na vzorke okolo 4500 náhodne vybraných domácností. Referenčným obdobím je prvý štvrťrok kalendárneho roka. Cieľová populácia pokrýva krajinu na úrovni NUTS 3 (t.j. 8 krajov SR). V rámci krajov sú obce pri zisťovaní IKT roztriedené do 6 skupín podľa veľkosti. Kombináciou týchto skupín vznikne 48 strát. Odber vzorky pre jednotlivca sa vytvorí zo stavu obyvateľstva k 31. decembru sledovaného roka. Prepočet jednotlivcov na populáciu sa uskutočňuje pomocou váhového systému. Váhy sú zostavené tak, aby zohľadňovali všetky požadované demografické charakteristiky jednotlivcov (pohlavie, vek, vzdelanie, zamestnanie). Prepočet je realizovaný až do 100 % jedincov vo veku rokov (t.j. 80 % z celkového počtu obyvateľov). Konečné váhy sú kalibrované pomocou metódy CALMAR 2. Na kalibráciu sa vyberajú externé zdroje, čiže odhad štruktúry domácností podľa počtu členov v kraji a štruktúra obyvateľstva podľa veku a pohlavia v kraji. Zisťovanie IKT pre domácnosti, ktorého údaje za Slovenskú republiku budeme v článku analyzovať, je rozdelené do niekoľkých modulov. Modul A je určený pre domácnosti a zisťuje možnosti prístupu k IKT (počítaču a internetu) v domácnosti ako celku. Moduly B až G sú určené pre jednotlivcov a zisťujú za vybraného jednotlivca domácnosti informácie o prístupe a využívaní počítačov, internetu, e-govermentu, e-commerce a podobne. V poslednom module sú obsiahnuté sociálno-demografické charakteristiky o jednotlivcovi a domácnosti (Vlačuha Kotlár Želonková, 2012 až 2014). Poznámka: V roku 2014 bola otázka o prístupe doma na PC (premenná COMP) zo zisťovania vylúčená Eurostatom. Zdroj: Podľa Želonková, 2015 s doplnenými výsledkami za rok 2015 Obr. 1: Prístup k počítaču a internetu v domácnostiach SR za roky 2009 až 2015 (% zo všetkých domácností v SR) 3. Použité metódy a metodológia Na analýzu údajov sme využili štatistické metódy implementované v systéme SAS Enterprise Guide (SAS EG), verzia 5.1. Na úvodnú exploračnú analýzu údajov zo zisťovania IKT v domácnostiach za roky 2012 a 2015 sme použili frekvenčné a kontingenčné tabuľky a

148 146 FORUM STATISTICUM SLOVACUM 6/2015 chí-kvadrát testy pre testovanie asociácie medzi kategoriálnymi premennými. Ďalej sme vytvorili modely binárnej logistickej regresie na predikovanie premennej COMP, konkrétne hodnoty 1 (t.j. prístup k počítaču v domácnosti = áno) v roku 2012 aj 2015 pomocou rôznych vysvetľujúcich premenných, ktoré sa v dátových súboroch nachádzali. Binárna logistická regresia predikuje podmienenú pravdepodobnosť p výskytu želanej udalosti (Y=1) v závislosti od vysvetľujúcich premenných (X i ) kategoriálneho aj spojitého typu, čiže p = P(Y=1/X i ). Tento vzťah je však nelineárny, preto sa používa tzv. logitová transformácia tejto podmienenej pravdepodobnosti p (Stankovičová Vojtková, 2007): ln 1 Základom logitovej transformácie je prirodzený logaritmus zo šance, čo je podiel p/(1-p). Parametre modelu β i sa odhadujú metódou maximálnej vierohodnosti. Spätnou transformáciou získame želanú podmienenú pravdepodobnosť p: Logistická regresia vyžaduje nekorelované vstupy. Do modelu sme vybrali predikčné premenné na základe vecnej analýzy danej problematiky a modelovaním sme sa snažili zistiť, či vybrané premenné majú predpokladanú predikčnú silu a posúdili sme kvalitu výsledného modelu na základe rôznych mier kvality. Na posúdenie kvality modelu logistickej regresie sú v procedúre LOGISTIC v systéme SAS EG implementované rôzne miery (štatistiky). Používa sa napríklad, tak ako v lineárnej regresii, štatistika R 2 (koeficient determinácie) (Pecáková, 2007). V systéme SAS je implementovaný výpočet R 2 podľa Coxa a Snella: 1 1 kde n je rozsah výberového súboru, L 0 je vierohodnostná funkcia pre model bez prediktorov a L M je vierohodnostná funkcia pre odhadnutý model s prediktormi. Problémom tejto miery je, že horná hranica výskytu hodnôt je nižšia ako 1 a vypočíta sa podľa vzťahu 1. Veľkosť tejto hodnoty závisí od podielu výskytu želanej udalosti p v súbore údajov. Hraničná hodnota pre hornú hranicu R 2 sa dá vypočítať podľa nasledovného vzorca (Allison, 2014): á 1 1 Takto vypočítaná hraničná hodnota je maximálna ak p = 0,5 a vtedy dosahuje hodnotu 0,75. Opačne, ak je podiel želanej udalosti vysoký, napr. p = 0,9, tak horná hranica pre R 2 je len 0,48 (Allison, 2014). V systéme SAS vo výstupe procedúry LOGISTIC sa nachádza aj hodnota R 2 s názvom max-rescaled. Je to upravené R 2 podľa Nagelkerkeho (1991) a táto miera sa už nachádza v intervale (0, 1). Horná hranica pre R 2 sa teda dá vypočítať aj podľa nasledovného vzorca: á 1 1 Okrem koeficientu determinácie posudzujeme kvalitu logistických modelov na základe mier asociácie medzi skutočnými a predikovanými hodnotami modelovanej premennej

149 FORUM STATISTICUM SLOVACUM 6/ (percento zhodných párov, plocha pod ROC krivkou a pod.), na základe tzv. GOF štatistík 1 (Pearson chí-kvadrát štatistika, deviancia) a tiež na základe Hosmer-Lemeshow testu (Hebák, 2012). Každá z mier má svoje klady aj nedostatky, každá z nich dokáže zachytiť len určitú vlastnosť modelu a jeho prediktorov, a preto ich treba používať a interpretovať s ohľadom na typ a charakter údajov (Allison, 2014). 4. Výsledky o využívaní IKT v rokoch 2012 a 2015 na Slovensku V dotazníku k zisťovaniu IKT pre domácnosti, v module A, sa nachádzajú 2 základné otázky, ktoré sa týkajú domácnosti ako celku: A1: Vy sám alebo niekto v domácnosti máte prístup k počítaču doma? premenná COMP. A2: Máte vy alebo niekto z domácnosti prístup k internetu doma, bez ohľadu to, či sa používa? premenná IACC. Ako je zrejmé z nasledujúcich frekvenčných tabuliek (Tab. 1 a 2) a grafu (Obr. 1), tak na Slovensku sa postupne zvyšuje podiel domácností, v ktorých majú prístup na počítač (vzrast zo 78,81% v r na 80,48% v roku 2015) a aj podiel domácností s prístupom na internet doma (75,44% v r. 2012; 79,48% v r. 2015). V prístupe na internet doma je Slovensko pod priemerom krajín EÚ28. Tento podiel domácností na Slovensku bol v roku 2009 len 66% a v roku 2014 vzrástol na 81% (Obr. 2). Najvyšší podiel domácností s prístupom k internetu doma v roku 2014 zo sledovaných európskych krajín bol na Islande (96%) a najhorší v Bulharsku, len v 57% domácností. Tab. 1: Prístup k počítaču v domácnosti (COMP) vo vzorke a prepočítané na celú populáciu domácností v SR v rokoch 2012 a 2015 Vzorka rok 2012 rok 2015 COMP Počet % Počet % Spolu Populácia rok 2012 rok 2015 COMP Počet % Počet % Spolu Zdroj: Vlastné výpočty na základe údajov IKT 2012 a 2015, ŠÚ SR (COMP: 0 nie, 1 áno) Tab. 2: Prístup na internet v domácnosti (IACC) vo vzorke a prepočítané na celú populáciu domácností v SR v rokoch 2012 a 2015 Vzorka rok 2012 rok 2015 IACC Počet % Počet % Spolu Populácia rok 2012 rok 2015 IACC Počet % Počet % Spolu Zdroj: Vlastné výpočty na základe údajov IKT 2012 a 2015, ŠÚ SR (IACC: 0 nie, 1 áno, 8 neviem) Z kontingenčných tabuliek (Tab. 3) je zrejmé, že na Slovensku je ešte okolo 20% domácností kde nemajú prístup k počítaču a ani k internetu doma a vo vyše 70% domácností kde majú prístup k obom IKT prostriedkom. Asociácia medzi výskytom týchto premennými je významná (chí-kvadrát test: p = 0) a veľmi silná, napríklad štatistika Cramerovo V je rovná až 0,87 (r. 2012) a 0,90 (r. 2015). Je zrejmé, že domácnosť, v ktorej je PC, tak chce mať prístup k internetu, aby jej členovia mohli využívať tento dnes nevyhnutný prostriedok IKT. 1 Skratka z anglického výrazu goodness-of-fit (GOF). GOF štatistiky a testy pomáhajú zistiť, či model dobre predikuje modelovanú hodnotu závislej premennej a či je dobre špecifikovaný.

150 148 FORUM STATISTICUM SLOVACUM 6/2015 Vyskytujú sa však u nás aj také domácnosti, ktoré majú počítač, ale nemajú prístup na internet. Ich podiel je však nízky a znížil sa (z 4,1% v r na 1,91% v r. 2015). Opačne, ak je v domácnosti prístup na internet, ale chýba počítač, tento podiel sa nepatrne zvýšil v roku 2015 (1,18%) v porovnaní s rokom 2012 (0,73%). Dôvodom je pravdepodobne vlastníctvo moderných mobilov, ktoré už nahradzujú v mnohých smeroch aj počítače a tak vlastníctvo PC alebo notebooku nie je nevyhnutné. Tab. 3: Kontingenčné tabuľky výskytu premenných COMP a IACC (v %) prepočítané na celú populáciu domácností v SR v rokoch 2012 a 2015 Rok 2012 Rok 2015 COMP COMP IACC 0 1 Spolu IACC 0 1 Spolu Spolu Zdroj: Vlastné výpočty na základe údajov IKT 2012 a 2015, ŠÚ SR Spolu Zdroj: B15.png Obr. 2: Prístup k internetu v domácnostiach vo vybraných krajinách (rok 2009 a 2014) (% zo všetkých domácností v krajine) 5. Výsledky modelovania pomocou logistickej regresie V tejto časti článku uvádzame výsledky modelovania pomocou binárnej logistickej regresie, kde ako modelovanú premennú sme použili premennú COMP a modelovali sme hodnotu COMP=1, čiže odpoveď áno na otázku A1: Vy sám alebo niekto v domácnosti máte prístup k počítaču doma? Pri odhade parametrov logistických modelov sa používa v SAS EG metóda maximálnej vierohodnosti, ktorá za obidva roky našla konvergenčné kritérium, čiže bolo nájdené globálne maximum pre odhady parametrov. V roku 2012 však z výpočtov bolo vynechaných 73 pozorovaní (n = 4500, zostalo 4427 pozorovaní vo výberovom súbore) a v roku 2015 bolo

151 FORUM STATISTICUM SLOVACUM 6/ vynechaných až 124 jednotiek (n = 4500, zostalo 4376 pozorovaní). Dôvodom bol výskyt chýbajúcich hodnôt v súboroch údajov v niektorých premenných použitých v analýze. Výpočty sme v SAS EG urobili dva krát: 1. bez frekvenčnej premennej (váhy), čiže pre vzorku a 2. s frekvenčnou premennou (váhou domácnosti), čím sme model prepočítali na populáciu domácností SR. Dôvodom je porovnanie získaných p-hodnôt a intervalov spoľahlivosti. Pri vysokom počte pozorovaní v súbore sa p-hodnoty aj málo významných prediktorov posilňujú. Ako významné prediktory sa potvrdili všetky nami vybrané premenné (Tab. 4). Zoznam uvažovaných a vybraných prediktorov bol nasledovný: 1. Kvantitatívne vysvetľovacie premenné: AGE vek respondenta v rokoch, HH_POP počet členov domácnosti (vrátane detí), HH_IQ5 quintil príjmu domácnosti (1 až 5). 2. Kategoriálne vysvetľovacie premenné: GEO_DENS stupeň osídlenia (1 husto osídlená oblasť, 2 stredne husto osídlená oblasť, 3 riedko osídlená oblasť); stará klasifikácia (rok 2012), DEG_URBA stupeň urbanizácie (1 vysoká miera urbanizácie, t.j. na vidieku žije menej ako 15% populácie, 2 stredná miera urbanizácie, t.j. na vidieku žije 15% - 50% populácie, 3 nízka miera urbanizácie, t.j. na vidieku žije viac ako 50% populácie; nová klasifikácia (rok 2015) 2, ISCED stupeň vzdelania (rok 2012: 0 základné a nižšie sekundárne vzdelanie, resp. žiadne formálne vzdelanie, 3 vyššie sekundárne vzdelanie, 5 terciárne vzdelanie, nič neodpoveď; rok 2015: 0 nanajvýš nižšie sekundárne vzdelanie, 3 vyššie sekundárne vzdelanie, 5 terciárne vzdelanie, 9 nedá sa aplikovať (AGE = neodpoveď alebo AGE<16 alebo AGE>74), nič neodpoveď. Na základe veľkosti Waldovej chí-kvadrát štatistiky (Tab. 4 a Tab. 5) je zrejmé, že najsilnejší prediktor pre premennú COMP je vek respondenta (AGE), potom kategória príjmu v podobe kvintilov (HH_IQ5) a na treťom mieste je stupeň vzdelania (ISCED). Významná je ešte aj premenná o stupni osídlenia regiónu (GEO_DENS pre rok 2012, Wald Chí-Square = 8,4), resp. stupni urbanizácie oblasti (DEG_URBA pre rok 2015, Wald Chí-Square = 17,53), kde domácnosť žije. Významnosť premennej región (NUTS3: 4 hodnoty - SK01 až SK04) sa nám nepotvrdila, a preto sa v modeli nenachádza. To isté platí aj o premennej pohlavie (SEX), je tiež nevýznamná. Tab. 4: Významnosť vysvetľujúcich premenných v logistických modeloch pre binárnu premennú COMP v rokoch 2012 a 2015 výpočet bez váh Type 3 Analysis of Effects Type 3 Analysis of Effects Effect DF Wald Chi-Square Pr > ChiSq Effect AGE <.0001 HH_POP <.0001 HH_IQ <.0001 GEO_DENS ISCED <.0001 Zdroj: Vlastné výpočty na základe údajov IKT 2012 a 2015, ŠÚ SR DF Wald Chi-Square Pr > ChiSq AGE <.0001 HH_POP HH_IQ <.0001 DEG_URBA ISCED < Informácie o novej klasifikácii na základe stupňa urbanizácie:

152 150 FORUM STATISTICUM SLOVACUM 6/2015 Tab. 5: Významnosť vysvetľujúcich premenných v logistických modeloch pre binárnu premennú COMP v rokoch 2012 a 2015 výpočet s váhami 2012 Type 3 Analysis of Effects Effect DF Wald Chi-Square Pr > ChiSq AGE <.0001 HH_POP <.0001 HH_IQ <.0001 GEO_DENS <.0001 ISCED <.0001 Zdroj: Vlastné výpočty na základe údajov IKT 2012 a 2015, ŠÚ SR 2015 Type 3 Analysis of Effects Effect DF Wald Chi-Square Pr > ChiSq AGE <.0001 HH_POP <.0001 HH_IQ <.0001 DEG_URBA <.0001 ISCED <.0001 Kvalitu výsledných odhadnutých logistických modelov môžeme považovať za uspokojivú. Hodnoty preškálovaných koeficientov determinácie (Tab. 6 a 7) sú vyššie ako 0,5 (0,552 pre r a 0,577 r. 2015). Na základe vzorca uvedeného v časti 4 môžeme vypočítať hornú hranicu koeficientu determinácie podľa Coxa a Snella. V roku 2012 by bola maximálna horná hranica 0,634 (0,350/0,552) a v roku 2015 by bola 0,61 (0,352/0,577). Hodnotu škálovaného koeficienta determinácie môžeme interpretovať ako podiel vysvetlenej variability závislej premennej modelom. Odhadnuté logistické modely pre premennú COMP (modelovaná hodnota COMP=1) teda vysvetľujú viac ako 50% tejto variability pri výpočtoch s použitím váh alebo bez nich. Tab. 6: Hodnoty koeficientov determinácie pre logistické modely (rok 2012 a 2015) výpočet bez váh Max-rescaled R-Square R-Square R-Square Zdroj: Vlastné výpočty na základe údajov IKT 2012 a 2015, ŠÚ SR Max-rescaled R-Square Tab. 7: Hodnoty koeficientov determinácie pre logistické modely (rok 2012 a 2015) výpočet s váhami Max-rescaled R-Square R-Square R-Square Zdroj: Vlastné výpočty na základe údajov IKT 2012 a 2015, ŠÚ SR Max-rescaled R-Square Pretože modelujeme binárnu premennú, tak je možné v SAS EG zostrojiť grafy ROC kriviek. Plochy pod ROC krivkami by mali byť výrazne vyššie ako 0,5 (50%). V našich modeloch sú tieto plochy (Obr. 3) vyššie ako 90% (r. 2012: 90,82% a r. 2015: 92,06%). Znamená to, že modely dokážu pomerne dobre predikovať modelovanú hodnotu. Celkovo je model pre rok 2012 schopný správne predikovať hodnoty premennej COMP na 88,3%. Percento chybne predikovanej modelovanej hodnoty COMP=1 bolo len 9,0%. Vyššia nepresnosť modelu je pri predikcii hodnoty COMP=0, kde je to až 25.1%. V roku 2015 sa celková predikčná schopnosť modelu zvýšila na 89,5%. Percento chybne predikovanej modelovanej hodnoty COMP=1 sa znížilo na 7,9% a chybovosť predikcie pre COMP=0 zostala na úrovni 25,2%. Záverom teda je možné konštatovať, že nami nájdené významné premenné dobre predikujú pravdepodobnosť hlavne pre modelovanú hodnotu COMP=1. Na interpretáciu logistických modelov sa používajú pomery šancí. Výsledky pre bodové a intervalové odhady pomerov šancí uvádzame v nasledujúcich tabuľkách (Tab. 8 odhady s použitím váh) a grafoch (Obr. 4 odhady zo vzorky). Z výsledkov je zrejmé, že s rastúcim vekom klesá šanca, že v domácnosti majú prístup na počítač. S rastúcim počtom členov domácnosti a tiež s rastúcim príjmom, tieto šance však rastú. Pri prechode domácnosti z nižšieho do vyššieho príjmového kvintilu ide priemerne takmer o dvojnásobný nárast šance. Pri kategoriálnych premenných (tzv. CLASS premenné v SASe) sú odhadnuté zmeny

153 FORUM STATISTICUM SLOVACUM 6/ priemerných šancí vyčíslené k zvolenej referenčnej kategórii. Pre premenné o hustote osídlenia (GEO_DENS), resp. stupni urbanizácie (DEG_URBA) boli zvolené kategórie s najnižším stupňom osídlenia resp. urbanizácie. Výsledné odhady pomerov šancí pre tieto premenné vypočítané bez váh a s váhami nevedú k rovnakým záverom. Bude to pravdepodobne spôsobené konštrukciou týchto premenných a tiež tým, že nejde o stratifikačné premenné pre výber. Zdroj: Vlastné zobrazenie v SAS EG na základe údajov IKT 2012 a 2015, ŠÚ SR Obr. 3: ROC krivky pre modely logistickej regresie (rok 2012 a 2015) výpočet s váhami Tab. 8: Bodové a intervalové odhady pomerov šancí (rok 2012 a 2015) výpočet s váhami Odds Ratio Estimates (2012) 95% Wald Effect Point Estimate Confidence Limits AGE HH_POP HH_IQ GEO_DENS 1 vs GEO_DENS 2 vs ISCED 0 vs ISCED 3 vs Zdroj: Vlastné výpočty na základe údajov IKT 2012 a 2015, ŠÚ SR Odds Ratio Estimates (2015) 95% Wald Effect Point Estimate Confidence Limits AGE HH_POP HH_IQ DEG_URBA 1 vs DEG_URBA 2 vs ISCED 0 vs ISCED 3 vs ISCED 9 vs Zdroj: Vlastné zobrazenie v SAS EG na základe údajov IKT 2012 a 2015, ŠÚ SR Obr. 4: Grafy intervalov spoľahlivosti pre pomery šancí (rok 2012 a 2015) výpočet bez váh

154 152 FORUM STATISTICUM SLOVACUM 6/ Záver Predložený príspevok mal za cieľ poskytnúť prehľad o využívaní IKT v slovenských domácnostiach za roky 2012 a 2015 a súčasne prezentovať možnosti výpočtov mier kvality v procedúre LOGISIC v systéme SAS EG. Z analýzy vyplynulo, že prístup k počítačom a internetu v slovenských domácnostiach sa z roka na rok zlepšuje. V roku 2015 je Slovensko v podiele domácností, v ktorých majú prístup k týmto IKT prostriedkom, tesne pod hranicou priemeru krajín EÚ28. Z modelov logistickej regresie je zrejmé, že s rastúcim vekom členov domácnosti sa znižujú šance k prístupu k PC doma v slovenskej domácnosti. Naopak s rastúcim počtom členov domácnosti a so zvyšujúcim príjmom domácnosti šance na prístup rastú. Platí to aj o stupni vzdelania. Čím je stupeň vzdelania členov domácnosti vyšší, tým viac majú potrebu mať počítač aj doma. Premenná o stupni osídlenia, resp. urbanizácie sa javí ako problematická pri predikcii aj keď je významná ako celok. Výberové zisťovanie o využívaní IKT v domácnostiach je zisťovanie, ktoré sa uskutočňuje na základe legislatívy EÚ a uskutočňuje sa každý rok. Možno by stačila aj nižšia frekvencia, lebo je možné predpokladať, že ročné zmeny vo využívaní IKT v domácnostiach v súčasnom období budú už len nepatrné. Na základe metodiky Eurostatu sa mení aj obsah zisťovania, napríklad niektoré otázky sa vynechajú alebo zmenia, zmení sa obsah niektorých premenných a podobne. Napríklad v roku 2014 bola vypustená otázka A1 (premenná COMP). Tieto zmeny však neprispievajú k využiteľnosti a porovnateľnosti údajov a spôsobujú výskumníkom problémy. Bolo by dobré, keby Eurostat zachovával kontinuitu v tomto zisťovaní, ale samozrejme aj v iných zisťovaniach a tak by boli údaje lepšie využiteľné aj na analýzu časových radov. Informačné a komunikačné technológie (IKT) ovplyvňujú každodenný život mnohými spôsobmi, v práci aj doma, napríklad pri komunikovaní alebo nakupovaní cez internet. Politiky EÚ v tejto oblasti majú široký záber od regulácie celej oblasti, ako je napr. elektronický obchod, až po ochranu súkromia jednotlivca. Stratégia elektronických zručností je dôležitou zložkou Digitálnej agendy pre Európu a balíka opatrení pre zamestnanosť na zvýšenie konkurencieschopnosti, produktivity a zamestnanosti pracovnej sily (Európska komisia, 2011). Literatúra ALLISON, P. D. (2014): Measures of Fit for Logistic Regression. Paper Presented at the SAS Global Forum, March 25, 2014, Washington: Európska komisia (2011): Kľúčové údaje o vzdelávaní a inováciách prostredníctvom IKT v európskych školách Brusel, Eurydice s. ISBN HEBÁK a kol. (2007): Vícerozměrné statistické metody vyd. Praha: Informatorium, KORTE, W. B. GAREIS, K. HUSTING, T. (2014): Elektronické zručnosti pre zamestnanosť v Európe Brusel PECÁKOVÁ, I. (2007): Explained Variation Measures for Models with Categorical Responses. In: AMSE 2007, s STANKOVIČOVÁ, I. VOJTKOVÁ, M. (2007): Viacrozmerné štatistické metódy s aplikáciami. Bratislava: Iura Edition 2007.

155 FORUM STATISTICUM SLOVACUM 6/ PECÁKOVÁ, I. (2007): Explained Variation Measures for Models with Categorical Responses. In: AMSE 2007, s STANKOVIČOVÁ, I. VOJTKOVÁ, M. (2007): Viacrozmerné štatistické metódy s aplikáciami. Bratislava: Iura Edition VLAČUHA, R. KOTLÁR, J. ŽELONKOVÁ, V. (2012): Prieskum o využívaní informačných a komunikačných technológií v domácnostiach za 1. štvrťrok Bratislava: Štatistický úrad SR, s. ISBN VLAČUHA, R. KOTLÁR, J. ŽELONKOVÁ, V. (2013): Prieskum o využívaní informačných a komunikačných technológií v domácnostiach za 1. štvrťrok Bratislava: Štatistický úrad SR, s. ISBN VLAČUHA, R. KOTLÁR, J. ŽELONKOVÁ, V. (2014): Zisťovanie o využívaní informačných a komunikačných technológií v domácnostiach Bratislava: Štatistický úrad SR, s. ISBN ŽELONKOVÁ, V. (2015): Elektronické zručnosti (IKT) a ich vplyv na kvalitu života na Slovensku. Slovenská štatistika a demografia, č. 4/2015, Štatistický úrad SR. Bratislava Adresa autorov: Iveta Stankovičová Univerzita Komenského v Bratislave Fakulta managementu Odbojárov 10, Bratislava [email protected] Vladimíra Želonková Štatistický úrad SR Miletičova Bratislava 26 [email protected]

156 154 FORUM STATISTICUM SLOVACUM 6/2015 Metódy odhadu parametrov rekurentných tried diskrétnych rozdelení pravdepodobnosti Parameter estimation methods for recurrent classes of discrete probability distributions Gábor Szűcs Abstract: This article deals with modelling of claim number distribution through recurrent classes of discrete probability distributions. It follows the previous paper Szűcs (2013) and contains description of a methodology based on minimization of the Kolmogorov-Smirnov test statistic for estimating parameters of Schröter's recurrent distribution. The article includes external reference sources which contain program implementation of the above mentioned method in statistical software R (R Core Team, 2015). Abstrakt: Tento príspevok sa zaoberá modelovaním rozdelenia počtu poistných plnení prostredníctvom rekurentných tried diskrétnych rozdelení pravdepodobnosti a nadväzuje tak na článok Szűcs (2013). Obsahuje popis metodiky odhadu parametrov Schröterovho rekurentného rozdelenia založenej na minimalizácii testovacej štatistiky Kolmogorovovho- Smirnovovho testu. V článku sú uvedené externé odkazy zdrojov, ktoré obsahujú programovú implementáciu spomínanej metódy v rámci štatistického softvéru R (R Core Team, 2015). Key words: claim number distributions, recurrent classes of discrete distributions, parameter estimation methods, Kolmogorov-Smirnov test statistics. Kľúčové slová: rozdelenia počtu poistných plnení, rekurentné triedy diskrétnych rozdelení, metódy odhadu parametrov, testovacia štatistika Kolmogorovovho-Smirnovovho testu. JEL classification: C16, C Úvod Modelovanie rozdelení počtu poistných plnení v modeli kolektívneho rizika patrí medzi často skúmané tematiky neživotného poistenia. V praxi je kľúčovou úlohou vhodne nastaviť, resp. čo najpresnejšie odhadnúť typ a parametre rozdelení používaných pri modelovaní výšky či počtu plnení. Práve touto problematikou sa zaoberáme v tomto článku a hľadáme metódy použiteľné pri odhade parametrov rozdelení počtu poistných plnení. Nadväzujeme tak na štúdiu publikovanú v roku 2013 (viď článok Szűcs, 2013), v ktorej sme sa tiež zaoberali technikami kalibrácie parametrov rekurentných rozdelení používaných na modelovanie rozdelenia náhodnej premennej. Obe publikácie sú súčasťou väčšej výskumnej štúdie, ktorá sa zaoberá predovšetkým skúmaním, modelovaním a fitovaním diskrétnych rozdelení pravdepodobnosti. Tento príspevok obsahuje štyri hlavné kapitoly. V druhej časti sa definuje tzv. -trieda diskrétnych rozdelení pravdepodobnosti a jej špeciálne prípady: Panjerova trieda, Schröterova trieda a Schröterova trieda useknutých rozdelení. Tretia kapitola obsahuje popis metódy, ktorá slúži na odhad parametrov useknutého Schröterovho rozdelenia a ktorá je založená na minimalizácii hodnoty testovacej štatistiky Kolmogorovovho-Smirnovovho testu (tzv. KSštatistiky). V záverečnej časti je uvedené riešenie modelového príkladu a porovnanie jeho výsledkov so závermi článku Szűcs (2013). 2. Rekurentné triedy diskrétnych rozdelení pravdepodobnosti Ako sme už spomínali v úvodnej časti, pri modelovaní počtu poistných plnení sa môžu aplikovať rekurentné triedy diskrétnych rozdelení. Jednu z možných definícií rekurentných tried uvádzame v nasledujúcej definícii.

157 FORUM STATISTICUM SLOVACUM 6/ Definícia 1. (Dickson, 2005, Szűcs, 2013) Uvažujme diskrétnu náhodnú premennú s nekumulatívnym pravdepodobnostným rozdelením, kde Pr ; 0,1,2, Hovoríme, že rozdelenie patrí do rekurentnej triedy, ak platí pre 1,2,, (1) kde je prirodzené číslo,, sú reálne parametre triedy pre 1,2,, a 0 pre všetky 0. Špeciálnym prípadom -triedy je trieda, ktorá sa nazýva Panjerova trieda rozdelení a definuje sa vzťahom pre 1,2, (2) Ak rozdelenie náhodnej premennej pochádza z triedy, tak používame označenie ~,. Pre jednoduchosť obvykle hovoríme, že náhodná premenná má Panjerovo rozdelenie s parametrami a. Do Panjerovej triedy patrí napríklad binomické, negatívne binomické či Poissonovo rozdelenie. Ďalšie podrobnosti o Panjerovej triede sa dajú nájsť napríklad v Panjer (1981), Dickson (2005) alebo Szűcs (2013). Uvažujme teraz ďalší špeciálny prípad Definície 1: triedu. Podľa Definície 1 pre 2 platí rekurentný vzťah pre 1,2, (4) Ak položíme, 0,,, tak dostaneme podtriedu triedy známu pod názvom Schröterova trieda. Ak rozdelenie veličiny patrí do Schröterovej triedy, tak používame zápis ~,, a platí pre 1,2,, (5) kde,, sú reálne parametre triedy a 0. Pre jednoduchosť tiež hovoríme, že náhodná premenná ~,, má Schröterovo rozdelenie s parametrami,,. V prípade, že nekonečný definičný obor Schröterovho rozdelenia nahradíme konečnou množinou, hovoríme o useknutom Schröterovom rozdelení, resp. o Schröterovej triede useknutých rozdelení. Ak rozdelenie veličiny patrí do Schröterovej triedy useknutých rozdelení (useknutých zdola aj zhora), tak používame zápis ~,, a platí pre 1,2,,, (6) kde, sú dané nezáporné celé čísla ( ) vyjadrujúce hranice useknutia, je začiatočná pravdepodobnosť useknutého Schröterovho rozdelenia a 0 pre všetky, 1, 2,,. Poznámka. V ďalšej časti tohto článku pod Schröterovou triedou a Schröterovým rozdelením rozumieme ich useknuté verzie. 3. Odhad parametrov minimalizáciou KS-štatistiky Uvažujme rovnakú konštrukciu a predpoklady, aké sme zaviedli v článku Szűcs (2013). Predpokladajme teda, že máme k dispozícií dáta,,, o počtoch poistných plnení v minulom období, kde je počet dátových bodov. Na základe týchto údajov sa zostrojí empirické nekumulatívne pravdepodobnostné rozdelenie náhodnej premennej a označí sa ako,,,,, 1, 0 pre všetky 0,1,, kde,,,. Celú metodiku odhadovania parametrov rekurentných tried opäť predstavíme na Schröterovej triede rozdelení. Metódy odhadu parametrov iných, vyšších rekurentných tried diskrétnych rozdelení by sa principiálne nelíšili od prezentovanej metodiky, jedine počet odhadovaných

158 156 FORUM STATISTICUM SLOVACUM 6/2015 parametrov a výpočtová (numerická) náročnosť by sa mohla zvyšovať. Našou úlohou je teda nájsť také rozdelenie patriace do špeciálnej useknutej Schröterovej triedy,, ktoré je najbližšie k empirickému rozdeleniu, t. j. potrebujeme odhadnúť parametre,, a k nim prislúchajúcu začiatočnú pravdepodobnosť. V publikácii Szűcs (2013) sme uviedli niekoľko metód na odhad parametrov Schröterovej triedy. Ako počiatočnú kalibračnú metódu sme prezentovali tzv. metódu kalibračných pätíc (pentad), ktorá bola založená na riešení sústavy lineárnych rovníc. Potom sme uviedli ďalšie postupy abs1, abs2, abs3, quad1, quad2, resp. quad3, pri ktorých sa riešila úloha minimalizácie danej účelovej funkcie, pričom jednotlivé metódy sa líšili voľbou účelovej funkcie merajúcej vzdialenosť medzi empirickým a fitovaným rozdelením. Napríklad účelová funkcia v prípade metódy quad2 bola totožná s testovacou štatistikou Pearsonovho -kvadrát testu dobrej zhody. Pri určení kvality odhadnutých rozdelení v riešení ilustračného príkladu sme používali hodnoty testovacích štatistík Cramérovho-von Misesovho testu dobrej zhody a Kolmogorovovho-Smirnovovho testu pre diskrétne rozdelenia (viď Szűcs, 2013 a Arnold, Emerson, 2011). Hodnoty testovacích štatistík postačovali na vzájomné porovnávanie kvality odhadov, avšak z globálneho hľadiska napríklad v zmysle Kolmogorovovho-Smirnovovho testu ani jedna odhadnutá distribúcia (zostrojená pri odhadnutých parametroch Schröterovho rozdelenia,, ) nemala dostatočnú presnosť v porovnaní s empirickým rozdelením získaným z dátového súboru. Práve táto skutočnosť nás motivovala k tomuto výskumu, aby sme skúsili skonštruovať takú metodiku, pri ktorej sa odhady parametrov rekurentnej triedy rozdelenia hľadajú minimalizáciou hodnoty testovacej štatistiky Kolmogorovovho-Smirnovovho testu. Nech označuje empirickú kumulatívnu distribučnú funkciu pre 0,1,,, t. j. nech, a nech je teoretická kumulatívna distribučná funkcia (v našom prípade patriaca k fitovanému Schröterovmu rozdeleniu). Označme symbolom testovaciu štatistiku Kolmogorovovho-Smirnovovho testu, ktorá sa definuje vzťahom (viď Anděl, 2007 alebo Arnold, Emerson, 2011) sup. (7) Hľadanie odhadu parametrov,, useknutého Schröterovho rozdelenia a k nim prislúchajúcej začiatočnej pravdepodobnosti môžeme sformulovať v tvare nasledujúcej optimalizačnej úlohy: pri podmienkach,,, argmin,;,, (8) pre 1,2,,, (9) 1, (10) 0,1, pre 1,2,,, (11) kde pre 0,1,,. Vyššie uvedenú zložitú minimalizačnú úlohu (8) pri hraničných podmienkach (9), (10) a (11) prevedieme do takého tvaru, v ktorom je možné nájsť aspoň numerické odhady hľadaných parametrov. Spoliehame sa pritom na penalizačnú metódu publikovanú v knihe Buchanan, Turner (1992). Definujme pomocnú účelovú funkciu predpisom sup max0; 1 max0; 1 min0; ; ; ;, (12)

159 FORUM STATISTICUM SLOVACUM 6/ kde, sú kladné reálne koeficienty špecifikujúce veľkosť penalizácie pri numerickom porušení podmienky o súčte pravdepodobností a je tiež kladným reálnym koeficientom, ktorý určuje výšku penalizácie pri porušení podmienky o kladnosti pravdepodobností. Potom pôvodnú minimalizačnú úlohu (8) pri hraničných podmienkach (9), (10) a (11) môžeme previesť pomocou funkcie, definovanej vzťahom (12), do tvaru,,, argmin,;,,. (13) Pri numerickom riešení zložitej nelineárnej optimalizačnej úlohy (13) môžeme používať napríklad štatistický softvér R (R Core Team, 2015) a jeho špeciálnu optimalizačnú funkciu optim(), implementovanú v základnom balíku softvéru. Z dostupných algoritmov funkcie optim() je vhodné zvoliť metódu simulovaného žíhania (Simulated Annealing, SANN), ktorá bola pôvodne publikovaná v článku Belisle (1992) a ktorá patrí do triedy stochastických optimalizačných metód. Ako štartovací bod optimalizačného algoritmu môžeme položiť napr. trojicu,, získanú z metódy kalibračných pätíc pentad (viď článok Szűcs, 2013) a k nej prislúchajúcu začiatočnú pravdepodobnosť. Programová implementácia úlohy (13) v prostredí štatistického softvéru R je uvedená vo funkcii schr.dist.calib2() 1, ktorú sme vytvorili rozšírením pôvodnej verzie funkcie s názvom schr.dist.calib() 2, ktorú sme publikovali v spomínanom príspevku Szűcs (2013). Do novej, rozšírenej funkcie určenej na hľadanie odhadov parametrov Schröterovho rozdelenia sme pridali voľbu method="minks", pričom toto pomenovanie pochádza z idey minimalizácie hodnoty štatistiky Kolmogorovovho-Smirnovovho testu pre diskrétne rozdelenia Riešenie modelového príkladu Pre porovnateľnosť výsledkov uvažujme zadanie ilustračného príkladu z článku Szűcs (2013) o určitom type neživotného poistenia, pri ktorom sledujeme počet poistných plnení za zvolenú časovú jednotku. Predpokladajme, že máme k dispozícii historické dáta predstavujúce týždenné počty poistných plnení pripadajúcich na tisíc platných poistných zmlúv. Aj na tomto mieste by sme poznamenali, že historické dáta sú v tomto prípade generované zo zmesi troch Poissonových rozdelení (nejedná sa teda o reálny dátový súbor). 4 Tab. 1: Výberové charakteristiky polohy dátového súboru (zdroj: Szűcs, 2013) Minimum Prvý kvartil Medián Priemer Tretí kvartil Maximum 0,00 6,00 11,0 11,5 16,0 33,0 Pre úplnosť dodávame aj ďalšie parametre dátového súboru: dĺžka dátového vektora (počet pozorovaní): 1000; maximálny týždenný počet poistných plnení v dátovom súbore: 33. Týždenný počet poistných plnení modelujeme vhodným rozdelením z triedy,, a potrebujeme odhadnúť parametre triedy. Nižšie je uvedená tabuľka odhadov parametrov z článku Szűcs (2013) a hodnoty testovacej štatistiky Cramérovho-von Misesovho 1 Zdrojový kód funkcie schr.dist.calib2() je dostupný na adrese: 2 Zdrojový kód prvej verzie funkcie schr.dist.calib() je dostupný na adrese: 3 Podrobná dokumentácia funkcie schr.dist.calib2 je uvedená v súbore: 4 Dátový súbor používaný v modelovom príklade je dostupný na adrese:

160 158 FORUM STATISTICUM SLOVACUM 6/2015 ( ), resp. Kolmogorovovho-Smirnovovho testu dobrej zhody (). Odhady parametrov sme získali pomocou spomínanej funkcie schr.dist.calib(), kým testy dobrej zhody sme vykonali prostredníctvom balíka dgof s použitím funkcií cvm.test(), resp. ks.test() (viď článok Arnold, Emerson, 2011) v rámci softvéru R. Tab. 2: Odhadnuté parametre Schröterovho rozdelenia (zdroj: Szűcs, 2013) par./metóda pentad abs1 abs2 abs3 quad1 quad2 quad3 0, , , , , , , , , , , , , , , , , , , , , (C-vM) 4,9923 1,1097 4,5113 0,6921 0,4318 0,8676 0,7059 (K-S) 0,1756 0,0726 0,0939 0,065 0,047 0,046 0,065 Prostredníctvom nového prístupu (minks) založeného na minimalizácii hodnoty testovacej štatistiky Kolmogorovovho-Smirnovovho testu (presnejšie povedané, na numerickej minimalizácii pomocnej účelovej funkcie ) sme dostali nové odhady useknutého Schröterovho rozdelenia : 0, ; 0, ; 3, , pričom odhad pre začiatočnú pravdepodobnosť bol 0, Po zostrojení nekumulatívneho rozdelenia pravdepodobnosti,,,,, resp. distribučnej funkcie sme vykonali Cramérov-von Misesov a Kolmogorovov-Smirnovov test dobrej zhody. Pri prvom menovanom teste nám vyšla vzdialenosť na hodnotu 0,2192 s p- hodnotou testu 0,233, kým pri druhom teste sme dostali KS-štatistiku 0,0275 pri p- hodnote 0,4355. Vizuálny fit distribučných funkcií sme znázornili na Obr. 1. Obr. 1: Porovnanie empirickej a fitovanej distribučnej funkcie pri metóde minks Z hodnôt oboch štatistík vidíme zlepšenie presnosti odhadu parametrov useknutého Schröterovho rozdelenia. K novému odhadu sa kvalitatívne približuje len trojica získaná metódou quad1 (viď Tab. 2). Tiež môžeme skonštatovať, že obe testy dobrej zhody potvrdili podobnosť empirickej a fitovanej distribučnej funkcie. 5 Detailné riešenie príkladu je uvedené na:

161 FORUM STATISTICUM SLOVACUM 6/ Záver V rámci tohto príspevku sme nadviazali na výskum metodík odhadu parametrov rekurentných tried diskrétnych rozdelení, ktorý sme zahájili v roku Popísali sme metódu založenú na minimalizácii hodnoty testovacej štatistiky Kolmogorovovho- Smirnovovho testu. Pri prezentovanej metóde sme zistili, že distribučná funkcia odhadnutá pomocou spomínaného postupu dosahuje lepšiu kvalitu fitu. Metodiku sme uviedli pre špeciálny prípad Schröterovej triedy useknutých distribúcií, avšak postup môže byť použitý aj pre iné -triedy diskrétnych rozdelení a môže tak byť užitočným nástrojom pri modelovaní počtu poistných plnení v neživotnom poistení. Poďakovanie Tento článok vznikol s podporou grantu VEGA č. 2/0047/15. Literatúra ANDĚL, J Základy matematické statistiky. 2. vydanie. Praha: MATFYZPRESS, vydavateľstvo Matematicko-fyzikální fakulty, Univerzity Karlovy v Praze. ISBN ARNOLD, T. B. - EMERSON, J. W Nonparametric Goodness-of-Fit Tests for Discrete Null Distributions. The R Journal, č. 3/2, s ISSN BELISLE, C. J. P Convergence theorems for a class of simulated annealing algorithms on Rd. Journal of Applied Probability, roč. 29, č. 4, s ISSN BUCHANAN, J. I. - TURNER, P. R Numerical methods and analysis. Springer, New York. ISBN-13: DICKSON, D Insurance. Risk and Ruin. Cambridge: Cambridge Univesity Press. ISBN MIKOSCH, T Non-Life Insurance Mathematics. Corrected Second Printing. Copenhagen: Springer, University of Copenhagen. ISBN PANJER, H. H Recursive Evaluation of a Family of Compound Distributions. ASTIN Bulletin, roč. 12, č. 1, s ISSN R CORE TEAM R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. Dostupné na adrese: < SZŰCS, G Schröterova trieda rozdelení. Forum Statisticum Slovacum, IX. ročník, č. 7/2013, s ISSN Adresa autora: Gábor Szűcs, Mgr., PhD. Katedra aplikovanej matematiky a štatistiky Fakulta matematiky, fyziky a informatiky Univerzita Komenského v Bratislave Mlynská dolina, Bratislava [email protected]

162 160 FORUM STATISTICUM SLOVACUM 6/2015 Synchronizácia národných a regionálnych hospodárskych cyklov krajín EÚ-15: prípad Francúzska a Nemecka Synchronization of the national and regional business cycles of the EU-15 countries: the case of France and Germany Ľubica Štiblárová Abstract: The aim of this article is to identify the level of business cycles synchronization in the EU-15 countries. Analysis is performed on two levels national and regional using traditional approach with Hodrick-Prescott filter and Pearson correlation coefficient, as well as with alternative minimum spanning tree approach. Results show that EU-15 countries are highly synchronized with the Eurozone business cycle. France and Germany representing core Europe reach high level of synchronization of the national business cycles, but reasonable differences were identified on the regional level Germany seems even highly synchronized on the regional level, but this assumption was not confirmed in case of France. Abstrakt: Cieľom tohto príspevku je identifikovať úroveň synchronizácie hospodárskych cyklov v zoskupení krajín EÚ-15. Analýza je vykonaná na dvoch úrovniach národnej a regionálnej tradičným prístupom pomocou Hodrick-Prescottovho filtra a Pearsonovho koeficientu korelácie, ako aj alternatívnym prístupom minimálnej kostry grafu. Výsledky ukazujú, že krajiny EÚ-15 vykazujú vysokú mieru súladu s cyklom eurozóny. Francúzsko a Nemecko reprezentanti jadra Európy dosahujú na národnej úrovni dlhodobo vysokú mieru synchronizácie, avšak v prípade regionálnej úrovne boli identifikované rozdiely zatiaľ čo Nemecko vykazuje synchronizáciu aj na regionálnej úrovni, tento predpoklad nebol potvrdený v prípade Francúzska. Key words: Business Cycle Synchronization, Regional Cycles, Minimum Spanning Tree. Kľúčové slová: synchronizácia hospodárskych cyklov, regionálne cykly, minimálna kostra grafu. JEL classification: F44, R10 1. Úvod Predpokladom pre správne fungovanie menovej únie a nastavenie vhodnej menovej politiky je existencia istej úrovne zosúladenia hospodárskych cyklov jednotlivých členských krajín. Základným východiskom pre štúdium tejto problematiky je teória optimálnej menovej oblasti (z ang. Theory of optimum currency areas) formulovaná R. Mundellom (1961), podľa ktorej majú krajiny so synchronizovanými hospodárskymi cyklami prospech z vytvorenia menovej únie, pretože sú vystavené symetrickým šokom, čo je následne premietnuté do nižších nákladov jednotnej menovej politiky. Cieľom nášho príspevku bude konfrontovať teóriu OCA s regionálnymi aspektmi synchronizácie, ktorými sa zaoberal okrem iných P. Krugman (1993). 2. Prehľad skúmanej problematiky De Grauwe (1997) identifikoval dva odlišné názorové smery týkajúce sa vzťahu prebiehajúcej integrácie ekonomík (integračné snahy v Európe zakončené vytvorením eurozóny) a synchronizácie hospodárskych cyklov. Označil ich ako pohľad Európskej komisie (z ang. The European Commission View), ktorý korešponduje s ideou teórie OCA a protichodný pohľad Krugmana (z ang. The Krugman View).

163 FORUM STATISTICUM SLOVACUM 6/ Pohľad Krugmana (1993) je často označovaný ako pesimistický názor, podľa ktorého integrácia vedie k regionálnej koncentrácii priemyselných aktivít (špecializácii regiónov), vzniku asymetrických šokov - šokov špecifických pre dané regióny, čo následne zapríčiňuje divergenciu hospodárskych cyklov v budúcnosti, a to najmä na regionálnej úrovni. Väčšina štúdií zaoberajúca sa synchronizáciou hospodárskych cyklov v EMÚ je zameraná na hodnotenie zosúladenia ekonomík na národnej úrovni. Ak by sme mali zhrnúť najpodstatnejšie zistenia z tejto oblasti, štúdie potvrdzujú zvyšujúcu sa synchronizáciu hospodárskych cyklov medzi vyspelými členskými krajinami EMÚ (Artis a Zhang, 1999; Barrios a kol., 2001; Beine a kol., 2003), nárast synchronizácie periférnych ekonomík v čase (Marelli, 2006), ale zároveň aj vyšší stupeň synchronizácie medzi členmi EMÚ v porovnaní s periférnymi európskymi ekonomikami (Beine, 2003). Zatiaľ čo sa tieto závery vzťahujú na národnú úroveň, oveľa menej pozornosti je venovanej synchronizácii na regionálnej úrovni. Skúmanie na tejto úrovni však môže priniesť komplexnejší pohľad na danú problematiku vďaka širšiemu množstvu informácií. Priemyselno - špecifické šoky sú zreteľnejšie na regionálnej úrovni než pri porovnávaní na úrovni samotných krajín (Belke a Heine, 2006), rovnako tak majú regióny tendenciu byť viac obchodne otvorené než samotné krajiny a úroveň špecializácie je zvyčajne tiež na vyššej úrovni (Tondl a Traistaru, 2006). Pokiaľ sa abstrahuje od divergenčných tendencií na regionálnej úrovni, závery prijaté na základe evidencie na národnej úrovni ohľadom uplatňovania politík nemusia byť adekvátne. 3. Metodika a použité údaje Cieľom nášho príspevku je zhodnotiť úroveň synchronizácie hospodárskych cyklov v prípade krajín EÚ-15 so zreteľom na regionálnu úroveň, ktorú uplatníme na príklade dvoch krajín Francúzska a Nemecka (často používané ako benchmark pri hodnotení synchronizácie), ku ktorým sa pripodobňujú hospodárske cykly ostatných členských krajín. 3.1 Údaje Pre posúdenie synchronizácie jednotlivých členských krajín boli v našej analýze použité údaje o reálnom HDP (v stálych cenách v mil. USD, bázický rok 2010) z databázy OECD. Z tejto databázy sme čerpali dva typy údajov údaje ohľadom národnej úrovni krajín EÚ-15, ako aj údaje z regionálnej úrovne. Kvôli zabezpečeniu dostupnosti údajov na oboch úrovniach bolo zvolené skúmané časové obdobie V prípade regionálnej úrovne sme pracovali len s údajmi pre Francúzsko a Nemecko. V prípade Francúzska uvažujeme s 22 regiónmi na úrovni NUTS 2 (bez 5 zámorských departmentov), v prípade Nemecka sme sa rozhodli kvôli nedostupnosti údajov a zmeny NUTS usporiadania použiť údaje o 16 spolkových krajinách. Tieto údaje boli použité na výpočet produkčnej medzery ako vstupnej premennej pre posúdenie stavu synchronizácie na oboch skúmaných úrovniach národnej aj regionálnej. 3.2 Metodika Údaje o reálnom HDP pre príslušné krajiny/regióny za stanovené obdobie bolo potrebné najprv očistiť o trendovú zložku s cieľom používať v analýze len produkčné medzery, teda cyklický komponent. Pre potreby očistenia časových radov a nájdenia cyklickej zložky bol zvolený Hodrick-Prescottov (HP) filter (1997). Predpokladom použitia HP filtra je, že reálny HDP osciluje okolo úrovne potenciálneho produktu a slúži tak na odfiltrovanie cyklickej zložky od trendovej. Uvažujeme s logaritmickou hodnotou reálneho produktu y t, ktorý môžeme dekomponovať na dve zložky: log y g c (1) t t t

164 162 FORUM STATISTICUM SLOVACUM 6/2015 pričom g t predstavuje trendovú zložku a c t cyklickú zložku, ktorú následne vieme vypočítať ako c t yt gt log (2) Hodrick-Prescottov filter odhaduje g t a c t minimalizovaním funkcie: N N1 2 2 minyt gt g t1 gt gt gt 1 gt (3) t1 t2 pričom odporúčaná hodnota pre parameter λ je pri mesačných údajoch , štvrťročných 1400 a pri ročných údajoch 6,25 (Ravn a Uhlig, 1997), čo bol náš prípad. Následne sme aplikovali na očistených časových radoch viacero metód. Analýza je uskutočnená na dvoch úrovniach: národná úroveň krajiny EÚ-15, regionálna úroveň regióny Francúzska a Nemecka. Pre kvantifikáciu synchronizácie sme zvolili tradičný, ale aj alternatívny prístup k tejto problematike. Tradičný prístup spočíva vo využití Pearsonovho korelačného koeficientu definovaného ako pomer kovariancie (cov) a súčinu smerodajných odchýlok (σ i, σ j ) dvoch časových radov: covi, j ij (4) V prípade analýzy národných hospodárskych cyklov sledujeme vzťah medzi produkčnou medzerou sledovanej krajiny (i) a cyklu eurozóny (j), v prípade regionálnych hospodárskych cyklov sledujeme vzťah medzi hospodárskym cyklom príslušného regiónu (i) a (j) národným cyklom (Francúzska, resp. Nemecka). Alternatívnym prístupom k tejto problematike je aplikovanie minimálnej kostry grafu (MST). Prístup minimálnej kostry grafu bol pôvodne aplikovaný na výnosnostiach akcií na finančných trhoch (Mantegna, 1999), pri ktorých vrcholy grafu predstavujú samotné akcie a vzťahy medzi nimi sú prezentované hranami grafu. Hrany grafu odrážajú stupeň korelácie medzi vrcholmi. V prípade minimálnej kostry grafu je korelačná matica sledovaných časových radov transformovaná na maticu vzdialeností d ij, ktorá je symetrická a na diagonále má nuly: d ij i j 2(1 ) (5) MST následne pozostáva z n vrcholov a n-1 hrán. Táto metodika umožňujúca vizualizáciu komplexných vzťahov medzi n objektmi môže byť aplikovaná aj na iné oblasti skúmania, napríklad sledovanie vývoja výmenných kurzov (Rešovský a kol., 2013), úrokových mier (Siničáková a Šulíková, 2014), preto sme sa ju rozhodli aplikovať na zhodnotenie synchronizácie hospodárskych cyklov, kde budeme sledovať podobnosti medzi regiónmi na základe korelačnej matice transformovanej do príslušnej matice vzdialeností. Ako jeden z aspektov skúmania regionálnych cyklov nás zaujímal tzv. efekt hraníc. Naším cieľom je identifikovať podobnosť vzorov správania hospodárskych cyklov jednotlivých regiónov, ako aj podobnosť subregiónov (úroveň NUTS 3) v rámci rovnakej administratívnej jednotky (NUTS 2). Zaujíma nás teda úroveň itraregionálnej, ako aj interregionálnej synchronizácie, k čomu využijeme údaje na úrovni NUTS 3. ij

165 FORUM STATISTICUM SLOVACUM 6/ Všetky výpočty boli uskutočnené v prostredí programu R (R Core Team, 2013) za využitia balíkov mfilter, zoo, rgdal, maptools, shape, igraph a ape. 4. Synchronizácia národných hospodárskych cyklov krajín EÚ-15 s eurozónou Našou úvodnou analýzou bola analýza synchronizácie národných cyklov krajín EÚ-15 s cieľom vybrať krajinu/y najviac reprezentujúce európsky hospodársky cyklus, teda krajiny s najvyšším stupňom podobnosti s priemerom EÚ-15. Na Obr. 1 môžeme vidieť vývoj synchronizácie krajín EÚ-15 s hospodárskym cyklom eurozóny počas časového obdobia Obr. 1: Synchronizácia krajín EÚ-15 s cyklom eurozóny, obdobie Zdroj údajov: databáza OECD, vlastné spracovanie v programe R Synchronizácia bola meraná pomocou korelačného koeficientu na prekrývajúcich sa oknách dĺžky 8 rokov, aby sa zachytili významné výkyvy v ekonomickej aktivite daných krajín (ako to odporúča napr. Montoya a Haan, 2007). Najväčší rozptyl hodnôt a všeobecne nízke hodnoty synchronizácie preukazuje z EÚ-15 zoskupenia Grécko. Ostatné krajiny vykazujú najmä kvôli najnovším údajom vysokú mieru synchronizácie; Francúzsko a Nemecko vykazujú s malým rozptylom dlhodobo vysokú mieru súladu s európskym hospodárskym cyklom, čím sa nám len potvrdili predchádzajúce výsledky v skúmaní tejto problematiky (napr. Artis a Zhang, 1999). Tieto dve krajiny sú veľakrát využívané ako benchmark (tzn. referenčné krajiny) pre posúdenie synchronizácie ostatných krajín s európskym priemerom, keďže reprezentujú tzv. jadro Európy. V rámci našej analýzy sme si vybrali túto dvojicu krajín, kde nás následne v kontexte Krugmanovho negatívneho názoru na integráciu a regionálne asymetrické šoky zaujímala situácia vo vnútri týchto ekonomík, či preukazujú homogenitu alebo naopak, regionálne hospodárske cykly vykazujú značné rozdiely. 5. Synchronizácia regionálnych hospodárskych cyklov prípad Francúzska a Nemecka Ako už bolo spomenuté, vývoj hospodárskych cyklov v ostatných krajinách Európy je mnohokrát sledovaný v porovnaní s Nemeckom alebo Francúzskom. Okrem ich vysokej miery zosúladenia s ostatnými krajinami nás však bližšie zaujímalo ich zosúladenie na úrovni regiónov.

166 164 FORUM STATISTICUM SLOVACUM 6/ Synchronizácia regionálnych cyklov korelácia s národným cyklom Na Obr. 2 a 3 môžeme vidieť grafické znázornenie synchronizácie regionálnych cyklov Francúzska a Nemecka s ich národným cyklom. Napriek tomu, že obidve spomínané krajiny vykazujú vysoký stupeň korelácie národného cyklu s priemerom eurozóny (rovnako tak s priemerom EÚ-15), v nami sledovanom časovom období vidíme badateľné rozdiely berúc do úvahy regionálnu úroveň. Obr. 2 a 3: Synchronizácia regionálnych cyklov s národným cyklom Francúzska a Nemecka, Zdroj údajov: databáza OECD, vlastné spracovanie v programe R V prípade Francúzska, regionálne cykly nepreukazujú vysoký stupeň synchronizácie, produkčné medzery regiónov vykazujú vo viacerých prípadoch odlišné vzory správania ako národný cyklus. Za zmienku stojí spomenúť najmenej synchronizované oblasti, ktoré už svojou samotnou polohou a významom interpretujú túto mieru nesúladu. V rámci daného časového obdobia je najmenej synchronizovaná Korzika s nízkou úrovňou HDP, ktorá je orientovaná prevažne na cestovný ruch, oblasti Akvitánsko, Midi-Pyrénées (na hranici so Španielskom), ako aj centrum Francúzska, Île-de-France. V poslednom prípade sa domnievame, že centrálna oblasť preukazuje nesynchronizovanosť kvôli koncentrácii ekonomickej aktivity, keďže sem zaraďujeme aj Paríž. Najvyššiu mieru súladu preukazuje oblasť Hornej Normandie (Haute Normandie), ktorá predstavuje dôležitý bod pre medzinárodný obchod kvôli prístavu Le Havre. Naopak, v prípade Nemecka môžeme sledovať vysokú mieru synchronizácie regiónov s národnou úrovňou. Vo väčšine regiónov (spolkových krajín) je koeficient korelácie vyšší ako 0,7, teda sledujeme výraznú homogenitu a synchrónnosť hospodárskych cyklov. Podobne ako v prípade Paríža, nižšia úroveň podobnosti s národným cyklom je evidovaná aj v podmienkach Nemecka, konkrétne sa jedná o Berlín, Hamburg, Predné Pomoránsko (Mecklenburg-Vorpommern), Sasko-Anháltsko (Sachsen-Anhalt), avšak hospodársky cyklus daných regiónov je stále výrazne synchronizovaný s cyklom národným. 5.2 Synchronizácia regionálnych cyklov prístup minimálnej kostry grafu (MST) Okrem tradičného aplikovania Pearsonovho korelačného koeficientu a sledovania vzájomných korelácii medzi krajinami/regiónmi, resp. porovnávania s referenčnou krajinou/hodnotou, sme sa rozhodli zvoliť alternatívny prístup k tejto problematike a aplikovali sme metódu minimálnej kostry grafu (MST). Vytvorili sme minimálnu kostru grafu uvažujúc celé časové obdobie (z dôvodu krátkosti príspevku sa nevenujeme zmene

167 FORUM STATISTICUM SLOVACUM 6/ kostry grafu v čase, čo môže byť predmetom ďalšej analýzy) pre Francúzsko aj Nemecko, kde vrcholy grafu predstavujú jednotlivé regióny. Pre potreby kvantifikácie synchronizácie regiónov s národným cyklom sme do grafov pridali časový rad národného cyklu, teda je nám umožnené zistiť, ktoré regióny sú si podobné, rovnako tak zistiť ich podobnosť s národným cyklom. Spomínané minimálne kostry grafu sú zobrazené na Obr. 4 a 5: Obr. 4 a 5: Minimálna kostra grafu pre regionálne a národné cykly Francúzska a Nemecka, obdobie Zdroj údajov: databáza OECD 1, vlastné spracovanie v programe R V prípade obidvoch krajín vidíme, že regióny pri sebe ležiace majú väčšinou aj spoločné hrany v grafe, teda sú si podobné. Teda poloha daných regiónov má vplyv na synchronizáciu hospodárskych cyklov. Avšak opäť vidíme aj rozdielnosť medzi týmito dvoma spomínanými krajinami. V minimálnej kostre grafu pre Francúzsko má centrálnu pozíciu región Centre-Val de Loire, na ktorý nadväzujú hrany ostatných regiónov, pričom v prípade Nemecka má centrálnu pozíciu samotný národný cyklus, teda k nemu sa pripodobňujú ostatné regióny. MST prístup nám potvrdzuje závery z predchádzajúcej analýzy, ako aj odhaľuje štruktúru vzťahov a podobnosti medzi danými regiónmi. V prípade Nemecka sú regióny (spolkové republiky) výrazne podobné z pohľadu hospodárskeho cyklu s národným cyklom a keďže hrúbka hrán v grafe znázorňuje silu korelácie medzi danými vrcholmi, vidíme, že korelačné vzťahy v celom grafe sú veľmi silné. V prípade Francúzska vidíme, že niektoré regióny majú slabšie korelácie (napr. Korzika alebo Île-de-France) a nachádzajú sa na okraji štruktúry samotného grafu. 1 Použité skratky: FRA: Francúzsko, FR10: Île-de-France, FR21: Champagne-Ardenne, FR22: Pikardia, FR23: Horná Normandia, FR24: Centre-Val de Loire, FR25: Dolná Normandia, FR26: Burgundsko, FR30: Nord-Pas-de-Calais, FR41: Lotrínsko, FR42: Alsasko, FR43: Franche-Comté, FR51: Pays de la Loire, FR52: Bretónsko, FR53: Poitou- Charentes, FR61: Akvitánsko, FR62: Midi-Pyrénées, FR63: Limuzínsko, FR71: Rhône-Alpes, FR72: Auvergne, FR81: Languedoc-Roussillon, FR82: Provence-Alpes-Côte d'azur, FR83: Korzika. GER: Nemecko, DE1: Baden-Württemberg, DE2: Bavorsko, DE3: Berlín, DE4: Brandenburg, DE5: Bremen, DE6: Hamburg, DE7: Hesse, DE8: Meklenbursko-Predpomoransko, DE9: Dolné Sasko, DEA: Severné Porýnie- Vestfálsko, DEB: Porýnie-Falcko, DEC: Sársko, DED: Sasko, DEE: Sasko-Anhaltsko, DEF: Šlezvicko- Holštajnsko, DEG: Durínsko

168 166 FORUM STATISTICUM SLOVACUM 6/ Synchronizácia regionálnych cyklov Francúzska úroveň NUTS 3 Na ako posledné sme sa v rámci analýzy zamerali na najnižšiu dostupnú úroveň údajov NUTS 3 pre Francúzsko, keďže v prípade tejto krajiny sme identifikovali pomocou predchádzajúcich dvoch metód výrazné odlišnosti v synchronizácii na úrovni regiónov NUTS 2. V rámci údajov na úrovni subregiónov NUTS 3 nás zaujíma tzv. efekt hraníc, teda či viaceré subregióny NUTS 3 spadajúce pod jeden región NUTS 2 majú podobnú úroveň synchronizácie. Pre porovnanie bola opäť skonštruovaná minimálna kostra grafu na Obr. 6, kde sú subregióny jedného regiónu znázornené rovnakou farbou. Opäť sa nepotvrdila centrálna pozícia národného cyklu Francúzska a predpoklad efektu hraníc nemôžeme stopercentne potvrdiť. Vo viacerých prípadoch blízko umiestnené vrcholy grafu pochádzajú z rovnakého regiónu, no môžeme identifikovať aj izolované subregióny mimo zhluku daného regiónu. Pre hlbšiu analýzu by bolo potrebné zaoberať sa aj inými aspektmi daných regiónov, napríklad ich úrovňou špecializácie, vzdialenosťami medzi nimi, či inými ekonomickými, ako aj neekonomickými charakteristikami. Obr. 6: Minimálna kostra grafu pre Francúzsko, úroveň NUTS 3, obdobie Zdroj údajov: databáza OECD 2, vlastné spracovanie v programe R 6. Záver Cieľom tohto článku bolo posúdiť úroveň synchronizácie v krajinách EÚ-15 na národnej úrovni a následne vykonať analýzu na regionálnej úrovni pre vybranú dvojicu krajín Francúzsko a Nemecko. V prípade synchronizácie na národnej úrovni, krajiny EÚ-15 (s výnimkou Grécka) vykazujú vysokú mieru súladu s hospodárskym cyklom eurozóny, avšak identifikovali sme na príklade Francúzska a Nemecka odlišnú mieru synchronizácie na regionálnej úrovni. Zatiaľ čo Nemecko vykazuje synchronizáciu aj na regionálnej úrovni, v prípade Francúzska boli identifikované výraznejšie rozdiely vo vývoji regionálnych hospodárskych cyklov. Predmetom ďalšej analýzy bude identifikácia faktorov tohto vývoja na regionálnej úrovni, hodnotenie úrovne špecializácie a samotnej polohy daných regiónov. 2 rovnaké označenie regiónov ako v prípade Obr. 4; subregióny (napr. FR21.1, FR21.2) patriace do jedného regiónu znázornené rovnakou farbou

169 FORUM STATISTICUM SLOVACUM 6/ Poďakovanie Tento príspevok bol vypracovaný v rámci projektu VEGA 1/0994/15. Literatúra ARTIS, M. J. ZHANG, W Further evidence on the international business cycle and the ERM: is there a European business cycle? In: Oxford Economic Papers, č. 51, s BARRIOS a kol A tale of two cycles: Co-fluctuations between UK regions and the Eurozone. The University of Manchester. BEINE a kol EMU membership and business cycle phases in Europe: Markovswiching VAR analysis. In: Journal of Economic Integration, roč. 18, č.1, s BELKE, A. HEINE, J Specialisation patterns and the synchronicity of regional employment cycles in Europe. In: International Economics and Economic Policy. roč. 3, č. 2, s DE GRAUWE, P The Economics of Monetary Integration. Oxford University Press. HODRICK, R. C. PRESCOTT, E. C Postwar US business cycles: an empirical investigation. In: Journal of Money, Credit, and Banking, roč. 29, č. 1, s KRUGMAN, P Lessons of Massachusetts for EMU. In: Adjustment and growth in the European monetary union. Cambridge: Cambridge University Press. MANTEGNA, R. N Hierarchical Structure in Financial Markets. In: The European Physical Journal B., roč. 11, s MARELLI, E Specialisation and convergence of European regions. In: The European Journal of Comparative Economics. roč.4, č.2, s MONTOYA, L. A. HAAN, J Regional Business Cycle Synchronization in Europe? Bruges European Economic Research Papers. MUNDELL, R The theory of optimum currency areas. In: American Economic Review. roč. 51, č. 4. OECD STATISTICS Regional Economy Dataset. RAVN, M. UHLIG, H On adjusting the HP-filter for the frequency of observations, In: Review of Economics and Statistics, 84(2), pp R CORE TEAM R: A language and environment for statistical computing. Vienna: R Foundation for Statistical Computing. REŠOVSKÝ, M. a kol Minimum Spanning Tree Application in the Currency Market. In: Biatec, roč. 21, č. 7, s SINIČÁKOVÁ, M. ŠULIKOVÁ, V Interbank Interest Rate Interdependencies Using the MST Approach. In: 5th Central European Conference in Regional Science, s TONDL, G. TRAISTARU, I Regional growth cycle convergence in the European Union. The Economic and Research Institute. Adresa autora: Ľubica Štiblárová, Ing. Ekonomická fakulta TU v Košiciach Němcovej 32, Košice [email protected]

170 168 FORUM STATISTICUM SLOVACUM 6/2015 Analýza vybraných rizikových skupín na trhu práce Analysis of selected risk groups in the labour market Alena Tartaľová Abstract: In this paper the determinants which are considered to be significant in connection with risk of unemployment are studied. The selected factors are based on publications and will serve as input for logistic regression analysis. The paper contains descriptive analysis of the risk groups in the labour market based on the EU SILC database. We analyses factors such as gender, age, higher ISCED level attained, household type and health state. Abstrakt: V tomto príspevku sú študované faktory, ktoré sú považované za významné v súvislosti s rizikom nezamestnanosti. Tieto faktory, sú založené na publikáciách a budú slúžiť ako vstup pre logistickú regresiu. Práca obsahuje popisnú štatistiku rizikových skupín na trhu práce na základe databázy EU-SILC. Analyzujú sa faktory, ako pohlavie, vek, najvyššia dosiahnutá úroveň vzdelania, typ domácnosti a zdravotný stav. Key words: unemployment, unemployment factors, logistic regression, labour market Kľúčové slová: nezamestnanosť, faktory nezamestnanosti, logistická regresia, trh práce JEL classification: E20, E24, N30 1. Úvod Negatívny vývoj nezamestnanosti na Slovensku je ovplyvnený viacerými faktormi, ktorých presná definícia by bola optimálnym začiatkom riešenia problému rozoberaného v podmienkach SR nielen na národnej, ale aj európskej úrovni. Teoretické východiská založené na zákonníku práce a výskumoch viacerých kolegov (napr. Mareš (2005), Petríková (2011), Želinský (2014), Kresilová (2014) a pod.) nás odkazujú na orientáciu našej analýzy na postavenie existujúcich rizikových skupín trhu práce a ich vzťah k pracovnej sile. Aplikovaním deskriptívnej štatistiky definujeme základné súvislosti v rámci nasledovných skupín obyvateľstva, ktoré budú slúžiť ako vstup pre analýzu signifikantných faktorov vplývajúcich na zamestnanosť s využitím logistickej regresie (Ariza Montez a kol. (2008), Luckaničová a kol. (2013)) : Absolventi; Občania Slovenskej republiky, ktorí si nenašli na trhu práce uplatnenie do 2 rokov od ukončenia dennej formy štúdia do 30 rokov veku. Občania Slovenskej republiky starší ako 50 rokov; Občania Slovenskej republiky s nízkou úrovňou vzdelania; Občania Slovenskej republiky so zdravotnými problémami, resp. určitým stupňom postihnutia; Občania Slovenskej republiky vystupujúci ako slobodní rodičia. V rámci databázy EU SILC pracujeme s domácnosťami a respondentmi vo veku 16 rokov a viac, ktorí poskytli osobné údaje pre prierezové zisťovanie. Samozrejme, pri niektorých opytovaných skutočnostiach existujú chýbajúce premenné. V registri osôb pre prierezové zisťovanie je preto celkový počet respondentov Časť databázy s názvom Osobné údaje pre prierezové zisťovanie, skratka P 2 Časť databázy s názvom Register osôb pre prierezové zisťovanie, skratka R

171 FORUM STATISTICUM SLOVACUM 6/ Tab. 1: Prehľad počtu pracujúcich a nepracujúcich respondentov vážený a nevážený prístup Nevážený prístup k početnosti Vážený prístup k početnosti Početnosť % podiel Početnosť % podiel Pracujúci ,04% ,37% Nepracujúci ,96% ,63% Celkom % % Zdroj: EU SILC 2012, vlastné spracovanie Keďže databáza disponuje aj váhami jednotlivých respondentov, pre porovnanie vhodnosti prístupu k analýze dát sme zostavili Tabuľku 1 obsahujúcu nevážený a vážený prístup k početnosti pracujúcich a nepracujúcich obyvateľov. 45,04% podiel pracujúcich na celkovom počte respondentov v prípade prvého prístupu v porovnaní s 44,37% podielom v druhom prípade nenaznačuje veľmi signifikantné rozdiely. Pre zaujímavosť však budeme vo zvyšku práce početnosti, alebo percentuálne podiely pri popise vzorky uvádzať aj z váženého pohľadu. 2. Analýza rizikových skupín na základe údajov z EU SILC Celkovo sa na prieskume EU SILC zúčastnilo celkovo respondentov, čo predstavuje v roku 2011 pri celkovom počte obyvateľov Slovenskej republiky približne 0,25% podiel. Zamestnanosť Ak by sme sa chceli pozrieť na mieru ekonomickej aktivity obyvateľov Slovenskej republiky v tomto roku, zisťujeme, že databáza poskytuje dve odlišné hodnoty pre určenie počtu zamestnaných a počtu nezamestnaných, resp. neaktívnych respondentov. Zamestnanosť v prvom prípade prestavuje 50,65%, v druhom prípade konštatujeme mieru zamestnanosti 44,37%. Podobné odlišnosti sa vyskytujú aj v ostatných kategóriách. Tab. 2: Prehľad jednotlivých skupín obyvateľstva podieľajúcich sa na ekonomickej aktivite dáta pochádzajúce z časti Register osôb pre prierezové zisťovanie Nevážený prístup k početnosti Vážený prístup k početnosti Početnosť % podiel Početnosť % podiel Pracujúci ,04% ,37% Nezamestnaní 861 5,57% ,68% Dôchodcovia ,71% ,21% Ostatní ,68% ,74% Celkom ,00% ,00% Zdroj: EU SILC 2012, vlastné spracovanie 3 Podľa Slovenského štatistického úradu k

172 170 FORUM STATISTICUM SLOVACUM 6/2015 Ak sa pozrieme na vzorku respondentov z hľadiska zamestnanosti domácností, domácností má aspoň jedného člena pracujúceho, domácností aspoň dvoch zamestnaných a 697 domácností z celkového počtu 5291 nemá zamestnaného ani jedného člena. 59,59% respondentov označujúcich sa ako hlava domácnosti patrí do pracovnej sily, 3,96% celkového počtu je nezamestnaných. Pohlavie Zastúpenie pohlaví vo vzorke je pomerne vyvážené, muži predstavujú 48,7% podiel respondentov. Aj tu však nastáva rozkol pri určení konkrétneho počtu mužov a žien pri jednotlivých skupinách obyvateľov v prípade, že zvažujeme oba prístupy. Vo všeobecnosti si však dovolíme tvrdiť, že v Slovenskej republike pracuje viac mužov ako žien (51,62, resp. 53,65%) a existuje nepomer pri obyvateľoch poberajúcich rôzne typy dôchodkov, keďže ženy tvoria cca 64%. Príčiny samozrejme môžeme hľadať vo výraznejšej dlhovekosti žien (s tým súvisí neskôr aj poberanie vdovského dôchodku), resp. väčšia náchylnosť žien k chorobám s trvalým postihnutím. Presný prehľad poskytuje Tab.3. Tab.3: Prehľad jednotlivých skupín obyvateľstva podieľajúcich sa na ekonomickej aktivite na základe pohlaví Nevážený prístup k početnosti Vážený prístup k početnosti Početnosť % podiel Početnosť % podiel Pracujúci Muž ,62% ,65% Žena ,38% ,35% Nezamestnaní Muž ,13% ,49% Žena ,87% ,51% Dôchodcovia Muž ,17% ,92% Žena ,83% ,08% Ostatní Muž ,70% ,39% Žena ,30% ,61% Celkom Muž ,38% ,70% Žena ,62% ,30% Zdroj: EU SILC 2012, vlastné spracovanie Vzdelanie Najvyššia dosiahnutá úroveň vzdelania tejto databázy je stanovená formou Medzinárodného štandardného členenia vzdelávania. V roku 2011 prevládajú vo všeobecnosti absolventi stredných škôl so 61,97 percentami, absolventi prvého a druhého stupňa vysokých škôl tvoria 18,53% vzorky. Pri rozdelení respondentov do troch vekových kategórií (16-30, 31-50, 51 a viac rokov) má najnižšiu vzdelanostnú úroveň kategória 51 rokov a viac, samozrejme aj v tomto prípade prevláda absolvované stredoškolské vzdelanie. Typ domácností Tradičné slovenské domácnosti sú na základe Tab.4 tvorené v roku 2011 prevažne jedným, dvoma alebo štyrmi členmi. Konkrétne, vtedajšia spoločnosť sa skladá z jednočlenných domácností, ktorých podiel sa šplhá na 24,68%, domácností dvoch dospelých bez závislých

173 FORUM STATISTICUM SLOVACUM 6/ detí (obaja členovia sú vo veku pod 65 rokov alebo aspoň jeden je starší než 65 rokov) a domácností so závislými deťmi. Závislé deti sa vyskytujú v 38,69 percentách domácností, ak berieme do úvahy aj domácnosti dôchodcov. Väčšina Slovákov však preferuje vychovávať jedno (8,84%) alebo dve deti (11,64%), domácnosti dvoch dospelých s tromi deťmi tvoria iba 3,34 percenta. Môžeme tvrdiť, že tieto údaje potvrdzujú trend nízkej pôrodnosti na Slovensku. Domácnosti, ktoré tvorí jeden rodič majú nižšiu šancu, že rodič bude zamestnaný. V prípade mužov je táto pravdepodobnosť asi 9,53%, väčšina mužov patrí do ekonomickej kategórie ostatní (86,77%), teda osoby na materskej dovolenke alebo osoby v domácnosti. Ženy ako osamelý rodič sú viac aktívne na trhu práce, zamestnaných je približne 45 percent a do kategórie ostatní patrí iba 48% respondentiek patriacich do tejto kategórie. V rámci tejto vzorky je ešte zaujímavé podotknúť, že žiadna z domácností tvorená jedným rodičom mužského pohlavia je tvorená dôchodcami ako rodičmi. U žien toto percento dosahuje úroveň 1,47. Tab.4: Prehľad rozdelenia domácností na základe počtu členov Nevážený prístup k početnosti Vážený prístup k početnosti Početnosť % podiel Početnosť % podiel ,85% ,68% ,13% ,16% ,16% ,19% ,91% ,06% ,86% ,56% Viac ako ,08% ,36% Celkom % % Zdroj: EU SILC 2012, vlastné spracovanie Absolventi Absolventi v databáze predstavujú nezamestnaných občanov Slovenskej republiky vo veku do 25 rokov, ktorí sa neuplatnili na trhu práce do dvoch rokov od ukončenia najvyššej dosiahnutej úrovne vzdelania (samozrejme, do tohto pojmu nezahŕňame študentov). Databáza vytvorená údajmi z roku 2011 disponuje premennými ako je rok ukončenia najvyššej dosiahnutej úrovne vzdelania, vek respondentov a počet mesiacov strávených ako nezamestnaný počas referenčného obdobia. Počet absolventov sme stanovili vyčlenením vzorky ľudí na základe rozdielu veku, v ktorom dosiahol daný nezamestnaný respondent príslušný stupeň vzdelania, a aktuálnym vekom respondenta, pričom tento rozdiel musel byť menší ako 2. Taktiež sme selektovali len respondentov, ktorých počet mesiacov strávených ako nezamestnaný na trhu práce bol v intervale 6 až 12 mesiacov. Pri dodržaní podmienok uvedených vyššie je populácia absolventov Slovenskej republiky tvorená 59% mužmi, čo je v rozpore s celkovým podielom mužov na vzorke (ten tvorí 48 percent). Priemerný vek absolventa je približne 21 rokov a priemerný vek získania prvého zamestnania pri akomkoľvek druhu pracovného pomeru je 20 rokov, čo je výrazne vyššie číslo v porovnaní s rovnakou premennou celej vzorky.

174 172 FORUM STATISTICUM SLOVACUM 6/2015 Tab.5: Prehľad rozdelenia absolventov na základe pracovných skúseností Nevážený prístup k početnosti Vážený prístup k početnosti Početnosť % podiel Početnosť % podiel Áno 6 5,71% ,07% Nie 99 94,29% ,93% Celkom % % Zdroj: EU SILC 2012, vlastné spracovanie Údaje v Tab.6. naznačujú, že každý štrnásty absolvent škôl na Slovensku má skúsenosti s trhom práce. Drvivá väčšina, približne 94,5% skúsenosti s trhom práce nemá. To predstavuje v absolútnom vyjadrení váženej početnosti mužov a žien. Tab.6: Prehľad vzdelanostnej úrovne absolventov a neabsolventov Základné vzdelanie Stredoškolské vzdelanie Vysokoškolské vzdelanie Celkom Absolventi 23,62% 70,00% 6,38% 100% Neabsolventi 16,26% 64,48% 19,26% 100% Celkom 16,32% 64,53% 19,16% 100% Zdroj: EU SILC 2012, vlastné spracovanie Nielen v celej vzorke, ale aj v danej podskupine prevláda stredoškolské vzdelanie. Podiel vysokoškolsky vzdelaných ľudí je iba 6,38 percent, čo odpovedá aj vekovému zloženiu vzorky, prevládajú absolventi do 21 rokov. Z pohľadu postavenia absolventov v Slovenských domácnostiach až 95% respondentov uvádza status dieťa, teda žije v spoločnej domácnosti s rodičmi. Jedno percento stojí v hlave domácnosti (konkrétne v našej vzorke ide o jedného respondenta s váhou 374), ďalšie jedno percento čiže v spoločnej domácnosti s rodičmi svojho partnera (označili sa statusom zať/nevesta) a napokon tri percentá predstavujú vnukov alebo vnučky v rámci daných domácností. Uvedené čísla podľa nášho názoru utvrdzujú trend spolunažívania mladých s rodičmi v dôsledku neochoty, resp. zlých podmienok pre osamostatnenie sa. Staršie osoby Podľa zákona o zamestnanosti predstavujú staršie osoby občanov vo veku viac ako 50 rokov, pričom v rámci tejto databázy pri pracovnej sile rozprávame o pracujúcich a nezamestnaných. Na Slovensku predstavujú staršie osoby približne tretinu celkovej populácie, teda 33,4%. Ženy vo všeobecnosti tvoria väčšiu časť tejto vekovej kategórie, je to konkrétne 58 percent populácie. Pomer pohlaví však ovplyvňujú faktory ako vek odchodu do dôchodku, vek dožitia, prípadne sklon k chorobnosti. 60 percent starších obyvateľov vystupuje na trhu práce ako dôchodca. Počet starších obyvateľov patriacich ešte do pracovnej sily je o niečo nižší, pri váženom počte ide v roku 2011 o 31%. Bližší prehľad obsahuje Tab.7.

175 FORUM STATISTICUM SLOVACUM 6/ Tab.7: Prehľad skupín respondentov patriacich do pracovnej sily na základe veku Vek Nevážený prístup k početnosti Vážený prístup k početnosti Početnosť % podiel Početnosť % podiel ,33% ,74% ,77% ,68% ,18% ,97% 51 a viac ,73% ,61% Celkom % % Zdroj: EU SILC 2012, vlastné spracovanie Ak vezmeme do úvahy túto časť analýzy, vieme vyvodiť, že pojem starnutie populácie sa v súvislosti s obyvateľmi Slovenskej republiky skloňuje oprávnene. Pri pracovnej sile prevažujú obyvatelia, ktorí dosiahli aspoň 30 rokov veku, mladých je signifikantne menej. 22% obyvateľov starších ako 50 rokov žije ako vdovec/vdova, väčšina (65 percent) žije v domácnosti v manželskom zväzku so svojím partnerom. Vzdelanie starších osôb je v 63 percentách mužov a v 64 percentách žien na úrovni (vyššieho) sekundárneho vzdelania podľa ISCED, teda stredné školy s maturitou. 13 % disponuje prvým stupňom terciárneho vzdelania. S vzhľadom na zdravotný stav tejto vekovej skupiny môžeme na základe uvedených údajov konštatovať vo všeobecnosti ani dobrú, ani zlú úroveň (40 percent). K dobrému zdravotnému stavu sa prikláňa 28% populácie a 23 % naopak uvádza svoj zdravotný stav ako zlý. Pri starších osobách sa pozrieme aj na zdravotné obmedzenia, ktorými trpia. V prípade, že táto časť populácie aktívne pôsobí na trhu práce, resp. je nezamestnaná (tvorí pracovnú silu), 64 percent občanov Slovenskej republiky patriacich do tejto kategórie nemá zdravotné obmedzenia, ktoré by mohli akýmkoľvek spôsobom ovplyvňovať ich aktivitu. Ďalšie podrobnosti vyplývajúce z našej databázy uvádzame v Tab.8. Tab.8: Rozdelenie ľudí na základe zdravotných obmedzení pri pracovnej sile vo veku 51 a viac rokov Obmedzenie aktivít z dôvodu zdravotných problémov Nevážený prístup k početnosti Vážený prístup k početnosti Početnosť % podiel Početnosť % podiel Neuvedené 22 1,21% ,46% Veľmi obmedzovaný 103 5,65% ,13% Obmedzovaný, ale nie veľmi ,76% ,52% Vôbec neobmedzovaný ,38% ,90% Celkom % % Zdroj: EU SILC 2012, vlastné spracovanie Zhoršený zdravotný stav Keďže rizikové postavenie na trhu práce v niektorých prípadoch podmieňuje aj zdravotný stav, rozhodli sme sa definovať situáciu obyvateľov Slovenskej republiky aj v tejto oblasti. S radosťou konštatujeme, že naši občania sú v dobrej zdravotnej kondícií. Zlý, resp. veľmi zlý zdravotný stav evidujeme iba u 12,52 % ľudí. Lepšie sú na tom muži ako ženy, výrazne

176 174 FORUM STATISTICUM SLOVACUM 6/2015 vyšší podiel chorých nájdeme u nežnejšieho pohlavia, muži naopak tvrdia, že sa cítia veľmi dobre až dobre. Tieto údaje popisuje súhrnne popisuje Tab.9. Tab.9: Prehľad zdravotného stavu mužov a žien v roku 2011, vážené početnosti Zdravie Muži % podiel Ženy % podiel Neuvedené ,14% ,21% Veľmi dobré ,22% ,92% Dobré ,53% ,81% Ani dobré, ani zlé ,52% ,62% Zlé ,53% ,37% Veľmi zlé ,07% ,07% Celkom % % Zdroj: EU SILC 2012, vlastné spracovanie Vo svojich aktivitách sa kvôli zdravotnému stavu cíti byť obmedzovaných približne 34 percent ľudí (vážená početnosť), aj v tomto prípade podporujú vyššie negatívne štatistiky skôr ženy ako muži. Napríklad mierne obmedzenie uvádza 26 percent žien v porovnaní s dvadsiatimi percentami mužov. Aj napriek týmto obmedzeniam však 19 percent ľudí na Slovensku má zamestnanie. Nakoniec, chronické choroby sú taktiež pomerne významným determinantom postavenia jedinca na trhu práce, ich prítomnosť priznáva 30% respondentov. Dojem horšieho zdravotného stavu žien sa ani v tomto prípade nevyvracia, keďže až o 9 percent viac žien než mužov trpí chronickými chorobami akéhokoľvek typu. 3. Záver Nezamestnanosť ako súčasný fenomén zhŕňa všetkých ľudí starších ako 15 rokov, ktorí sú nezamestnaní, no zamestnanie si aktívne hľadajú a sú do práce schopní nastúpiť do 14 dní. Na trhu práce však existujú jedinci, pre ktorých zamestnať sa predstavuje oveľa väčší problém v porovnaní s ostatnými. Viaceré štúdie a výskumy dokazujú, že medzi tieto zaťažujúce skutočnosti patrí nízka úroveň a relevantnosť schopností a zručností človeka v súvislosti s trhom práce, zdravotné postihnutie alebo práceneschopnosť v dôsledku invalidity, určitá rodina a osobná zodpovednosť, odchod do dôchodku (penzia) a nízka úroveň vzdelanie a školení. Rešerš výskumov potvrdzuje efekt spomínaných faktorov na nezamestnanosť. Ďalším krokom našej analýzy je logistická regresia, kde ako vysvetľujúce premenné vstupujú spomínané faktory, ktoré považujeme za signifikantné pre úspech jedinca na trhu práce. Príspevok bol vytvorený s podporou projektu VEGA 1/0446/15 Rozvoj bankového sektora a ekonomický rast: nové členské krajiny EÚ po 10 rokoch členstva Literatúra ARIZA MONTEZ, J. A. A KOL Job Stability and Gender Perspectives: Application of a Logistic Regression Model. In quarterly Scientific Journal. 2008, vol. 41, Issue 1-2. ISSN BOERI, T. VAN OURS, J The economics of imperfect labor markets. New Jersey: Princeton University Press. 342 s. ISBN

177 FORUM STATISTICUM SLOVACUM 6/ KRESILOVÁ, J Modelovanie rizík a šancí na trhu práce. Diplomová práca EkF TUKE. LUČKANIČOVÁ, M. a KOL Employment modelling in Slovakia: Comparing Logit models in 2005 and In ECONOMIC ANNALS. 2012, vol. LVII, no. 192 ISSN MAREŠ, P. VYHLÍDAL, J Měnící se rizika a šance na trhu práce. Analýza postavení a šancí vybraných rizikových skupin na trhu práce: výskumná správa. Praha: Výzkumný ústav práce a sociálních věcí, s. ISBN PETRÍKOVÁ, D. A KOL Vybrané problémy hospodárskej politiky. Košice: ELFA. 240 s. ISBN R DEVELOPMENT CORE TEAM. (2012). R: A language and environment for statistical computing. Viedeň: R Foundation for Statistical Computing. ISBN URL ŠÚ SR. (2011). Zisťovanie o príjmoch a životných podmienkach EU SILC 2010 (UDB_31/08/11). [databáza s mikroúdajmi]. Bratislava: Štatistický úrad SR. ŽELINSKÝ, T Chudoba a deprivácia na Slovensku Metodologické aspekty a empíria. Košice: Equilibria, 230 s. ISBN Adresa autora : Alena Tartaľová, Mgr., PhD. Technická univerzita v Košiciach, Ekonomická fakulta Katedra aplikovanej matematiky a hospodárskej informatiky Nemcovej Košice [email protected]

178 176 FORUM STATISTICUM SLOVACUM 6/2015 Rychlý stochastický test nezávislosti založený na čítacím procesu rekordů Quick stochastic test of independence based on record counting process Ondřej Ticháček, Václav Kůs Abstract: We present an interesting statistical tool for independence testing in random sequences,,,. It is known that the expected number of records achieved in i.i.d. sequences of n variables grows very slowly and that the variance of the records number is of the logarithmic type. We illustrate how it can be used for independence testing and we produce the Monte-Carlo simulation for finding out the distributional quantiles needed for that testing at given significance level 0,1. Abstrakt: V příspěvku prezentujeme zajímavý statistický nástroj vhodný pro testování nezávislosti v náhodných posloupnostech,,,. Je známo, že střední hodnota počtu rekordů dosažených v i.i.d. posloupnostech o n veličinách roste velmi pomalu a rozptyl počtu rekordů je logaritmického typu. Ilustrujeme, jak lze tento fakt využít pro testování nezávislosti a předkládáme pomocí Monte-Carlo simulací nalezené kvantily potřebné pro testování na zadané hladině spolehlivosti 0,1. Key words: i.i.d. sequences, records, tests of independence. Kľúčové slová: i.i.d. posloupnosti, rekordy, testy nezávislosti. JEL classification: C12, C15, C53, C63 1. Introduction Assumptions of independence are present in many statistical theorems and pose a serious threat to their validity if violated. Yet the testing of stochastic independence is a troublesome problem. All tests contain the independence in their null hypothesis and, therefore, they can just reject it in some special cases while not being able to control the second order error. In this article, we summarize the current knowledge about the theory of records in sequences of random variables and focus on its applicability in the stochastic independence testing. The presented methods are not universal, but in addition to more standard methods of independence testing, they can extend the range and increase the precision of hidden dependency identification. 2. Records in stochastic sequences Let be a sequence of random variables, e.g. a time-series. A record occurs if max,,, 2. By definition, is also a record. Then, the probability of being a record, i.e. the record probability is defined as P, 2, and trivially 1. To analyse properties of record occurrence, the record counting process is defined by 1, and 1, 2, where is the indicator of being a record. is sometimes also called record number or record count.

179 FORUM STATISTICUM SLOVACUM 6/ Fig. 1 Illustration of the difference between lower (dotted line) and upper (dashed line) records. The lines represent the record counting processes via a continuous extension. In some cases, the previously defined record, the record probability, and the record counting process will be specified by the attribute upper. In those cases, a lower record will be considered too. Its definition is analogous: A lower record occurs if min,,, 2. The lower record probability and lower record counting process are defined similarly as their upper counterparts. The record counting process shows the following interesting properties. Lemma 1: Moments of Let be an iid series with a continuous distribution function. Then 1 and ar 1 1. Note that the expected value of the record counting process shows a logarithmic increase with : lim ln , which is the Euler s constant. However simple this result is, this shows a non-intuitive property that in an iid series the records are still rarer with increasing. Proof: In this proof, only the expected value of will be shown. The statement for the variance requires only a small modification. First, from the definition of expected value and by expressing the expected value of an indicator in terms of probability measure, we obtain 1 1P 1 P P 1. Considering that P 1 and P one can rewrite the integral (denoted as ) onto P P , which then immediately yields the lemma statement. An alternative proof may be done with a so-called stick-shuffling argument [3], since the probability that in a random ordering of random variables the last one ( ) is the largest can be expressed as P max,, 1.

180 178 FORUM STATISTICUM SLOVACUM 6/2015 Fig. 2 Illustration of the stick-shuffling argument (left figure). Empirical probability functions of the number of records in a series of iid random variables for different values of ranging from to. An important feature of the record counting process is that its distribution does not depend on the if are iid. It can also be shown, that the distribution of the record count is asymptotically normal for iid data from a general distribution. The problem was investigated and complete conditions of this result were given in [4]. 3. Testing of independence Number of records Lemma 1 provides the exact formulae for the expected value and variance of the record counts in an arbitrary sequence of iid random values. This result may be used to construct a very simple test of independence: if for a given series of variables, the record count is near the expected value, there is no evidence to deem the sample as not iid. On the other hand, if the record count is far from the expected value, the data do not appear to be iid. Of course, this method is not correct and does not provide us with a confidence interval, however, it can be easily computed by hand. Selected values are shown in Table 1 for reference. To elaborate, we have performed Monte-Carlo simulations of data in various distributions and numerous values of to compute rough confidence intervals for this test. Iid data were generated from distributions from the Normal, Weibull, Lognormal and Pareto classes. The length of the sequences was set to 10,...,10 and for each such configuration, the simulation was repeated 10 -times. For the null hypothesis : are iid, at 0.05 Tab. 1 Expected values and standard deviations of the record counts for selected lengths of iid random sequences

181 FORUM STATISTICUM SLOVACUM 6/ Fig. 3 The expected value of the record count and the standard deviation as a function of (left figure). Rough confidence intervals for the record counts for different data lengths under confidence level.. The dots are Monte-Carlo simulated values (right figure). we obtained the rough confidence interval : 1.7, 2, where ar. The moments of are known to be and ar as stated by the Lemma 1. Also note that the coefficients were selected for the interval 10,10 and that the numbers were rounded to nice and easily memorable numbers. This confidence intervals may be seen in Figure 3. This rough confidence interval is just the first approximation and cannot be used as a proper test of independence. Therefore, we investigated the problem further. The first step was an estimation of the confidence intervals numerically, via Monte-Carlo simulations. Since the lemma does not specify the exact distribution of the record number, simulation of iid random variables from several distributions form the Normal, Weibull, Lognormal and Pareto classes were carried out. Resulting empirical distributions were compared using the Kolmogorov Smirnov tests. No statistically significant evidence for the distributions to differ was found. The resulting empirical test may be summarized in the following steps. Let,, be the random to-be-tested sequence. 1. Construct the upper record counting statistic and the lower record counting statistic. 2. Generate n random numbers from some continuous distribution, e.g. from the standard normal distribution. 3. Construct the upper or lower record counting statistic from the simulated data.1 4. Repeat the Monte-Carlo simulation k times, for a selected k, e.g. k Create empirical distribution function of the record counts as the average from these simulations. 6. Find critical values for a given confidence level α. For this test, the empirical critical values are at levels C / and C /. 1 Since the distributions of upper and lower record statistics are identical, it does not matter which will be used to create the empirical distribution function. However, as the upper and lower records are in any iid sequence independent, it is advantageous to count both statistics as two realizations of a single one to reduce the computation time by the factor 2.

182 180 FORUM STATISTICUM SLOVACUM 6/ Apply the decision criterion for : iid. Reject in favour of the alternative if /, / or if /, /. Tab. 2 Results of numerical simulations for different dependent series. The columns MEAN and SD shows the mean and standard deviation of the repeated Monte-Carlo simulations of reference iid sequences of length n. A good agreement is seen with respect to Table 1. The columns Q_10, Q_5 and Q_1 show the critical values for the record counts at different confidence levels. The last columns represent the upper record counts for AR, MA, ARMA, increasing trend (TR), increasing variance (V) and a reference iid (RAND) sequences. The stars next to the data symbolize rejection of the null (iid) hypothesis at confidence levels 0.1 (*), 0.05 (**) and 0.01 (***). n MEAN SD Q_10 Q_5 Q_1 AR MA ARMA TR V RAND *** ** 7 * 9 *** *** 5 9 ** 7 13 *** * 10 ** 11 ** 10 ** 24 *** *** 15 *** 27 *** *** *** 23 *** 30 *** 7 1K * ** 25 *** 24 *** 4 2K *** 14 * 18 *** 35 *** 31 *** 8 5K *** 37 *** 12 10K * ** 53 *** 43 *** 6 20K ** *** 50 *** 47 *** 8 50K *** *** 46 *** 4 ** 100K *** *** 34 *** K * *** 95 *** 44 *** K *** *** 104 *** 49 *** 10 1M *** *** 68 *** 13 2M ** ** 149 *** 56 *** 14 If the test does not reject the null hypothesis, any subsequence of the original data may be tested with the same test. However, this subsequence must not change the ordering nor leave any data out, i.e. only subsequences in the form,,, for 11, 2 and, are acceptable. The test must be then adjusted for the new length of the data 1. Although usage of subsequences of the length less than e.g. 10 is also debatable, they may prove valuable for detecting some special cases of data dependence such as local trends. To present the power of the test, several dependent series of random variables were tested for independence. The figure 4 shows five dependent series and one independent series of fifty values with the computed upper and lower record counts and subsequent test results. All of the dependent series are correctly recognised at the significance level However, in other cases for other dependent series, this test may be inconclusive. The same test was also applied to series of different length. The results are summarised in Table 2. Number of consecutive records The number of records in series of random numbers is not the only statistic for independence testing. The -consecutive record occurs in a series,, at the position, if is a record for all,, 1 For obvious reasons, this is correct only if 11. Similarly as in the previous section, the number of -consecutive records is implemented through the - consecutive record counting process,, which is defined as

183 FORUM STATISTICUM SLOVACUM 6/ AR MA ARMA RAND V TR , , e-5 8e e Fig. 4 Five dependent series and one independent series of fifty values with the computed upper and lower record counts and subsequent test results. The series are (ordered from top to bottom) the AR process, MA process, ARMA process, reference random sequence labeled RAND, series labeled V representing a process with increasing variance, and series labeled by TR being a process with a trend. (dashed line) and (dotted line) are the upper and lower record counts and the and are the empirical -values for the tests using the upper and lower record counts, respectively. In the same dataset, the number of 2-consecutive of records was analyzed. In the table,, and, are the upper and lower 2-consecutive record counts (for ) and the and are the empirical -values for the tests using the upper and lower 2-consecutive record counts, respectively.,,, 2, where, is an indicator of an -consecutive record occurring at the position. Again, the statistics can be divided into upper and lower -consecutive records and -consecutive record counts. The ground for the to-be-introduced test of independence is, that the distribution of the number of 2-consecutive records ( 2) in an iid random sequence,, is known [1]. The probability is defined as follows

184 182 FORUM STATISTICUM SLOVACUM 6/2015 Fig. 5 The figures show P, as a function of for different values of ranging from to, i.e. they show the probability that in an iid sequence of the length the number of 2-consecutive records is exactly. P, 1! 1! 1. For increasing, the probability drops very quickly as can be seen in Figure 5. Also, even for large, the probability of a 2-consecutive record not occurring is large. Therefore, the test criterion for rejecting the null hypothesis : (sequence is iid) at the confidence level is P, 1P,, where is the measured count of 2-consecutive records in the tested random sequence,,. In other words, the iid hypothesis is rejected, if the measured number of 2- consecutive records is too high. This method was tested on the same dataset as the first one, the results are shown in Figure 4. By comparing the results of the two methods it seems, that the 2-consecutive countbased test is stronger. However, for weakly dependent series, the number of 2-consecutive records may be too low for the test to be conclusive, while the first test may yet reject the data independence. Therefore, both tests are useful in different scenarios. Another interesting property of the -consecutive records can be shown for 3. The probability of -consecutive records in an iid sequence is very low, or equivalently, the probability of the number of -consecutive records to be zero is very high. Clearly, the probability is again -dependant and the function P, 0 is decreasing. However, it turns out, that even for very high, the probability P, 0 of zero - consecutive records occurring is still relatively high. The convergence for was investigated in [1], the numeric values can be seen in Table 3. Consequently, even if P, 0 was approximated by its limit value, the very occurrence of a single -consecutive record would reject the hypothesis : (sequence of arbitrary length is iid) at the confidence level P, 0. For example, the occurrence of a 4-consecutive record would reject the iid hypothesis at 0.05 and the occurrence of 5- consecutive record would reject the iid hypothesis even at 0.01.

185 FORUM STATISTICUM SLOVACUM 6/ Tab. 3 Numeric values of the limiting probabilities P, for from 3 to 14, see [1]. P, P, P, However strong this result may seem, the actual probability of a (4-or-more)-consecutive record in a real-life dependent random series is debatable. The certainly more probable 3- consecutive record does not yield such a strong result in its single occurrence. Fortunately, another property of the 3-consecutive record probability was derived in [1] in addition to the 2-consecutive record and may lay ground for yet another test of independence. Number of -records Yet another definition of record may be found in the literature: is an -record of the first type if for exactly indices 1,2,,. For the number of such records, the probability function was derived in [2]. The probability function, P,, 1,,1, of the number, of -records of the first type up to time, is given by, 1,;1, 1,,1, where, ; is the non central signless Stirling number of the first kind. Again, this holds for iid random sequence from arbitrary continuous distribution. The independence test can be derived the same way as the test mentioned previously. Remarks All the mentioned tests were implemented as Matlab routines. The package including also the Monte-Carlo simulations is available from the authors upon request. Acknowledgment This work was supported by the grant SGS15/21/OHK4/3T/14 and INGO II - LG References [1] CHERN, H., HWANG, H., & YEH, Y., Distribution of the Number of Consecutive Records. In: Random Structures & Algorithms, 17(3 4), , [2] CHARALAMBIDES, C. A., Exact Distributions of the Number of r-records and the r-record and Inter-r-Record Times. In: Communications in Statistics Theory and Methods, 36(7), , [3] WERGEN, G., Records in stochastic processes theory and applications. In: Journal of Physics A: Mathematical and Theoretical, 46(22), , [4] GOUET, R., LÓPEZ, F. J., SANZ, G., Asymptotic normality for the number of records from general distributions. In: Advances in Applied Probability, 43(2), , [5] GLICK, N., Breaking Records and Breaking Boards. In: The American Mathematical Monthly, 85(1), 2 16, Adresa autorov: Ondřej Ticháček, Bc. (2. ročník NMS) Katedra matematiky, FJFI ČVUT v Praze Trojanova 339/13, Praha 2 [email protected] Václav Kůs, Ing., Ph.D. Katedra matematiky, FJFI ČVUT v Praze Trojanova 339/13, Praha 2 [email protected]

186 184 FORUM STATISTICUM SLOVACUM 6/2015 Testování způsobilosti a výkonnosti environmentálního procesu na příkladu měření plynné elementární rtuti Testing of environmental process capability and performance on the example of measurement gaseous elemental mercury Petr Veselík Abstract: This paper deals with evaluating measurement of gaseous elemental mercury from two identical automatic analysers TEKRAN 2537B, which are the only two analysers situated in the Czech Republic. Levels of gaseous elemental mercury in the ambient air were measured at the Atmospheric Station Křešín u Pacova from December 2012 to June The aim of this article was to assess capability and performance of the measurement process provided by these analysers. For the purpose of statistical evaluation and testing advanced statistical method Six Sigma was used. The performed analysis shows that the process is not in longterm stable state in all weekly time intervals. Abstrakt: Článek se zabývá vyhodnocením měření plynné elementární rtuti ze dvou totožných automatických analyzátorů TEKRAN 2537B, jediných v České republice. Hodnoty plynné elementární rtuti ve venkovním ovzduší byly měřeny na Atmosférické stanici Křešín u Pacova od prosince 2012 do června Cílem tohoto článku bylo vyhodnotit způsobilost a výkonnost procesu měření poskytovaných těmito analyzátory. Pro účely statistického vyhodnocení a testování byla použita pokročilá statistická metoda Six Sigma. Provedená analýza ukazuje, že daný proces není ve všech týdenních časových intervalech v dlouhodobě stabilním stavu. Key words: Six Sigma, Capability indices, Performance indices, Gaseous elemental mercury Klíčová slova:six Sigma, Ukazatele způsobilosti, Ukazatele výkonnosti, Plynná elementární rtuť JEL classification: C02, C12 1. Úvod V posledních desetiletích je často diskutovanou otázkou negativní vliv rtuti na člověka a ekosystémy. Koncentrace rtuti v ovzduší vykazují v uplynulých letech nárůst a z důvodu jejich chemicko-fyzikálních vlastností se na ni začalo nahlížet jako na globální polutant (UNECE 2010). Rtuť se do prostředí dostává jak z přírodních zdrojů (např. sopky a geotermální činnost), tak antropogenních zdrojů (např. těžba a zpracování zlata, spalování uhlí a odpadu, chlor-alkalický průmysl) (AMAP/UNEP, 2008; Pirrone et al., 2010). V atmosféře se rtuť vyskytuje ve třech základních formách: plynná elementární rtuť (GEM), plynná rtuť v oxidované formě (GOM) a rtuť vázaná na prašný aerosol (TPM) (Pironne et al., 2013). V článku je uveden environmentální monitoring koncentrací rtuti v ovzduší České republiky. Od roku 2012 jsou koncentrace plynné elementární rtuti měřeny na Atmosférické stanici Křešín u Pacova (N 49 35, E ), provozované Centrem výzkumu globální změny AV ČR, v.v.i.. Automatický kontinuální monitoring koncentrací rtuti zde probíhá ve dvou výškových úrovních (při zemi, 240 m) na 250 m vysokém stožáru. Koncentrační data jsou reportována v časovém rozlišení 5 minut. Aby mohla být v budoucnu získaná kontinuální koncentrační data plynné elementární rtuti správně vyhodnocena v rámci procesních studií, je nezbytné zajistit co největší kvalitu během jejich měření. V následujícím článku je představena statistická metoda pro vyhodnocení procesu měření plynné elementární rtuti. Jedním z prakticky nejrozšířenějších míst použití

187 FORUM STATISTICUM SLOVACUM 6/ této metody nalezneme v technické praxi (Montgomery, 2009; Nelson, 1984; Nelson, 1985; Michálek, 2009). Nicméně lze ji použít také při analýze environmentálních měření. Cílem článku je pomocí metody Six Sigma vyhodnotit způsobilost a výkonnost procesu měření plynné elementární rtuti dvěma identickými analyzátory. 2. Popis dat V článku jsou použita data zachycující koncentrace plynné elementární rtuti ve vzorcích ovzduší, která byla podrobně popsána v minulém článku (Veselík Dvorská, 2014). Pro účely statistické analýzy byla tato dlouhodobá měřící kampaň rozdělena do menších časových období týdenních časových intervalů. Pro každý týdenní časový interval byl spočítán vektor rozdílů koncentrací plynné elementární rtuti d 1, d 2,..., d n naměřených prvním a druhým analyzátorem (dále jen Tekran-X a Tekran-Y), kde n je počet pozorování v týdenním časovém intervalu, tedy d i = x i y i, kde x i značí koncentrace naměřené Tekranem-X a y i koncentrace naměřené Tekranem-Y, i = 1, 2,, n. Dané vektory byly následně podrobeny statistické analýze způsobilosti a výkonnosti procesu měření (dále budeme procesem měření rozumět časový vývoj rozdílů koncentrací plynné elementární rtuti). I když v některých týdnech bylo rozdělení rozdílů měření poněkud asymetrické a případně obsahovalo odlehlá měření (Veselík Dvorská, 2014), byla analýza způsobilosti a výkonnosti provedena pomocí normálního rozdělení. Za předpokladu, že sledovaný proces měření má normální rozdělení se střední hodnotou µ a směrodatnou odchylkou σ, bude hodnota procesu měření v intervalu µ ± 3 σ s pravděpodobností 0,9973 a tedy kolísání procesu bude s uvedenou velkou pravděpodobností v intervalu délky 6 σ 3. Metodika 1 U naměřených hodnot rozdílů koncentrací plynné elementární rtuti se nejdříve stanovily specifikační meze a to konkrétně horní mez USL a dolní mez LSL, v nichž mají být hodnoty rozdílů měření. Tyto meze byly stanoveny jako ± 0,2 ng m -3 dvojnásobek detekčního limitu analyzátoru ( Pokud se hodnoty rozdílů měření vyskytují v těchto specifikačních mezích, tak je proces měření považován za statisticky zvládnutý. V takovém případě je jeho vnitřní variabilita způsobena pouze náhodnými vlivy a není ovlivněna nějakými vnějšími vlivy. Variabilitu způsobenou náhodnými příčinami, lze dobře posoudit v jednotlivých týdenních časových intervalech a její směrodatnou odchylku budeme značit (skutečná hodnota směrodatné odchylky procesu měření uvnitř skupin). Protože celková variabilita v sobě zahrnuje jak kolísání uvnitř skupin, tak i mezi skupinami platí vztah, že. Pro výpočet ukazatelů způsobilosti a výkonnosti je dále nutné znát odhady směrodatných odchylek a. Odhad byl stanoven na základě týdenních časových intervalů viz vzorec (1) a odhad byl spočítán z celého procesu měření viz vzorec (3). Z praktických důvodů byly délky úseků vybrány tak, aby byly násobkem 18. Na každém z měřených úseků byla stanovena směrodatná odchylka a z takto získaných směrodatných odchylek byl stanoven odhad směrodatné odchylky dle vzorce:, kde (1) je počet skupin, je velikost i-té skupiny, konstanty jsou tabelovány a vyplývají z rozdělení výběrových směrodatných odchylek viz norma ČSN ISO 8258:1994 a je výběrová směrodatná odchylka v i-té skupině, tedy: 1 Uvedená metodika je zpracována podle monografie (Michálek, 2009), kde lze nalézt další detaily.

188 186 FORUM STATISTICUM SLOVACUM 6/2015 /, kde (2), j = 1, 2,, jsou naměřené rozdíly koncentrací plynné elementární rtuti mezi oběma analyzátory v i-té skupině a je průměrná hodnota rozdílů koncentrací v i-té skupině. Směrodatná odchylka byla odhadnuta pomocí výběrové směrodatné odchylky počítané z celého měřeného procesu následovně: =, kde (3) je celkový aritmetický průměr ze všech dat, kterých je dohromady =. Regulační meze pro směrodatnou odchylku lze stanovit následovně (ČSN ISO 8258, 1994): = a =, kde (4) a jsou horní a dolní regulační meze pro průměrnou směrodatnou odchylku, je průměrná směrodatná odchylka počítaná jako průměr směrodatných odchylek ve skupinách, koeficienty a viz norma ČSN ISO 8258:1994, tabulka 2 na straně Zavedení ukazatelů způsobilosti a výkonnosti Posouzení statistické způsobilosti a výkonnosti procesu měření bylo provedeno pomocí ukazatelů způsobilosti C a výkonnosti P. Na základě hodnoty ukazatele C lze provést klasifikaci statistické způsobilosti měřeného procesu. Je-li C > 1,33 považujeme proces měření za vysoce způsobilý, když je 1 < C 1,33 za středně způsobilý a v případě, že C 1 za statisticky nezpůsobilý. Pomocí horní a dolní specifikační meze zavedeme ukazatel způsobilosti C vztahem: a ukazatel výkonnosti P vztahem: C, (5) P. (6) Pro oba ukazatele platí, že C P, protože. Nicméně ukazatele C a P se nevztahují k parametru polohy a umožňují posoudit variabilitu sledovaného procesu, ale při jejich použití se předpokládá centrovaný proces měření. Pokud proces měření není centrován (v našem případě µ 0) mohou ukazatele C a P nabývat vysokých hodnot, ale při tom může daný proces často přesahovat stanovené specifikační meze. V takovém případě používáme korigované charakteristiky a to konkrétně modifikovaný ukazatel způsobilosti C daný vztahem: C C,C, kde (7) C a C jsou horní respektive dolní modifikované ukazatele způsobilosti. Modifikovaný ukazatel výkonnosti P poté zavedeme vztahem:

189 FORUM STATISTICUM SLOVACUM 6/ P P P,P, kde (8) a P jsou horní respektive dolní modifikované ukazatele výkonnosti. Odhad ukazatele C lze stanovit následovně: a odhad ukazatele výkonnosti P je pak dán vztahem:, (9). (10) V případě modifikovaného ukazatele způsobilosti C zavedeme jeho odhad vztahem: zcela obdobná situace je u odhadu modifikovaného ukazatele P :,, (11),. (12) 3.2 Pokryvné intervaly pro ukazatele způsobilosti a výkonnosti Na základě získaných odhadů, resp., ukazatelů C, C, resp. P, P byly zkonstruovány jejich intervalové odhady, které pokrývají skutečnou hodnotu ukazatelů C, C, resp. P, P s pravděpodobností alespoň 1, kde je riziko, že dané intervaly skutečné hodnoty C, C, resp. P, P nezahrnou (α = 0,05). Z těchto konfidenčních intervalů lze poté snadno odvodit jejich pokryvné intervaly, ve kterých se budou nacházet získané odhady, resp., s pravděpodobností 1 při hypotetické hodnotě parametrů C, C, resp. P, P. Pokryvný interval pro ukazatel C je tvaru: C / < < C /, kde (13) / a / jsou příslušné kvantily normálního rozdělení N(0,1), je počet pozorování v daném časovém intervalu, je počet skupin v daném časovém intervalu a 1 a 1, kde (. ) je gama funkce. Podobně lze ukázat, že aproximativní 100(1 ) % pokryvný interval pro C je tvaru: C / < < C / Konečně aproximativní 100(1 ) % pokryvný interval pro P je tvaru:. (14)

190 188 FORUM STATISTICUM SLOVACUM 6/2015 P < < P, kde (15) 1 a 1 jsou příslušné kvantily rozdělení o 1 stupních volnosti. A aproximativní 100(1 ) % pokryvný interval pro P je tvaru: P / < < P /. (16) 3.3 Testování způsobilosti a výkonnosti procesu měření Cílem testování způsobilosti a výkonnosti procesu měření je zjistit, zda daný proces splňuje požadavky na základě známých hodnot ukazatelů způsobilosti a výkonnosti. Statistický postup, pomocí něhož vyřešíme tento problém, je test založený na konstrukci statisticky pokryvných intervalů pro odhady ukazatelů způsobilosti a výkonnosti. Nejdříve zformulujeme nulovou hypotézu H, tedy že ukazatele způsobilosti jsou nejméně na úrovni hodnoty C proti alternativní hypotéze A, že tento požadavek není splněn. Statistickou hypotézu zapíšeme následovně: H: C proti A: C. Pro praktické potřeby je doporučována hodnota C = 1,33, která byla dále při testování použita a za hladinu významnosti zvolíme = 0,05. Pokud bude platit nulová hypotéza, že C C, pak má statisticky pokryvný interval pro odhad dolní hranici tvaru:. (17) Čím je skutečná hodnota menší, tím je nižší také dolní hranice statisticky pokryvného intervalu. Pokud bude odhad větší nežli dolní hranice nezamítáme způsobilost procesu měření na hladině významnosti. V případě, že odhad bude pod dolní hranicí, pak hypotézu o způsobilosti zamítáme. V případě testování ukazatele bude nulovou hypotézou, že modifikované ukazatele způsobilosti jsou nejméně na úrovni hodnoty C (H: C ) proti alternativní hypotéze, že tento požadavek není splněn (A: C ). Nulovou hypotézu o způsobilosti procesu měření (H: C ) nezamítáme, pokud odhad splňuje nerovnost:. (18) Za předpokladu, že data bez ohledu na dělení do skupin lze považovat za normálně rozdělená, můžeme testovat výkonnost procesu. Při testování výkonnosti procesu měření byla použita stejná hodnota jako v případě ukazatele, tedy = 1,33. Nulovou hypotézu o výkonnosti procesu měření (H: nezamítáme, pokud odhad bude splňovat následující nerovnost:

191 FORUM STATISTICUM SLOVACUM 6/ , kde (19) 1 je příslušný kvantil rozdělení o 1 stupních volnosti. Nulovou hypotézu o výkonnosti procesu měření (H: nezamítá, když odhad splňuje nerovnost:. (20) 4. Výsledky Při vyhodnocování bylo vytvořeno 17 týdenních časových intervalů, každý s pevnou délkou (pokud délka týdne nebyla násobkem 18, tak byl celý postup modifikován a počítalo se s intervalem kratší délky). V Tab. 1 níže jsou uvedeny výsledky průběžně počítaných odhadů ukazatelů způsobilosti a výkonnosti. Tato tabulka je dále doplněna o dolní hranice (DH) statisticky pokryvných intervalů, pomocí nichž byla testována způsobilost a výkonnost procesu měření. Z výsledků uvedených v Tab. 1 je zřejmé, že na 5 % hladině významnosti nezamítáme nulovou hypotézu o způsobilosti procesu měření v jednotlivých týdenních časových intervalech (porovnání sloupce a DH pro v Tab. 1). Pokud je odhad ukazatele C záporný, pak daný proces měření není centrován viz Tab. 1 (5. a 10. týden), z toho je zřejmé, že Tekran-X udával měření systematicky nižší než Tekran-Y. Na základě provedeného testu z pohledu C byla na 5 % hladině významnosti zamítnuta nulová hypotéza o způsobilosti procesu měření v sedmi týdenních časových intervalech viz tučně zvýrazněné hodnoty v Tab. 1 (7. sloupec), z tohoto důvodu není uvedený proces měření v dlouhodobě stabilním stavu v uvedených týdnech. Pokud provedeme interpretaci výsledků ukazatelů výkonnosti, lze konstatovat, že nulovou hypotézu o výkonnosti procesu měření zamítáme v šesti týdenních časových intervalech na 5 % hladině významnosti viz tučně zvýrazněné hodnoty v Tab. 1 (4. sloupec). Z provedeného testu na ukazatel bylo zjištěno, že na 5 % hladině významnosti zamítáme nulovou hypotézu o výkonnosti procesu měření v deseti týdenních časových intervalech viz tučně zvýrazněné hodnoty v Tab. 1 (8. sloupec) a proto v těchto týdnech není daný proces v dlouhodobě stabilním stavu. Odhady ukazatelů způsobilosti se značně liší od odhadů ukazatelů výkonnosti, ale pro zvolené specifikační meze oba vykazují vysoké hodnoty viz Tab. 1 (3 a 4 sloupec, kromě 5., 6. a 10. týdne pro odhad ). Situace, kdy se oba odhady značně liší, naznačuje, že analyzátory nejsou dlouhodobě nastaveny správně. Nicméně v závěrečných šesti týdnech jsou již oba odhady poměrně blízké (oproti předchozím týdnům) a analyzátory tedy začínají měřit velmi podobně. Tuto skutečnost, lze vysvětlit důkladnou revizí a výměnou součástek u obou analyzátorů mezi 11. a 12. týdnem. Skutečnost, že hodnoty a nejsou podobné, kromě (4. a 7. týdne) viz Tab. 1 (porovnání sloupce a ), a stejně tak nejsou stejné hodnoty a, kromě (4. a 7. týdne) viz Tab. 1 (porovnání sloupce a ), naznačuje, že v těchto týdnech není daný proces z krátkodobého i dlouhodobého hlediska centrován. Dále byly pro všechny týdenní časové intervaly zkonstruovány regulační diagramy pro průměr viz Obr. 1 a pro směrodatnou odchylku viz Obr. 2, který navíc obsahuje histogramy, do kterých byly doplněny specifikační meze (LSL a USL). Pokud je daný proces měření uvnitř těchto specifikačních mezích při různých úrovních kolísání, lze konstatovat, že daný proces je dobře statisticky zvládnut. Pro názornost byly vybrány 3 extrémní případy (12., 5. a 17. týdenní časový interval) viz Obr. 1 a 2.

192 190 FORUM STATISTICUM SLOVACUM 6/2015 Tab. 1: Odhady ukazatelů způsobilosti a výkonnosti doplněné o dolní hranice statisticky pokryvných intervalů pro všechny týdenní časové intervaly TČI PDD DH pro DH pro DH pro DH pro ,589 1,916 1,273 1,276 3,623 1,512 1,274 1, ,668 2,344 1,279 1,281 2,908 1,460 1,279 1, ,194 1,936 1,283 1,285 3,864 1,783 1,284 1, ,465 1,560 1,280 1,282 3,350 1,509 1,281 1, ,933 0,808 1,277 1,279-1,377-0,379 1,277 1, ,617 0,583 1,283 1,285 0,628 0,140 1,283 1, ,862 1,309 1,280 1,282 2,681 1,286 1,280 1, ,600 1,071 1,280 1,282 1,849 0,762 1,280 1, ,311 1,158 1,280 1,282 0,513 0,257 1,280 1, ,323 0,839 1,280 1,282-0,568-0,205 1,281 1, ,587 1,010 1,280 1,282 1,748 0,683 1,280 1, ,567 1,891 1,284 1,285 2,007 1,479 1,284 1, ,520 1,980 1,284 1,285 1,657 1,302 1,284 1, ,457 1,934 1,284 1,285 1,458 1,148 1,284 1, ,310 1,600 1,280 1,282 1,160 0,803 1,281 1, ,303 1,846 1,280 1,282 1,190 0,954 1,281 1, ,246 1,822 1,280 1,282 1,056 0,857 1,281 1,282 V prvním sloupci je uvedeno pořadové číslo týdenního časového intervalu (týdne), ve druhém sloupci počet datových dvojic v daném týdnu, ve třetím sloupci jsou hodnoty odhadů ukazatelů způsobilosti a ve čtvrtém sloupci jsou uvedeny odhady ukazatelů výkonnosti, DH pro a jsou dolní hranice statisticky pokryvných intervalů pro resp., a jsou hodnoty odhadů modifikovaných ukazatelů způsobilosti a výkonnosti, DH pro a jsou dolní hranice statisticky pokryvných intervalů pro resp.. Je nutno zdůraznit, že v regulačních diagramech pro průměr a směrodatnou odchylku jsou uvedeny regulační meze vycházející z normy ČSN ISO 8258:1994, nikoliv specifikační meze, které by vzhledem k rozsahu diagramu ležely mimo obrázek (kromě diagramu pro průměr, 5. týden viz spodní úsečka v prostředním grafu na Obr. 1). Na proces měření byla totiž použita méně přísná kritéria než ty stanovené technickou normou. V diagramech pro průměr se ukazuje, že proces měření je zcela statisticky zvládnut (horní graf, 12. týden), není zcela statisticky zvládnut (prostřední graf, 5. týden) hodnoty jsou téměř v celém týdnu nad horní specifikační mezí a na závěr případ na hranici dlouhodobě stabilizovaného procesu (spodní graf, 17. týden). Pořadová čísla týdnů viz Tab. 1. Pro ověření normality procesu měření rozdílů byly dále zkonstruovány Q-Q ploty. Pokud dané body leží přibližně na dané přímce, můžeme předpokládat, že data pocházejí z normálního rozdělení. Na Obr. 1 v pravém sloupci jsou zkonstruovány tři Q-Q ploty pro 12. týden (horní graf), 5. týden (prostřední graf) a 17. týden (spodní graf), kde v horním grafu je znázorněn Q- Q plot, kde data lze téměř považovat za výběr z normálního rozdělení (p-hodnota χ 2 testu dobré shody je 0,041), v prostředním grafu je uveden Q-Q plot, kde došlo k poruše normality dat (p-hodnota χ 2 testu dobré shody je < 1x10-6 ) a na závěr ve spodním grafu Q-Q plot, kde data lze považovat za výběr z normálního rozdělení (p-hodnota χ 2 testu dobré shody je 0,176). Testy byly provedeny na hladině významnosti 5%. Z regulačního diagramu pro směrodatnou odchylku je patrné, že ve 12. a 17. týdnu je rozptyl pod statistickou kontrolou (hodnoty směrodatné odchylky se vyskytují uvnitř

193 FORUM STATISTICUM SLOVACUM 6/ regulačních mezí). Nicméně v 5. týdnu je rozptyl mimo statistickou kontrolu hodnoty na začátku a prostředku měření jsou nad horní regulační mezí a na konci měření pod dolní regulační mezí viz prostřední graf na Obr. 2. Obr. 1: Vyhodnocení procesu měření pro 12. týden (horní graf), 5. týden (prostřední graf) a 17. týden (spodní graf) pomocí regulačních diagramů pro průměr a Q-Q plotů. Pořadová čísla týdnů viz Tab. 1. Obr. 2: Vyhodnocení procesu měření pro 12. týden (horní graf), 5. týden (prostřední graf) a 17. týden (spodní graf) pomocí regulačních diagramů pro směrodatnou odchylku a histogramů. Pořadová čísla týdnů viz Tab. 1.

194 192 FORUM STATISTICUM SLOVACUM 6/ Závěr V tomto článku byla sledována stabilita procesu měření koncentrací plynné elementární rtuti dvěma analyzátory pomocí výsledků ukazatelů způsobilosti a výkonnosti. Provedená statistická analýza umožňuje bezprostřední orientaci v procesu měření a upozorňuje na situaci, kdy se analyzátory přestávají chovat standardně. Z výsledků provedené analýzy vyplývá, že uvedený proces není vždy ve statisticky stabilním stavu a vyžaduje technický zásah. Uvedené specifikační meze USL a LSL slouží k tomu, aby provozovatel daného procesu mohl posoudit, zda jednotlivé sledované charakteristiky (průměr, směrodatná odchylka, atd.) se liší od základních hodnot více, než lze očekávat pouze při působení náhodných příčin. Tyto specifikační meze byly určeny na základě detekčního limitu analyzátoru. Požadavky na stabilitu procesu měření byly vymezeny zadáním hodnot pro ukazatele C, C, resp. P, P. Na základě těchto hodnot bylo posuzováno, zda je daný proces měření schopen uvedený požadavek splnit či nikoliv. Na závěr článku je třeba zdůraznit, že uvedené meze byly konstruovány za předpokladu normality, kterou je nutné pro daná data vždy kontrolovat. Nicméně v budoucí analýze se budeme věnovat i rozdělením, která nejsou normální. Příslušné statistické metody budou doplněny o některá vybraná rozdělení, která nejsou normální (logaritmicko normální rozdělení, Weibullovo rozdělení apod.) Poděkování Data zpracovaná v tomto článku byla získána z Atmosférické stanice Křešín u Pacova, provozované Centrem výzkumu globální změny AV ČR, v. v. i..článek vznikl za podpory projektu specifického výzkumu SV14-FEM-K MICH. Literatura AMAP/UNEP Technical Background Report to the Global Atmospheric Mercury Assessment. Arctic Monitoring and Assessment Programme / UNEP Chemicals Branch. 159 pp. ČSN ISO Shewhart control charts. Czech Standardization Institute Prague. 36p. (in Czech) MICHÁLEK, J Capability and performance indices of manufacturing process. Prague: CRQ. 96 p. (in Czech) MONTGOMERY, D.C Introduction to Statistical Quality Control. sixth ed. New York: John Wiley & Sons. 734 p. NELSON, L.S The Shewhart Control Chart-Tests for Special Causes. Journal of Quality Technology pp. NELSON, L.S Interpreting Shewhart X Control Charts. Journal of Quality Technology pp. PIRRONE, N., CINNIRELLA, S., FENG, X., FINKELMAN, R.B., FRIEDLI, H.R., LEANER, J., MASON, R., MUKHERJEE, A.B., STRACHER, G.B., STREETS, D.G., TELMER, K Global mercury emissions to the atmosphere from anthropogenic and natural sources. Atmospheric Chemistry and Physics 10, PIRRONE, N., AAS, W., CINNIRELLA, S., EBINGHAUS, R., HEDGECOCK, I.M., PACYNA, J., SPROVIERI, F., SUNDERLAND, E.M Toward the next generation of air quality monitoring: Mercury. Atmospheric Environment 80,

195 FORUM STATISTICUM SLOVACUM 6/ UNECE Hemispheric Transport of Air Pollution Part. B: Mercury. Air Pollution Studies No.18. UN New York and Geneva. 192 pp. VESELÍK, P. DVORSKÁ, A Statistická analýza environmentálních dat na příkladu měření elementární plynné rtuti. Forum Statisticum Slovacum 6/2014, s Adresa autora: Petr Veselík, Ing. Univerzita obrany, Katedra ekonometrie Šumavská 4, Brno

196 Zo života SŠDS From Life of SSDS

197 FORUM STATISTICUM SLOVACUM 6/ stretnutie štatistických spoločností V6 vo Viedni 11th meeting of the Statistical Society V6 in Vienna Peter Mach Pred jedenástimi rokmi sa z iniciatívy Maďarskej štatistickej spoločnosti zástupcovia šiestich štatistických spoločností (Česko, Maďarsko, Slovensko, Slovinsko, Rakúsko a Rumunsko) stretli v Budapešti a popoludní stretnutie pokračovalo vo Višegráde, aby diskutovali o možnostiach vzájomnej spolupráce. Na základe diskusie vznikla Dohoda o spolupráci, ktorá bola podpísaná vo Višegráde a skupina tak dostala neformálne označenie V6. Na základe tejto dohody sa každoročne konajú striedavo v hlavných mestách zúčastnených spoločností stretnutia ich predstaviteľov. V Budapešti, Bratislave, Ľjublane a Prahe sa už konali dve stretnutia a tento rok sa k týmto mestám pridala aj Viedeň. Budúci rok by sa v Bukurešti malo uzatvoriť už druhé kolo stretnutí. Tohtoročné stretnutie sa konalo v priestoroch Rakúskeho štatistického úradu vo Viedni. Na stretnutí sa zúčastnili zástupcovia štatistických spoločností z Česka, Maďarska, Slovenska a Rumunska. Zástupca Slovinskej štatistickej spoločnosti sa ospravedlnil, pretože v tom istom termíne sa zúčastňoval na inej akcii. Druhý raz sa na stretnutí ako pozorovateľka zúčastnila podpredsedníčka Poľskej štatistickej spoločnosti. Slovenskú štatistickú a demografickú spoločnosť na stretnutí zastupovala trojčlenná delegácia: predsedníčka SŠDS Iveta Stankovičová, vedecký tajomník SŠDS Tomáš Želinský a podpredseda SŠDS pre medzinárodné styky Peter Mach. Stretnutie otvoril predseda Rakúskej štatistickej spoločnosti Werner Müller. V mene Rakúskeho štatistického úradu sa účastníkom prihovoril Norbert Rainer, vedúci úseku registrov, klasifikácií a geoinformácií. Stručne predstavil rakúsky štatistický systém a prácu úradu. Zaujímavosťou je, že úrad je verejnou inštitúciou, ktorá má 2 generálnych riaditeľov, jedného pre oblasť štatistiky a druhého pre oblasť financovania. Ocenil tiež spoluprácu úradu so štatistickou spoločnosťou. Podobne ako na vlaňajšom stretnutí v Prahe, pripravili aj rakúski kolegovia ako ďalší bod programu zaujímavú odbornú prezentáciu. Čestný člen Rakúskej štatistickej spoločnosti Josef Richter predniesol prednášku na tému Pojem štatistickej kvality v Európskom štatistickom systéme. Prednáška bola podnetom pre krátku diskusiu o mieste štatistických spoločností pri hodnotení kvality štatistických údajov. Spoločnosti môžu predovšetkým motivovať a podporovať diskusiu medzi akademickou obcou a úradnými štatistikmi o používaných metódach a o vyvíjaní ďalších metód. Pre záujemcov o túto problematiku sú u autora článku k dispozícii prezentácia v PPT z úvodnej prednášky. Tradičným bodom stretnutia sú informácie o činnosti spoločností od predchádzajúceho stretnutia. Z činnosti Slovenskej štatistickej a demografickej spoločnosti sme podrobnejšie informovali o výsledkoch valného zhromaždenia spoločnosti a predstavili nových vedúcich funkcionárov spoločnosti. Ďalej sme informovali o uskutočnených a pripravovaných konferenciách a seminároch, o novej web stránke spoločnosti a o plánovaných zmenách v časopise Forum Statisticum Slovacum. Z informácií ostatných spoločností spomeniem prípravu druhej konferencie producentov a užívateľov štatistiky v novembri 2016 v Budapešti, udeľovanie cien za popularizáciu štatistiky v Rakúsku a súťaže pre stredoškolákov zo štatistiky v Poľsku. V rámci záverečného bodu programu prítomní diskutovali o niektorých aktuálnych problémoch v rozvíjaní spolupráce Federácie európskych národných štatistických spoločností (FENStatS) a Medzinárodného štatistického inštitútu (ISI). Keďže spoločnosti sú členmi

198 196 FORUM STATISTICUM SLOVACUM 6/2015 oboch týchto inštitúcií a medzinárodnú spoluprácu pokladajú za veľmi dôležitú, vyzvali spoločnosti v záverečnom vyhlásení predstaviteľov FENStatS a ISI, aby hľadali cesty pre zlepšenie vzájomnej spolupráce v záujme rozvoja štatistiky. Peter Mach podpredseda SŠDS pre medzinárodné styky Účastníci stretnutia (zľava): Constantin Mitrut (predseda rumunskej spoločnosti), Constantin Anghelache (podpredseda rumunskej spoločnosti), Tomáš Želinský (vedecký tajomník SŠDS), Josef Richter (čestný člen rakúskej spoločnosti), Iveta Stankovičová (predsedníčka SŠDS), Werner Müller (predseda rakúskej spoločnosti), Hana Řezánková (predsedníčka českej spoločnosti), Margit Epler (podpredsedníčka rakúskej spoločnosti), Istvan Szabo (podpredseda maďarskej spoločnosti), Grazina Trzpiot (podpredsedníčka poľskej spoločnosti, pozorovateľka), Éva Laczká (generálna tajomníčka maďarskej spoločnosti), Peter Mach (podpredseda SŠDS), Norbert Rainer (predstaviteľ rakúskeho ŠÚ) a Gejza Dohnal (podpredseda českej spoločnosti). Delegácia SŠDS (zľava): podpredseda SŠDS pre medzinárodné styky Peter Mach, predsedníčka SŠDS Iveta Stankovičová a vedecký tajomník SŠDS Tomáš Želinský.

199 FORUM STATISTICUM SLOVACUM 6/ V6 JOINT STATEMENT V6 is the association of the following six societies 1 : Austrian Statistical Society Czech Statistical Society Hungarian Statistical Association Romanian Society of Statistics Slovak Statistical and Demographical Society Statistical Society of Slovenia The objective of the V6 is to facilitate, among others, scientific progress, promote the application of professional ethics and the fundamental principles of official statistics, and best practices in statistics in their respective countries. The V6 form a considerable subset of the organizations united in FENStatS ( and its current and former representatives have served or are serving the ISI ( in various roles. The undersigned members of the V6 agree that international collaboration is the prime objective of the above-mentioned statistical organizations. As over the past months the V6 representatives have perceived a declining collaboration between the FENStatS and the ISI, the V6 propose to make efforts to strengthen their cooperation. THE MEMBERS OF THE V6 THEREFORE ENCOURAGE THE REPRESENTATIVES AND BODIES OF THE FENStatS AND THE ISI TO COLLABORATE IN GOOD WILL AND FOR THE INTERNATIONAL ADVANCEMENT OF STATISTICS. We sincerely hope our call will contribute that a corresponding Memorandum of Understanding between the two organizations is envisaged soon and can be achieved in due time. Werner Müller (president of the Austrian Statistical Society) on behalf of the AUSTRIAN STATISTICAL SOCIETY CZECH STATISTICAL SOCIETY HUNGARIAN STATISTICAL ASSOCIATION ROMANIAN SOCIETY OF STATISTICS SLOVAK STATISTICAL AND DEMOGRAPHICAL SOCIETY STATISTICAL SOCIETY OF SLOVENIA Vienna, 20th Oct (World Statistics Day) 1 The Polish Society has sent a guest representative.

200 198 FORUM STATISTICUM SLOVACUM 6/2015 OBSAH CONTENTS Jitka Bartošová, Vladislav Bína Martin Boďa Adam Čabla Jakub Danko Tomáš Fiala, Jitka Langhamrová, Jana Langhamrová Richard Finger, Václav Kůs Jiří Franc Jiří Henzler Veronika Kopčová Bohdan Linda, Jana Kubanová Erika Liptáková, Lukáš Mikuš Tomáš Löster Foreword Predhovor Změny monetární chudoby v Čechách a na Slovensku vlivem distribuce sociálních transferů Change in monetary poverty in Czech Republic and Slovakia as an effect of social transfer allocation Miera (skóre) ziskovej efektívnosti kontra tradičné ukazovatele výkonnosti Profit efficiency measure (score) versus traditional performance indicators Teorie extrémní hodnoty s intervalově cenzorovanými daty: Případová studie doby nezaměstnanosti v pokrizové České republice Extreme Value Theory Using Interval Censored Data: Case Study of Unemployment Duration in the Post-crisis Czech Repbulic Vývoj štruktúry indexu EURO STOXX 50 v čase s využitím metódy najmenšej kostry Time development of the EURO STOXX 50 Structure Using the Minimum Spanning Tree Aproach Změny rodinného stavu, dosaženém vzdělání a plodnosti žen v ČR v období Changes of marital status, education attained and fertility of females in the Czech Republic in the period Statistický odhad s minimální skórovou funkcí a jeho robustnost Minimum score statistical estimation and its robustness Odhady pomocí robustifikovaných úplných nejmenších čtverců a jejich výpočet Robustified Total Least Squares estimators and their evaluations JavaScript jako nástroj interaktivní výuky statistiky a dalších kvantitativních metod JavaScript as an Instrument for Teaching of Statistics and Other Quantitative Methods Interactively Porovnania odhadov v modeli rastových kriviek Comparison of estimators in the growth curve model Demografický vývoj ČR a jeho dopad na ekonomiku Demographical development of the Czech Republic and its development on the economy Zhlukovanie priemyselných odvetví v Poľsku podľa ich finančných výsledkov Clustering of the Polish industrial sectors according to their financial results Srovnání koeficientů pro stanovení optimálního počtu shluků ve shlukové analýze v různých podmínkách Comparison of coefficients for determining the optimal number of clusters in the cluster analysis in different conditions

201 FORUM STATISTICUM SLOVACUM 6/ Rajmund Reálne menové kurzy a vonkajšie nerovnováhy v krajinách PIGS Real Mirdala Exchange Rates and External Imbalances in PIGS Countries Rajmund Odhad produkčnej medzery na Slovensku použitím DSGE modelu Mirdala, Martin Output gap estimation using the DSGE model Kameník Logitové modely s kategoriální vysvětlovanou proměnnou v SPSS Iva Pecáková Various Multicategory Logit Models in SPSS Srovnání vývoje regionů České republiky a možných agregačních Ludmila přístupů Petkovová Compared development of Czech regions and possible aggregation approaches Elena Říhová, Tomáš Karel, Petr Marek, Ivana Malá Lukáš Sobíšek, Mária Stachová, Iva Pecáková Iveta Stankovičová, Vladimíra Želonková Gábor Szűcs Ľubica Štiblárová Alena Tartaľová Ondřej Ticháček, Václav Kůs Petr Veselík Peter Mach Fuzzy shlukování a bayesovský přístup k modelování nezaměstnanosti v České republice Fuzzy clustering and Bayesian approach to the modelling of unemployment in the Czech Republic Analýza longitudinálních dat pomocí smíšeného lineárního modelu v programu R Longitudinal data analysis using linear mixed models in R Využívanie IKT v slovenských domácnostiach v rokoch 2012 a 2015 The use of ICT in Slovak households in years 2012 and 2015 Metódy odhadu parametrov rekurentných tried diskrétnych rozdelení pravdepodobnosti Parameter estimation methods for recurrent classes of discrete probability distributions Synchronizácia národných a regionálnych hospodárskych cyklov krajín EÚ-15: prípad Francúzska a Nemecka Synchronization of the national and regional business cycles of the EU- 15 countries: the case of France and Germany Analýza vybraných rizikových skupín na trhu práce Analysis of selected risk groups in the labour market Rychlý stochastický test nezávislosti založený na čítacím procesu rekordů Quick stochastic test of independence based on record counting process Testování způsobilosti a výkonnosti environmentálního procesu na příkladu měření plynné elementární rtuti Testing of environmental process capability and performance on the example of measurement gaseous elemental mercury Zo života SŠDS From live of SSDS 11. stretnutie štatistických spoločností V6 vo Viedni 11th meeting of the Statistical Society V6 in Vienna OBSAH CONTENTS

202 SAS ONLINE SAS ondemand for Academics Pre akademické účely sprístupňujeme SAS aj online prostredníctvom cloudu. Spracovanie analýz prebieha na vzdialenom hostiteľskom serveri, čím každému odpadávajú náklady na hardvér, správu softvéru, inštaláciu a diskový priestor. Študenti aj pedagógovia tak pre potreby výučby môžu získať non-stop prístup k najnovšej verzii softvéru SAS nielen v škole, ale aj na ich domácich počítačoch všade tam, kde majú prístup k vysokorýchlostnému internetu. Dostupný softvér: SAS Enterprise Guide (Base SAS) SAS Enterprise Miner TM SAS Forecast Server SAS Studio Viac informácií nájdete na: E-learning Študentom a pedagógom zapojeným do nášho akademického programu ponúkame zadarmo aj obľúbené SAS e-learningové kurzy. K dispozícií máme viacero e-kurzov od základných po veľmi pokročilé. Prístupové heslá k jednotlivým kurzom zasielame na požiadanie mailom. Ak o ne máte záujem, neváhajte nás kontaktovať om. SASslovakia Dostupné e-learningové kurzy pre Academic: SAS Enterprise Guide 1: Querying and Reporting SAS Programming Introduction: Basic Concepts SAS Programming 1: Essentials SAS Programming 2: Data Manipulation Techniques SAS SQL 1: Essentials SAS Programming 3: Advanced Techniques and Efficiencies SAS Macro Language 1: Essentials SAS Enterprise Guide 1: Querying and Reporting Statistics 1: Introduction to ANOVA, Regression, and Logistic Regression Rapid Predictive Modeling for Business Analysts SAS Enterprise Guide : ANOVA, Regression, and Logistic Regression Applied Analytics Using SAS Enterprise Miner TM Rapid Predictive Modeling for Business Analysts SAS Enterprise Guide 1: Querying and Reporting SAS Enterprise Guide : ANOVA, Regression, and Logistic Regression SAS Enterprise Guide 2: Advanced Tasks and Querying Applied Analytics Using SAS Enterprise Miner TM Introduction to Statistical Concepts Querying, Reporting, and Analyzing Data Using SAS Enterprise Guide Applied Analytics Using SAS Enterprise Miner TM Applied Analytics Using SAS Enterprise Miner TM

203 Annual Report 2012 Annual Report T h e P o w e r t o KNOW Vďaka tomu, že študenti využívajú vysoko profesionálny analytický softvér, získavajú predstavu o tom, v akých situáciách sa dajú analýzy dát využiť. Učia sa, ako v praxi používať rôzne analytické metódy a interpretovať výsledky, ktoré zo softvéru vzídu. Rozhodovať iba na základe intuície sa dnes nedá. Analýzy dát a získavanie užitočných informácií zohrávajú v biznisových rozhodnutiach čoraz väčšiu úlohu. doc. Ing. Iveta Stankovičová, PhD. vysokoškolský pedagóg Fakulta managementu Univerzita Komenského v Bratislave Po zoznámení sa so softvérom SAS sa pre mňa stala štatistika po množstve teoretických poznatkov oveľa atraktívnejšou. Zaujímavé grafické spracovanie i široká škála možností využitia boli hlavné dôvody, prečo som sa rozhodol venovať väčšiu pozornosť práve tomuto softvéru. Ondrej Dúžik doktorand Fakulta hospodárskej informatiky Ekonomická univerzita v Bratislave Študenti sú neraz milo prekvapení, že môžu pracovať s aktuálnym softvérom, ktorý využíva toľko firiem po celom svete. Veľmi pozitívne vnímali aj prednášky SAS konzultantov u nás na fakulte, ktorí im priblížili využitie SAS-u v praxi. Som presvedčená, že vedieť aspoň niečo zo SAS-u, prináša študentom na pohovoroch značnú konkurenčnú výhodu oproti ostatným a nadobudnuté vedomosti im budú nápomocné v ich budúcom zamestnaní. Ing. Renáta Prokeinová PhD. vysokoškolský pedagóg Fakulta ekonomiky a manažmentu Slovenská poľnohospodárska univerzita v Nitre SAS je lídrom v analytike. Prostredníctvom inovatívneho softvéru a služieb v oblasti analytiky, business intelligence a data managementu, SAS pomáha viac ako spoločnostiam robiť lepšie rozhodnutia rýchlejšie. Už od roku 1976 dáva SAS svojim zákazníkom po celom svete THE POWER TO KNOW. Na Slovensku má SAS svoje zastúpenie od roku 1995 a špecializuje sa najmä na finančný sektor, telekomunikácie, energetiku a akademickú oblasť. Viac informácií nájdete na: Mená výrobkov alebo služieb SAS a SAS Institute Inc. sú registrovanými obchodnými značkami alebo obchodnými značkami SAS Institute Inc. v USA a iných krajinách. označuje USA registráciu. Ostatné mená značiek a produktov sú registrovanými obchodnými značkami alebo značkami k nim patriacich spoločností. Copyright 2015, SAS Institute Inc. Všetky práva vyhradené.

204 Pokyny pre autorov Jednotlivé čísla vedeckého recenzovaného časopisu FORUM STATISTICUM SLOVACUM sú prevažne tematicky zamerané zhodne s tematickým zameraním akcií SŠDS. Príspevky v elektronickej podobe prijíma zástupca redakčnej rady na elektronickej adrese uvedenej v pozvánke na konkrétne odborné podujatie Slovenskej štatistickej a demografickej spoločnosti. Akceptujeme príspevky v slovenčine, češtine, angličtine, nemčine, ruštine a výnimočne po schválení redakčnou radou aj inom jazyku. Názov word-súboru uvádzajte a posielajte v tvare: priezvisko_nazovakcie.doc resp. docx Forma: Príspevky písané výlučne len v textovom editore MS WORD, verzia 6 a vyššia, písmo Times New Roman CE 12, riadkovanie jednoduché (1), formát strany A4, všetky okraje 2,5 cm, strany nečíslovať. Tabuľky a grafy v čierno-bielom prevedení zaradiť priamo do textu článku a označiť podľa šablóny. Bibliografické odkazy uvádzať v súlade s normou STN ISO 690 a v súlade s medzinárodnými štandardami. Citácie s poradovým číslom z bibliografického zoznamu uvádzať priamo v texte. Rozsah: Maximálny rozsah príspevku je 6 strán. Príspevky sú recenzované. Redakčná rada zabezpečí posúdenie príspevku oponentom. Príspevky nie sú honorované, poplatok za uverejnenie akceptovaného príspevku je minimálne 30. Za každú stranu naviac je poplatok 5. Štruktúra príspevku: (Pri písaní príspevku využite elektronickú šablónu: v časti Vedecký časopis, Pokyny pre autorov.). Časti v angličtine sú povinné! Názov príspevku v slovenskom jazyku (štýl Názov: Time New Roman 14, Bold, centrovať) Názov príspevku v anglickom jazyku (štýl Názov: Time New Roman 14, Bold, centrovať) Vynechať riadok Meno1 Priezvisko1, Meno2 Priezvisko2 (štýl normálny: Time New Roman 12, centrovať) Vynechať riadok Abstrakt: Text abstraktu v slovenskom jazyku, max. 10 riadkov (štýl normálny: Time New Roman 12). Abstract: Text abstraktu v anglickom jazyku, max. 10 riadkov (štýl normálny: Time New Roman 12). Kľúčové slová: Kľúčové slová v slovenskom jazyku, max. 2 riadky (štýl normálny: Time New Roman 12). Key words: Kľúčové slová v anglickom jazyku, max. 2 riadky (štýl normálny: Time New Roman 12). Vynechať riadok a nastaviť si medzery odseku pre nadpisy takto: medzera pred 12 pt a po 3 pt. Nasleduje vlastný text príspevku v členení: 1. Úvod (štýl Nadpis 1: Time New Roman 12, bold, zarovnať vľavo, číslovať,) 2. Názov časti 1 (štýl Nadpis 1: Time New Roman 12, bold, zarovnať vľavo, číslovať) 3. Názov časti Záver (štýl Nadpis 1: Time New Roman 12, bold, zarovnať vľavo, číslovať) Vlastný text jednotlivých častí je písaný štýlom Normal: písmo Time New Roman 12, prvý riadok odseku je odsadený vždy na 1 cm, odsek je zarovnaný s pevným okrajom. Riadky medzi časťami a odsekmi nevynechávajte. Nastavte si medzi odsekmi medzeru pred 0 pt a po 3 pt. 5. Literatúra (štýl Nadpis 1: Time New Roman 12, bold, zarovnať vľavo, číslovať) [1] Písať podľa normy STN ISO 690 [2] GRANGER, C.W. NEWBOLD, P Spurious Regression in Econometrics. In: Journal of Econometrics, č. 2, 1974, s Adresa autora (-ov): Uveďte svoju pracovnú adresu!!! (štýl Nadpis 1: Time New Roman 12, bold, zarovnať vľavo, adresy vpísať do tabuľky bez orámovania s potrebným počtom stĺpcov a s 1 riadkom): Meno1 Priezvisko1, tituly1 (študenti ročník) Pracovisko1 (študenti škola1) Ulica1, Mesto1 [email protected] Meno2 Priezvisko2, tituly2 (študenti ročník) Pracovisko2 (študenti škola2) Ulica2, Mesto2 [email protected]

205 FORUM STATISTICUM SLOVACUM vedecký recenzovaný časopis Slovenskej štatistickej a demografickej spoločnosti Vydavateľ: Slovenská štatistická a demografická spoločnosť Miletičova Bratislava 24 Slovenská republika Redakcia: Miletičova Bratislava 24 Slovenská republika Registráciu vykonalo: Ministerstvo kultúry Slovenskej republiky Dátum registrácie: Evidenčné číslo: EV 3287/09 Tematická skupina: B1 Periodicita vydávania: minimálne 2 krát ročne Objednávky: Slovenská štatistická a demografická spoločnosť Miletičova 3, Bratislava 24 Slovenská republika IČO: DIČ: Číslo účtu: /7500 IBAN: SK SWIFT kód: CEKOSKBX Redakčná rada: RNDr. Peter Mach predseda doc. Ing. Jozef Chajdiak, CSc. šéfredaktor RNDr. Ján Luha, CSc. vedecký tajomník členovia: prof. RNDr. Jaromír Antoch, CSc. Ing. František Bernadič doc. RNDr. Branislav Bleha, PhD. Ing. Mikuláš Cár, CSc. Ing. Ján Cuper Prof. RNDr. Gejza Dohnal. CSc. Ing. Anna Janusová doc. RNDr. PaedDr. Stanislav Katina, PhD. prof. RNDr. Jozef Komorník, DrSc. RNDr. Samuel Koróny, PhD. doc. Dr. Jana Kubanová, CSc. doc. RNDr. Bohdan Linda, CSc. prof. RNDr. Jozef Mládek, DrSc. doc. RNDr. Oľga Nánásiová, CSc. doc. RNDr. Karol Pastor, CSc. Mgr. Michaela Potančoková, PhD. prof. RNDr. Rastislav Potocký, CSc. doc. RNDr. Viliam Páleník, PhD. Ing. Marek Radvanský, PhD. prof. Ing. Hana Řezanková, CSc. doc. Ing. Iveta Stankovičová, PhD. prof. RNDr. Beata Stehlíková, CSc. prof. RNDr. Anna Tirpáková, CSc. prof. RNDr. Michal Tkáč, CSc. doc. Ing. Vladimír Úradníček, PhD. Ing. Boris Vaňo doc. Ing. Mária Vojtková, PhD. prof. RNDr. Gejza Wimmer, DrSc. Ročník: XI. Číslo: 6/2015 Dátum vydania: december 2015 ISSN Cena výtlačku: Ročné predplatné: 30 EUR 120 EUR

Economic efficiency of agricultural enterprises and its evaluation

Economic efficiency of agricultural enterprises and its evaluation Economic efficiency of agricultural enterprises and its evaluation Ekonomická efektivnost zemìdìlských podnikù a její hodnocení E. ROSOCHATECKÁ Czech University of Agriculture, Prague, Czech Republic Abstract:

More information

Témy dizertačných prác pre uchádzačov o doktorandské štúdium

Témy dizertačných prác pre uchádzačov o doktorandské štúdium Témy dizertačných prác pre uchádzačov o doktorandské štúdium Študijný odbor: 3.3.15 Manažment, Študijný program: Znalostný manažment Akademický rok 2010/2011 1. Školiteľ: doc. Ing. Vladimír Bureš, PhD.

More information

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA STAVEBNÍ ÚSTAV BETONOVÝCH A ZDĚNÝCH KONSTRUKCÍ FACULTY OF CIVIL ENGINEERING INSTITUTE OF CONCRETE AND MASONRY STRUCTURES PRIESTOROVÝ

More information

How To Understand The Economic Development Of The Czech Republic

How To Understand The Economic Development Of The Czech Republic The role of employment in the development of Czech rural areas Úloha zaměstnanosti v rozvoji českého venkovského prostoru G. PAVLÍKOVÁ, P. MAŘÍKOVÁ Czech University of Agriculture, Prague, Czech Republic

More information

OSOBNOSTNÉ ASPEKTY ZVLÁDANIA ZÁŤAŽE

OSOBNOSTNÉ ASPEKTY ZVLÁDANIA ZÁŤAŽE OSOBNOSTNÉ ASPEKTY ZVLÁDANIA ZÁŤAŽE Katarína Millová, Marek Blatný, Tomáš Kohoutek Abstrakt Cieľom výskumu bola analýza vzťahu medzi osobnostnými štýlmi a zvládaním záťaže. Skúmali sme copingové stratégie

More information

Human resources development in rural areas of the Czech Republic

Human resources development in rural areas of the Czech Republic Human resources development in rural areas of the Czech Republic Vývoj lidských zdrojů ve venkovském prostoru ČR L. Svatošová Czech University of Life Sciences, Prague Czech Republic Abstract: al development

More information

QUANTITY INDICATORS AS A MEASURE OF CREDIT MARKET INTEGRATION IN THE VISEGRAD COUNTRIES 1

QUANTITY INDICATORS AS A MEASURE OF CREDIT MARKET INTEGRATION IN THE VISEGRAD COUNTRIES 1 QUANTITY INDICATORS AS A MEASURE OF CREDIT MARKET INTEGRATION IN THE VISEGRAD COUNTRIES 1 Pavla Vodová Klíčová slova: integrace úvěrových trhů, kvantitativní indikátory, země Visegrádské čtyřky Key words:

More information

PORUCHY A OBNOVA OBALOVÝCH KONŠTRUKCIÍ BUDOV - Podbanské 2012

PORUCHY A OBNOVA OBALOVÝCH KONŠTRUKCIÍ BUDOV - Podbanské 2012 PORUCHY A OBNOVA OBALOVÝCH KONŠTRUKCIÍ BUDOV Podbanské 2012 CIEĽ A ZAMERANIE KONFERENCIE : Cieľom konferencie je poskytnúť priestor pre prezentovanie nových a aktuálnych výsledkov vedeckej a výskumnej

More information

ING (L) Société d Investissement à Capital Variable 3, rue Jean Piret, L-2350 Luxembourg R.C.S.: Luxembourg B č. 44.873 (ďalej ako spoločnosť )

ING (L) Société d Investissement à Capital Variable 3, rue Jean Piret, L-2350 Luxembourg R.C.S.: Luxembourg B č. 44.873 (ďalej ako spoločnosť ) ING (L) Société d Investissement à Capital Variable 3, rue Jean Piret, L-2350 Luxembourg R.C.S.: Luxembourg B č. 44.873 (ďalej ako spoločnosť ) Oznam pre akcionárov 1) Správna rada spoločnosti rozhodla

More information

FORUM STATISTICUM SLOVACUM

FORUM STATISTICUM SLOVACUM 6/2007 FORUM STATISTICUM SLOVACUM I S SN 1 3 3 6-7 4 2 0 7 6 9 7 7 1 3 3 6 7 4 2 0 0 1 Slovenská štatistická a demografická spoločnosť Miletičova 3, 824 67 Bratislava www.ssds.sk Naše najbližšie akcie:

More information

Operational risk in current assets investment decisions: Portfolio management approach in accounts receivable

Operational risk in current assets investment decisions: Portfolio management approach in accounts receivable Operational risk in current assets investment decisions: Portfolio management approach in accounts receivable Operační risk v rozhodování o běžných aktivech: management portfolia pohledávek G. MICHALSKI

More information

CONTEMPORARY POSSIBILITIES OF MODELING OF THE PROBLEMS OF VEHICLE TRACK INTERACTION

CONTEMPORARY POSSIBILITIES OF MODELING OF THE PROBLEMS OF VEHICLE TRACK INTERACTION ROCZNIKI INŻYNIERII BUDOWLANEJ ZESZYT 8/2008 Komisja Inżynierii Budowlanej Oddział Polskiej Akademii Nauk w Katowicach CONTEMPORARY POSSIBILITIES OF MODELING OF THE PROBLEMS OF VEHICLE TRACK INTERACTION

More information

Rychlý průvodce instalací Rýchly sprievodca inštaláciou

Rychlý průvodce instalací Rýchly sprievodca inštaláciou CZ SK Rychlý průvodce instalací Rýchly sprievodca inštaláciou Intuos5 Poznámka: chraňte svůj tablet. Vyměňujte včas hroty pera. Bližší informace najdete v Uživatelském manuálu. Poznámka: chráňte svoj

More information

Návod k použití: Boxovací stojan DUVLAN s pytlem a hruškou kód: DVLB1003

Návod k použití: Boxovací stojan DUVLAN s pytlem a hruškou kód: DVLB1003 Návod na použitie: Boxovací stojan DUVLAN s vrecom a hruškou kód: DVLB1003 Návod k použití: Boxovací stojan DUVLAN s pytlem a hruškou kód: DVLB1003 User manual: DUVLAN with a boxing bag and a speed bag

More information

Pracovná skupina 1 Energetický management a tvorba energetických plánov mesta

Pracovná skupina 1 Energetický management a tvorba energetických plánov mesta Pracovná skupina 1 Energetický management a tvorba energetických plánov mesta Metodológia a podpora poskytovaná v rámci Dohovoru primátorov a starostov Skúsenosti českých miest Skúsenosti mesta Litoměřice

More information

Môže sa to stať aj Vám - sofistikované cielené hrozby Ján Kvasnička

Môže sa to stať aj Vám - sofistikované cielené hrozby Ján Kvasnička Môže sa to stať aj Vám - sofistikované cielené hrozby Ján Kvasnička Territory Account Manager Definícia cielených hrozieb Široký pojem pre charakterizovanie hrozieb, cielených na špecifické entity Často

More information

Technická efektívnosť a odmeny zdravotníckeho personálu v zdravotníctve

Technická efektívnosť a odmeny zdravotníckeho personálu v zdravotníctve Technická efektívnosť a odmeny zdravotníckeho personálu v zdravotníctve Ivana Novosádová Vysoká škola ekonomická v Praze Abstract: This paper is focus on the evaluation of technical efficiency of acute

More information

CHARACTERISTICS OF THE CURRENT STATE IN THE CONSTRUCTION INDUSTRY

CHARACTERISTICS OF THE CURRENT STATE IN THE CONSTRUCTION INDUSTRY The evaluation study concerning the measure Possible solutions to unemployment in the fields of agriculture and construction industry Hodnotiaca štúdia k opatreniu Možnosti riešenia nezamestnanosti pracovníkov

More information

Manažerské transakce

Manažerské transakce Manažerské transakce Josef Kotásek 1 Čl. 6 odst. 4 MAD Persons discharging managerial responsibilities within an issuer of financial instruments and, where applicable, persons closely associated with them,

More information

Management Development Practices in the Czech Reality

Management Development Practices in the Czech Reality Management Development Practices in the Czech Reality Zuzana Dvořáková Introduction Personnel management in the Czech business environment started to be internationalised by multinational enterprises from

More information

Sledovanie čiary Projekt MRBT

Sledovanie čiary Projekt MRBT VYSOKÉ UČENÍ TECHNIC KÉ V BRNĚ BRNO UNIVERSITY OF T ECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNO LOGIÍ ÚSTAV AUTOMATIZA CE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMUNICATION

More information

aneb Perfekt perfektně.

aneb Perfekt perfektně. aneb Perfekt perfektně. 2013 se v angličtině nazývá Present Perfect, tedy Přítomný perfekt. Patří k časům přítomným, ačkoliv se jistě nejedná o klasický přítomný čas tak, jak jsme zvykĺı z češtiny. jistým

More information

aneb Perfektní minulost.

aneb Perfektní minulost. aneb Perfektní minulost. 2013 se v angličtině nazývá Past Perfect. Používáme jej tehdy, potřebujeme-li jasně vyjádřit, že nějaký děj proběhl ještě dříve než minulý děj, o kterém hovoříme. Podívejme se

More information

Asertivita v práci s klientom banky

Asertivita v práci s klientom banky Bankovní institut vysoká škola Praha zahraničná vysoká škola Banská Bystrica Katedra ekonomie a financií Asertivita v práci s klientom banky Diplomová práca Autor: Viera Košteková Finance Vedúci práce:

More information

The significance of commodity exchanges for trade in agricultural products in the Czech Republic, and prospects of their future development

The significance of commodity exchanges for trade in agricultural products in the Czech Republic, and prospects of their future development The significance of commodity exchanges for trade in agricultural products in the Czech Republic, and prospects of their future development Význam komoditních burz pøi obchodování se zemìdìlskými produkty

More information

Kozmické poasie a energetické astice v kozme

Kozmické poasie a energetické astice v kozme Kozmické poasie a energetické astice v kozme De otvorených dverí, Košice 26.11.2008 Ústav experimentálnej fyziky SAV Košice Oddelenie kozmickej fyziky Karel Kudela [email protected] o je kozmické

More information

Market Consistent Embedded Value

Market Consistent Embedded Value Market Consistent Embedded Value Dana Bohatová Chládková, Kamil Žák Seminář z aktuárských věd 4. května 2007 Obsah Proč Embedded Value? Co je Embedded Value? Market Consistent Embedded Value Vývoj EV Příklady

More information

Strategy related factors of business entity structure and behaviour

Strategy related factors of business entity structure and behaviour Strategy related factors of business entity structure and behaviour Faktory struktury a chování podnikatelských subjektů ve vztahu k jejich strategii J. HRON Czech University of Agriculture, Prague, Czech

More information

IBM Security Framework: Identity & Access management, potreby a riešenia.

IBM Security Framework: Identity & Access management, potreby a riešenia. Juraj Polak IBM Security Framework: Identity & Access management, potreby a riešenia. Nová doba inteligentná infraštruktúra Globalizácia a globálne dostupné zdroje Miliardy mobilných zariadení s prístupom

More information

Value Added Tax in the Czech Republic

Value Added Tax in the Czech Republic Selected problems of value added tax application in the agricultural sector of the European Union internal market Vybrané problémy aplikace daně z přidané hodnoty v zemědělském sektoru jednotného vnitřního

More information

Assessment of Risk Areas of a Tunnel Project based on Expert Opinion

Assessment of Risk Areas of a Tunnel Project based on Expert Opinion Assessment of Risk Areas of a Tunnel Project based on Expert Opinion Martin Srb 3G Consulting Engineers s.r.o., Prague, Czech Republic ABSTRACT: Based on evaluation of tunnel accidents/collapses during

More information

Luk aˇ s R uˇ ziˇ cka Pomocn a slovesa

Luk aˇ s R uˇ ziˇ cka Pomocn a slovesa Pomocná slovesa Přehled funkcí Leden 2013 Přehled funkcí 1 děje probíhající právě ted 2 děje probíhající, ale ne nutně právě ted 3 děje probíhající dočasně 4 budoucí použití (pevná dohoda) Děje probíhající

More information

THE ROLE OF NON-PROFIT ORGANIZATIONS IN A REGIONAL DEVELOPMENT IN A CONTEXT OF SOCIAL COHESION: THE CASE OF ICELAND

THE ROLE OF NON-PROFIT ORGANIZATIONS IN A REGIONAL DEVELOPMENT IN A CONTEXT OF SOCIAL COHESION: THE CASE OF ICELAND DOI: 10.5817/CZ.MUNI.P210-6840-2014-73 THE ROLE OF NON-PROFIT ORGANIZATIONS IN A REGIONAL DEVELOPMENT IN A CONTEXT OF SOCIAL COHESION: THE CASE OF ICELAND ROLA NEZISKOVÝCH ORGANIZÁCIÍ V ROZVOJI REGIÓNOV

More information

aneb Co bylo, bylo, co zbylo, zbylo.

aneb Co bylo, bylo, co zbylo, zbylo. aneb Co bylo, bylo, co zbylo, zbylo. 2013 Minulé časy Minulý čas se vyznačuje především tím, že jím popisované děje jsou již ukončeny a dále neprobíhají. Často jsou tyto skutečnosti naznačeny signálním

More information

GEOGRAFICKÉ INFORMÁCIE GEOGRAPHICAL INFORMATION

GEOGRAFICKÉ INFORMÁCIE GEOGRAPHICAL INFORMATION UNIVERZITA KONŠTANTÍNA FILOZOFA V NITRE CONSTANTINE THE PHILOSOPHER UNIVERSITY IN NITRA FAKULTA PRÍRODNÝCH VIED FACULTY OF NATURAL SCIENCES GEOGRAFICKÉ INFORMÁCIE GEOGRAPHICAL INFORMATION Ročník / Volume

More information

EVALUATION OF EMPLOYEE PERFORMANCE OF BUSINESS BROKERING COMPANY BY PERSONNEL MANAGER S COMPETENCIES

EVALUATION OF EMPLOYEE PERFORMANCE OF BUSINESS BROKERING COMPANY BY PERSONNEL MANAGER S COMPETENCIES Radka Vaníčková Robert Zeman EVALUATION OF EMPLOYEE PERFORMANCE OF BUSINESS BROKERING COMPANY BY PERSONNEL MANAGER S COMPETENCIES Abstract: The aim of the paper is to determine the current level of competences

More information

: Architectural Lighting : Interiérové svietidlá

: Architectural Lighting : Interiérové svietidlá SEC Lighting : Architectural Lighting : nteriérové svietidlá : Shape Harmony : Tradition The company SEC accepts with enthusiasm the challenges of continuously changing world. n our opinion, luminaries

More information

Týždeň 1. Úvodné stretnutie informácie o obsahu kurzu, spôsobe hodnotenia, úvod do problematiky demokracie

Týždeň 1. Úvodné stretnutie informácie o obsahu kurzu, spôsobe hodnotenia, úvod do problematiky demokracie Teórie demokracie Výberový predmet Vyučujúci: JUDr. Mgr. Michal Mrva Charakteristika kurzu Kurz má za cieľ oboznámiť študentov s problematikou demokracie v jej historickej perspektíve s dôrazom na vývoj

More information

!T =!Mobile=== Nastavenia dátových a multimediálnych služieb pre multifunkčné zariadenia s operačným systémom Windows Mobile 5.0 NASTAVENIE MMS 1 /18

!T =!Mobile=== Nastavenia dátových a multimediálnych služieb pre multifunkčné zariadenia s operačným systémom Windows Mobile 5.0 NASTAVENIE MMS 1 /18 Nastavenia dátových a multimediálnych služieb pre multifunkčné zariadenia s operačným systémom Windows Mobile 5.0 Nastavenie je možné vykonať manuálnym resetom zariadenia, pričom všetky nastavenie sa vrátia

More information

1-2/2010. Podniková ekonomika. Elektronický odborný časopis o ekonomike, manažmente, marketingu a logistike podniku ISSN 1336-5878

1-2/2010. Podniková ekonomika. Elektronický odborný časopis o ekonomike, manažmente, marketingu a logistike podniku ISSN 1336-5878 1-2/2010 Podniková ekonomika Elektronický odborný časopis o ekonomike, manažmente, marketingu a logistike podniku ISSN 1336-5878 1 OBSAH Filip Ježek Vývoj daňového zatížení a státniho dluhu ČR 3 Daniel

More information

FORUM STATISTICUM SLOVACUM

FORUM STATISTICUM SLOVACUM 5/ FORUM STATISTICUM SLOVACUM I SSN 336-74 9 7 7 3 3 6 7 4 5 Slovenská štatistická a demografická spoločnosť Miletičova 3 84 67 Bratislava www.ssds.sk Naše najbližšie akcie: pozri tiež www.ssds.sk blok

More information

JEDNOFÁZOVÝ STATICKÝ ELEKTROMER NA VIACSADZBOVÉ MERANIE ČINNEJ ENERGIE

JEDNOFÁZOVÝ STATICKÝ ELEKTROMER NA VIACSADZBOVÉ MERANIE ČINNEJ ENERGIE JEDNOFÁZOVÝ STATICKÝ ELEKTROMER NA VIACSADZBOVÉ MERANIE ČINNEJ ENERGIE AMS B1x-xAx Applied Meters, a. s. Budovateľská 50, 080 01 Prešov Tel.: +421-51-758 11 69, Fax: +421-51-758 11 68 Web: www.appliedmeters.com,

More information

NÁVRH Příklady hlášení obchodů

NÁVRH Příklady hlášení obchodů NÁVRH Příklady hlášení obchodů Příklady HLOB říjen 2007 verze DRAFT 1 Číslo změny Účinnost změny 1. 22.10.2007 Označení změněné části První zveřejnění příkladů hlášení obchodů Číslo verze po změně Změnu

More information

6/08. a KARTOGRAFICKÝ GEODETICKÝ. Český úřad zeměměřický a katastrální Úrad geodézie, kartografie a katastra Slovenskej republiky

6/08. a KARTOGRAFICKÝ GEODETICKÝ. Český úřad zeměměřický a katastrální Úrad geodézie, kartografie a katastra Slovenskej republiky GEODETICKÝ a KARTOGRAFICKÝ Český úřad zeměměřický a katastrální Úrad geodézie, kartografie a katastra Slovenskej republiky 6/08 Praha, červen 2008 Roč. 54 (96) Číslo 6 str. 101 120 Cena Kč 24, Sk 27, GEODETICKÝ

More information

Február 2013 Ročník 21 ODBORNÝ BANKOVÝ ČASOPIS NÁRODNÁ BANKA SLOVENSKA

Február 2013 Ročník 21 ODBORNÝ BANKOVÝ ČASOPIS NÁRODNÁ BANKA SLOVENSKA 2 Február 2013 Ročník 21 ODBORNÝ BANKOVÝ ČASOPIS NÁRODNÁ BANKA SLOVENSKA B I A T E C B I A T E C Strieborná zberateľská minca Pamiatková rezervácia Košice Už dvadsať rokov vydáva Národná banka Slovenska

More information

KATALOG JARO LÉTO 2008

KATALOG JARO LÉTO 2008 KATALOG JARO LÉTO 2008 Šperky jsou artiklem, vymykajícím se z většiny ostatního zboží. Nejde o nic, co bychom potřebovali k životu, a přesto po nich touží naprostá většina žen. S muži už to pravda není

More information

Agris on-line Papers in Economics and Informatics

Agris on-line Papers in Economics and Informatics Agris on-line Papers in Economics and Informatics Volume III Number 1, 2011 Social Networks as an Integration Tool in Rural Areas Agricultural Enterprises of the Czech Republic E. Červenková 1, P. Šimek

More information

FORUM STATISTICUM SLOVACUM

FORUM STATISTICUM SLOVACUM 7/2011 FORUM STATISTICUM SLOVACUM ISSN 1336-7420 9 7 7 1 3 3 6 7 4 2 0 0 1 2 0 1 1 7 Slovenská štatistická a demografická spoločnosť Miletičova 3 824 67 Bratislava www.ssds.sk Naše najbližšie akcie: (pozri

More information

FORUM STATISTICUM SLOVACUM

FORUM STATISTICUM SLOVACUM 6/008 FORUM STATISTICUM SLOVACUM I S SN 1 3 3 6-7 4 0 8 6 9 7 7 1 3 3 6 7 4 0 0 1 Slovenská štatistická a demografická spoločnosť Miletičova 3, 84 67 Bratislava www.ssds.sk Naše najbližšie akcie: (pozri

More information

Nerovnosť a chudoba v Európskej únii a na Slovensku Zborník statí

Nerovnosť a chudoba v Európskej únii a na Slovensku Zborník statí Nerovnosť a chudoba v Európskej únii a na Slovensku Zborník statí Iveta Pauhofová Tomáš Želinský (editori) Editori doc. Ing. Iveta PAUHOFOVÁ, CSc. Ekonomický ústav, Slovenská akadémia vied Ing. Tomáš ŽELINSKÝ,

More information

Jazyk C# (seminář 8)

Jazyk C# (seminář 8) Jazyk C# (seminář 8) Pavel Procházka KMI 12. listopadu 2014 Na co je dobré XML? Deklarativní jazyk reprezentující čitelně data Snadná práce s konfiguračními soubory a ukládání do souboru Human readeble

More information

FORUM STATISTICUM SLOVACUM

FORUM STATISTICUM SLOVACUM 7/2013 FORUM STATISTICUM SLOVACUM ISSN 1336-7420 9 771336 742001 2 0 1 3 7 Slovenská štatistická a demografická spoločnosť Miletičova 3, 824 67 Bratislava www.ssds.sk Naše najbližšie akcie: (pozri tiež

More information

FORUM STATISTICUM SLOVACUM

FORUM STATISTICUM SLOVACUM 7/009 FORUM STATISTICUM SLOVACUM I S SN 3 3 6-7 4 0 9 7 9 7 7 3 3 6 7 4 0 0 Slovenská štatistická a demografická spoločnosť Miletičova 3, 84 67 Bratislava www.ssds.sk Naše najbližšie akcie: (pozri tiež

More information

Application of new information and communication technologies in marketing

Application of new information and communication technologies in marketing Application of new information and communication technologies in marketing Ladislav Izakovič, Department of Applied Informatics, Faculty of Natural Sciences, University of SS. Cyril and Methodius, J. Herdu

More information

PERUN - THE SYSTEM FOR THE CROP YIELD FORECASTING

PERUN - THE SYSTEM FOR THE CROP YIELD FORECASTING Rožnovský, J., Litschmann, T. (ed.): XIV. Česko-slovenská bioklimatologická konference, Lednice na Moravě 2.-4. září 2002, ISBN 80-85813-99-8, s. 64-74 PERUN - THE SYSTEM FOR THE CROP YIELD FORECASTING

More information

WLA-5000AP. Quick Setup Guide. English. Slovensky. Česky. 802.11a/b/g Multi-function Wireless Access Point

WLA-5000AP. Quick Setup Guide. English. Slovensky. Česky. 802.11a/b/g Multi-function Wireless Access Point 802.11a/b/g Multi-function Wireless Access Point Quick Setup Guide 1 5 Česky 9 Important Information The AP+WDS mode s default IP address is 192.168.1.1 The Client mode s default IP is 192.168.1.2 The

More information

Výkonnosť podniku VÝSLEDOK HOSPODÁRENIA AKO UKAZOVATEĽ MERANIA A HODNOTENIA VÝKONNOSTI PODNIKU PODĽA SLOVENSKEJ PRÁVNEJ ÚPRAVY

Výkonnosť podniku VÝSLEDOK HOSPODÁRENIA AKO UKAZOVATEĽ MERANIA A HODNOTENIA VÝKONNOSTI PODNIKU PODĽA SLOVENSKEJ PRÁVNEJ ÚPRAVY Vedecký časopis Výskumného ústavu ekonomiky a manažmentu Výkonnosť podniku Ročník I Číslo 3/2011 ISSN 1338-435X Výkonnosť podniku VÝSLEDOK HOSPODÁRENIA AKO UKAZOVATEĽ MERANIA A HODNOTENIA VÝKONNOSTI PODNIKU

More information

SELECTED ASPECTS OF PERFORMANCE MANAGEMENT AS A COMPONENT OF THE CONTEMPORARY MANAGEMENT OF BUSINESSES

SELECTED ASPECTS OF PERFORMANCE MANAGEMENT AS A COMPONENT OF THE CONTEMPORARY MANAGEMENT OF BUSINESSES SELECTED ASPECTS OF PERFORMANCE MANAGEMENT AS A COMPONENT OF THE CONTEMPORARY MANAGEMENT OF BUSINESSES Dagmar Burdová Klíčová slova: Efektivita, management, manažer, podnik, procesy, řízení pracovního

More information

THE VALUE OF A UNIVERSITY DEGREE IN THE EUROPEAN CONTEXT: THE CASE OF PART-TIME STUDENTS IN THE CZECH REPUBLIC

THE VALUE OF A UNIVERSITY DEGREE IN THE EUROPEAN CONTEXT: THE CASE OF PART-TIME STUDENTS IN THE CZECH REPUBLIC Kateřina Maršíková 260 Maršíková, K. (2015), The Value of a University Degree in the European Context: the Case of Part-time Students in the Czech Republic, Economics and Sociology, Vol. 8, No 3, pp. 260-271.

More information

Neural networks in data mining

Neural networks in data mining Neural networks in data mining Neuronové sítì v data mining A.VESELÝ Czech University of Agriculture, Prague, Czech Republic Abstract: To posses relevant information is an inevitable condition for successful

More information

Cost-benefit analýza skládky odpadov

Cost-benefit analýza skládky odpadov Masarykova univerzita Ekonomicko-správní fakulta Studijní obor: Veřejná ekonomika a správa Cost-benefit analýza skládky odpadov Cost-benefit analysis of the landfill Bakalárska práca Vedúci bakalárskej

More information

E-LOGOS. usudzovanie z časti na celok. Miroslav Titze ELECTRONIC JOURNAL FOR PHILOSOPHY ISSN 1211-0442 14/2013. University of Economics Prague

E-LOGOS. usudzovanie z časti na celok. Miroslav Titze ELECTRONIC JOURNAL FOR PHILOSOPHY ISSN 1211-0442 14/2013. University of Economics Prague E-LOGOS ELECTRONIC JOURNAL FOR PHILOSOPHY ISSN 1211-0442 14/2013 University of Economics Prague e Makroekonómia a mylné usudzovanie z časti na celok Miroslav Titze Abstract Main goal of the paper is discuss

More information

WK29B / WK29W. Bluetooth Wireless Slim Keyboard. User manual ( 2 5 ) Uživatelský manuál ( 6 10) Užívateľský manuál (11 15)

WK29B / WK29W. Bluetooth Wireless Slim Keyboard. User manual ( 2 5 ) Uživatelský manuál ( 6 10) Užívateľský manuál (11 15) WK29B / WK29W Bluetooth Wireless Slim Keyboard User manual ( 2 5 ) Uživatelský manuál ( 6 10) Užívateľský manuál (11 15) 1. Installing the batteries The EVOLVEO WK29B / WK29W keyboard uses two AAA alkaline

More information

Ekonomické spektrum. Economic Spectrum. National economy. Banking. Insurance. Finances. Business Economics. Marketing. Management.

Ekonomické spektrum. Economic Spectrum. National economy. Banking. Insurance. Finances. Business Economics. Marketing. Management. National economy Banking Ekonomické spektrum Economic Spectrum Insurance Finances Business Economics Marketing Management Scientific on-line journal about Economy and Economics Vedecký on-line časopis

More information

J&T FINANCE GROUP, a.s. a dcérske spoločnosti

J&T FINANCE GROUP, a.s. a dcérske spoločnosti J&T FINANCE GROUP, a.s. a dcérske spoločnosti Konsolidovaná účtovná závierka za rok, KONSOLIDOVANÝ VÝKAZ ZISKOV A STRÁT za rok, v tis. EUR Bod 2013 2012 Úrokové výnosy 7 295 075 163 724 Úrokové náklady

More information

Doc. Mgr. LIBOR DUŠEK, Ph.D.

Doc. Mgr. LIBOR DUŠEK, Ph.D. Doc. Mgr. LIBOR DUŠEK, Ph.D. UNIVERSITY OF ECONOMICS, PRAGUE PHONE: (+420) 224-095-516 FACULTY OF ECONOMICS E-MAIL: [email protected] NAM W. CHURCHILLA 4 HTTP://HOME.CERGE-EI.CZ/LDUSEK 13067 PRAGUE 3

More information

Ekonomické listy. Odborný vědecký časopis Vysoké školy ekonomie a managementu. 3 Financing of tertiary education: the Czech Republic and Europe

Ekonomické listy. Odborný vědecký časopis Vysoké školy ekonomie a managementu. 3 Financing of tertiary education: the Czech Republic and Europe Odborný vědecký časopis Vysoké školy ekonomie a managementu el Ekonomické listy 1 2014 3 Financing of tertiary education: the Czech Republic and Europe 16 Možnosti ovplyvňovania organizačnej kultúry rozmiestňovaním

More information

PRODUCT LIFE CYCLE COST MANAGEMENT RIADENIE NÁKLADOV ŽIVOTNÉHO CYKLU VÝROBKU

PRODUCT LIFE CYCLE COST MANAGEMENT RIADENIE NÁKLADOV ŽIVOTNÉHO CYKLU VÝROBKU ACTA FACULTATIS TECHNICAE XVI ZVOLEN SLOVAKIA 2011 PRODUCT LIFE CYCLE COST MANAGEMENT RIADENIE NÁKLADOV ŽIVOTNÉHO CYKLU VÝROBKU František FREIBERG Erika SUJOVÁ ABSTRACT: The management of life cycle costing

More information

Curriculum Vitae. Doc. Ing. Lubomír L Í Z A L, PhD. Education: Employment Career: Publications in Refereed Journals or Invited Papers:

Curriculum Vitae. Doc. Ing. Lubomír L Í Z A L, PhD. Education: Employment Career: Publications in Refereed Journals or Invited Papers: Curriculum Vitae Web Name: Doc. Ing. Lubomír L Í Z A L, PhD. Work phone/fax: (+420) 224 005 114 / 224 227 143 Email: [email protected] Education: Ph.D., 1998 M.Sc.1992 Center for Economic Research

More information

Silver economy as possible export direction at ageing Europe case of Slovakia

Silver economy as possible export direction at ageing Europe case of Slovakia Silver economy as possible export direction at ageing Europe case of Slovakia Marek Radvanský, Viliam Páleník* 1 Abstract: Aging of European citizens is a real threat for public finances of member countries,

More information

GEOGRAFICKÉ INFORMÁCIE 13

GEOGRAFICKÉ INFORMÁCIE 13 UNIVERZITA KONŠTANTÍNA FILOZOFA V NITRE FAKULTA PRÍRODNÝCH VIED KATEDRA GEOGRAFIE A REGIONÁLNEHO ROZVOJA GEOGRAFICKÉ INFORMÁCIE 13 TRENDY REGIONÁLNEHO ROZVOJA V EURÓPSKEJ ÚNII NITRA 2009 GEOGRAFICKÉ INFORMÁCIE

More information

Tourism, Hospitality and Commerce

Tourism, Hospitality and Commerce Ročník III, číslo 2, 2012 Volume III, Number 2, 2012 Journal of Tourism, Hospitality and Commerce Vysoká škola obchodní a hotelová s.r.o. College of Business and Hotel Management Ltd. ISSN 1804-3836 Journal

More information

LV5WDR Wireless Display Receiver Rýchla príručka

LV5WDR Wireless Display Receiver Rýchla príručka LV5WDR Wireless Display Receiver Rýchla príručka 1 1. Predstavenie Wireless display receiver S Wireless display receiver (ďalej len WDR) môžete jednoducho zobrazovať multimediálny obsah (videá, fotografie,

More information

Register priestorových informácií

Register priestorových informácií Slovenský národný metaúdajový profil Informatívne podujatie 5. 8. 2015 Konzorcium dodávateľov: Národný metaúdajový profil Obsah témy Koncepční a organizační diskuze úvod do problematiky metadat důvody

More information

Originál & kópia v múzeu zborník zo seminára a diskusného fóra. Original and Copy in the Museum Proceedings of a Conference and Discussion Forum

Originál & kópia v múzeu zborník zo seminára a diskusného fóra. Original and Copy in the Museum Proceedings of a Conference and Discussion Forum Originál & kópia v múzeu zborník zo seminára a diskusného fóra Original and Copy in the Museum Proceedings of a Conference and Discussion Forum Sekcia III Session III 1 Sekcia III Session III Historické

More information

I SSN 1336-7420 9 7 7 1 3 3 6 7 4 2 0 0 1 2 0 1 2 7

I SSN 1336-7420 9 7 7 1 3 3 6 7 4 2 0 0 1 2 0 1 2 7 ISSN 1336-7420 9 771336 742001 2 0 1 2 7 Slovenská štatistická a demografická spoločnosť Miletičova 3, 824 67 Bratislava www.ssds.sk Naše najbližšie akcie: (tiež na www.ssds.sk, blok Organizované akcie)

More information

Trestná politika štátu a zodpovednosť právnických osôb. Penal Policy of the State and Liability of Legal Entities

Trestná politika štátu a zodpovednosť právnických osôb. Penal Policy of the State and Liability of Legal Entities Trestná politika štátu a zodpovednosť právnických osôb Penal Policy of the State and Liability of Legal Entities Sekcia trestného práva Session of Criminal Law Garanti sekcie/ Scholastic Referees: doc.

More information

8.2 Transformace, množinové operace

8.2 Transformace, množinové operace 8.2. TRANSFORMACE, MNOŽINOVÉ OPERACE 8.2 Transformace, množinové operace 8.2.1 Transformace Posunutí, otočení a změna rozměrů umožňují efektivní práci s objekty. Je jednodušší umístit objekt v požadovaných

More information

J. S. NOVOTNÝ: Resilience dětí a možnosti její podpory a rozvoje 324. K. DANIŠKOVÁ: Možné kritériá hodnotenia pohybovej tvorivosti 332

J. S. NOVOTNÝ: Resilience dětí a možnosti její podpory a rozvoje 324. K. DANIŠKOVÁ: Možné kritériá hodnotenia pohybovej tvorivosti 332 OBSAH 4/2008 L. MEDVEĎOVÁ: Rodové odlišnosti a vývinová dynamika školských stresorov v ranej adolescencii 287 Š. PORTEŠOVÁ - V. KONEČNÁ - M. BUDÍKOVÁ - H. KOUTKOVÁ: Strachy rozumově nadaných dětí jako

More information

Impact of Selected Types of Public Spending on Economic Growth Vliv vybraných typů veřejných výdajů na ekonomický růst

Impact of Selected Types of Public Spending on Economic Growth Vliv vybraných typů veřejných výdajů na ekonomický růst Impact of Selected Types of Public Spending on Economic Growth Vliv vybraných typů veřejných výdajů na ekonomický růst BOJKA HAMERNÍKOVÁ, ALENA MAAYTOVÁ, JAROSLAV VOSTATEK, STANISLAV KLAZAR Abstract At

More information

TVORBA KOMUNIKAČNEJ KAMPANE S VYUŢITÍM DIGITÁLNYCH MÉDIÍ

TVORBA KOMUNIKAČNEJ KAMPANE S VYUŢITÍM DIGITÁLNYCH MÉDIÍ Masarykova univerzita Ekonomicko-správní fakulta Študijný odbor: Podnikové hospodárstvo TVORBA KOMUNIKAČNEJ KAMPANE S VYUŢITÍM DIGITÁLNYCH MÉDIÍ Development of Communication Campaign (Utilisation of Digital

More information

BANKRUPTCY MODELS ENUNTIATION FOR CZECH GLASS MAKING FIRMS

BANKRUPTCY MODELS ENUNTIATION FOR CZECH GLASS MAKING FIRMS BANKRUPTCY MODELS ENUNTIATION FOR CZECH GLASS MAKING FIRMS Jiri Klecka 1, Hana Scholleova 2 1 University of Economics, Prague, Czech Republic, [email protected] 2 University of Economics, Prague, Czech

More information

Enterprise Annual Plan and Its Software Support

Enterprise Annual Plan and Its Software Support Enterprise Annual Plan and Its Software Support Ing. David Michálek Vedoucí práce: Doc. Ing. Martin Zralý, CSc. Abstrakt Tento příspěvek se zabývá procesem tvorby ročního plánu v podniku, s důrazem na

More information

Aktuální otázky přípravy budoucích učitelů VÝZNAM TEORIE, EMPIRIE A PEDAGOGICKÉ přírodovědných, PŘÍBUZNÝCH OBORŮ

Aktuální otázky přípravy budoucích učitelů VÝZNAM TEORIE, EMPIRIE A PEDAGOGICKÉ přírodovědných, PŘÍBUZNÝCH OBORŮ VI. Mezinárodní konference k problematice přípravy učitelů pro přírodovědné a zemědělské předměty na téma: Aktuální otázky přípravy budoucích učitelů VÝZNAM TEORIE, EMPIRIE A PEDAGOGICKÉ PRAXE přírodovědných,

More information

BIRD Internet Routing Daemon

BIRD Internet Routing Daemon BIRD Internet Routing Daemon Ondřej Zajíček CZ.NIC z.s.p.o. IT 13 Úvod I Úvod do dynamického routování I Představení démona BIRD I OSPF a BIRD I BGP a BIRD Dynamické routování I Sestavení routovacích tabulek

More information

How To Value Fixed Assets In The Czech Republic

How To Value Fixed Assets In The Czech Republic Valuation of tangible fixed assets pursuant to the Czech accounting law and international accounting standards Oceňování dlouhodobého hmotného majetku podle českého účetního práva a mezinárodních účetních

More information

Dissemination conference in Prague, 25th March 2010.

Dissemination conference in Prague, 25th March 2010. newsdys May 2010 www.dys2. Czech Republic: Ing. Kateřina Nevřalová Dissemination conference in Prague, 25th March 2010. With the support of a project coordinator and European project partners we have organized

More information

ROČNÍK 43 ČÍSLO 4. psychológia a patopsychológia

ROČNÍK 43 ČÍSLO 4. psychológia a patopsychológia ROČNÍK 43 ČÍSLO 4 psychológia a patopsychológia VÝSKUMNÝ ÚSTAV DETSKEJ PSYCHOLÓGIE A PATOPSYCHOLÓGIE BRATISLAVA 2008 Redakčná rada: F. Baumgartner, Spoločenskovedný ústav SAV, Košice J. Dan, Pedagogická

More information

Združenie Pre reformu zdravotníctva Páričkova 18 SK - 811 02 Bratislava. www.reformazdravotnictva.sk

Združenie Pre reformu zdravotníctva Páričkova 18 SK - 811 02 Bratislava. www.reformazdravotnictva.sk Združenie Pre reformu zdravotníctva Páričkova 18 SK - 811 02 Bratislava www.reformazdravotnictva.sk Corporate Design: M.E.S.A. 10 Consulting Group Obálka & Print: Publicis Knut Copyrights Pre reformu zdravotníctva

More information

ZVÁRANIE SVAŘOVÁNÍ ZVÁRANIE TITÁNU. Náročné technologické aplikácie vo VÚZ PI SR 11-12 2012

ZVÁRANIE SVAŘOVÁNÍ ZVÁRANIE TITÁNU. Náročné technologické aplikácie vo VÚZ PI SR 11-12 2012 11-12 2012 ZVÁRANIE odborný časopis so zameraním na zváranie a príbuzné technológie ročník 61 SVAŘOVÁNÍ ISSN 0044-5525 Náročné technologické aplikácie vo VÚZ PI SR ZVÁRANIE TITÁNU ZVÁRANIE-SVAŘOVÁNÍ 1/2008

More information

ONLINE SOCIAL NETWORKS AND THEIR IMPACT ON THE LIVES OF STUDENTS OF MEDICINE-RELATED STUDIES

ONLINE SOCIAL NETWORKS AND THEIR IMPACT ON THE LIVES OF STUDENTS OF MEDICINE-RELATED STUDIES School and Health 21, 2011, Education and Healthcare ONLINE SOCIAL NETWORKS AND THEIR IMPACT ON THE LIVES OF STUDENTS OF MEDICINE-RELATED STUDIES Magda TALIÁNOVÁ, Magdalena ŘEŘUCHOVÁ, Vendula HOMOLKOVÁ

More information

EDÍCIA SLOVENSKEJ LEKÁRSKEJ KNIŽNICE. InfoMedLib. Bulletin Slovenskej lekárskej knižnice. Ročník 11

EDÍCIA SLOVENSKEJ LEKÁRSKEJ KNIŽNICE. InfoMedLib. Bulletin Slovenskej lekárskej knižnice. Ročník 11 EDÍCIA SLOVENSKEJ LEKÁRSKEJ KNIŽNICE InfoMedLib Bulletin Slovenskej lekárskej knižnice 2 2010 Ročník 11 OBSAH Na prahu šesťdesiatky... 4 INFORMÁCIE ZO SLOVENSKEJ LEKÁRSKEJ KNIŢNICE Marta Weissová Štatistické

More information

Európska komisia stanovuje ambiciózny akčný program na podporu vnútrozemskej vodnej dopravy

Európska komisia stanovuje ambiciózny akčný program na podporu vnútrozemskej vodnej dopravy IP/06/48 Brusel 17. januára 2006 Európska komisia stanovuje ambiciózny akčný program na podporu vnútrozemskej vodnej dopravy Komisia dnes navrhla viacročný akčný program s cieľom podporiť rozvoj prepravy

More information

Viega Visign Cenník 2014

Viega Visign Cenník 2014 Viega Visign Cenník 2014 Ceny sú uvedené vrátane DPH Viega Eco Plus: Podomietková splachovacia nádržka na zabudovanie do odľahčených stien. Akčný balík Viega Eco Plus: prvok Viega Eco Plus + biela ovládacia

More information

SECONDARY MARKET FOR LOAN RECEIVABLES IN THE TRANSFORMING ECONOMIES OF SLOVAKIA AND THE CZECH REPUBLIC

SECONDARY MARKET FOR LOAN RECEIVABLES IN THE TRANSFORMING ECONOMIES OF SLOVAKIA AND THE CZECH REPUBLIC CURRENT TOPIC 13 SECONDARY MARKET FOR LOAN RECEIVABLES IN THE TRANSFORMING ECONOMIES OF SLOVAKIA AND THE CZECH REPUBLIC doc. Ing. Mária Klimiková, PhD., Ing. Dana Forišková, PhD., Ing. Martin Vovk, Ing.

More information