DATA A ZNALOSTI Sborník konference. Michal Valenta Petr Šaloun Dušan Chlapek. Editoři

Size: px
Start display at page:

Download "DATA A ZNALOSTI 2015. Sborník konference. Michal Valenta Petr Šaloun Dušan Chlapek. Editoři"

Transcription

1 DATA A ZNALOSTI 2015 Sborník konference Editoři Michal Valenta Petr Šaloun Dušan Chlapek FIT ČVUT Praha Česko 1. a

2

3 DATA A ZNALOSTI 2015 Sborník konference Editoři Michal Valenta Petr Šaloun Dušan Chlapek FIT ČVUT Praha Česko 1. a Vydané: Vysokou školou báňskou-technickou univerzitou Ostrava

4 DATA A ZNALOSTI vydání Editoři Michal Valenta Katedra softwarového inženýrství Fakulta informačních technologií, ČVUT Praha Thákurova Praha 6 Petr Šaloun Katedra informatiky Fakulta elektrotechniky a informatiky VŠB-Technická univerzita Ostrava 17. listopadu Ostrava-Poruba Dušan Chlapek Katedra informačních technologií Fakulta informatiky a statistiky Vysoká škola ekonomická Nám. W. Churchilla Praha 3 Partneři vydání Profinit, new frontier group Česká společnost pro kybernetiku a informatiku Autoři příspěvků uvedení v obsahu, 2015 Každý příspěvek byl recenzován, recenzenti jsou členy programových výborů konferencí. Vydává Vysoká škola báňská-technická univerzita Ostrava, v řadě Fakulty elektrotechniky a informatiky, 2015 Elektronická verze sborníku konference ISBN

5 Partneři vydání Profinit, new frontier group Česká společnost pro kybernetiku a informatiku

6

7 Předmluva DATA A ZNALOSTI je nová česká a slovenská odborná konference s mezinárodní účastí a současně komunitní setkání odborníků zaměřených na nejlepší postupy a vývojové trendy v oblasti datového, informačního a znalostního inženýrství, využití informačních technologií při budování informačních systémů, včetně výsledků jejich aplikace v praxi. Tento sborník obsahuje příspěvky z prvního ročníku konference, která navazuje na dlouholetou tradici dvou prestižních konferencí, na konferenci Datakon, která existovala od roku 2000, kdy navázala na konferenci s tehdy dvacetiletou tradicí Datasem, a na konferenci Znalosti, která existovala od roku Nosnými tématy tohoto ročníku odborné konference jsou témata Big Data / Big Analytics / Advanced Analytics. Program je složen ze zvaných přednášek, posterů, a panelové diskuse, v níž diskutovali pozvaní významní odborníci z komerční i akademické komunity. Na program konference těsně navázalo komunitní setkání pokrývající ostatní témata související s datovým, informačním a znalostním inženýrstvím. Struktura sborníku odpovídá programu konference DATA A ZNALOSTI 2015, která se konala října 2015 v Praze v budově Fakulty informačních technologií Českého vysokého učení technického v Praze. Programový výbor zařadil do programu 10 zvaných přednášek a 9 posterů zařazených na program konference a 14 posterů prezentovaných na komunitním setkání. Na závěr bychom rádi touto cestou poděkovali všem, kteří se zasloužili o vznik tohoto ročníku odborné konference DATA A ZNALOSTI 2015 a této publikace. V prvé řadě děkujeme autorům přednášek a posterů za úsilí, které vynaložili při jejich přípravě. Rovněž bychom chtěli poděkovat členům organizačního a programového výboru za jejich nápady a práci při přípravě programu konference. Dále chceme poděkovat sponzorům za jejich podporu při přípravě konference. V Praze, říjen 2015 Dušan Chlapek, Petr Šaloun, Michal Valenta

8

9 Organizace konference Řídící výbor Předseda: Členové: Dušan Chlapek, VŠE Praha Maria Bieliková, STU Bratislava Tomáš Horváth, UPJŠ Košice Petr Hujňák, Per Partes Consulting Praha Pavel Kordík, ČVUT Praha Karol Matiaško, ŽU Žilina Ján Paralič, TU Košice Jaroslav Pokorný, UK Praha Lubomír Popelínský, MU Brno Jan Rauch, VŠE Praha Karel Richta, ČVUT Praha Vojtěch Svátek, VŠE Praha Petr Šaloun, VŠB-TU Ostrava Michal Valenta, ČVUT Praha Programový výbor Předseda: Členové: Michal Valenta, ČVUT Praha Roman Barták, UK Praha Václav Belák, MSD IT Innovation Center s.r.o. Miroslav Benešovský, BenSoft s.r.o Petr Berka, VŠE Praha Mária Bieliková, STU Bratislava Radek Burget, VUT Brno Peter Dolog, Aalborg University Marie Duží, VŠB-TU Ostrava Dalibor Fiala, ZČU Plzeň Ján Genči, TU Košice Petr Hanáček, VUT Brno Zdeněk Havlice, TU Košice Martin Holeňa, ÚI AV ČR Irena Holubová, UK Praha Tomáš Hruška, VUT Brno Jozef Hvorecký, UK Bratislava Dušan Chlapek, VŠE Praha Karel Ježek, ZČU Plzeň Jiří Kléma, ČVUT Praha Tomáš Kliegr, VŠE Praha Jakub Klímek, ČVUT Praha Tomáš Knap, UK Praha Stanislav Krajči, UPJŠ Košice Jaroslav Král, UK Praha

10 Pavel Král, ZČU Plzeň Michal Krátký, VŠB-TU Ostrava Petr Křemen, ČVUT Praha Miroslav Kubát, University of Miami Petr Kučera, Komix Martin Labský, IBM TJW, Praha Michal Laclavík, ÚI SAV, Bratislava Lenka Lhotská, ČVUT Praha Aleš Limpouch, TopoL Software s.r.o. Marian Mach, TU Košice Kristina Machová, TU Košice Karol Matiaško, ŽU Žilina Peter Mikulecký, Univerzita Hradec Králové Martin Molhanec, ČVUT Praha Iveta Mrázová, UK Praha Pavol Návrat, STU Bratislava Martin Nečaský, UK Praha Vít Nováček, NUI Galway Marek Obitko, Rockwell Automation, Praha Ján Paralič, TU Košice Robert Pergl, ČVUT Praha Tomáš Pitner, MU Brno Lubomír Popelínský, MU Brno Jan Rauch, VŠE Praha Karel Richta, ČVUT Praha Hana Rudová, MU Brno Hana Řezanková, VŠE Praha Pavel Smrž, VUT Brno Vojtěch Svátek, VŠE Praha Petr Šaloun, VŠB-TU Ostrava Olga Štěpánková, ČVUT Praha Július Štuller, ÚI AV ČR, Praha Henrieta Telepovská, TU Košice Tomáš Vlk, ČVUT Praha Peter Vojtáš, UK Praha Ondřej Zamazal, VŠE Praha Jaroslav Zendulka, VUT Brno Filip Železný, ČVUT Praha Jan Žižka, Mendelova univerzita Brno

11 Organizační výbor Michal Valenta, ČVUT Praha Petr Šaloun, VŠB-TU Ostrava DATA A ZNALOSTI 2015 organizují Vysoká škola ekonomická v Praze, Fakulta informatiky a statistiky Fakulta informačních technologií, České vysoké učení technické v Praze Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava Partneři konference DATA A ZNALOSTI 2015 Profinit, new frontier group Česká společnost pro kybernetiku a informatiku

12

13 xi Obsah Zvané přednášky 1 Anotace zvaných přednášek... 3 Řízení kvality dat s příhlednutím k otevřeným a propojitelným datům Dušan Chlapek, Jan Kučera... 7 Vizualizace velkých dat Jan Géryk, Lubomír Popelínský Postery prezentované na konferenci 19 Predikcia konca sedenia vo výučbovom systéme Ondrej Kaššák, Michal Kompan, Mária Bieliková Detection of phishing messages Tomáš Duda, Marcel Jiřina, Jakub Novák Predikcia spotreby elektrickej energie založená na kombinácii predikčných metód Marek Lóderer, Viera Rozinajová, Anna Bou Ezzeddine Extrakce vlastností z textu pro identifikaci poruch osobnosti Petr Šaloun, Adam Ondrejka, Martin Malčík Spracovanie negácie pre klasifikáciu názorov v slovenskom jazyku Martin Mikula, Kristína Machová BioWes Scientific Data Management Solution From protocol design until data and metadata sharing Antonin Barta, Petr Cisar, Jan Urban, Dalibor Stys Utilization of Semantics for Industrial Big Data Processing Vaclav Jirkovsky, Marek Obitko Analýza vplyvu redukcie dimenzionality na zhlukovanie veľkých dátových množín Peter Laurinec, Mária Lucká Gephi Nástroj na vizualizáciu a interpretáciu grafov Ján Genči Panelová diskuse 67 Hlavní téma, moderátor, panelisté, souhrn... 69

14 xii Obsah Postery prezentované na komunitním setkání 75 Využití DBpedie ke tvorbě strategické znalostní hry Šárka Turečková, Vojtěch Svátek Moderné informetrické metódy hodnotenia vedeckého výskumu Dalibor Fiala, Martin Dostal, Jan Paralic, Gabriel Tutoky, Cecília Havrilová Online Forum Summarization Peter Krejzl, Josef Steinberger, Tomáš Hercig, Tomáš Brychcín Kombinácia informácií z používateľského profilu a kolaboratívneho filtrovania v rámci odporúčaní Cecília Havrilová, Jan Paralic, Dávid Baňas Multi-user preference learning for e-commerce recommendation Michal Kopecký, Ladislav Peska, Peter Vojtas, Marta Vomlelova, Vizualizácia výsledkov vyhľadávania vo forme konceptového zväzu Peter Butka Class-based outlier detection and interpretation Leona Nezvalová, Lubos Popelinsky, Karel Vaculik, Václav Blahut Mapy bez bariér Petr Hazuza Modelovanie záujmov používateľa vo vektorovom priestore latentných čŕt Márius Šajgalík, Michal Barla, Mária Bieliková Knowledge discovery in practice František Babič, Alexandra Lukacova, Ján Paralič Rozpoznání anomálních uživatelů na českém Twitteru Petr Jirásek, Lubomír Popelínský Data Stream Mining in the Power Engineering Domain Petra Vrablecová, Viera Rozinajová, Anna Bou Ezzeddine OWL Visualization in UML Jana Ahmad, Petr Křemen Rejstřík autorů

15 Zvané přednášky

16

17 Anotace zvaných přednášek Peter Bednár: Spracovanie veľkých dát Prednáška sa bude zaoberať problematikou spracovania veľkých dát. Na začiatku uvedieme charakteristiku veľkých dát a niektoré prípadové štúdie. Ďalej sa budeme zaoberať horizontálnym škálovaním aplikácií a postupne uvedieme problematiku paralelných a distribuovaných výpočtov, spracovania prúdových dát a distribuovaných databáz. Prednáška je doplnená prehľadom technológií a podrobnejším popisom architektúry projektu *Urban Sensing pre spracovanie dát zo sociálnych sietí. David Pejčoch: Big Data Quality/Governance Cílem tohoto příspěvku je vymezit v rámci kontextu tzv. velkých dat (Big Data) problematiku řízení kvality těchto dat. Pojem velkých dat není přitom chápán ve smyslu původní definice odkazující se na efektivnost či nemožnost jejich zpracování v rámci konvenčních prostředků, ale spíše v duchu konceptu tzv. Universa dat, zahrnujícího všechny datové zdroje, se kterými daný subjekt přichází nebo potenciálně může přicházet do styku. Na základě uvedené případové studie autor zdůrazňuje nutnost komplexního řízení kvality napříč takto definovaným universem. Autor však rovněž kriticky hodnotí možné alternativní pohledy, zejména možnosti využití technologických platforem často spojovaných s ekosystémem Hadoop pro účely vykonávání úloh typických pro tradiční řízení kvality dat. Příspěvek poskytuje konkrétní návody pro odvození a integraci metadat s centrálním úložištěm. Dále popisuje konkrétní knihovnu napsanou v jazyce Java poskytující funkcionalitu pro synchronizaci s centrální znalostní bází pro podporu řízení kvality dat (QKB) a příklady jejího použití. Ota Novotný: Návratnost investic do BigData Tématu Big Data se v současnosti věnuje řada odborníků a institucí jak na vědecké, tak na komerční úrovni. Většina příspěvků je však zaměřena na technologické aspekty implementace nástrojů podporující zpracování Big Dat (přestože si pod nimi vzhledem k terminologické neusazenosti můžeme představit prakticky cokoliv). Komerční prezentace obvykle končí konstatováním, že nasazení technologie pro Big Data sebou přináší rozsáhlé přínosy pro zákazníka. Tím bohužel bližší specifikace končí. Cílem přednášky je proto představit BigData z ekonomického pohledu a prezentovat vybrané příklady či scénáře jejich komerčního nasazení z úhlu návratnosti vložené investice. Vybrané příklady budou v rámci přednášky detailněji diskutovány zejména ve vztahu k přípravě analýzy nákladů a přínosů pro projekty tohoto typu. Dušan Chlapek, Jan Kučera: Řízení kvality dat s přihlédnutím k otevřeným a propojitelným datům Otevřená data představují strojově čitelná data, která mohou jejich uživatelé využívat pro libovolné účely. Otevřená data jsou často diskutována v souvislosti s daty veřejné správy, jelikož orgány veřejné správy jsou držiteli značného množství dat, která mohou být využita inovativním způsobem pro tvorbu nových produktů a služeb. Aby byla otevřená data dobře využitelná, měla by mít odpovídající úroveň kvality. Zajištění kvality otevřených dat je ale komplikováno skutečností, že otevřená data jsou zpřístupněna na webu širokému okruhu potenciálních uživatelů, nicméně poskytovateli dat nemusí být M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp. 3-5

18 4 Anotace zvaných přednášek uživatelé ani způsoby využití dat známy. Příspěvek se věnuje specifickým problémům řízení datové kvality otevřených a propojitelných dat a diskutuje možné pohledy na tuto problematiku z hlediska jednotlivých zainteresovaných stran. Michal Barla: Ako zvládnuť DDOS, z ktorého máte radosť (keďže je od vašich zákazníkov) V prednáške sa budeme venovať architektúram určeným na spracovanie veľkého množstva údajov. Na príklade luigisbox.com si ukážeme reálny scenár riešenia analytiky veľkého množstva udalostí generovaných návštevníkmi webového sídla a možností automatizovanej reakcie na tieto udalosti v reálnom čase. Ukážeme si akým spôsobom sa dajú skombinovať viaceré technológie tak, aby sme dosiahli škálovateľnosť, odolnosť voči chybám a zároveň umožnili aj pohodlný vývoj a testovanie nových verzií. Jakub Illner: Big Data SQL Popularita jazyka SQL nezaniká ani s nástupem Big Data a nástrojů založených na platformě Hadoop. Právě naopak SQL je nejčastějším jazykem pro přístup k datům a jejich analýze, jak je vidět na oblibě technologií Hive, Spark SQL nebo Impala. V mé přednášce bych rád představil produkt Oracle Big Data SQL, který umožnuje rychlou a škálovatelnou analýzu enterprise dat pomocí Oracle SQL ať se nachází v databázi Oracle, v systému HDFS/Hive nebo v některé NoSQL databázi. Martin Dostal: Analýza nestrukturovaných dat s využitím Linked Data Cílem přednášky je stručné představení Linked Data a jejich využití pro analýzu nestrukturovaných textových dat. Budeme se věnovat volbě vlastností, extrakci pojmenovaných entit a jejich evaluaci, řešení disambiguace a problému s různou úrovní popisu a dostaneme se až k aplikaci na klasifikaci a shlukování. Petr Pascenko: Detekce zneužití online kanálů Přednáška v hrubých rysech popisuje princip zabezpečení online kanálů realizované v prostředí významné české finanční instituce. Cílem řešení je identifikovat podvodné jednání útočníka, který překoná standardní bezpečnostní opatření (autentizaci heslem, autorizaci platby pomocí sms). Zvolená metoda vychází z masivního vytěžování obvyklých vzorců chování uživatelů služby, což spolu s požadavkem na real-time vyhodnocení přináší značné nároky na výkonovou optimalizaci celého řešení. Jan Géryk, Lubomír Popelínský: Vizualizace velkých dat Zatímco pro manipulaci s velkými objemy dat již existuje řada přístupů, transformace velkých dat, jejich čištění, předzpracování a následné analytické zpracování zůstává stále výzvou. Jednu z přirozených cest usnadňujících další zpracování představuje jejich vizualizace (visual data mining) a také vývoj uživatelských rozhraní usnadňujících manipulaci s daty. Zajímavé znalosti neodhalíme jen zkoumáním detailů, ale lépe z nadhledu v podobě různých vztahů a skrytých souvislostí. Nové

19 Anotace zvaných přednášek 5 přístupy, často založené na pokročilých statistických a vizualizačních metodách, dovolují výsledky prezentovat v jednoduché a přehledné formě. V této přednášce podáme přehled metod visual data mining. Poté budeme demonstrovat použití vizualizačních metod při analýze reálných dat. Na závěr uvedeme zda a do jaké míry metody a nástroje pro dobývání znalostí z dat reagují nebo by měly reagovat na heslo Big data.

20

21 Řízení kvality dat s přihlédnutím k otevřeným a propojeným datům Dušan CHLAPEK 1, Jan KUČERA 1 1 Katedra informačních technologií, FIS VŠE v Praze nám. W. Churchilla 4, Praha 3 {chlapek, jan.kucera}@vse.cz Abstrakt. Otevřená data představují strojově čitelná data, která mohou jejich uživatelé využívat pro libovolné účely. Otevřená data jsou často diskutována v souvislosti s daty veřejné správy, jelikož orgány veřejné správy jsou držiteli značného množství dat, která mohou být využita inovativním způsobem pro tvorbu nových produktů a služeb. Aby byla otevřená data dobře využitelná, měla by mít odpovídající úroveň kvality. Zajištění kvality otevřených dat je ale komplikováno skutečností, že otevřená data jsou zpřístupněna na webu širokému okruhu potenciálních uživatelů, nicméně poskytovateli dat nemusí být uživatelé ani způsoby využití dat známy. Příspěvek se věnuje specifickým problémům řízení datové kvality otevřených a propojených dat a diskutuje možné pohledy na tuto problematiku z hlediska jednotlivých zainteresovaných stran. Klíčová slova: otevřená data, open data, propojená data, linked data, otevřená propojená data, linked open data, LOD, kvalita data, řízení kvality dat 1 Úvod Otevřená data představují strojově čitelná data, která mohou jejich uživatelé využívat pro libovolné účely [18]. V řadě zemí světa probíhají iniciativy zaměřené na zpřístupnění dat veřejné správy ve formě otevřených dat [27]. V oblasti veřejné správy jsou otevřená data vnímána jako jeden z faktorů podporujících rozvoj tzv. otevřeného vládnutí, tj. snahy o transparentnější veřejnou správu a vládnutí založené na spolupráci politiků a orgánů veřejné správy s podnikateli a občany [5]. Kromě podpory otevřeného vládnutí a transparentnosti se od zpřístupnění dat a informací, které orgány veřejné správy spravují, k dalšímu využití očekává značný ekonomický přínos, viz např. [8, 14, 25]. Další přínosy v podobě flexibilní datové integrace, zvýšení datové kvality, vzniku nových služeb, snížení nákladů by mohlo přinést využívání principů propojených dat (Linked Data) při publikaci otevřených dat [2]. Přestože se některé zdroje jako např. [16], přiklánějí k tomu, aby poskytovatelé otevřených dat publikovali datové sady rychle v stavu, v jakém jsou aktuálně k dispozici, ukazuje se, že pro uživatele je kvalita poskytovaných dat důležitá [10, 21]. Tato zvaná přednáška se věnuje specifickým problémům řízení datové kvality otevřených a propojených dat a diskutuje možné pohledy na tuto problematiku z hlediska jednotlivých zainteresovaných stran. Příspěvek je členěn následujícím způsobem. Za úvodem následuje vymezení pojmů otevřená a otevřená propojená data. V další kapitole jsou diskutovány specifické aspekty řízení kvality otevřených a propojených dat. V závěru jsou shrnuty získané poznatky a náměty na další výzkum. M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp. 7-13

22 8 Řízení kvality dat s přihlédnutím k otevřeným a propojeným datům 2 Otevřená a propojená data V této kapitole jsou vymezeny pojmy otevřená data (Open Data, zkráceně OD), propojená data (Linked Data, LD) a otevřená propojená data (Linked Open Data, LOD). 2.1 Otevřená data Dle organizace Open Knowledge otevřená data představují data publikovaná na internetu, která mohou jejich uživatelé volně využívat, upravovat a šířit, přičemž může být vyžadováno, aby při užití dat byl uveden jejich autor/původce a aby i ostatní uživatelé měli zajištěna stejná oprávnění s daty nakládat [18]. Základními vlastnostmi otevřených dat jsou právní otevřenost a technická otevřenost dat [16]. Právní otevřenost je zajištěna zpřístupněním dat k volnému užití na základě odpovídajících podmínek užití či licence, která by měla být v souladu s tzv. Definicí otevřenosti. Znění Definice otevřenosti lze najít v [17]. Technická otevřenost dat je pak zajištěna publikací dat v otevřených a strojově čitelných formátech. Na otevřená data jsou často kladeny i další požadavky and rámec výše uvedené technické a právní otevřenosti. Organizace Sunlight Foundation formulovala následujících deset vlastností, které by měly být splněny v případě otevřených dat veřejné správy [23]: 1. úplnost, 2. primárnost, 3. zveřejnění bez zbytečného odkladu, 4. snadná elektronická a fyzická dostupnost, 5. strojová čitelnost, 6. zpřístupnění každému (zákaz diskriminace podle typu subjektu či osoby), 7. využití otevřených standardy, 8. dostupnost k dalšímu využití bez omezení (licencování), 9. stálá dostupnost, 10. dostupná uživatelům při vynaložení minima možných nákladů na jejich získání. V rámci Koncepci katalogizace otevřených dat VS ČR [11] byly vlastnosti uvedené výše přizpůsobeny prostředí veřejné správy v České republice a dále byly rozděleny na vlastnosti povinné (musí být splněny, aby data veřejné správy v ČR byla považována za otevřená) a nepovinné. Dle [11] jsou za otevřená data veřejné správy v ČR považována data, která jsou úplná, snadno dostupná, strojově čitelná, používající otevřené standardy, zpřístupněná za jasně definovaných podmínek užití s minimem omezení a dostupná uživatelům při vynaložení minima možných nákladů na jejich získání. 2.2 Propojená dat a otevřená propojená data Propojená data představují sadu principů pro publikaci dat na webu. Tyto principy jsou následující [6]: 1. pojmenování objektů na webu pomocí URI, 2. použití HTTP URI, které umožňují je vyhledat v prostředí dnešního webu, 3. při vyhledání URI jsou uživateli poskytnuta data o objektu, data jsou poskytnuta s využitím standardů RDF a SPARQL, 4. objekty jsou provázány pomocí odkazů mezi HTTP URI, takže je možné objevovat související objekty.

23 Zvaná přednáška 9 Hlavní myšlenkou propojených dat je propojování související data na webu pomocí odkazů obdobně, jako je tomu v případě webových stránek [7]. Na rozdíl od odkazů mezi webovými stránkami představují ale odkazy mezi propojenými daty tvrzení o těchto datech [7]. Tato tvrzení pak pomáhají zasadit data do vzájemného kontextu. Propojená data využívají dvou základních standardů: obecný formát RDF (Resource Description Framework) [13] a dotazovací jazyk a protokol SPARQL [26]. Otevřená data, která zároveň využívají principů propojených dat, označujeme jako otevřená propojená data. 3 Specifické aspekty řízení kvality otevřených a propojených dat 3.1 Datová kvalita a dimenze datové kvality Dle Otta a kol. [19] je problematika datové kvality předmětem řady studií. Přes rozdílné přístupy těchto studií Otto a kol. [19] uvádějí, že datová kvalita je chápána jako míra, do jaké jsou data způsobilá k zamýšlenému použití (fitness for use). Z tohoto pohledu je tak třeba kvalitu dat posuzovat vždy v kontextu jejich zamyšleného použití. Datová kvalita je měřena v různých dimenzích, kde nejčastějšími z nich jsou přesnost, úplnost, konzistence a včasnost [4]. Metodiky řízení kvality dat se nicméně rozcházejí v rozsahu použitých dimenzí kvality i v jejich přesném vymezení [4]. Dimenzemi kvality otevřených a otevřených propojených dat se zabývala Tomčová [24]. Ve své práci dochází k závěru, že pro otevřená data je relevantní celá řada dimenzí datové kvality, které jsou běžně aplikovány i mimo oblast otevřených dat. Jako specifické dimenze datové kvality identifikuje dimenze zpracovatelnost, primárnost a licencování. V rámci vymezených dimenzí datové kvality definuje autorka sadu metrik pro jejich měření včetně specifických metrik pro hodnocení kvality otevřených dat a otevřených propojených dat. I v případě otevřených propojených dat byly hledány specifické dimenze jejich kvality, ty byly ale postupně z navržené sady metriky odstraněny, resp. transformovány do specifických metrik v rámci dimenzí, které jsou aplikovatelné i mimo oblast otevřených propojených dat [24]. 3.2 Dopad poskytování dat pro libovolné účely na datovou kvalitu Chápání datové kvality jako způsobilosti k zamýšlenému použití může být zdrojem problémů při řízení kvality otevřených dat. Dle Pipina a kol. [20] hodnocení datové kvality zahrnuje jak subjektivní hodnocení osob či subjektů, které mají určitý vztah k datům, jejichž kvalita je hodnocena, tak i měření objektivních vlastností daných dat. Možnost volně využívat publikovaná data je jednou z vlastností otevřených dat. Attard a kol. [3] pak uvádějí, že by publikace otevřených dat neměla být zaměřena na konkrétního uživatele. Autoři zároveň uvádějí, že míra kvality dat v dimenzích, jako je např. jejich přístupnost, otevřenost, interoperabilita, úplnost či dohledatelnost, ovlivňují jejich použitelnost [3]. S rostoucí použitelností otevřených dat lze očekávat rostoucí počet jejich potenciálních uživatelů [3]. Dostatečná míra použitelnosti otevřených datových sad se ale může lišit mezi jednotlivými potenciálními uživateli. Pokud nemá být publikace otevřených dat zaměřena na konkrétního uživatele, je tedy třeba zabývat se otázkou, jakou úroveň kvality by publikovaná otevřená data měla mít, aby kvalita nebyla překážkou jejich využití.

24 10 Řízení kvality dat s přihlédnutím k otevřeným a propojeným datům 3.3 Subjekty podílející se na publikaci a využití otevřených dat Požadavky na kvalitu otevřených dat se mohou lišit mezi jednotlivými subjekty, které se na publikaci a využívání otevřených dat podílejí. Při zkoumání požadavků na datovou kvalitu otevřených a otevřených propojených dat se tak jeví vhodné analyzovat potřeby různých subjektů podílejících se na publikaci a využití otevřených dat. V rámci studie [9] jsou rozlišovány následující kategorie těchto subjektů: Poskytovatelé otevřených dat (Open data suppliers) poskytují data k dalšímu využití v podobě otevřených dat. Zpracovatelé otevřených dat (Intermediaries) vývojáři a podniky vytvářející aplikace, služby a obohacená data s využitím otevřených dat. Poskytovatelé infrastrukturních služeb (Enablers) subjekty poskytující služby umožňující publikaci a využití otevřených dat, jako např. společnosti poskytující služby datových úložišť, správy dat, poskytovatelé softwaru, crowdsourcingových platforem či konzultačních služeb. Koncoví uživatelé (Final consumers) uživatelé dat a aplikací, kteří je sami mohou využívat pro tvorbu nových produktů a služeb. V rámci přednášky je výše představené členění těchto subjektů využito pro diskusi požadavků na kvalitu otevřených a otevřených propojených dat z pohledu jednotlivých zainteresovaných stran. 3.4 Využívání zpětné vazby pro zvyšování kvality otevřených dat Při publikaci otevřených dat je doporučováno umožnit uživatelům poskytovat zpětnou vazbu [3, 22]. Zuiderwijk a Janssen [28] se zabývali tím, jaké funkce lze poskytovat v rámci portálů věnovaných otevřeným datům pro podporu zapojení uživatelů do procesu publikace otevřených dat. Autoři zkoumali mimo jiné hodnocení kvality dat uživateli v rámci definovaných indikátorů kvality a možnost poskytnout k datovým sadám slovní hodnocení datové kvality. Zpětná vazba poskytnutá uživateli tak může být využita v rámci procesu zvyšování kvality publikovaných otevřených dat [15, 22]. 3.5 Metadata o datové kvalitě V rámci připravovaných doporučení pro publikaci dat webu, která by měla mít podobu doporučení konsorcia W3, je doporučenou praktikou publikovat informace o kvalitě poskytovaných datových sad [12]. Za tímto účelem vzniká v rámci konsorcia W3 standard pro publikaci metadat o kvalitě dat - Data Quality Vocabulary [1]. Připravovaný standard má podobu slovníku ve formátu RDF a měl by doplnit slovník DCAT používaný pro reprezentaci běžných metadat datové sady, jako je její název či popis. 4 Závěr Otevřená data jsou v současné době často diskutována v souvislosti s daty veřejné správy a jejich zpřístupňováním k dalšímu využití. Publikace dat veřejné správy v podobě otevřených dat by měla toto využití usnadnit díky jejich publikaci za jasně vymezených podmínek užití, které další využití umožňují, a v otevřených, strojově čitelných formátech, které zajišťují snadnou zpracovatelnost dat v rámci aplikací. Kvalita publikovaných otevřených dat je jedním z faktorů, které mohou ovlivnit jejich další využití. S ohledem na

25 Zvaná přednáška 11 tuto skutečnost obsahuje připravovaný konsorcia W3 doporučení publikovat metadata o úrovni kvality zveřejňovaných datových sad [12] a je také připravován standard pro publikaci těchto metadat [1]. Otevřená data jsou publikována tak, aby je mohl každý využít pro libovolné účely. Poskytovatelé otevřených dat se tak musí potýkat s problémem, kdy potenciálních uživatelů může být celá řada a jednotliví uživatelé mohou mít rozdílné požadavky na kvalitu publikovaných dat v závislosti na tom, jak data využívají. Publikace otevřených dat nicméně také nabízí příležitost pro využití zpětné vazby uživatelů pro zvyšování kvality poskytovaných dat. Literatura 1. Albertoni, R., Guéret, C., Isaac, A.: Data Quality Vocabulary, Archer, P., Dekkers, M., Goedertier, S., Loutas, N.: Study on business models for Linked Open Government Data, Open_Government_Data_BM4LOGD_v1.00_2.pdf. 3. Attard, J., Orlandi, F., Scerri, S., Auer, S.: A systematic review of open government data initiatives. Government Information Quarterly (2015), 4. Batini, C., Cappiello, C., Francalanci, C., Maurino, A.: Methodologies for data quality assessment and improvement. ACM Computing Surveys, Vol. 41, No. 3 (2009) 16:1-16: Bauer, F., Kaltenböck, M.: Linked Open Data: The Essentials. Edition mono/monochrom, Vienna, Berners-Lee, T.: Linked Data - Design Issues, Bizer, C., Heath, T., Berners-Lee, T.: Linked Data - The Story So Far. Special Issue on Linked Data, International Journal on Semantic Web and Information Systems, Buchholtz, S., Bukowski, M., Śniegocki, A.: Big and open data in Europe: A growth engine or a missed opportunity? Deloitte: Open growth. Stimulating demand for open data in the UK, Herreweghe, Van, N.: Open Data Dag In Vlaanderen, Conclusions, Chlapek, D., Kučera, J., Nečaský, M.: Koncepce katalogizace otevřených dat VS ČR (zkrácená verze), Lóscio, B. F., Burle, C., Calegari, N.: Data on the Web Best Practices, Klyne, G., Carroll, J. J., McBride, B.: RDF 1.1 Concepts and Abstract Syntax, Manyika, J., Chui, M., Groves, P., Farrel, D., Kuiken, van, S., Doshi, E. A.: Open data: Unlocking innovation and performance with liquid information,

26 12 Řízení kvality dat s přihlédnutím k otevřeným a propojeným datům Research/Technology%20and%20Innovation/Big%20Data/MGI_big_data_full_report. ashx 15. Nečaský, M. Chlapek, D., Klímek, J., Kučera, J., Maurino, A., Rula, A., Konecny, M., Vanova, L.: Deliverable D5.1: Methodology for publishing datasets as open data (2014), Methodology_for_publishing_datasets_as_open_data.pdf 16. Open Knowledge: How to Open up Data Open Knowledge: Open Definition 2.0, Open Knowledge: What is Open Data? Otto, B., Hüner, K. M., Österle, H.: Toward a functional reference model for master data quality management. Information Systems and ebusiness Management, Vol. 10, No. 3 (2012) Pipino, L. L., Lee, Y. W., Wang, R. Y.: Data Quality Assessment. Communications of the ACM, Vol. 45, No. 4 (2002) Share-PSI 2.0: A Self Sustaining Business Model for Open Data: Report, Sunlight Foundation: Open Data policy Guidelines, Sunlight Foundation: Ten Principles for opening up government information, Tomčová, L.: Datová kvalita v prostředí otevřených a propojitelných dat. Diplomová práce, FIS VŠE (2014). 25. Vickery, G.: Review of recent studies on PSI re-use and related market developments, ormatted.docx 26. W3C SPARQL Working Group: SPARQL 1.1 Overview, World Wide Web Foundation, The: Open Data Barometer - Second Edition, %20Global%20Report%20-%202nd%20Edition%20-%20PRINT.pdf 28. Zuiderwijk, A., Janssen, M.: Participation and Data Quality in Open Data use: Open Data Infrastructures Evaluated. In: Proceedings of the15th European Conference on e- Government, Adams, C. (Ed.), Academic Conferences and Publishing International Limited (2015), [28] Annotation: Data Quality Management: A Linked Open Data Perspective Open Data is machine-readable data that is made available for free re-use. Public sector bodies collect and manage significant amount of data that, if made available for re-use, could be used by third parties to develop new and innovative products and services. Therefore Open Government Data is often discussed as an enabler of innovation and Open Government. In order to enable development of sustainable business models based on the Open Data re-use, published datasets need to meet the quality requirements of the users. However the spectrum of the potential users might be diverse and the publishers might not be always aware of the quality requirements. In this paper we discuss the

27 Zvaná přednáška 13 specific issues related to the data quality management in the Linked Open Data domain considering the needs of different stakeholders.

28

29 Vizualizace velkých dat Jan Géryk 1, Lubomír Popelínský 2 1 Centrum výpočetní techniky a Laboratoř dobývání znalostí, Fakulta informatiky, Masarykova univerzita Botanická 68a, Brno xgeryk@fi.muni.cz 2 Laboratoř dobývání znalostí, Fakulta informatiky, Masarykova univerzita Botanická 68a, Brno popel@fi.muni.cz Abstrakt. Zatímco pro manipulaci s velkými objemy dat již existuje řada přístupů, transformace velkých dat, jejich čištění, předzpracování a následné analytické zpracování zůstává stále výzvou. Jednu z přirozených cest usnadňujících další zpracování představuje jejich vizualizace (visual data mining) a také vývoj uživatelských rozhraní usnadňujících manipulaci s daty. Zajímavé znalosti neodhalíme jen zkoumáním detailů, ale lépe z nadhledu v podobě různých vztahů a skrytých souvislostí. Nové přístupy, často založené na pokročilých statistických a vizualizačních metodách, dovolují výsledky prezentovat v jednoduché a přehledné formě. V této přednášce podáme přehled metod visual data mining. Poté budeme demonstrovat použití vizualizačních metod při analýze reálných dat. Na závěr uvedeme, zda a do jaké míry metody a nástroje pro dobývání znalostí z dat reagují nebo by měly reagovat na heslo Big data. Klíčová slova: vizualizace, animace, visual analytics, velká data. 1 Úvod Jednou z přirozených cest usnadňujících další zpracování dat představuje jejich vizualizace (visual data mining) a také vývoj uživatelských rozhraní, která lépe odpovídají charakteristikám dat a usnadňují manipulaci s nimi. Zajímavé a důležité znalosti neodhalíme jen zkoumáním detailů, ale lépe z nadhledu v podobě vzájemných vztahů a skrytých souvislostí. Nové přístupy, často založené na pokročilých statistických a vizualizačních metodách, dovolují prezentovat výsledky v jednoduché a přehledné formě. Proto vznikají nové systémy nezbytné pro efektivní analýzu umožňující analytikům flexibilně řídit celý analytický proces. Analýza časově závislých dat je jedním z nejvíce diskutovaných problémů ve většině oblastí lidského života včetně vědy, techniky a obchodu. Ze studií vyplývá, že více než 70% všech obchodních grafů zobrazuje časově závislé údaje. Není tedy divu, že v poslední době byla představena řada nových přístupů a postupů slibujících efektivnější vizuální zpracování zejména pro velké objemy a vícerozměrná data. Vědní disciplíny jako vizualizace informací (InfoVis) a Visual Analytics (VA) kombinují automatizované metody dolování dat s vizualizací a úspěšně se využívají v analýze dat [5]. Hlavním cílem VA je vytvářet analytické nástroje efektivně kombinující metody dolování dat a uživatelských rozhraní umožňujících analytikovi přehledně řídit celý M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

30 16 Vizualizace velkých dat proces [1]. Nicméně jim často chybí efektivní možnost škálovatelnosti s ohledem na rostoucí množství dat a efektivní řešení specifických charakteristik různých typů dat. 2 Obsah přednášky V přednášce podáme přehled používaných visual data mining metod v různých oborech. Poté představíme nástroj pro analýzu časově závislých dat [2, 3], který integruje nové metody vizualizace umožňující vizualizaci vícerozměrných dat a interaktivní zkoumání dat s časovou charakteristikou. Navrhované metody využívají kombinaci vizualizace pomocí animací a analýzy trajektorií umožňujících analýzu bodů na základě vztahu k časové dimenzi. Body pohybující se ve dvourozměrném prostoru přirozeně vytváří trajektorie, které nabízí další možnosti analýzy dat a dynamiky pohybu. Navržené interaktivní prostředí umožňuje analyzovat různé aspekty dat transparentně. Jako hlavní vizualizační metody slouží Motion Charts [4]. Hlavní výhodou navrhovaného řešení je škálovatelnost vzhledem k počtu zobrazovaných bodů, díky bohaté sadě nástrojů interakce, které umožňují výběr dat na základě různých kritérií. Hlavními nevýhodami jsou uživatelská náročnost metody a omezená škálovatelnost vzhledem k počtu zkoumaných dimenzí. Použití těchto vizualizačních metod budeme demonstrovat při analýze reálných dat z akademického prostředí. Popisujeme, jak může být navržený postup použit k analýze ukončování studií a tím zvýšení úrovně studia. Demonstrujeme použitelnost metod formou případových studií na reálných datech získaných z Informačního systému Masarykovy univerzity. Na závěr uvedeme, zda a do jaké míry metody a nástroje pro dobývání znalostí z dat reagují nebo by měly reagovat na heslo Big data. Literatura 1. Andrienko G., Andrienko N., Kopanakis I., Ligtenberg A., Wrobel S.: Mobility, Data Mining and Privacy. Springer Berlin Heidelberg, (2008), chapter Visual Analytics Methods for Movement Data, Géryk, J. and Popelínský, L.: Visual Analytics for Increasing Efficiency of Higher Education Institutions. In: BIS 2014 International Workshops. Switzerland: Springer International Publishing Switzerland, (2014), , ISBN Géryk, J.: Using Visual Analytics Tool for Improving Data Comprehension. In: Proceedings for the 8th International Conference on Educational Data Mining (EDM 2015). Madrid, Spain: International Educational Data Mining Society, (2015), , ISBN Géryk, J. and Popelínský, L.: Towards Academic Analytics by Means of Motion Charts. In: Proceedings of the 9th European Conference on Technology Enhanced Learning (EC-TEL 2014). Graz, Austria: Springer International Publishing, (2014), , ISBN Thomas, J. J. and Cook, K. A.: Illuminating the path: The research and development agenda for visual analytics. IEEE Computer Society Press, (2005).

31 Zvaná přednáška 17 Annotation: Visualization of Big Data The amount of data available is huge and analysts need to process these large amounts of data effectively. Often, they focus on multidimensional time dependent data. Analytical systems that make use of consistent integration of interactive visualization and data processing techniques are essential in supporting of an effective analysis. The systems also need to enable analysts the possibility to flexibly manage the analytical process. We present a tool that makes use of new visualization methods enabling visualization of multidimensional data and the interactive exploration of data with temporal characteristics. The proposed approach employs combination of animations and trajectory-based visualizations to allow analyzing data points based on their relations with the time dimension. We also illustrate how the designed approach can be used to analyze study related data.

32

33 Postery prezentované na konferenci

34

35 Predikcia konca sedenia vo výučbovom systéme Ondrej KAŠŠÁK, Michal KOMPAN, Mária BIELIKOVÁ Ústav informatiky a softvérového inžinierstva, FIIT STU v Bratislave, Ilkovičova 3, Bratislava {meno.priezvisko}@stuba.sk Abstrakt. Webové výučbové systémy sa v posledných rokoch stále viac a viac používajú. Či už sa jedná o štandardné e-learning systémy, prípadne veľmi populárne online hromadné kurzy (MOOCs), ich cieľom je sprístupniť relevantné informácie študentom a podporiť tak výučbový proces. Práve pre túto úlohu je kľúčové spoznanie správania študentov v systéme a možnosť tak promptne reagovať na ich potreby a aktuálnu aktivitu. V našej práci sa zameriavame na predikciu konca sedenia používateľa výučbového systému študenta. Inými slovami cieľom je predpovedať či študent v nasledujúcich n akciách opustí vzdelávací systém. Takáto informácia je kľúčová z pohľadu snahy udržať študenta pri učení čo najdlhší čas v systéme s ohľadom na získané vedomosti. Kľúčové slová: predikcia, binárna klasifikácie, výučbový systém. 1 Správanie študenta vo výučbovom systéme ALEF Výučbový systém poskytuje množstvo príležitostí na interakciu. Medzi základné akcie, ktoré študenti vykonávajú najčastejšie patrí samotné štúdium výučbových textov. V závislosti od výučbového systému, môžu študenti výučbové materiály hodnotiť, môžu medzi sebou interagovať a pomáhať si, v neposlednom rade testovať prípadne precvičovať svoje vedomosti a pod [2]. Množstvo a rôznorodosť typov akcií, ktoré študenti vo vzdelávacom systéme vykonávajú poskytuje bohatý zdroj dát umožňujúci modelovať ich správanie. Pre podporu výučby na Fakulte informatiky a informačných technológií Slovenskej technickej univerzity v Bratislave existuje a stále sa rozvíja webový systém ALEF 1 adaptívny výučbový systém postavený na základoch Webu 2.0. Systém poskytuje viacero kurzov zameraných prevažne na programovanie a softvérové inžinierstvo. Základ systému predstavujú dva modely model domény a model používateľa, pričom rámcové doplnky poskytujú podporu adaptácie. Doménový model jednotlivých kurzov je postavené na princípoch ľahkej sémantiky vo forme relevantných doménových pojmov. Model používateľa je založený na prekryvnom modeli, kedy na doménový model mapujú vrstvy reprezentujúce aktivitu študenta (jeho históriu v systéme). Akcie študentov sa v systéme vďaka logovaciemu rámcu zaznamenávajú či už vo forme implicitných alebo explicitných akcií. Samotná aktivita študentov v systéme je obohatená o rôzne doplnkové informácie v kontexte študenta ako takého. Na báze dobrovoľnosti sú dostupné informácie ohľadne osobnostných charakteristík jednotlivých študentov (Big 5 osobnostný model získaný na základe dotazníka NEO-FFI), študijné výsledky jednotlivých používateľov a pod. 1 M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

36 22 Predikcia konca sedenia vo vzdelávacom systéme 2 Predikcia ukončenia sedenia študenta Samotná predikcia ukončenia sedenia odchodu používateľa je známy problém odchodu používateľa, resp. zákazníka, ktorý sa zameriava na dlhodobé charakteristiky. Skúma sa aktívne vo viacerých doménach (predĺženie kontraktu u telekomunikačného operátora, poskytnutie úveru, prípadne predčasné opustenie výučbového kurzu)[1], [5]. Keďže aktivita študentov v systéme je zaznamenávaná v podobe prúdu dát ich akcií, je nevyhnutné sa vysporiadať s veľkým množstvom dát. Navyše je nutné vziať do úvahy, že vlastnosti dát sa v čase menia. Príkladom je zmena aktivity študentov v rozličných fázach semestra. Intenzita ich návštev a dĺžka sedení je iná na začiatku semestra ako v noci pred skúškou. Ďalším problémom, ktorý je potrebné riešiť je, že pomer medzi množstvom záznamov, kedy študent v systéme ostáva a samotným odchodom, je značne nevyvážený. To prináša ďalšiu výraznú komplikáciu pre metódy strojového učenia a samotnej predikcie. Ako reakciu na spomenuté vlastnosti a charakteristiky domény sme navrhli polynomiálny klasifikátor využívajúci na učenie algoritmus Stochastic Gradient Descent. Týmto spôsobom sme schopní pri jednom prechode spracovávať prúd dát, čo nám na rozdiel od dávkového prístupu umožňuje spracovať veľké objemy dát. Prúdové spracovanie je zároveň riešením problému zmeny charakteristiky dát v čase, pretože klasifikátor dokáže dynamicky reagovať a priebežne sa učiť aktuálne charakteristiky (napr. priemerná dĺžka návštevy sedení v danom dni). Tretí problém, ktorý predstavuje nevyváženosť dát, sme vyriešili priradením rozličnej dôležitosti pozorovaniam oboch tried, čím sme v procese učenia zvýšili dôležitosť menej početnej triedy (ukončenie sedenia v nasledujúcom kroku) [3]. Vstupom pre klasifikátor sú samotné záznamy o aktivite používateľa, ktoré sú opísané prostredníctvom opisných atribútov. Tieto sú jednak získavané priamym zaznamenávaním v systéme, ale tiež pomocou odvodených atribútov opisujúcich správanie používateľa, vlastnosti aktivity, typické správanie iných používateľov, mieru odchýlky voči predchádzajúcemu správaniu používateľa v nedávnej minulosti a pod. Na základe týchto atribútov klasifikátor predikuje správanie používateľa v nasledujúcom kroku, pričom jednotlivé atribúty berie do úvahy s rozličnými váhami (uloženými v predikčnom modeli). V prípade chybnej predikcie nastáva proces učenia váh, čím sa upraví dôležitosť jednotlivých atribútov Obr. 1. Prúd záznamov o aktivite Klasifikátor Predikcia Predikčný model pre konkrétneho študenta Učenie váh Predikčný model Obr. 1. Navrhnutý princíp klasifikácie aktivity používateľa za účelom predikcie ukončenia používateľského sedenia. Aktivita používateľa je opísaná pomocou atribútov, ktoré sú pri učení predikčného modelu brané do úvahy s rozličnou váhou Θ j (Rovnica 1).

37 Poster prezentovaný na konferenci 23 Θ j Θ j λ Θ j J(Θ 0,, Θ 3n ) (1) Túto váhu počítame ako derivovanú nákladovú funkciu J vynásobenú učiacim koeficientom λ. Nákladovú funkciu J vypočítame pomocou Rovnice 2. J(Θ) = 1 m (h 2m Θ(x (i) ) y (i) ) 2 i=1 (2) kde m predstavuje počet uvažovaných pozorovaní, h Θ (x (i) ) je hypotéza i-teho pozorovania x (i) a y (i) je skutočná hodnota pozorovanej triedy. V prípade stochastického prístupu je každá akcia používateľa uvažovaná len raz [4]. 3 Vyhodnotenie Navrhnutý predikčný model sme overili z pohľadu presnosti a správnosti na vzorke dát zo systému ALEF (452 tis. akcií zatriedených do 30 tis. sedení pochádzajúcich od 882 študentov počas 3 rokov používania v 5 predmetoch). Vzhľadom na využitú techniku učenia sme vykonali viacero učiacich iterácií (pričom sme vyhodnocovali úroveň možného preučenia modelu). Pri predikcii jednej nasledujúcej akcie (predikcia, či práve navštívený výučbový objekt je posledný v sedení) sme dosiahli presnosť 66.5%. Tento výsledok ovplyvňujú najmä vlastnosti krátkodobého správania, ktoré sa spravidla neobsahuje pravidelné vzory a tiež často naň vplýva veľmi výrazne kontext. Pri predikcii správania je však vhodné dokázať ho predpovedať vo väčšom predstihu. Takto totiž zabezpečíme viac času na využitie informácie o tom, že študent onedlho ukončí sedenie a odíde. Príkladom takejto akcie môže byť odporučenie učebných materiálov, ktoré ešte nevidel, prípadne ponúknutie testovacích úloh na overenie práve naučených vedomostí. Pokiaľ akciu študentovi ponúkneme príliš neskoro (pri jeho poslednej aktivite pred odchodom), je možné že už nezareaguje, pretože si ponuku nestihne všimnúť. Z tohto dôvodu sme sa zamerali na predikciu odchodu v rámci časového okna (nasledujúcich 5, 10, 15, 30 sekúnd) a tiež v rámci niekoľkých nasledujúcich akcií (nasledujúca 1, 2, prípadne 3 akcie). V prípade uvažovania času sa nám podarilo maximálnu presnosť dosiahnuť pri zohľadnení 30 sekundového časového okna (presnosť = 78.3%). V prípade uvažovania odchodu v rámci viacerých nasledujúcich akcií sme tento výsledok dokázali ešte zlepšiť na úroveň presnosti 93.5% pre predikciu odchodu v rámci nasledujúcich 3 akcií. 4 Záver Získané výsledky dokazujú, že navrhnutý predikčný model je možné využiť pri predikcii konca sedenia študenta vo výučbovom systéme. Takáto informácia prináša možnosť vopred zareagovať na pravdepodobné správanie používateľa, a urobiť prípadné kroky na jeho dlhšie udržanie v sedení alebo pre motiváciu k opätovnému návratu v blízkej budúcnosti. Zaujímavým zistením je fakt, že zohľadnenie osobnostných charakteristík používateľov zlepšilo predikčný model, čo dokazuje, že samotná povaha, resp. osobnostné črty používateľov vplývajú na ich správanie pri interakcii s webom. Rovnako prínosným zistením je, že klasifikátor pre jednotlivých používateľov bral do úvahy atribúty s rozličnou váhou. Inými slovami, atribút, ktorý bol pre predikcii pre používateľa A dôležitý, bol pre používateľa

38 24 Predikcia konca sedenia vo vzdelávacom systéme B dôležitý len priemerne. Toto zistenie sme overili prostredníctvom natrénovania váh klasifikátora individuálne pre každého používateľa, čo sa ukázalo ako vhodný krok. Vzhľadom na doménovo nezávislý návrh je možné navrhnutý prístup preniesť aj na iné domény, kde môže byť informácia o zámere používateľa opustiť systém rovnako dôležitá a priniesť výhody poskytovateľom a aj samotným používateľom. Ďalšou možnosťou je overiť návrh pre ďalšie úlohy krátkodobého správania používateľa na webe ako napríklad pravdepodobnosť kúpy prístupu k prémiového obsahu po narazení na platobnú bránu (angl. paywall) a zamknutie obsahu v doméne novinových webových portálov. Literatúra 1. Au, T., Ma, G., Li, S.: Applying and Evaluating Models to Predict Customer Attrition Using Data Mining Techniques, in: Journal of Comparative International Management, (2003), 6(1). 2. Bieliková, M., Šimko, M., Barla, M., Tvarožek, J., Labaj, M., Móro, R., Srba, I., Ševcech, J.: ALEF: from Application to Platform for Adaptive Collaborative Learning, in: Recommender Systems for Technology Enhanced Learning. Manouselis, N. et al. (Eds.), Springer Science+Business Media 2014, New York, (2014), Bottou L.: Stochastic gradient descent tricks, Neural Networks: Tricks of the Trade, in LNCS, vol. 7700, Springer, (2012), Bottou, L., Bousquet, O.: The Tradeoffs of Large Scale Learning, in: Advances in Neural Inform. Processing Systems, 20, (2008), Huang, B., Kechadi, M.T., Buckley, B.: Customer churn prediction in telecommunications, in: Expert Syst. Appl. 39, 1, (2012), Poďakovanie. Tento príspevok bol čiastočne podporený grantami VEGA 1/0646/15 a KEGA 009STU-4/2014. Annotation: Prediction of Session End in an Educational System Personalized educational systems are nowadays very popular. The ability to predict student s future behavior is an important knowledge, which can improve quality of student s interaction with an educational system. In this paper we aim on the task of prediction student s browsing session leave within the educational system. Such information can improve users attrition in the mean of stay or leave by introducing various personalized approaches. Our approach is based on polynomial classifier using learning algorithm (stochastic gradient descent) to identifying the attributes importance of attributes describing users actions. It enables us to process a stream of data in the single iteration and this way be able to reflect dynamic users behavior changes. Proposed approach brings promising results in the session end prediction in the mean of precision and accuracy.

39 Detection of phishing messages Tomáš DUDA 1, Marcel JIŘINA 1, Jakub NOVÁK 1 1 Department of Theoretical Computer Science, FIT CTU in Prague Thákurova 9, Praha 6 dudatom2@fit.cvut.cz, marcel.jirina@fit.cvut.cz a jakub.novak@fit.cvut.cz Abstract. Phishing is a type of online attack in which an attacker tries to gain trust of the users using fraudulent in order to acquire sensitive information. Phishing accounts for one of the most common types of attacks performed via services. This article deals with the detection of phishing messages written in the English language. Common features of phishing s and their current countermeasures are described. Based on the gained knowledge from existing as well as the newly discovered features, an algorithm for phishing detection is proposed and implemented in Java. Algorithm also works with newly described keywords in the body of phishing s as well as anomalies in metadata of phishing s headers. Described algorithm is tested on real phishing messages and the resulting accuracy reaches 99.0 %. Keywords: detection and filtering of phishing messages, data mining, text mining, machine learning, classification. 1 Introduction what is phishing and what are the basic countermeasures Among the massive amount of unwanted messages that flood the mailboxes of users, we can encounter one specific type which is particularly dangerous. We talk about phishing, a form of social engineering, in which the attacker, sometimes referred to as phisher, impersonate himself as a representative of trusted company and tries to acquire users sensitive information, [1]. Regular phishing attacks include three key components which are called the lure, the hook and the catch, [1]. In the first case (referred to as the lure), the attacker sends out a large amount of spam messages. These messages usually contain a hyperlink and a supporting text which encourages users to follow the mentioned link. If a user clicks on the hyperlink, he is redirected to the phishing website, which is known as the hook. This website usually mimics design of a well-known company s website. The user is requested to submit his personal information, for example credentials for internet banking. If a user complies, all of the disclosed data are sent to the phisher. When the phisher decides to make use of the acquired data, we get to the last part of the phishing attack which is called the catch. Strategies that are used in dealing with phishing attacks can be divided into several categories. This division corresponds with the various positions in the attack flow, [2]. In the first category of possible solutions we can include preventive measures which have to be applied before the attack even starts. These are for example systematic education of users, usage of two-way authentication in services that are likely to be a target of attack, or usage of technologies which enhance the level of authorization when sending s. M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

40 26 Detection of phishing messages The second category consists of methods that can be used when a phishing attack has already been launched. These include technologies for active blocking of phishing websites which can be implemented in browsers, or detection and filtering of phishing message in clients and servers which is further discussed in the next chapter. Although phishing messages are also considered to be spam, it commonly pays off to create special modules for phishing detection because the phishing messages are much more similar to common messages than the spam messages are, [1]. It is also possible to place the phishing filter after general spam filter to further reduce the possibility of any unwanted message being delivered to client. 2 Detection of phishing s Filtering of phishing messages on the mail server side usually works by analyzing the incoming messages and their subsequent filtering into two categories - safe s and phishing s. This analysis usually requires two steps. In the first step, we extract a set of features which holds the information whether the message shows typical signs of phishing message. After this step, we create a feature vector that aggregates the extracted features and pass it to the classification model which was trained on sets of both common and phishing messages. Trained classification model is able to decide to which class the given message is likely to belong, [3]. Learning to Detect Phishing s was one of the first articles dealing with the application of machine learning in phishing, [4]. Authors propose an algorithm named PILFER, in which 10 features are extracted from the message. These features relate mainly to the links present in the message. They take into account the number of links, the number of unique domains used in these links and the presence of a link in a format of an IP address. WHOIS queries are also used to detect domains registered before less than 60 days. Also the score of SpamAssassin spam filter is used as one of the features. Randomforest classifier is also used and the resulting accuracy reaches 99.5 % with FN-rate 3.6 %. Authors used the SpamAssassin ham corpora [5] and publicly available phishing corpus to test their implementation, [6]. Chandrasekaran et al. [7] proposed a solution in which they investigate the effects of especially style marker features, structural features and features that describe presence of 18 phishing-related keywords in the text body of an . In total, a vector consisting of 25 features is extracted. Style marker features include for example number of characters in the text of an , vocabulary richness measured as a ratio of number of words and number of characters or total number of unique words in an . They used SVM to create the classification model and a small corpus of 400 s (different splits between train and test data were not used) to evaluate it. Authors collected a set of 200 phishing s by themselves as well as the set of 200 common messages. The resulting accuracy reaches 100 %. Bergholz et al. [8] proposed a very robust algorithm. Along with the features adopted from previous articles, they investigated the effects of features that measure the number of MIME parts present in the body of an message and the occurrence of discrete, composite and alternative MIME 1 types. They also worked on features whose values are generated by autonomous models that describe semantics of the analyzed message. Classification model was created using SVM algorithm and the resulting accuracy reaches % with FN-rate 1.3 % using the same dataset as Fette et al. did, [4]. 1 Multipurpose Internet Mail Extensions

41 Poster prezentovaný na konferenci 27 Article of the paper [9] divides features into two categories. The features in the first category are called online and the features in the second category are called offline. It is possible to acquire offline features values without the need of calling remote services. Authors detect presence of other than ASCII characters in links found in the message, or number of links in the format of an IP address which belong to the range assigned to some of the specified countries. Online features are for example used to measure security level of websites linked in the . SVM-based classifier was used and the resulting accuracy reaches 99.5 %. Authors used non-public phishing corpus provided by the Phishery and TREC corpus for common and spam messages, [10]. The biggest advantage of described solutions lies in the fact that via the phishing we have access to all kinds of sources of information about the phishing attack. We are able to track the origin of the message; we can read the contents of an or access the phishing website. On the other hand, one of the major disadvantages is the possible need to process large amounts of messages in short time on a mail server. 3 Proposal of new features The aim of our work was to increase the accuracy of detection; hence we focused on identifying a set of new features which would help us shift the quality of classification model. We can divide the newly proposed features into two categories. In the first category, there are features which are linked to the detection of new keywords. In the second category, there are structural features which describe the structure of data presented in the phishing . We included four new keywords ebay, paypal, protect and fraud. Words ebay and paypal are connected with the names of companies that are compromised by phishers relatively often, [11]. When we use these keywords there is a certain possibility of false detection of s which were actually sent by these companies. On the other hand, we think that usage of these words in combination with other features may provide valuable information for the classification algorithm. Keywords protect and fraud are associated with one of the common techniques of social engineering where the attacker tries to persuade the recipient of the message that his account was compromised and that it is necessary to renew his credentials. Relative frequency of occurrence of the newly proposed keywords is shown in table 1. Keyword Common messages Phishing ebay 0,6 % 22,2 % paypal 0,3 % 31,9 % protect 4,5 % 45,3 % fraud 0,6 % 31,0 % Tab. 1: Relative frequency of occurrence of the newly proposed keywords in common and phishing s. Presented results were calculated using corpuses [5] and [6]. We propose 4 new structural features. The first feature, which we call moredomains, is positive when the message includes URL containing more than two substrings that combine domain name and TLD. Phishers often include such links in the message because it can lead to the confusion of recipient who is more likely to click the malicious link when he sees that the well-known domain name of a trusted company is a part of the URL even though it might just be another phishing attack.

42 28 Detection of phishing messages The remaining three features deal with anomalies discovered in the formatting of messages and in the metadata sent along with the text of the message. The first one (singlealternative) is positive if the includes MIME type multipart/alternative that has only one subpart which is not usual within the common messages. Next two features (unknownmime and damagedencoding) represent presence of an incorrectly filled field Content-Type or charset in metadata of any of the MIME parts in the given . We consider field incorrectly filled if it contains data in a format that does not meet the requirements specified in RFC , [12]. Relative frequency of occurrence of the newly proposed features is shown in table 2. Feature Common messages Phishing moredomains 3,8 % 57,0 % singlealternative 0,0 % 31,8 % unknownmime 0,0 % 1,3 % damagedencoding 0,0 % 0,4 % Tab. 2: Relative frequency of positive occurrence of the newly proposed features. Presented results were calculated using corpuses [5] and [6]. 4 Architecture of the phishing detection algorithm Along with the newly proposed features we extracted a vector with 89 features from an e- mail. Besides the 8 newly proposed features, this vector consisted of another 20 features describing the presence of certain keywords (fraud, confirm, password etc.), 16 features describing URLs in the message (formatting of the URLs, IP addresses in the URLs etc.), 26 features describing presence of IP address assigned to some of the given ranges (we tracked ranges for 26 different countries), 17 features describing structure of the message (number of different MIME parts, size of the message etc.) and 2 advanced features (spam score and spam status provided by SpamAssassin). Feature set was subsequently reduced to 26 features using the forward selection method, [13]. This final vector included only two of the newly proposed features keywords ebay and paypal. The resulting algorithm for the phishing detection consists of three modules. The first module receives a message in EML format. It extracts text from the message along with the metadata stored in the headers of the message, and it stores the extracted data into an object which describes the message. This object is then passed to the second module which calculates the values of structural features, features linked with links in the message, features linked with detection of keywords and it also calls spam filter SpamAssassin which provides a value of one of the features (spam score of the message). The last module normalizes values stored in the feature vector using z-score normalization and passes the vector to the classification model which decides the final class, either common message or a phishing message. Described algorithm is visualized in figure 1. 2 Request For Comments 2045 specifies format of the headers in a MIME message.

43 Poster prezentovaný na konferenci 29 Fig. 1: Diagram of the proposed algorithm for phishing detection. During the development of the classification model, we worked with algorithms k-nn, Naïve Bayes and SVM which had been previously successfully used in the area of phishing detection. Because of the highest reached accuracy, we chose the 5-NN algorithm in the resulting solution. All the tests were performed in RapidMiner Tests and results Data used for machine learning came from two different sources. Common messages were taken from the public corpus of messages collected within the SpamAssassin project, [5]. Phishing messages were taken from the public corpus that was compiled by Jose Nazario, [6]. The final set consisted of 8703 messages, of which 4150 messages were common and 4553 were phishing. The set of messages was split using 70:30 ratio into training and testing set. Training set was used to select the most suitable subset of features and to choose the best settings of the classification algorithm using 10-fold cross validation. Results of the performed tests are shown in table 3. Besides the high accuracy, one of the biggest advantages of the presented algorithm is the ability to process the incoming messages quickly. Proposed algorithm does not need to call any remote services, e.g. to download online blacklists or to access links present in the message, in order to calculate the values of the feature vector. Measure Result Accuracy (Naïve Bayes, 89 features) 96.9 % Accuracy (Naïve Bayes, 26 features) 98.8 % Accuracy (SVM, 26 features) 98.9 % Accuracy (5-NN, 26 features) 99.0 % Error rate (5-NN, 26 features) 1.0 % Sensitivity (5-NN, 26 features) 98.7 % Specificity (5-NN, 26 features) 99.3 % Precision (5-NN, 26 features) 99.3 % f-measure (5-NN, 26 features) 99.0 % FN-rate (5-NN, 26 features) 1.3 % SpamAssassin (threshold set to 5.0) 97.9 % Tab. 3: Results of performed tests.

44 30 Detection of phishing messages Labeled as common Labeled as phishing Classified as common Classified as phishing Tab. 4: Confusion matrix (5-NN, 26 features). 6 Conclusion In the proposed article we describe the problem of phishing and its existing countermeasures. Based on this information, we propose new features which deal with the presence of four new keywords in the body of phishing message and with anomalies in the phishing s' headers. We measured relative occurrence of the newly proposed features in sets of both common and phishing messages. We propose an algorithm for phishing detection which includes a classification model. Algorithm was tested on corpus of common and phishing messages and the resulting accuracy reaches 99.0 %. 7 Acknowledgement This paper was supported by CESNET project Detekce phishingových útoků v síti CESNET No. 527/2014. References 1. Jakobsson, M., S. Myers: Phishing and Countermeasures: Understanding the Increasing Problem of Electronic Identity Theft. Wiley, New Jersey, Almomani, A., B. Gupta, S. Atawneh et al.: A Survey of Phishing Filtering Techniques. IEEE Communications Surveys and Tutorials, 2013, p Wardman, B.: A series of methods for systematic reduction of phishing. Doctoral thesis. The University of Alabama at Birmingham, USA, Fette, I., N. Sadeh and A. Tomasic: Learning to Detect Phishing s. Proceedings of the 16th International Conference on World Wide Web, New York p The Apache Software Foundation: SpamAssassin public mail corpus. [corpus] [cit ]. Available from: 6. Nazario, J.: Phishing Corpus. [corpus] [cit ]. Available from: 7. Chandrasekaran, M., K. Naryan and S. Upadhyaya: Phishing Detection Based on Structural Properties. Proceeding of the NYS Cyber Security Conference, 2006., p Bergholz, A., J. De Beer, S. Glahn et al.: New Filtering Approaches for Phishing . [online] [cit ]. Available from: downloads/journal final.pdf.

45 Poster prezentovaný na konferenci Gansterer, W. a D. Pölz: Classification for Phishing Defense. Advances in Information Retrieval 5478, 2009, s Cormack, G. V., Lynam, T. R.: TREC 2007 Public Corpus. Available from: APWG: Phishing Activity Trends Report 4 th Quarter [online] [cit ]. Available from: Freed, N. a N. Borenstein: Multipurpose Internet Mail Extensions (MIME) Part one: Format of Internet Message Bodies. RFC Editor, RFC 2045, Han., J., M. Kamber and J. Pei: Data mining: Concepts and techniques. Morgan Kaufmann Publishers, San Fransisco, 2012.

46

47 Predikcia spotreby elektrickej energie založená na kombinácii predikčných metód Marek Lóderer, Viera Rozinajová, Anna Bou Ezzeddine Ústav informatiky a softvérového inžinierstva, FIIT STU v Bratislave Ilkovičova 3, Bratislava {marek_loderer, viera.rozinajova, anna.bou.ezzeddine}@stuba.sk Abstrakt. Inteligentné merače (smart meters) produkujú informácie o aktuálnej spotrebe elektrickej energie pre konkrétne odberné miesto. Získané údaje vytvárajú nové možnosti modelovania a presnejšej predikcie spotreby. Toto je obzvlášť dôležité pri komodite, akou je elektrická energia, pretože máme iba obmedzené možnosti ako ju dlhodobo skladovať. V súčasnosti existuje viacero prístupov v predikcii spotreby el. energie. V práci prezentujeme metódu založenú na kombinácii súboru predikčných metód. Kombinácia metód je realizovaná štyrmi biologicky inšpirovanými prístupmi: genetický algoritmus, umelá kolónia včiel, optimalizácia s použitím roja častíc a optimalizácia založená na biogeografii. Kľúčové slová: predikcia spotreby el. energie, predikčné metódy, biologicky inšpirované metódy. 1 Úvod V predikcii spotreby elektrickej energie sa využíva niekoľko prístupov. Medzi klasické prístupy predikcie sa zaraďujú regresná analýza a analýza časových radov. Ďalšou nadstavbou nad týmito prístupmi je prístup založený na kombinácii súboru predikčných metód (Ensemble) [2]. Uvedený prístup umožňuje kombinovať vlastnosti jednotlivých predikčných metód (napríklad rýchla adaptácia na zmeny, robustnosť, a iné), čo vedie k zvýšeniu presnosti finálnej predikcie [4]. Presnosť predikcie závisí od použitých predikčných metód a ich rôznorodosti. Rôznorodosť predikčných metód sa dá dosiahnuť buď homogénnym alebo heterogénnym prístupom [1]. Pri homogénnom prístupe sa používajú metódy rovnakého typu, ktoré sú trénované na rozdielnych podmnožinách dostupných dát. Heterogénny prístup využíva rôzne predikčné metódy, ktoré sú trénované na rovnakých podmnožinách dát. 2 Navrhovaná metóda Naša navrhovaná metóda vychádza z heterogénneho prístupu. Metóda sa skladá z dvoch hlavných častí: 1. sada predikčných metód 2. váhovací algoritmus Výstupom metódy je predpoveď spotreby elektrickej energie na nasledujúci deň pre určené odberné miesto alebo odbernú skupinu. M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp.33-36

48 34 Predikcia spotreby elektrickej energie založená na kombinácii predikčných metód 2.1 Sada predikčných metód Použitá sada obsahuje 13 rôznych predikčných metód (11 krátkodobých a 2 dlhodobé): Viacnásobná lineárna regresia - Multiple Linear Regression (MLR) Robustná lineárna regresia - Robust Linear Regression (RoLR) Umelú neurónovú sieť - Artificial Neural Networks (ANN) Metóda náhodnej prechádzky s metódou ARIMA - Random Walk (RW) Regresia založená na podporných vektoroch - Support Vector Regression (SVR) Rekurzívne delenia a regresné stromy - Recursive Partitioning and Regression Trees (RPART) Náhodné lesy - Random Forests (RF) Plávajúci priemer Moving Average (MA) Plávajúci medián Moving Median (MMed) Nasledujúce štyri metódy využívajú sezónnu a trendovú dekompozíciu - Seasonal and Trend decomposition using Loess (STL). Metóda STL dekomponuje časový rad na tri zložky: sezónnu, trendovú a reziduálnu (šum). Metóda (STL+HW+ANN+MLR) predikuje sezónnu zložku pomocou Holt- Wintersového exponenciálneho vyrovnávania, trendovú zložku pomocou umelej neurónovej siete a šum pomocou viacnásobnej regresie. Metóda (STL+ARIMA) predikuje všetky tri zložky časového radu pomocou metódy ARIMA. Metóda (STL+HW+SVM) predikuje sezónnu zložku pomocou Holt- Wintersového exponenciálneho vyrovnávania a zvyšné dve zložky pomocou metódy podporných vektorov Metóda (STL+EXP) predikuje všetky tri zložky pomocou jednoduchého exponenciálneho vyrovnávania 2.2 Váhovací algoritmus Druhou časťou navrhovanej metódy je váhovací algoritmus. Jeho úlohou je určiť váhu (významnosť) každej predikčnej metódy v súbore. Výsledná predikcia vzniká kombináciou váh a výstupov príslušných predikčných metód: kde m je počet predikčných metód je výstup predikčnej metódy i je váha metódy i je súčet váh (1) Nová hodnota váhy je určená na základe chyby predikcie, ktorú daná metóda produkuje. Chyba predikcie je vypočítaná ako priemerná absolútna percentuálna chyba MAPE (mean absolute percentage error), podľa vzorca: (2) kde n je počet pozorovaní je predikovaná hodnota v čase t je nameraná hodnota v čase t.

49 Poster prezentovaný na konferenci 35 Výpočet váh môžeme charakterizovať ako optimalizačný problém. Na jeho riešenie sme v práci použili biologicky inšpirované metódy. Tieto metódy využívajú rôzne metaheuristiky, čím urýchľujú nájdenie optimálneho riešenia. Jednotlivé metódy využívajú osobité prístupy pri určovaní hodnoty váh a ich schopnosť poskytovať jedno alebo viac riešení, prípadne možnosť implementácie v distribuovanom prostredí, z nich robí silný nástroj na riešenie zložitých optimalizačných problémov [3]. V práci sa venujeme štyrom biologicky inšpirovaným metódam: Genetický algoritmus Genetic Algorithm (GA) GA je stochastická optimalizačná metóda inšpirovaná procesom evolúcie [5]. Jej základom je predpoklad, že iba najlepšie adaptované jedince dokážu prežiť a úspešne sa rozmnožiť. Algoritmus pracuje s populáciou jedincov, ktoré predstavujú potenciálne riešenia. Vlastnosti každého jedinca sú kódované vo forme chromozómov (binárne, numerické alebo textové reťazce). Každý jedinec má svoju fitnes hodnotu, ktorá na základe jeho vlastností, odráža jeho vhodnosť pre dané prostredie (resp. jeho vhodnosť pre riešenie danej úlohy). Všetky jedince v populácii sa navzájom porovnajú a potom sa vyberie množina jedincov, ktoré sa v nezmenenej forme dostanú do novej populácie (elitárstvo). Následne sa vyberajú dvojice jedincov (rodičia), ktorých chromozómy sa použijú v procese kríženia. Týmto spôsobom vzniknú dva alebo viac nových jedincov, ktorí sú zaradení do novej populácie. Pri výbere rodičov do procesu kríženia sú uprednostňované jedince s vyššou hodnotou fitnes. Okrem kríženia sa GA vyznačuje operáciou mutácie, kedy sa jedincovi s určitou pravdepodobnosťou náhodne zmení časť chromozómu, čím nadobúda nové vlastnosti, ktoré by inak nemal ako získať. Celý proces sa opakuje kým nie je dosiahnutý maximálny počet generácii, alebo sa nenájde dostatočne dobré riešenie. Umelá kolónia včiel Artificial Bee Colony (ABC) Metóda je inšpirovaná správaním včelích kolónií. Každá kolónia sa skladá z troch typov včiel, ktoré hľadajú zdroje potravy (nektár) resp. riešenia optimalizačnej úlohy [6]. Prvým typom včiel sú včely robotníčky (employment bees), ktorých úlohou je udržiavať nájdené riešenia. Ak v určitej vopred stanovenej dobe nedôjde k zlepšeniu udržiavaného riešenia, robotníčka zanechá toto riešenie a stáva sa z nej prieskumníčka. Druhým typom sú včely prehľadávačky (onlooker bees), ktoré prehľadávajú okolie nájdeného riešenia s cieľom nájsť ešte lepšie riešenie. O svojich výsledkoch informujú ostatné včely v úli. Posledným typom včiel sú prieskumníčky (scout bees), ktoré prehľadávajú priestor, bez ohľadu na existujúce objavené riešenia. Prieskumníčky sú nenáročné na prehľadávanie a môžu rýchlym (náhodným) spôsobom objaviť dobré riešenie. Optimalizácia s použitím roja častíc Particle Swarm Optimization (PSO) PSO je stochastická optimalizačná metóda inšpirovaná pozorovaním pohybu kŕdľov vtákov a húfov rýb [7]. Metóda využíva kolektívnu inteligenciu kŕdľa. Každý jedinec skúma časť priestoru a hľadá optimálnu polohu (riešenie optimalizačnej úlohy). V tomto zoskupení existuje vedúci jedinec, ktorý predstavuje doteraz najlepšie objavené riešenie. Ostatné jedince nasledujú toto globálne riešenie, pričom si pamätajú svoje doteraz najlepšie objavené lokálne riešenie. V každej iterácií je okamžitá rýchlosť jedincov upravená podľa pôsobiacich síl (globálnej a lokálnej). Globálna sila pôsobí v smere najlepšieho objaveného riešenia. Lokálna sila pôsobí v smere najlepšieho predchádzajúceho riešenia. Metóda sa používa na aproximáciu riešenia zložitých maximalizačných a minimalizačných numerických úloh.

50 36 Predikcia spotreby elektrickej energie založená na kombinácii predikčných metód Optimalizácia založená na biogeografii Biogeography-Based Optimization (BBO) Metóda čerpá inšpiráciu z ostrovnej biogeografie [8]. Základným princípom je myšlienka, že rýchlosť zmeny počtu živočíšnych druhov na ostrove je výrazne závislá na rovnováhe medzi počtom imigrujúcich a emigrujúcich druhov. Živočíšne druhy sa sťahujú z jednej lokality do inej s cieľom nájsť vhodné podmienky (SIV Suitability Index Variable). Za lokalitu budeme v našom prípade považovať vektor hodnôt SIV, ktorý predstavuje možné riešenie optimalizačného problému. Za dobré riešenia sú považované lokality s vysokým indexom vhodnosti habitatu (HSI - Habitat Suitability Index). Tieto oblasti sú obývané veľkým množstvom živočíšnych druhov. Naopak zlé riešenia sú považované za lokality s nízkym HSI a obýva ich menšie množstvo druhov. Rýchlosť imigrácie a emigrácie živočíšnych druhov medzi lokalitami slúži na prenos informácií a zmenu indexu SIV jednotlivých lokalít. 3 Záver V práci navrhujeme metódu kombinácie viacerých predikčných metód pomocou biologicky inšpirovaných prístupov. Skúmame optimálne nastavenie parametrov uvedených metód, ich rýchlosť a presnosť dosiahnutého riešenia. Experimenty uskutočňujeme na dátach o spotrebe elektrickej energie z viac ako odberných miest v rôznych regiónoch Slovenska. Poďakovanie Táto publikácia vznikla vďaka čiastočnej podpore projektov VEGA 1/0752/14, VEGA 1/1221/12 a projektu v rámci OP Výskum a vývoj pre projekt: Medzinárodné centrum excelentnosti pre výskum inteligentných a bezpečných informačnokomunikačných technológii a systémov, ITMS: , spolufinancovaný zo zdrojov Európskeho fondu regionálneho rozvoja. Literatúra 1. Bian, S., Wang, W.: Investigation on diversity in homogeneous and heterogeneous ensembles. In Neural Networks, IJCNN '06, Vancouver, CA (2006) Borger, C.E., Penya, Y.K., Fernández, I.: Optimal combined short-term building load forecasting. In ISGT Asia 2011, Perth, Australia (2011) Hanif Halim, A., Ismail, I.: Bio-Inspired Optimization Method: A Review. In NNGT International Journal of Artificial Intelligence, vol. 1, (2014) 4. Hibon, M., Evgeniou, T.: To combine or not to combine: selecting among forecasts and their combinations. In International Journal of Forecasting, vol. 21. (2004) Holland, J.: Adaptation in Natural and Artificial Systems. MIT Press, Cambridge, MA (1992). 6. Karaboga, D., Basturk, B.: A powerful and efficient algorithm for numerical function optimization: artificial bee colony (abc) algorithm. In Journal of global optimization, 39(3). (2007) Kennedy, J., Eberhart, R.: Particle swarm optimization. In Proceedings ICNN 95 - International Conference on Neural Networks. vol. 4, (1995) Simon, D.: Biogeography-Based Optimization. In IEEE Transactions on Evolutionary Computation, vol. 12, no. 6. (2008)

51 Extrakce vlastností z textu pro identifikaci poruch osobnosti Petr ŠALOUN 1, Adam ONDREJKA 1, Martin MALČÍK 2 1 Fakulta elektrotechniky a informatiky, 1, 2 VŠB-TU Ostrava 17. listopadu 15/2172, Ostrava - Poruba {petr.saloun, adam.ondrejka.st, martin.malcik}@vsb.cz Abstrakt. Psychické nemoci, včetně různých poruch osobností, jsou v dnešní době všeobecně uznávány a nebrány na lehkou váhu. V příspěvku popisujeme aktuální stav výzkumu v oblasti identifikace poruch osobností z česky psaných textů. Ukazujeme způsob zpracování textu v přirozeném jazyce a výběr vlastností pro následnou klasifikaci při použití algoritmů strojového učení, experimentální vyhodnocení desítek textů je součástí příspěvku. Klíčová slova: dolování dat, analýza nálad, extrakce vlastností, psychologické poruchy osobností, strojové učení 1 Úvod Moderní způsob života na jedné straně prodlužuje délku a zlepšuje kvalitu života, na straně druhé se současně objevují nové civilizační choroby. K nim patří psychické problémy způsobené přílišným stresovým zatížením. Psychické problémy, jejich rozpoznání, klasifikaci a léčení jednoznačně nejlépe a fundovaně řeší specialisté, přesto mnoho potenciálních pacientů nedokáže překonat svůj stud a strach a specialistu a související pomoc sami nevyhledají. V příspěvku popisujeme jeden z možných způsobů, jak lze v tzv. sebe-esejích identifikovat možné poruchy osobnosti dle předem určených modelů. Naše řešení je jednou z metod, které si uživatel může v připravovaném online systému vybrat k identifikaci možné poruchy osobnosti. Má možnost vyplnění buď vyplnění dotazníku o cca 40 otázkách, nebo o sobě může napsat kratší text, ve kterém popisuje své pocity, emoce, případně co jej trápí. Pracujeme právě s touto poslední variantou. Pro analýzu a zpracování textu sebe-eseje využíváme metod zpracování přirozeného jazyka. Na základě získaných hodnot, podobností mezi definovanými vzorovými modely, a analýzy sentimentu polarity, určujeme vlastnosti dokumentů, které jsou vstupem pro strojové učení. Na výzkumu stále pracujeme, první experimenty, zpracovávající menší vzorek reálných dat, vypadají relativně slibně. 2 Extrakce klíčových vlastností V sebe-esejích uživatelů hledáme tři možné poruchy osobnosti: strach-úzkost, prokrastinaci, a toleranci nejistoty. Pro tyto kategorie jsme se specialisty v oboru psychologie vytvořili základní modely obsahující klíčová slova vyskytující se v sebe-esejích, podporující fráze, a referenční sebe-esej. Klíčová slova jsou slova, která silně označují, že text obsahuje známky poruch osobnosti. Jedná se o slova negativního charakteru a často záporná, jako např.: nerozhodnost, uzavřenost, osamělost. Podporující fráze jsou obecnějšího charakteru. Nemají M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

52 38 Extrakce vlastností z textu pro identifikaci poruch osobnosti sílu, jako slova klíčová, dokážeme podle nich určit, zda osoba má nebo nemá problém psychického rázu. Patří mezi ně např. fráze: nechte mě být, ono to nějak dopadne, nechci to řešit. Hledání podobnosti mezi texty analyzujeme pomocí strojového učení. Odpovídající klíčové vlastnosti, které jsou vstupy do klasifikátorů, obsahuje Tab PodobKlíč Podobnost porovnávaného textu a klíčovými slovy jednotlivých modelů 4 6 PodobPodporujici Podobnost porovnávaného textu s podporujícími frázemi jednotlivých modelů 7 9 PodobRefText Podobnost porovnávaného textu s referenčními esejemi jednotlivých modelů 10 Polarita Polarita porovnávaného textu v intervalu < -1; 1 > Tabulka 1: Klíčové vlastnosti jako vstup pro klasifikátory Pro získání klíčových vlastnosti je nutné text ještě předzpracovat. K předzpracování používáme knihovnu NLTK pro Python a analyzátor českých textu Morphodita 1. Proces zpracování textu je zobrazen v Obr. 1. Text v prvním kroku projde zpracováním přirozeného jazyka. Zde se odstraní stop slova, označí se negace slov a slovní druhy, ze slov se vytvoří základní tvary. Z takto zpracovaného textu se dále pokusíme určit polaritu textu, tedy jestli samotný obsah je negativní, neutrální nebo pozitivní. K tomu využíváme polo-slovníkového přístupu. Hledáme v textu předdefinovaná slova a přiřazujeme jim váhu polarity, tu poté měníme podle nalezených negací z předchozího kroku. Počítáme jak s posunem polarity (vztahuje se na slova vzdálenější od negátoru), nebo přepínače polarity (negace-negace apod.). Slova v základním tvaru porovnáme s předvytvořenými modely a nalezneme podobnost mezi klíčovými slovy, podporujícími frázemi a referenčním textem. Z těchto hodnot vytvoříme vlastnosti (features), dle kterých se klasifikátory budou učit a předvídat. Metody pro analýzu sentimentu jsou popsány v [1]. Klasifikací názorů ve slovenském jazyce se zabývá práce [2]. 1

53 Poster prezentovaný na konferenci Experiment Obrázek 1: Tvorba modelu osobnosti ze sebe-eseje. V počáteční fázi jsme otestovali tři klasifikátory: Support Vector Machine (SVM), K- Neigboors, a Decisiont tree na menším vzorku reálných dat. Trénovací množinu tvořilo 40 sebe-esejí, 10 z nich pocházelo přímo od psychologů, 30 textů bylo analyzováno z poradny webového sídla ulekare.cz 2. Všechna data z testovací množiny (30) pocházela rovněž z poradny webu ulekare.cz. Správnost zařazení poruchy osobnosti k sebe-eseji se pohybovala mezi %. Nejlepších výsledků dosahoval SVM. 3 Závěr Představili jsme aktuální stav vývoje metody pro rozpoznání poruch osobnosti z česky psaného textu. Výsledky prvních experimentů ukázaly, že návrh pro extrakci vlastností z textu pomocí NLP může být pro použití strojového učení správnou cestou. V další fázi máme za cíl zlepšit úspěšnost navrženého přístupu a rozšířit řešení na texty v cizích jazycích. Tato práce šířeji souvisí i s problematikou bezpečnosti, kterou se ve skupině NAVY 3 zabýváme. Poděkování: práce byla částečně podpořena grantem SGS No. SP2015/142, VŠB Technické univerzity Ostrava a Technologické agentury České republiky Technology Agency of the Czech Republic - TACR-TF ulekare.cz 3

54 40 Extrakce vlastností z textu pro identifikaci poruch osobnosti Literatura 1. Bing, L., Zhang, L.: A survey of opinion mining and sentiment analysis. Mining Text Data (2012), Mikula, M., Machová, K.: Klasifikácia názorov v konverzačnom obsahu. In: WIKT 2015: 9 th Workshop on Intelligent and Knowledge Oriented Technologies, L. Hluchý, M. Bieliková, J. Paralič (Eds.), Smolenice (2014), 3-8 Annotation: Feature extraction from text to identify personality disorders Natural language processing, web engineering methods and machine learning could be used for selfessay analysis for automated detection of possible personality disorder reason. Our approach is based on features extraction, sentiment analysis, and classification by well-known classifiers. The first experiments give promising results.

55 Spracovanie negácie pre klasifikáciu názorov v slovenskom jazyku Martin MIKULA, Kristína MACHOVÁ Katedra kybernetiky a umelej inteligencie, TU V Košiciach Letná 9, Košice {martin.mikula, kristina.machova}@tuke.sk Abstrakt. V tejto práci sa zameriavame na spracovanie negácie pri klasifikácii názorov. Identifikácia negácie je veľmi dôležitou súčasťou pri analýze textov, keďže môže meniť polaritu slov a tým ovplyvniť aj celkovú polaritu príspevku. Rozhodli sme sa využiť, otestovať a porovnať 2 prístupy k negácii, a to priame otočenie polarity slova a negáciu posunom. Oba prístupy boli následne otestované na množine 5242 slovenských príspevkov. Z prezentovaných výsledkov vyplýva, že ako najlepšie riešenie sa javí kombinácia oboch prístupov. Kľúčové slová: klasifikácia názorov, negácia, slovenský jazyk 1 Úvod V procese klasifikácie názorov sa snažíme automaticky detekovať a analyzovať názory vyjadrené hlavne v písomnej forme. Ľudia na internete často vyjadrujú svoje názory na rôzne produkty, služby, osobnosti a iné objekty. Výsledný názor je určený na základe hodnotiaceho faktora. Ten sa skladá z dvoch častí. Prvou zložkou je subjektivita, ktorá je definovaná ako vyjadrenie emócie, názoru, rozhodnutia, želania alebo špekulácie. Tá môže byť pozitívna alebo negatívna. Druhou zložkou je sila, ktorá určuje ako veľmi je daný príspevok pozitívny alebo negatívny. Výskum v oblasti klasifikácie názorov a analýzy sentimentu nie je taký jednoduchý ako sa zdá. To je spôsobené nie len syntaktickou a sémantickou rôznorodosťou jazyka ale aj nepriamym vyjadrovaním a opisom svojich názorov a postojov. Práve preto je potrebná detailná analýza lingvistických techník aby sme získali dostatočné znalosti, ktoré bude následne možné použiť pri automatickej analýze názorov. Medzi tieto znalosti patrí aj spracovanie negácie. V rámci klasifikácie názorov je našou úlohou určiť polaritu dokumentu alebo príspevku. Táto polarita (môže byť pozitívna, negatívna alebo neutrálna) je určená sumou polarít jednotlivých viet, z ktorých sa daný dokument skladá. Polarita vety je podmienená polaritami slov, z ktorých sa konkrétna veta skladá. Ich kontextuálna polarita však môže byť zmenená práve pomocou negácie. Negáciu môžeme rozdeliť na dve základné formy: vetnú negáciu a členskú negáciu. Vetná negácia existuje vo vete vo forme prísudkového slovesa alebo spony ( Cestujúcich nepribudlo. ). Členská negácia nastáva vtedy, keď je záporný exponent súčasťou podmetu alebo iného vetného člena ( Nie všetci môžu letieť. ). Pri členskej negácii môže zápor stáť pred celou skupinou členov alebo pred každým členom osobitne. Ďalšie delenie negácie sa odvíja od rozsahu, akým zasahuje do obsahu výpovede. Tu môžeme rozdeliť negáciu na celkovú (neguje sa celý obsah výpovede) alebo čiastkovú (neguje sa iba časť výpovede).[5] M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

56 42 Spracovanie negácie pre klasifikáciu názorov v podmienkach slovenského jazyka Medzi základné negačné prostriedky patria: - nesamostatná morféma ne- (pridáva sa k slovesu) - častica nie - popieracie častice (figu, čerta, anciáša, čoby, kdeže, ale,...) Téme spracovania negácie je venovaných niekoľko prác v angličtine aj slovenčine. V práci [4] negácia ovplyvňuje slová medzi negáciou a najbližším interpunkčným znamienkom. V prácach [1, 2] je ovplyvnených 5 nasledujúcich slov. V slovenčine bol podobný prístup k spracovaniu negácie spomenutý v práci [3], kde bol použitý dynamický koeficient na vymedzenie rozsahu účinku negácie. Ďalšie typy negácie boli popísané v práci [6]. V tejto práci používajú switch negáciu a shift negáciu. Switch negácia priamo otáča polaritu slova na opačnú hodnotu s rovnakou silu. Na rozdiel od tohto prístupu, shift negácia iba posúva hodnotu sily polarity smerom k opačnej hodnote o pevne stanovenú sumu. V tejto práci je použitý posun o hodnotu 4 na stupnici od -3 do 3. 2 Spracovanie negácie V našom prístupe sme sa rozhodli pre stupnicu polarity od -3 do 3 (od silnej, miernej, slabej negatívnosti, po slabú, miernu a silnú pozitívnosť). Pri určení polarity sme sa rozhodli implementovať aj spracovanie intenzifikácie (percentuálne zvýšenie sily polarity slova) a negácie. Na spracovanie negácie sme sa rozhodli využiť práve posledné spomenuté princípy. Využili sme switch negáciu (priame otočenie polarity) a shift negáciu (negácia posunom). Implementovali sme oba tieto prístupy jednotlivo a následne sme použili ich kombináciu, ktorá vo výsledku dosiahla najlepšie výsledky. Pri použití týchto prístupov v slovenčine sú však drobné rozdiely. V slovenskom jazyku je možná aj viacnásobná negácia. Aj s týmto faktom bolo potrebné počítať. Pri spracovaní switch negácie sme otáčali polaritu pozitívneho alebo negatívneho slova nachádzajúceho sa bezprostredne za negáciou na opačnú hodnotu s rovnakou silou. Ak sa teda v texte vyskytla napr. dvojnásobná negácia, pôvodná orientácia slova ostane zachovaná. Pri použití shift negácie sme sa rozhodli použiť posun o hodnotu +/- 2 opačným smerom. Napr. veľmi pozitívne slovo s hodnotou 3 sa nám pri použití tejto negácie zmení na slabo pozitívne slovo s hodnotu 1. Pri viacnásobnej negácii sa následne hodnota vždy posunula o 2 tak, aby sme neprekročili hraničné hodnoty od -3 do 3. V treťom prípade sme sa rozhodli otestovať kombináciu oboch metód, ktorá by mala najlepšie odzrkadľovať ľudské spracovanie negácie. Pre slová s hodnotami +/-1 a +/-2 sme použili switch negáciu (nie dobrý => zlý, nebol horší => lepší) a pre slová s hodnotou +/-3 sme použili shift negáciu (nebol najlepší => dobrý). Pri viacnásobnej negácii záleží na negovanom slove, či sa viackrát zopakuje switch negácia alebo shift negácia.

57 Poster prezentovaný na konferenci 43 3 Testovanie a porovnanie navrhnutého prístupu Navrhnuté prístupy sme následne otestovali na množine 5242 príspevkov (dostupné na Príspevky v tomto datasete sú z rôznych oblastí, od politiky cez elektroniku až po recenzie hier a filmov. Každý príspevok bol expertom ohodnotený a teda zaradený do pozitívnej alebo negatívnej kategórie. Príspevky bez subjektivity boli z datasetu odstránené. Dataset obsahuje 2572 pozitívnych príspevkov a 2668 negatívnych príspevkov. Na základe počtu správne priradených príspevkov do pozitívnej alebo negatívnej triedy sa vyčíslili presnosť a návratnosť pre jednotlivé modifikácie (Tab. 1.). Presnosť je možné charakterizovať ako počet správnych výsledkov pozitívnej klasifikácie do triedy j k celkovému počtu pozitívnej klasifikácie pozitívnych aj negatívnych príkladov. Podobne návratnosť je možné definovať ako počet správnych výsledkov pozitívnej klasifikácie do triedy j k celkovému počtu skutočne pozitívnych príkladov. Prvý záznam popisuje výsledky sumovania pozitívnych a negatívnych slov bez použitia intenzifikácie a negácie. Pri druhom zázname bola použitá switch negácia a pri treťom shift negácia. Pri štvrtom teste sme použili mix obidvoch typov negácií a dosiahli sme v ňom najlepšie výsledky. Z tabuľky môžeme vyčítať, že použitie jednotlivých typov negácie samostatne malo tendencie na zhoršenie celkových výsledkov na klasifikáciu názorov. Naopak použitie kombinácie oboch prístupov zlepšilo presnosť a návratnosť nie len pre pozitívne príspevky, ale aj pre negatívne príspevky. Prístup presnosť pre pozitívne príspevky (%) návratnosť pre pozitívne príspevky (%) presnosť pre negatívne príspevky (%) Tab. 1. Porovnanie jednotlivých spôsobov negácie. návratnosť pre negatívne príspevky (%) sumovanie poz. a neg. slov swich negácia shift negácia mix switch a shift negácie Náš prístup sme sa rozhodli porovnať aj s prístupom spomenutým v práci [6], keďže sme použili podobné prístupy k negácii. Problémom však ostávajú jazyky, v ktorých prebehlo testovanie. V práci [6] bol použitý anglický jazyk, zatiaľ čo náš algoritmus bol testovaný na slovenskom korpuse. Preto výsledky slúžia len na hrubé porovnanie jednotlivých metód. Toto porovnanie je zobrazené v Tab. 2. Na dosiahnuté výsledky mali vplyv najmä 2 faktory. Prvým je to, že angličtina je gramaticky jednoduchšia (vo vete neexistuje viacnásobný zápor) ako slovenčina. Druhým faktorom, ktorý ovplyvnil výsledky bola prítomnosť politicky ladených príspevkov v testovacej množine. Mnoho ľudí pri vyjadrovaní politických názorov používa nepriame vyjadrenie názoru. Veľmi častými javmi sú aj irónia a sarkazmus, s ktorých identifikáciou má algoritmus problémy.

58 44 Spracovanie negácie pre klasifikáciu názorov v podmienkach slovenského jazyka prístup presnosť (%) Taboada (switch) Taboada (shift) náš prístup (switch) 60.7 náš prístup (shift) náš prístup (mix) 61 Tab. 2. Porovnanie presnosti medzi podobnými prístupmi v slovenčine a angličtine. 4 Záver Tento príspevok je venovaný spracovaniu negácie v rámci klasifikácie názorov. Identifikovanie a správne spracovanie negácie je veľmi dôležité preto, aby sme boli schopní správne identifikovať výsledný názor na daný objekt. Negácia mení význam subjektívne orientovaných slov, a teda môže spôsobovať nesprávne zatriedenie výsledného názoru. V práci sme porovnali dva typy negácie a zistili, že jednotlivo neprinášajú výrazné zlepšenie, niekedy boli dokonca príčinou jemného zhoršenia výsledkov. Avšak ich vzájomná kombinácia priniesla očakávané zlepšenie výsledkov a tým sa ukázala ako najvhodnejšie riešenie do budúcna. Poďakovanie Tento príspevok vznikol s podporou Vedeckej grantovej agentúry Ministerstva školstva, vedy a športu Slovenskej republiky v rámci projektu č. 1/1147/12 Metódy analýzy kolaboratívnych procesov realizovaných prostredníctvom informačných systémov. Literatúra 1. Grefenstette, G., Qu Y., Shanahan, J. G., Evans, D. A.: Coupling Niche Browsers and Affect Analysis for an Opinion Mining Application. In: Computer-Assisted Information Retrieval (Recherche d'information et ses Applications), University of Avignon, France (2004), Hu, M., Liu, B.: Mining and summarizing customer reviews. In: Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '04), ACM, New York (2004), Machová, K., Krajč, M.: Klasifikácia názorov vo vláknových diskusiách na webe. In: Znalosti 2011, VŠB-TU, Ostrava (2011), Pang, B., Lee, L., Vaithyanathan, S.: Thumbs up? Sentiment classification using machine learning techniques. In: Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing Volume 10, Association for Computational Linguistics, Stroudsburg (2002), Pavlovič, J.: Syntax slovenského jazyka II. Pedagogická fakulta Trnavskej univerzity, Trnava, 2012.

59 Poster prezentovaný na konferenci Taboada, M., Brooke, J., Tofiloski, M., Voll, K., Stede, M.: Lexicon-based methods for sentiment analysis. Comput. Linguist. (2011) Annotation: Negation processing in opinion classification in Slovak language In this survey, we studied the impact of negation to precision and recall in opinion classification. Identification of negation is very important, because negation often change meanings of words. We should correct identify and process negation to avoid incorrect classification of opinion. We used two types of negation, switch and shift negation and compared them. If we used these types of negation alone, they did not have very good impact to correct classification. Then we tried to use combination of these approaches, which should better reflect human processing of negation. This combination achieved the best result in opinion classification. So we decided to use this type of negation to future work.

60

61 BioWes Scientific Data Management Solution From protocol design until data and metadata sharing Antonín BÁRTA 1, Petr CÍSAŘ 1, Dalibor ŠTYS 1, Jan URBAN 1 1 Ústav komplexních systémů, FFPW, JCU v Českých Budějovicích Zámek 136, , Nové Hrady abarta@frov.jcu.cz Abstract. We are living in age of Big Data. The problem is that the amount of data produced by researchers is constantly increasing. The effective way how to share scientific experiments between researchers is to share metadata. Metadata means the overall knowledge about the experiment that consist of complex information of experimental procedure, methods and knowledge. BioWes scientific data management solution provides full control over experiments. From protocol design, through data acquisition and processing part to sharing final results. The data itself is meaningless without additional knowledge concerning the experimental description and conditions. The mandatory attention is given to the usage of standardized terminology. One of the strong advantage of BioWes solution is implementation of processing modules. The best way, how to track knowledge acquisition is to process experimental data directly in the way where user can control raw, processed, as well as setup data. This solution save experimentalist time and keep also the information from processing step as a protocol. After finishing the experiment, user can directly share the results. BioWes scientific data management solution can offer a whole new concept of experimental data sharing based on the sharing of knowledge. Keywords: Database, Repository, Metadata, Data Management, Experimental Setup, Processing Modules 1 Introduction There are several projects that offer a solution for data sharing (for various types of data). The laboratory management systems [1] are designed to provide the tools for laboratory resources management and can be specialized to some description of the specific laboratory process (experimental work). The more closely related software for metadata management are the e-notebooks systems [2, 3]. The project BioWes is inspired by several similar projects that try to solve a substantial contemporary problem of sharing enormous experimental data. Metadata means the overall knowledge about the experiment that consists of complex information of experimental procedure and knowledge that can be extracted from data automatically or manually by post-processing. M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

62 48 BioWes Scientific Data Management Solution The description of experiment should consist of the information about experimental conditions, setting of devices and procedures used for experiment realization (all the parameters which can influence the results of the experiment). The description of the experiment should be understandable to the other researchers to reproduce or verify the experiment. The usage of standardized terminology and standardized form of the information representation improve sharing of the description between cooperators or just inside the lab group. The main reason of sharing metadata instead of data is to save money and time necessary for experimentation and to maintain the comparison of the results between different experimenters. Data sharing and especially metadata sharing can be understood as the advertisement of the experiments of a particular experimenter. Experimental data sharing and comparison can help to improve experimental procedures and defining of standards in this area [4, 5]. Fig.1. Scheme of the sharing and usage of data and metadata database on the example of BioWes system. 2 Protocol Manager Protocol Manager is a main BioWes module which provides commands for visualization, creation and modification of Protocols and Templates (blank, empty, previously prepared protocol). All other modules are executed through this unique module. The other modules can add the commands to the menu of Protocol manager and provide their functions. For example the modules for data processing are executable from the menu of Protocol manager. Scheme of the usage of BioWes system are shown on Fig. 1. Software interface, which is in the direct contact with a user (experimenter) is called Protocol Manager. It is a standalone application that should ensure the repeatability and correctness of the biological experiments. The tool is

63 Poster prezentovaný na konferenci 49 designed to lead the experimenter through the particular type of experiment as a supervisor and to help him. Protocol generator has two purposes: the first one is to check that the procedure of the experiment has been done precisely and the second one is to produce all important settings that are part of the experiment in the form of report on the experiment. The method to ensure precise realization of experiment is to check if all the necessary parameters and steps of the experiment have been set and done. The list of necessary parameters and steps for the particular type of experiment comes up from the analysis of biological experiments from different research institutes. This is a key issue in the repeatability, reproducibility, and verification experiments. The description of the experiment can be created by the user for specific experiment. Graphical user interface Protocol designer has been implemented especially for this purpose. The protocol template can be created by any BioWes user who can define all the important conditions of the experiment. The user can use 10 basic components for definition of the protocol template. The template can be later modified for new experiment to speed up the process. Main advantage of the electronic protocol is that there is a direct link between the protocol and experimental data. Both are stored in the central database and can be used for obtaining future data. Protocol generator supports also external plugins for mining information about exact setting of devices from external files. 3 Scientific Data Sharing Sometimes, it is very difficult to share a huge amount of scientific data. BioWes software solves this problem with sharing options possibilities. The user decides if it is necessary to share only basic description of the experiment (metadata) or set up full access to the experiment, where end-user can go through experimental data and see them or even download them. One of the ways how to cooperate between the users on the processing of experimental data or realization of experiments is sharing of experimental data and metadata. The central data storage is realized as a combination of local data storage (located at the institution) for raw data and one central data storage selected metadata. The system provides 8 levels of sharing so user can restrict access to the data or metadata (Protocols, Templates and experimental data). Sharing levels were designed to provide the possibilities to decide which information from the experiment should be shared. The user decides about sharing the metadata (information about experiment) only, or attaching the experimental data (analysis), as well, if appropriate. This approach provides quality solution of information sharing between researches. The user can share protocols only with other users registered in the system. The protocol of experiment can be shared among the people who realize the experiment instead of students to ensure the repeatability of the experiment. 4 Processing modules and plug-ins Data processing modules and plugins are one of the strong parts of BioWes solution. A researcher can process experimental data directly in place and they can track both raw and processed experimental data there. The user keeps the information about processing step (an automatically created protocol from a processing step) and they can analyze it too. BioWes tracks evolution of the experiment and the user is able to see the whole chain of protocols from the experiments (preparation phase, data obtaining, processing and analysis). The plugins can read the information about parameters of experiment from files produced by the

64 50 BioWes Scientific Data Management Solution measurement device (magnification of microscope) and fill it automatically into the protocol. Plugins are using open interface and therefore new ones may be created by users for specific devices. 5 Conclusion BioWes scientific data management solution reflects the needs of the scientific community for instruments able to manage experimental data and metadata. The complete support from the experimental protocol design to experimental data and metadata sharing provided to the users. The novelty of the solution is the direct support of the standardizations and the tools for improvement of the reproducibility of the work: electronic protocol allows the users to store metadata and data together on one place, protocol and processing evolution tools provide information overall data processing and experimental manners, black box data representation and tool for protocol design supports any data type and research area. The mobile version of the solution enable to use the system for field experiments and extend the possible usage of the system. Acknowledgement The study was financially supported by TACR projekt TA BioWes, by the Ministry of Education, Youth and Sports of the Czech Republic - projects 'CENAKVA' (No. CZ.1.05/2.1.00/ ), 'CENAKVA II' (No. LO1205 under the NPU I program). References 1. LIMS, visited on Andrew J. Milsted, A Jennifer R. Hale, A Jeremy G. Frey, A Cameron Neylon, LabTrove: A Lightweight, Web Based, Laboratory ˇ Blogˇ± as a Route towards a Marked Up Record of Work in a Bioscience Research Laboratory, PLOS ONE, 2013, doi: /journal.pone E-NOTEBOOK, visited on Haug, K, et al. "MetaboLights an open-access general-purpose repository for metabolomics studies and associated metadata." NAR (2012): gks Freire, J., Philippe Bonnet, and Dennis Shasha. "Computational reproducibility: stateof-the-art, challenges, and database research opportunities." Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. ACM, 2012.

65 Utilization of Semantics for Industrial Big Data Processing Václav JIRKOVSKÝ 1,2, Marek OBITKO 2 1 Czech Institute of Informatics, Robotics and Cybernetics, Czech Technical University in Prague, Zikova 4, Prague, Czech Republic 2 Rockwell Automation Research & Development Center, Pekařská 695/10a, Prague, Czech Republic {vjirkovsky,mobitko}@ra.rockwell.com Abstract. The growing amount of data creates a tangle of heterogeneous information. There are many different devices generating data such as smart phones (images, videos) or various sensors (sensors in cars, temperature sensor in a room). The mentioned large amounts of data are needed to be processed in nearly real-time because rapid decision making is essential for many applications including industrial automation. A possible solution is to involve the Big Data concepts in processing of such data. In this paper, we describe main idea of our Semantic Big Data Historian that is intended to store, process, and analyse large volumes of heterogeneous data. The prototype was verified on data from passive house sensors as well as on data from hydroelectric power station. Key words: Big Data, Industrial Automation, Semantic Heterogeneity. 1 Introduction Even though the digital universe is perceived differently by different observers, it has some shared aspects like our physical universe, the digital universe is rapidly expanding and is incredibly diverse. The growing amount of data is produced by mobile phones data (images, videos), digital HD movies, banking data from ATM, and subatomic collision records from LHC (CERN), etc. Other important contributor to our digital universe is Internet of Things (IoT) as well. This situation has come also to the industrial domain including manufacturing. Processing of data produced by low level control as well as by upper levels such as MES/ERP systems is a complex task and is often impossible with the help of traditional methods and systems. As an example, a CPG (Consumer Packaged Goods) company mentioned in [1] generates 5000 data samples every 33 milliseconds leading to 4 trillion of samples per year. The above mentioned large amounts of data are needed to be processed in nearly realtime because rapid decision making is essential for many applications including industrial automation. A possible solution is to involve the Big Data paradigms in data processing. In this paper, we describe main idea of our Semantic Big Data Historian that is intended to store, process, and analyse large volumes of heterogeneous data. Input data are samples from sensors (including historical records) as well as data from upper level systems. Data sources are semantically described to enable more complex queries and analytics. M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

66 52 Utilization of Semantics for Industrial Big Data Processing 2 Big Data One of the well-known description of Big Data concept is as follows the Big Data depicts a dataset that is growing so that it becomes difficult to manage it using traditional database management concepts and tools [2]. Big Data frameworks overcoming some of the problems are appearing e.g., 4store or CumulusRDF (triplestore build on NoSQL), Hadoop or Asterix (Big Data frameworks), etc. The Big Data can be characterized by 3V definition: the 3V denotes main characteristics of Big Data the three dimensions Volume, Velocity and Variety: Fig. 1. Big Data aspects - Volume the amount of data is typically large, in the order of terabytes or larger - Velocity the access to data using appropriate queries is needed in real time - Variety the data are unstructured, possibly including texts, videos, logs etc. 3 Semantic Big Data Historian Let us describe the Semantic Big Data Historian as a next step in historian software. Historian software is used in industrial automation to gather data and then to provide access and possibly also analytics of historical measured data. 3.1 Semantic Description of Industrial Data It was already mentioned that one of the most important problem from our point of view of Big Data is variety. This is valid in industrial automation domain. Data are acquired not only from sensors but other data sources are needed for the best outcomes. These data sources are for example MES/ERP systems, external data sources (e.g. weather forecast), etc. Subsequent integration of various data sources is complex task and is also known as semantic integration [3]. There are many ways how to deal with semantic integration process and also many types of heterogeneity. The developed Semantic Big Data Historian involves semantic integration based on a shared ontology. A semantic description of data sources offers many advantages, i.e., make complicated user queries easier or ensure better options for maintenance (reconstruction of data model, connection of new data source).

67 Poster prezentovaný na konferenci 53 Shared ontology for Semantic Big Data Historian is developed SHS ontology. The SHS ontology is based on Semantic Sensor Network (SSN) ontology [4]. The SHS ontology includes structures for modeling different observations, physical quality, units of measurements, or possibilities of external data sources connections. 3.2 Architecture The architecture of developed Semantic Big Data Historian is described in this section. The historian was developed for processing of large amount of heterogeneous data therefore every particular component of the system was chosen with the respect to this purpose. Unfortunately, many promising tools and frameworks for processing of semantically described data on Hadoop are released in beta version and the usage of these systems has many limits. Hence the architecture of Semantic Big Data Historian is modular and it is possible to change most of the system components (e.g. triple store). Historian architecture can be divided into four main parts data acquisition layer, transformation layer, data storage layer, and analytic layer. Analytic Layer Semantic BigData Storage Data Transformation Knowledge Base Ontology OPC UA,... JDBC, WS,... WS,... Sensors Additional Data Sources External Data Sources Fig. 2. Architecture of Semantic Big Data Historian - Data acquisition layer data from sensors (e.g., connected via OPC UA 1 connectors), additional data sources from enterprise (e.g., MES/ERP systems, other enterprise systems), and relevant external data sources (e.g., weather forecast, traffic information) - Transformation layer data transformation from all data sources to the semantic form according to SHS ontology. Triples are immediately sent to a triple store (following layer). Transformation layer is made as modular, i.e., new adapter is needed to connect data source, all adapters share interface - Data storage layer we have evaluated several triple stores during Semantic Big Data Historian development. The most suitable for our purpose are CumulusRDF 2, 4Store 3, Hadoop + Jena Elephas 4 1 OPC Unified Architecture

68 54 Utilization of Semantics for Industrial Big Data Processing - Analytic layer is directly connected to the storage layer. The following analytic frameworks are evaluated to ensure various analytic methods - KNIME [5], Mahout [6] The historian was tested on data from passive house together with meteorological data and on data from hydroelectric power station. The prototype was intended as a proof of concept and therefore it was not deployed in distributed configuration yet. 4 Discussion and Conclusions In this contribution we have briefly introduced our developed semantic big data historian prototype. The main purpose of the historian is enabling reasonable data processing and storing within industrial automation domain. We have encountered the following problems during the development. The main problem was triple store performance related to some tested systems. It caused for example long response time for user queries, which would not be acceptable for serving the data to the analytic layer. Hence the modular architecture of the historian was chosen and if a limitation is achieved then a user has the possibility to change the triple store. The combination of the Hadoop and the Jena Elephas seems to be promising solution to store big sensor data. The outlook for future work will consist of the following steps: - Conduct more performance tests with respect to number of clusters - Demonstrate using the analytic layer for decision making - Integration with upper level systems of enterprise 5 Acknowledgements This research has been supported by Rockwell Automation Laboratory for Distributed Intelligent Control (RA-DIC) and by institutional resources for research by the Czech Technical University in Prague, Czech Republic. References 1. GE Intelligent Platforms: The Rise of Industrial Big Data. Whitepaper (2012) 2. Singh, S., Singh, N.: Big Data analytics. In 2012 International Conference on Communication, Information & Computing Technology (ICCICT), Mumbai, India. IEEE Press (2012) 3. Euzenat, Jérôme, and Pavel Shvaiko. Ontology matching. Vol Heidelberg: Springer, Lefort, Laurent, et al. "Semantic sensor network XG final report." W3C Incubator Group Report 28 (2011). 5. Berthold, Michael R., et al. "KNIME: The Konstanz information miner." Data analysis, machine learning and applications. Springer Berlin Heidelberg, Anil, Robin, Ted Dunning, and Ellen Friedman. Mahout in action. Shelter Island: Manning, 2011.

69 Analýza vplyvu redukcie dimenzionality na zhlukovanie veľkých dátových množín Peter LAURINEC, Mária LUCKÁ Ústav informatiky a softvérového inžinierstva, FIIT STU v Bratislave Ilkovičova 3, Bratislava peter.laurinec@stuba.sk, maria.lucka@stuba.sk Abstrakt. Predložená práca sa zaoberá problémom zhlukovania vysokodimenzionálnych dátových množín. Opisujeme možnosti využitia predspracovania takýchto dát pomocou techník na redukciu dimenzionality. Analyzujeme rôzne metódy redukcie ako PCA (Principal Component Analysis), robustné verzie PCA, ICA (Independent Component Analysis), mnohorozmerné škálovanie a t-sne (tdistributed Stochastic Neighbor Embedding). Zaujímajú nás dva dôležité faktory, ktoré odzrkadľujú vplyv takto predspracovaných dát na zhlukovanie. Sú nimi rýchlosť výpočtov zhlukovacích algoritmov a kvalita zhlukovania. Okrem rôznych metód redukcie dimenzionality a počtu výsledných dimenzií porovnávame aj rôzne zhlukovacie metódy ako K-means, K-medoids a analýzu zhlukov založenú na normálnom modeli. Predkladáme metodológiu, ako viesť a vyhodnocovať experimenty na veľkých a vysoko-dimenzionálnych dátových množinách. Klíčová slova: vysoko-dimenzionálne dáta, redukcia dimenzionality, analýza zhlukov. 1 Úvod Veľkosť a zložitosť dát získaných z vedeckých a komerčných projektov rastie exponenciálnou rýchlosťou. Hľadanie vzorov a trendov v týchto dátach je momentálne veľmi dôležité na vytváranie rozhodnutí [5]. Jednou z najpoužívanejších a najmodernejších metód získavania vzorov, aj bez výskytu apriórnej informácie o možných vzoroch, je analýza zhlukov. Hľadanie zhlukov je vo veľkých a zložitých dátových množinách jedna z najdôležitejších úloh analýzy dát. Vo všeobecnosti, úlohou analýzy zhlukov je zoskupiť sadu objektov v takom zmysle, že objekty v rovnakej skupine (zhluk) sú si viac podobné, ako tie, ktoré sú v iných skupinách (zhlukoch) [11]. Veľké a zložité dátové množiny sa vyznačujú dvoma hlavnými parametrami. Veľkým množstvom objektov (počet objektov ozn. N) a vysokou dimenzionalitou (počet dimenzií ozn. p). Klasické zhlukovacie metódy majú problém s oboma parametrami. Metódy založené na centroidoch, teda K-means a K-medoids, majú hlavne problém s veľkým počtom objektov, keďže minimalizujú vzájomné vzdialenosti medzi objektami (výpočet matice nepodobností veľkosti N x N). Naopak, metódy založené na pravdepodobnostných modeloch, napr. na normálnom, majú problém s vysokou dimenzionalitou, keďže minimalizujú determinant kovariančnej matice (kovariančná matica má veľkosť p x p). Predstavme teraz niektoré metódy z literatúry, ktoré sa snažia vysporiadať s danými problémami a zrýchľujú klasické algoritmy. Tieto techniky a metódy sú spravidla vykonávané na jednom počítači. Známou technikou vysporiadania sa s veľkým počtom objektov je technika odberu vzoriek (t.j. zhlukovanie na podmnožine). Zhlukovacie M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

70 56 Analýza vplyvu redukcie dimenzionality na zhlukovanie veľkých dátových množín algoritmy založené na tejto technike sú namiesto zhlukovania celej dátovej množiny vykonávané na vzorke dátovej množiny (podmnožine) a potom výsledky zovšeobecňujú na celú množinu. Algoritmus PAM (Partition Around Medoids), teda metódu K-medoids, zrýchľujú dva takéto prístupy: CLARA a CLARANS [10]. Podobné metódy, ktoré využívajú hlavne hierarchické zhlukovanie (vytváranie dendogramu), sú BIRCH a CURE [3, 6]. Metódy zhlukovania, ktoré riešia vysokú dimenzionalitu sa nazývajú korelačné [10, 14]. Využívajú techniky, ktoré pôvodné dáta transformujú do podpriestoru a potom naň aplikujú zhlukovacie algoritmy. Teda redukujú dimenzionalitu dát, aby sa zmenšila výpočtová náročnosť. V literatúre sa spomínajú postupy, pri ktorých sa okrem zrýchlenia zlepšila aj kvalita zhlukovania. V dvoch podobných publikáciách využívajú metódu hlavných komponentov (PCA) na skvalitnenie zhlukovania pomocou K-means [7, 19]. V spomenutých prácach však chýbajú dôkladnejšie overenia na rôznych dátových množinách a rôzne miery validácie zhlukovania. V ďalšej práci sa overujú viaceré techniky redukcie dimenzionality na dopad zhlukovania pomocou K-means, validácia prebieha na jednej dátovej množine pri rôznych mierach kvality zhlukovania [18]. V tejto práci navrhujeme postup analýzy zhlukov, ktorá okrem vyriešenia problému výpočtovej náročnosti, zlepšuje aj kvalitu zhlukovania. Našou hypotézou je, že existuje taká podmnožina objektov a taký podpriestor dimenzií, na ktorých sa dajú úspešne aplikovať jednoduché zhlukovacie algoritmy, ako napríklad K-means, K-medoids a analýza zhlukov založená na normálnom modeli. Pod úspechom rozumieme teda zrýchlenie výpočtov a lepšie výsledky mier kvality (validity) zhlukovania. 2 Metódy analýzy zhlukov a redukcie dimenzionality V tejto časti stručne predstavíme základné metódy analýzy zhlukov, metódy redukcie dimenzionality a miery validácie zhlukovania. 2.1 Analýza zhlukov Základné rozdelenie zhlukovacích metód (podľa cieľa, ku ktorému smerujú) je rozdelenie na hierarchické a nehierarchické. Hierarchické zhlukovanie je viacúrovňové rozdelenie množiny dát. Je to akési vetvenie klasifikácie. Nehierarchické zhlukovanie je tvorené rozdelením základnej množiny dát na systém podmnožín (nazývaných zhluky), kde prienik zhlukov je prázdna množina, ide teda o disjunktné množiny. My sa ďalej venujeme len metódam nehierarchického zhlukovania. Tie sa dajú rozdeliť na metódy založené na centroidoch, pravdepodobnostných modeloch, hustote a mriežke. Najznámejším zhlukovacím algoritmom je určite K-means, jeho cieľom je rozdeliť N pozorovaní do k zhlukov, v ktorom každé pozorovanie patrí do zhluku s najbližším centroidom, ktorý je reprezentantom zhluku. Optimalizačné kritérium roztriedenia objektov do zhlukov je založené na minimalizácii súčtu štvorcov euklidovskej vzdialenosti medzi každým objektom zhluku a prislúchajúcim centroidom. Metóda K-medoids je veľmi podobná metóde K-means. Namiesto centroidov sa tu používajú medoidy. Medoid je najstrednejší objekt zhluku, alebo inak povedané, najlepší reprezentant zhluku. Práve preto môžeme používať len vzájomné vzdialenosti (resp. nepodobnosti) medzi objektami. Cieľom je nájsť zhlukovanie, ktoré minimalizuje súčet nepodobností medzi objektom v zhluku a prislúchajúcim medoidom. Výhody vyššie spomínaných metód sú, že sú ľahko pochopiteľné a rýchlo skonvergujú k dobrému riešeniu pri konečnom počte iterácií. K-medoids je k tomu menej citlivý na odľahlé pozorovania. Nevýhodou týchto metód je, že nedokážu nájsť zhluky nekonvexných tvarov.

71 Poster prezentovaný na konferenci 57 Modernejšou metódou zhlukovania je analýza zhlukov založená na normálnom modeli [12]. Cieľom je nájsť optimálne roztriedenie do zhlukov pomocou metódy maximálnej vierohodnosti. Čiže maximalizujeme vierohodnosť súčinu hustôt p-rozmerného normálneho rozdelenia. Výsledná optimalizačná funkcia pozostáva z determinantu kovariančných matíc zhlukov. Najväčšia výhoda tejto metódy je, že dokáže nájsť zhluky v zhlukoch, prekrývajúce sa zhluky a rôzne eliptické tvary. Nevýhodou je väčšia výpočtová náročnosť a zložitosť metódy. 2.2 Metódy redukcie dimenzionality Metódy redukcie dimenzionality sa dajú rozdeliť na dve veľké skupiny. Lineárne a nelineárne, alebo odľahčene povedané na tie, ktoré hľadajú v dátach normalitu a nenormalitu. Spoločným motívom týchto metód je zoskupiť čo najviac informácie (variancie) v dátach do čo najmenšieho počtu dimenzií. Typickým predstaviteľom lineárnej transformácie dát je analýza hlavných komponentov (PCA) [17]. Normalizované dáta v tejto metóde sú transformované pomocou vlastných vektorov výberovej kovariančnej matice. Iným prístupom, ale s rovnakým výsledkom, je použitie singulárneho rozkladu matice (SVD) [13]. Tento prístup je menej výpočtovo náročný a využíva sa vo väčšine softvérových nástrojov. Zlepšenou metódou PCA je jej robustná verzia (ROB.PCA). Je založená na mediánoch a robustných kovariančných maticiach, čiže sa vie lepšie vysporiadať s odľahlými pozorovaniami v dátovej množine. Lineárnou metódou je aj klasické mnohorozmerné škálovanie (MDS) [17]. Pre túto metódu je potrebné vypočítať maticu nepodobností. Táto metóda je v základe veľmi podobná PCA a dáva za určitých podmienok normalizácie identické výsledky. Nelineárnou verziou tejto metódy je Kruskalovo nemetrické mnohorozmerné škálovanie (ISO.MDS). Zaujímavou metódou nelineárnej redukcie dimenzionality je analýza nezávislých komponentov (ICA) [8]. Princípom tejto metódy je transformovať vysokodimenzionálne dáta do nezávislých nenormálnych (tzv. negaussovských) dimenzií. V poslednej dobe veľmi používanou metódou je t-sne (t-distributed Stochastic Neighbor Embedding) [20]. Princípom tejto metódy je priradiť každej dvojici objektov pravdepodobnosť zo Studentovho t-rozdelenia a transformovať dáta na základe ich entropie. t-sne dokáže transformovať vysoko dimenzionálne dáta do 2D tak, aby možné skupiny v dátach boli čo najviac oddelené. Menšou nevýhodou tejto metódy je jej stochastickosť, čiže každým spustením algoritmu dostaneme (trochu) iný výsledok. Vizualizácia niektorých techník redukcie dimenzionality s porovnaním s pôvodnými dátami je na Obrázkoch 1 a 2. Čas (angl. Time) je uvedený na x-ovej osi v dňoch. Dôležitým aspektom použiteľnosti takto transformovaných dát na zhlukovanie je výber počtu komponentov (zredukovaných dimenzií). Existujú viaceré heuristické a štatistické metódy správneho výberu počtu dimenzií [9]. Najjednoduchšími sú napríklad vizualizácia vlastných čísel hlavných komponentov do lakťového diagramu (v bode zlomu je optimálny počet komponentov) alebo relatívny pomer vlastných čísel komponentov (napr. viac ako 80 % variancie musia obsahovať zvolené komponenty). 2.3 Validácia zhlukovania Používanými mierami validácie zhlukovania sú interná, externá a relatívna. Interná sa vyhodnocuje len na základe hodnôt z dátovej množiny a jej roztriedenia do zhlukov. Externé miery sú založené na porovnávaní zhlukovania so známym roztriedením objektov do zhlukov (preddefinované - známe skupiny). Relatívne miery porovnávajú výsledky zhlukovania viacerých algoritmov medzi sebou.

72 58 Analýza vplyvu redukcie dimenzionality na zhlukovanie veľkých dátových množín Obrázok 1 Pôvodné dáta z bezdrôtového senzoru. Počet pozorovaní N = V literatúre sa nachádza veľa porovnaní týchto mier [15]. My sme vybrali k validácii štyri interné miery, ktoré sa hodia pre nami vybrané zhlukovacie metódy. Sú nimi Silhouette [16], Dunn index [4], Baker-Hubertov Gamma index [1] a Banfield-Raftery index [2]. Aby sme obmedzili invariantnosť týchto mier, odporúčame normalizovanie dátových množín (projekcií) pred začatím výpočtov internej validácie. 3 Návrh metódy overovania analýzy zhlukov V ďalšom opíšeme v krokoch postup overovania navrhnutej metódy analýzy zhlukov využívajúcej výber vzoriek z dátovej množiny a redukciu dimenzionality. 1. Načítanie dátovej množiny (matice) veľkosti N x p. 2. Normalizácia dátovej množiny. 3. Výber náhodnej vzorky (podmnožiny) dát. 4. Použitie techník redukcie dimenzionality (PCA, PCA.ROB, ISO.MDS, ICA, t- SNE) na požadovaný počet dimenzií (1,..., p-1). 5. Vykonanie zhlukovania na preddefinovaný počet zhlukov k (K-means, K- medoids, analýza zhlukov založená na normálnom modeli). 6. Normalizácia projekcií. 7. Interná validácia zhlukovania (Silhouette, Dunn, Gamma, Banfield_Raftery). Uloženie výsledkov do pamäte. 8. Späť na krok 3, pokým nie je prekročený počet iterácií validácie. 9. Sumarizácia (spriemerovanie) dosiahnutých výsledkov internej validácie.

73 Poster prezentovaný na konferenci 59 Obrázok 2 Redukcia náhodnej vzorky 4D dát na 2D pomocou vybraných metód. 4 Záver V práci sme opísali známe metódy využitia výberu vzoriek a redukcie dimenzionality zhlukovania. Opísali sme jednotlivé metódy analýzy zhlukov, redukcie dimenzionality a načrtli ich možné výhody a nevýhody. Navrhli sme postup overovania kvality predstavenej metódy. Výber najvhodnejšej metódy redukcie dimenzionality bude závisieť od dosiahnutých výsledkov internej validácie zhlukovania a od jej výpočtovej náročnosti. Experimenty chceme vykonať na verejne dostupných veľkých dátových množinách. Príkladmi sú dáta z bezdrôtových senzorov na meranie teploty a iných fyzikálnych parametrov, génové expresie (microarray) a pod. Poďakovanie. Publikácia vznikla vďaka podpore projektov ITMS: a VG 1/0752/14. Literatúra 1. Baker, F., and Hubert, L Measuring the power of hierarchical cluster analysis. Journal of the American Statistical Association Banfield, J.D., Raftery, A. E., (1993): Model-based Gaussian and Non-Gaussian clustering. Biometrics, 49, pp Baser, P., Saini, J.,R.: A Comparative Analysis of Various Clustering Techniques used for Very Large Datasets. International Journal of Computer Science 3 (2014) Calinski, T., Harabasz, J. : A dendrite method for cluster analysis. Communications in Statistics, 3, no. 1:1-27, Cordeiro, R.L.F., Faloutsos, Ch., Traina Jr, C.: Data Mining in Large Sets of Complex Data Springer, 2013.

74 60 Analýza vplyvu redukcie dimenzionality na zhlukovanie veľkých dátových množín 6. Fahad, A., Alshatri, N., Tari, Z. a kol.: A Survey of Clustering Algorithms for Big Data: Taxonomy and Empirical Analysis. IEEE Transaction on Emerging Topics in Computing 2 (2014) George, A.: Efficient High Dimension Data Clustering using Constraint-Partitioning K- Means Algorithm. The International Arab Journal of Inf. Tech. 10 (2013) Hyvärinen, A., Oja, E.: Independent Component Analysis: Algorithms and Applications. Neural Networks 13 (2000) Jackson, D.,A.: Stopping Rules in Principal Components Analysis: A Comparison of Heuristical and Statistical Approaches. Ecology 74 (1993) Kriegel, H.,P., KröGer, P., Zimek, A.: Clustering High-Dimensional Data: A Survey on Subspace Clustering, Pattern-Based Clustering, and Correlation Clustering. ACM Trans. Knowl. Discov. Data. 3, (2009) Laurinec, P., Harman, R.: Analýza zhlukov založená na pravdepodobnostných modeloch, Univerzita Komenského, Laurinec, P.: Application of genetic algorithm on model-based cluster analysis. In IIT.SRC 2015, Student Research Conference 1 (2015) Leskovec, J., Rajaraman, A., Ullman, J.,D.: Mining of Massive Datasets Stanford University, Parsons, L., Haque, E., Liu, H.: Subspace clustering for high dimensional data: a review. SIGKDD Explor. Newsl. 6 (2004) Rendón, E., Abundez, I., Arizmendi, A., Quiroz, E.,M,: Internal versus External cluster validation indexes. International Journal Of Computers And Comm. 5 (2011) Rousseeuw, P.J. : Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20:53-65, Seber, G., A., F.: Multivariate Observations, Wiley-Interscience, Soni, N., Choubey, A.: A Survey on Effect of Dimensionality Reduction Techniques on Data Clustering. International Journal of Advanced Research in Computer Science and Software Engineering 3 (2013) Tajunisha, Saravanan: An efficient method to improve the clustering performance for high dimensional data by Principal Component Analysis and modified K-means. International Journal of Database Management Systems 3 (2011) van der Maaten, L.,J.,P., Hinton, G.,E.: Visualizing High-Dimensional Data Using t- SNE. Journal of Machine Learning Research 9 (2008) Annotation: This paper describes the problem of clustering high-dimensional data sets. We introduce the possibility of pre-processing data by dimensionality reduction techniques and analyze different reduction methods such as PCA (Principal Component Analysis), robust version of PCA, ICA (Independent Component Analysis), multidimensional scaling and t-sne (tdistributed Stochastic Neighbor Embedding). Speed calculations of clustering algorithms and clustering quality, the two factors that reflect the main influence of data pre-processing to the clustering, are the main part of our research. In addition to various methods of dimensionality reduction and selection of dimensions, we compare various methods of clustering such as K-means, K-medoids and model based clustering. We present the methodology of how to conduct and evaluate experiments with large and high-dimensional data sets.

75 Gephi Nástroj na vizualizáciu a interpretáciu grafov Ján Genči Katedra počítačov a informatiky, FEI TU v Košiciach, Letná 9, Košice genci@tuke.sk Abstrakt. Príspevok prezentuje možnosti systému Gephi pre interaktívnu vizualizáciu grafov. V úvode všeobecne charakterizuje problematiku vizualizácie dát, špecifikuje triedy vizualizovaných dát a kategórie interakcií. Pre oblasť vizualizácie grafov uvádza možnosť aplikácie grafov ako modelov pre rôzne aplikačné domény a špecifikuje základné kroky vizualizácie grafov. Na príklade grafu kľúčových slov súboru článkov ilustruje postup vizualizácie grafov prostredníctvom systému Gephi. Klíčová slova: vizualizácia dát, vizualizácia grafov, Gephi 1 Úvod Zber, spracovanie a interpretácia dát boli v minulosti zvyčajne doménou vedcov napr. pokusy Galileo Galilea ohľadom voľného pádu telies. Tieto pokusy viedli k odhaleniu zaujímavých zákonitostí, v niektorých prípadoch dokonca umožnili formuláciu fundamentálnych zákonov prírody. Naplánovaním experimentu, jeho realizáciou a vyhodnotením dát vedci v minulosti realizovali systematický postup k transformácii dát na informácie, znalosti a dokonca aj tzv. múdrosť (wisdom), v zmysle informačnej pyramídy DIKW [1]. Nástup informačných systémov, cieľom nasadenia ktorých bola predovšetkým automatizácia a sproduktívnenie procesov realizovaných v organizácii (transakčné spracovanie) viedol k postrannému efektu zberu a uchovávaniu dát. Netrvalo dlho a potenciál dát zozbieraných a uložených spravidla v databázových systémoch, začal byť využívaný na spracovanie rôznych typov analýz (analytické spracovanie) - pokus o premenu týchto dáta na informácie, prípadne znalosti. Rozvoj technológií a ich všadeprítomné nasadenie vedie k stále väčšiemu a väčšiemu hromadeniu dát. Čiastočne je to zrejme spôsobené aj tým, že veríme v potenciál uchovávaných dát v zmysle možností DIKW transformácií, teda že uložené dáta nám môžu poskytnúť nové informácie, možno aj znalosti. Zmeny v oblasti spracovania dát možno najlepšie vyjadrujú frekventovane používané termíny. V tomto zmysle sme sa posunuli od v minulosti bežne používaných termínov typu - databázové spracovanie, transakčné spracovanie, analytické spracovanie, k, v súčasnosti, veľmi módnym a často používaným termínom data engineering, data analytics, big data, data science. Ako zaujímavosť uveďme, že časopis Harward Bussiness Review v októbri 2012 opublikoval príspevok Data Scientist: The Sexiest Job of the 21 st Century [2]. M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

76 62 Gephi Nástroj na vizualizáciu a interpretáciu grafov 2 Vizualizácia dát Dátová analýza je veľmi široký pojem, ktorý v sebe zahŕňa celý rad prístupov počnúc extrakciou dát z relevantných zdrojov, ich transformáciou, štatistické spracovanie dát, až po objavovanie znalostí (data mining, knowledge discovery) založenom napr. na neurónových sieťach, resp. metódach strojového učenia (machine learning). Veľmi dôležitým aspektom všetkých týchto prístupov je vizualizácia dát. V [3] autori definujú vizualizáciu ako proces doručovania informácií prostredníctvom ich grafického zobrazovania. Výhodu takého prístupu uvádzajú autori v [4] - pohľad na vizualizované dáta v podobe nejakého grafu poskytne ďaleko väčšiu predstavu o charaktere dát ako dáta samotné, resp. akákoľvek ich následná numerická transformácia. Keim v [5] zdôrazňuje výhody vizuálnej inšpekcie dát oproti metódam založeným na štatistickom spracovaním resp. strojovom učení. Špecifikuje triedy vizualizovaných dát: - jednorozmerné; - dvojrozmerné; - viacrozmerné; - texty a hypertexty; - hierachie a grafy; - algoritmy a softvér. Vizualizácia dát môže byť statická alebo interaktívna. Autori v [6] rozlišujú nasledujúce kategórie interakcií: - selekcia/výber (select): označ ako zaujímavé; - preskúmanie (explore): ukáž mi niečo iné; - rekonfigurácia (reconfigure): ukáž mi iné usporiadanie; - prekódovanie (encode): ukáž mi inú reprezentáciu; - zúž/rozviň (abstract/elaborate): Ukáž mi menej alebo viac detailov; - filter: ukáž mi niečo podmienečne; - prepojenie (connection): ukáž mi súvisiace položky. Na vizualizáciu dát existuje celý rad prostriedkov, počnúc jednoduchými jednoúčelovými programami, cez možnosti vizualizácie dát tabuľkovými procesormi (Open Office, Excel), až po špecializované systémy ako súčasť rozsiahlych štatistických balíkov (napr. MATLAB [7], R [8]). 3 Vizualizácia grafov V širšom zmysle slova je pojem graf vnímaný pomerne široko (viď kodifikačná príručka slovenčiny 1 ): schematické znázornenie údajov, vzťahov, priebehu procesu a javu, postupov a pod.; syn. diagram. V diskrétnej matematike graf predstavuje formalizmus pozostávajúci z vrcholov, hrán a funkcie, ktorá priraďuje hrany jednotlivým vrcholom. Tento formalizmus je dlhodobo študovaný matematikmi a poskytuje široké možnosti modelovania rôznych oblastí ľudskej činnosti, či procesov prebiehajúcich v prírode (napr. interakcia proteínov). Autori v [9] uvádzajú možnosti využitia grafov na modelovanie: - vzťahov (relationships); - hierarchií (hierarchies); - komunít (communities); - tokov (flows); - priestorových sietí (spatial networks). 1

77 Poster prezentovaný na konferenci 63 Špeciálne pre vizualizáciu grafov a skúmanie ich vlastností existuje celý rad špecializovaných nástrojov. V [9] je ako príklad uvedených niekoľko takýchto systémov: - Gephi Java aplikácia pre vizualizáciu grafov pre všeobecné použitie; - Cytoscape Java aplikácia pre vizualizáciu grafov, pôvodne určená pre oblasť vizualizácie biologických dát; - yed free verzia komerčného produktu; - NodeXL excel plugin poskytujúci grafovú funkcionalitu pre analýzu a vizualizáciu sociálnych sietí; - D3.js Javascript knižnica umožňujúca interaktívnu vizualizáciu dát v prehliadačoch (založená na vektorovej grafike); Pre veľmi rozsiahle grafy (oblasť Big Data) boli vyvinuté špecializované, tzv. grafové databázové systémy (napr. Neo4j, Titan), ktoré môžu byť využité pre spracovanie rozsiahleho súboru grafových dát na pozadí a ich výstup je použitý ako zdroj dát pre vizualizačný nástroj. Proces vizualizácie grafov pozostáva zo štyroch základných krokov [9]: - extrakcia, čistenie a transformácia dát a import dát; - rozmiestnenie uzlov a hrán (layout) tak, aby sa zdôraznili vlastnosti grafu; - pridanie vizuálnych atribútov veľkosť uzlov, šírka hrán, ich farebne odlíšenie, vizualizácia niektorých doplnkových atribútov; - interakcia/skúmanie interaktívna práca s grafom (vnáranie sa do detailov, vynáranie sa pre získanie nadhľadu, filtrovanie, určenie štatistických a iných charakteristík ako napr. uzly grafu, diameter grafu,...). 4 Gephi Gephi 2 (Obr. 1) je open source programový systém, určený na interaktívnu vizualizáciu grafov. V zmysle uvedeného vyššie, Gephi poskytuje možnosť importu predspracovaných dát (vo forme.csv súborov) prostredníctvom modulu Data laboratory, následne je možné manuálne alebo (polo)automaticky nastaviť veľkosť a/alebo farbu uzlov a hrán (vľavo hore, záložka Ranking), spustiť automatické rozmiestňovanie uzlov a hrán na ploche zobrazenia podľa vybraného algoritmu a nastavených parametrov (vľavo dole, záložka Layout). Vpravo hore je možné vidieť aktuálny stav počtu uzlov a hrán. Záložka Statistics vpravo dole umožňuje spočítať niektoré štatistické ukazovatele resp. parametre aktuálneho grafu. Záložka Filtering (vedľa záložky Statistics), umožňuje ovplyvňovať aktuálne zobrazenie grafu na základe hodnôt (alebo rozsahov hodnôt) rôznych atribútov asociovaných s uzlami alebo hranami a topológie grafu. Centrálne okno je určené na interaktívnu prácu s grafom pomocou súboru nástrojov umiestnených na lištách vľavo a dole. 5 Vizualizácia kľúčových slov databázy PubMed Pre ilustráciu práce s programom Gephi sme sa rozhodli prostredníctvom grafu vizualizovať sieť kľúčových slov, ktoré boli explicitne špecifikované ako kľúčové slová v článkoch evidovaných v databáze PubMed 3 obsahujúcich pojem breast cancer. Uzlom grafu sú jednotlivé kľúčové slová, hrana označuje, že sa dané kľúčové slová (uzly), vyskytli

78 64 Gephi Nástroj na vizualizáciu a interpretáciu grafov v jednom článku. Doplňujúcimi atribútmi pre uzly boli frekvencie výskytu kľúčových slov za jednotlivé roky a celkové frekvencie, u hrán ich celková početnosť. Obr. 1 Základný vzhľad programu Gephi (po importovaní dát) Extrakcia dát bola vykonaná z dát (formát XML) exportovaných na stránke PubMed-u a transformovaná do podoby požadovanej systémom Gephi. Na obrázku Obr. 2 sú uvedené kópie častí obrazoviek, ktoré ilustrujú prácu so systémom Gephi. Obr. 2 a) ilustruje stav zobrazenia grafu po importe údajov. Prezentovaný graf pozostáva z uzlov a hrán. Obr. 2 b) prezentuje zobrazenie grafu po automatickom nastavení veľkosti uzlov a ich farby, na základe hodnoty atribútu reflektujúceho početnosť uzlov. Obr. 2 c) ilustruje stav zobrazenia grafu po aplikácii jedného z dostupných algoritmov pre automatické rozmiestnenie uzlov (layout) a Obr. 2 d) ilustruje zobrazenie po aplikácii filtra zobrazujú sa iba uzly (a im zodpovedajúce hrany), ktoré sa vyskytujú viac ako 88-krát. Systém umožňuje priebežne meniť prakticky všetky potrebné atribúty grafu, to všetko počas interaktívnej práce. Zaujímavou je možnosť pribežne meniť napr. interval hodnôt pre výber uzlov grafu, kedy je možné priebežne pozorovať, ako hodnota zvoleného parametra vplýva na zobrazenie grafu. 6 Záver Cieľom príspevku bolo ilustrovať možnosti prezentácie grafov prostredníctvom systému Gephi. Možnosti systému sme prezentovali na základe grafu kľúčových slov medicínskych článkov z databázy PubMed týkajúcich sa rakoviny prsníka (výber na PubMed-e: breast cancer). Možnosti systému s uvedenými dátami boli prezentované medikom, výsledok

79 Poster prezentovaný na konferenci 65 získal pozitívnu odozvu. Uvedeným spôsobom je, samozrejme, možné vizualizovať kľúčové slová z akejkoľvek množiny publikácií. V budúcnosti plánujeme spracovanie rozšíriť na úroveň abstraktov, prípadne celých článkov, čo si však už vyžiada aj lingvistické predspracovanie textov. Zaujímavým sa javí aj možnosť vizualizácie citácií, či už samotných autorov, alebo aj diel. Celkovo naše skúsenosti so systémom hodnotíme pozitívne. Snáď jediným nedostatkom je pomerne dlhá odozva systému pri niektorých operáciách v prípade spracovania veľkých grafov. a) b) c) d) Obr. 2 Postup spracovania grafu v systéme Gephi

80 66 Gephi Nástroj na vizualizáciu a interpretáciu grafov Poďakovanie Táto práca bola podporená Agentúrou na podporu výskumu a vývoja na základe zmluvy č. APVV a Kultúrnou a edukačnou grantovou agentúrou Ministerstva školstva SR projektom 062TUKE-4/2013. Literatúra 1 Jennifer Rowley: "The wisdom hierarchy: representations of the DIKW hierarchy" Journal of Information Science, vol. 33, no. 2, pp , Thomas Davenport and D.J. Patil: "Data Scientist: The Sexiest Job of the 21st Century" Harward Bussiness Review, October Matthew O. Ward, Georges Grinstein, and Daniel Keim: Interactive Data Visualization: Foundations, Techniques, and Applications, Second Edition (360 Degree Business): A K Peters/CRC Press, Alan Agresti and Christine Franklin: Statistics: The Art and Science of Learning from Data (3rd Edition.: 2012, Pearson. 5 D.A. Keim: "Information visualization and visual data mining" Visualization and Computer Graphics, IEEE Transactions on, vol. 8, no. 1, pp. 1-8, January-March Youn ah Kang, John T. Stasko, and Julie A. Jacko Ji Soo Yi: "Toward a Deeper Understanding of the Role of Interaction in Information Visualization" IEEE Trans. Visualization and Computer Graphics, vol. 13, no. 6, pp , November- December Nivedita Majumdar and Swapnonil Banerjee: MATLAB Graphics and Data Visualization Cookbook (Quick Answers to Common Problems): Packt Publishing, Atmajitsinh Gohil: R Data Visualization Cookbook: Over 80 Recipes to Analyze Data and Create Stunning Visualizations with R. Birmingham, UK: Packt Publishing, Richard Brath and Jonker David: Graph Analysis and Visualization: Discovering Business Opportunity in Linked Data: Wiley, Christoph Korne: Data Visualization with D3 and AngularJS: Packt Publishing, Annotation: The paper presents the possibility of system/application Gephi for interactive visualization of graphs. It generally characterizes data visualization, particularly in the context of Big Data. It specifies categories of visualized data and categories of interactions. It presents possibilities of application of graphs as models for different application domains and specifies the basic steps of graph visualization. Using the example of graph of keywords of set of articles, paper illustrates the possibilities of graph visualization by Gephi.

81 Panelová diskuse

82

83 Hlavní téma panelové diskuse: Je PhD studium letadlo? Neboli: Lze v českých a slovenských podmínkách dosáhnout toho, aby doktorské studium informatiky nebylo pyramidovou hrou (letadlem), kdy profesoři a docenti doktorandy na jedné straně nezbytně potřebují, ale na druhé straně jim toho pro jejich dlouhodobé směřování nemohou mnoho nabídnout? Příklady otázek, které budou diskutovány - Je doktorské studium užitečné pro ty, kdo dlouhodobě směřují do praxe? V jakém ohledu? - Může zapojení doktoranda do řešení problémů praxe přispět ke vzniku disertace kvalitní i podle akademických měřítek, nebo je v tomto směru vždy jen distraktorem? - Zlepšují se u nás podmínky pro post-doky, kteří by po PhD rádi zůstali v akademické sféře? Moderátor doc. Ing. Vojtěch Svátek, Dr., VŠE Praha Panelisté - prof. Ing. Mária Bieliková, PhD. vedoucí výzkumné skupiny PeWe na FIT STU Bratislava, školitelka desítek doktorandů, dlouholetá organizátorka PhD sympozií na mezinárodních konferencích - prof. Ing. Václav Hlaváč, CSc. zakladatel i současný vedoucí Centra strojového vnímání FEL ČVUT, školitel 16 doktorandů s obhájenou PhD prací, člen několika oborových rad DS, mj. Umělá inteligence a biokybernetika a Řídící technika a robotika na FEL - doc. RNDr. Ing. Marcel Jiřina, Ph.D. proděkan pro vědu a výzkum FIT ČVUT, Praha, působící i v Inovacentru ČVUT a dříve na FBMI ČVUT, vedoucí akademických výzkumných týmů a zakladatel spin-off firem M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

84 70 Hlavní téma panelové diskuse: Je studium PhD letadlo? - RNDr. Jiří Materna, Ph.D. vedoucí výzkumu v Seznam.cz, souběžně s touto pozicí absolvoval doktorské studium informatiky na MU Brno, obhájeno prof. Ing. František Plášil, DrSc. předseda oborové rady oboru Softwarové systémy na MFF UK, zakladatel Katedry distribuovaných a spolehlivých systémů, školitel 20 doktorandů, kteří úspěšně obhájili PhD práci. Souhrn Je doktorské studium užitečné pro ty, kdo dlouhodobě směřují do praxe (případně v ní už jsou)? V jakém ohledu? Bieliková: Informatické PhD studium by mělo být primárně pro praxi. Pojetí studia by tomu mělo být přizpůsobeno, protože varianta zůstat v akademické sféře je spíš sekundární. A to, že někdo úspěšně projde náročným cyklem doktorského studia, prokazujícím schopnost abstraktního myšlení a rozhodování, mu pak dává předpoklady úspěšně řešit i problémy v praxi. V zahraničí je proto při nástupu do praxe ukončené PhD studium vnímáno jako pozitivní prvek. Jiřina: Užitečnost PhD studia pro praxi má rostoucí tendenci. Materna: Ano, ale nelze studovat jen kvůli titulu toto se liší od studia magisterského. V prostředí českých firem PhD titul velký význam nemá. Doktorand musí mít vědu jako osobní koníček. Plášil: U těch praktických organizací, kde se realizuje špičkový vývoj, má rozhodně absolvent PhD studia výhodu a je žádán. Značná část našich absolventů odchází na takovou pozici, ovšem často do zahraničí: příklady jsou v poslední době zejména Google, dále pak ESA nebo aplikačně zaměřený výzkumný institut FZI v Karlsruhe, případně některé startupy. V tuzemsku šlo např. o GoodData, Cisco, Skype, Microsoft, SUSE Labs, IBM Watson, Oracle nebo HP. Je důležité, aby firmy věděly, že doktorandi jen nepíšou články, ale že dělají na reálných projektech, což je na praxi připravuje. Bieliková: Zájem firem je otázka času. Hodně z těch 25 let jsme promrhali, nesmíme na propojení s praxí rezignovat, i když z její strany třeba zatím není dostatečný zájem. Když už tam budou někteří lidé s PhD, budou postupně chtít nabírat další. Jak dosáhnout toho, aby doktorandi kvůli mimoškolní pracovní zátěži ze studia předčasně neodcházeli? Může zapojení doktoranda do řešení problémů praxe naopak přispět ke vzniku disertace kvalitní i podle akademických měřítek, a nebýt v tomto směru jen vynuceným distraktorem?

85 Panelová diskuse přehled 71 Hlaváč: Vedoucí pracovišť si často stěžují, že jim doktorandi utíkají do praxe. U nás ale probíhají takové odchody jen na úrovni přirozené fluktuace. Pokud pracoviště dělá dobrou vědu (tj. na světové úrovni i když se to nedaří úplně vždy), kvalitní doktorandi zůstávají. Masové odchody mohou souviset s tím, že se (mj. kvůli kapitačním platbám) někde nabírají i doktorandi, kteří pro vědu nemají předpoklady, a nemotivuje je to pak zůstat, zejména když ani samotná pracoviště někdy nevědí, co je kvalitní věda. Vědci na kvalitních pracovištích berou dobré platy, nikdo nemá podprůměrný. Pokud to tak je, bylo by třeba spíše snížit počet doktorandů, a lépe platit ty zbylé. Jiřina: Bez zapojení do praxe se doktorand zpravidla neuživí, protože nárokové stipendium je nízké. Navíc praxe nabízí dobrá, disertabilní témata. Současně se musí i škola snažit nalézt zdroje často se to podaří až poté, co doktorand, pro kterého to mělo být určeno, odejde Bieliková: Na Slovensku je situace ještě horší než v ČR školy mají méně institucionálních prostředků i méně projektů. Doktorandi musí mít motivování na jedné straně osobním zájmem o řešený výzkum, ale současně moci užívat i akademických svobod, např. nemuset být stabilně přítomni na pracovišti. Penězi komerční sféru stejně nedoženeme, nefunguje to ani v zahraničí. Pokud jde o přínos praxe pro úspěšnost disertace: doktorandi potřebují podporu z grantových projektů, a ty mívají často s praxí spojitost. Spolupráce ale většinou funguje jen ve firmě, která má sama o sobě tah na výzkum. Doktorand by měl fakticky dělat na problémech praxe, i když bude většinu času sedět na univerzitě. Hlaváč: Ano, praxe je důležitá, ovšem školitelé i doktorandi jsou rozmanití, a k jednomu cíli často vede více cest. Je hlavně třeba se nepřizpůsobovat krátkodobě platným kritériím systému hodnocení. Chvíli platí jen nejlepší časopisy, jindy zase jen aplikace do průmyslu ale je třeba dělat oboje současně, i když třeba každé na jiných pracovištích. Navíc existují i původně prakticky zaměřené práce, ze kterých časem vyplynou i kvalitní teoretické výsledky. Např. v počítačovém vidění se v 90. letech nejprve aplikovaly klasické geometrické metody, ale později tam vznikly i matematické novinky. Materna: Pro základní výzkum, který je důležitý, by zohledňování cílů z byznysu bylo svazující. Takový výzkum dělají většinou doktorandi, kteří chtějí na škole zůstat. V případě aplikovaného výzkumu je naopak nutné se od začátku opřít o motivaci z praxe a to, i kdyby už pak práce zůstala na úrovni abstraktního modelu. Ve 30 letech lze těžko bez peněz začínat kariéru, a pokud doktorand při studiu nepřičichl v praxi, už se tam zpravidla nechytí. Také platí, že by univerzita podporovaná z veřejných peněz měla sloužit společnosti, tedy vycházet z jejích potřeb. A konečně, univerzita

86 72 Hlavní téma panelové diskuse: Je studium PhD letadlo? často doktorandy není schopná přiměřeně zaplatit, takže angažovanost v praxi je pro ně jediným řešením. Problém ovšem je, že malé firmy doktorandy často berou jen jako levnou pracovní sílu, a využívají je na nepříliš odborné činnosti. Ani výzkum na zakázku komplexně zajišťovaný firmě univerzitou většinou nefunguje, protože to trvá dlouho a výsledek kvůli nedostatečné komunikaci nebývá flexibilní. Ideálním modelem je dlouhodobá spolupráce, kdy univerzita tak trochu supluje výzkumné oddělení (větší) firmy. Akademičtí experti znají state of the art, a firma naopak lépe vyřeší implementaci. Příkladem je spolupráce Seznamu s eclubem na ČVUT funguje lépe než starší inkubátory. Přínosem spolupráce s praxí pro kvalitu disertace je zejména dostupnost reálných dat. Na druhé straně, nelze očekávat, že by firma univerzitě dávala k dispozici data, aniž by z toho něco měla. Obecně: pro doktoranda, který chce po studiu jít do praxe, je praxe už při studiu nezbytná. Plášil: V tomto je zajímavý švédský model, ve kterém je PhD studium částečně (často až z 50%) financováno industriálním partnerem a téma je odvozeno z jeho vývojových aktivit (např. ABB). Studium je proto plánováno na delší dobu, 5 let místo obvyklých 4. Naopak kombinované studium pojaté tak, že doktorand řeší katederní téma odlišné od toho, co dělá v praxi, se neosvědčuje. Nelze dobře sedět na dvou židlích. Zlepšují se u nás podmínky pro post-doky, kteří by po PhD rádi zůstali v akademické sféře? Hlaváč: Post-doc je spíš krátkodobá pozice krytá z projektu. Na ně obvykle peníze jsou, problém je spíš dlohodobě pokrýt platy stálých zaměstnanců odborných asistentů. Nešťastná je v tomto ohledu atomizace prostředí, kdy se kvůli vztahům v rámci pracovišť často nedaří udržet lidi, kteří v rámci jednotlivých týmů patří mezi nejschopnější. Plášil: Ano, MFF vypisuje několik post-doc míst ročně, ale určených pro zahraniční uchazeče. Důležité je eliminovat inbreeding, budoucí odborní asistenti by proto naopak měli absolvovat post-doc pobyt na dobrém zahraničním pracovišti, ať už univerzitním nebo korporátně-výzkumném. Prospěšná je také spolupráce na mezinárodních projektech, tam je zpravidla možnost spolupracovat i s industriálními partnery, takže ani ti, kdo zůstanou v akademické sféře, nepřijdou o kontakt s praxí. Dotazy z pléna: Uplatní se absolventi opravdu díky PhD studiu, nebo jen navzdory němu? Bieliková: Toto asi nelze dokázat, ale absolvování studia může mít vliv při rozhodování, na schopnost konat.

87 Panelová diskuse přehled 73 Když je méně zájemců o studium a mnoho školitelů, neměla by být přísnější kritéria na to, kdo je školitelem, aby nedocházelo ke tříštění a bylo možné vytvořit větší pracovní skupinu? Hlaváč: Ano, problémem je, že vědecká elita je financovaná stejně jako neelita. Používaný systém je neumí dobře odlišit. Bieliková: Mělo by platit, že kdo nemá vědecké výsledky, neměl by doktorandy školit, i když je docent nebo profesor. Toto je ale velmi obtížné prosadit.

88

89 Postery prezentované na komunitním setkání

90

91 Využití DBpedie ke tvorbě strategické znalostní hry Šárka TUREČKOVÁ, Vojtěch SVÁTEK Vysoká škola ekonomická v Praze Nám. W. Churchilla 4, Praha 3 piha.piha@tiscali.cz, svatek@vse.cz Abstrakt. Příspěvek se zabývá použitelností sémantické databáze DBpedia pro automatické generování otázek vhodných pro využití ve hrách. Byly navrženy různé způsoby výběru adekvátních objektů z DBpedie a získávání a zpracování relevantních informací z nich, včetně odhadu míry známosti jednotlivých objektů. Některé postupy byly uplatněny při tvorbě programu pro pokládání znalostních otázek z dat získávaných v reálném čase z DBpedie. Možnost použití takto generovaných otázek z DBpedie pro tvorbu her byla následně ověřena pomocí návrhu, prototypu a testování znalostní strategické hry pro více hráčů. V příspěvku jsou také zmíněny hlavní problémy a možné komplikace při používání dat z koncových bodů DBpedie či DBpedie Live. Klíčová slova: DBpedia, znalostní hra, linked open data, sémantický web. 1 Úvod Propojovaná data na webu, zkráceně LOD (Linked Open Data), je způsob realizace myšlenky sémantického webu. Tato data by měla být vystavena na webu a vzájemně propojena, a to s využitím zvolených jednotných formátů, URI a RDF 1 [1]. Objem, kvalita a dostupnost propojovaných dat na webu neustále roste [2]. LOD se tak stávají obrovskou zásobárnou volně dostupných, průběžně aktualizovaných informací s možností globálního sdílení. Vzhledem k tomu se využití LOD v herním průmyslu jeví jako lákavé. Přesto je zatím spíše raritou, a lze říci, že aktuální případy her, využívajících ke svému chodu LOD, existují jen jako produkt výzkumů v oblasti spojení sémantického webu a her. Mezi ně patří především hry s účelem, které se zabývají obohacením dat sémantického webu, jako je například série OntoGame [4]. Využitím propojovaných dat ke tvorbě her se zabývá novější práce R. Warrena a E. Championa, usilující o vytvoření generalizovatelného softwarového nástroje, schopného využívat propojovaných dat na webu ke konstrukci simulací [6]. Předložený článek, vycházející z diplomové práce [5], se zabývá využitelností propojovaných dat na webu ke tvorbě znalostně zaměřených her, konkrétně, možnostmi a problémy využití sémantické databáze DBpedia ke tvorbě znalostních otázek a návrhem a prototypovou implementací zábavné strategické hry tyto otázky využívající. Všechny popisované programy jsou dostupné ke stažení na webu katedry DBpedia a její verze Live DBpedia 3 je nejznámějším představitelem propojovaných dat na webu. Tento dataset vzniká extrakcí strukturovaných informací z internetové encyklopedie Wikipedia a propojováním M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

92 78 Využití DBpedie ke tvorbě strategické znalostní hry těchto informací s dalšími znalostními zdroji. Výsledky jsou volně publikovány na webu za použití RDF a dotazovacího jazyka SPARQL. DBpedia informace publikuje dávkově ve velkém množství a vystavená data jsou často i několik měsíců stará, její verze DBpedia Live 4 tento problém řeší pomocí živé synchronizace na základě aktualizací Wikipedie [3]. 2 Generování otázek z DBpedie Na základě vlastních studií a praktických experimentů se výzkum podrobně zabýval možnostmi a problémy použití DBpedie pro automatické generování otázek. V rámci toho byly navrženy vhodné možnosti výběru a metody tvorby tematických skupin pro roztřídění objektů či definovány možné formy pokládání otázek a jejich výhody a nevýhody při použití dat získávaných z DBpedie. Popsány byly také vybrané predikáty a jejich vhodnost použití pro tvorbu otázek či odpovědí. Zde stojí za zmínku především dva téměř vždy se vyskytující predikáty: dbpedia-owl:thumbnail a rdfs:comment. První predikát nás pomocí URL odkazuje na charakteristický obrázek objektu v menší velikosti. Tento obrázek je vhodné použít při každé příležitosti, i jen jako grafický doplněk jinak textových otázek. Druhý predikát odpovídá několika prvním větám z Wikipedia článku daného objektu. Tento predikát má ale také dvě velké nevýhody a to neschopnost určení, jak velkou informaci bude daný komentář o objektu obsahovat a potřebu značně problematických úprav. Vzhledem k rozdílné významnosti jednotlivých objektů na DBpedii bylo nutné zvolit či nalézt způsob pro výběr jen nejznámějších (resp. srovnatelně známých) objektů, aby byly pro hru zajištěny spravedlivé podmínky. Byl navržen a úspěšně vyzkoušen nový způsob odhadnutí známosti objektů přímo z dat DBpedie. Jedná se o využití odkazů formou predikátu owl:sameas, vedoucích na sesterské články o daném objektu nalézajících se na Wikipediích jiných národností. Odhad významnosti pomocí počtu takových odkazů se prokázal jako dostatečně spolehlivý i pro hrubé řazení a výběr podobně významných objektů. 2.1 Vytvořené ukázky generovacích programů Některé z navržených postupů byly za účelem praktického ozkoušení použity při tvorbě dvou verzí programu pro pokládání otázek. Tvorba těchto ukázek a následného prototypu hry probíhala pomocí programovacího jazyku Java ve vývojovém prostředí Eclipse. Informace se získávaly využitím dotazovacího jazyka SPARQL, jehož použití v rámci programu bylo zajištěno díky vývojovému nástroji Jena. 5 Data se za chodu aplikace získávala přes koncový bod DBpedie či její verze Live a z lokálně uloženého RDF/XML datového souboru. Hlavními tematickými skupinami, s kterými se pracovalo, byly státy, města a různé typy osobností, menší pozornost pak byla věnována i jiným tematickým skupinám jako například vozidlům, minerálům či plemenům koček a psů. Hledání relevantních objektů patřících do jednotlivých tematických skupin bylo jednou z hlavních složek praktické části práce. Bylo zde nutné ozkoušení vícero různých způsobů odladěných pro jednotlivé tematické skupiny. Například při rozřazování osobností k různým typům je použito vyhledávání klíčových slov v názvech objektů připojených přes vybrané RDF vlastnosti: dcterms:subject a rdf:type. URI nalezených objektů byly následně uloženy v pomocném lokálním datasetu, a to včetně jejich tematických skupin a k nim relevantnímu odhadnutému pořadí dle známosti. Pomocí těchto údajů jsou pak vybírány objekty, jež se použijí ke generování otázek a odpovědí

93 Poster prezentovaný na komunitním setkání 79 V základní verzi programu se na základě vybraných a upravených informací a obrázku objektu hádá jeho název z nabízených možností. Pro vyzkoušení jiného typu odpovědí, vhodnějšího pro tematické skupiny jako zvířecí plemena a minerály, byla vytvořena i další verze programu, kde se místo z názvů objektů odpověď vybírá z obrázků. 3 Ukázková hra V rámci výzkumu využitelnosti propojovaných dat na webu ke tvorbě her byla navržena koncepce znalostní strategické tahové hry pro více hráčů. Tato hra by se mohla odehrávat na různých tematických mapách, kde by hráči pomocí svých různorodých jednotek dobývali území. Místo koupě jednotek za herní měnu se však musí správně zodpovědět na otázku k jednotce relevantní, a místo síly při střetu jednotek či dobývání území rozhodují znalosti. V případě správného zodpovězení znalostní otázky za účelem získání nějakého herního prvku si program bude pamatovat název uhodnutého objektu a jeho URI z DBpedie. Název uhodnutého objektu se pak využije jako název herního prvku (jednotky, města, území ), a následně se hráči zobrazuje při najetí myší na prvek či v různých herních hlášeních. Díky uloženým URI si hráč také bude moci kdykoliv zobrazit více informací o objektu. Obr.1. Získání města po správné odpovědi, použití jeho názvu pro získaný herní prvek, a zobrazení doplňkových informací Na základě navržené koncepce hry a je následně implementován zjednodušený prototyp této hry. Tato aplikace využívá základní verze vytvořeného programu pro pokládání otázek, kde se otázky automaticky generují z informací získávaných z DBpedie Live za chodu aplikace. V prototypu se pracuje se dvěma typy území, zastoupenými tematickými skupinami států a měst. Dále zde existuje jen jeden typ jednotek, reprezentovaný různými druhy známých osobností. Ve vytvořeném prototypu také nebyla řešena otázka komunikace hráčů přes internet, respektive ukázkový program je určen a přizpůsoben ke hře dvou hráčů přes jeden lokální počítač. Z následného testování tohoto prototypu sedmi dobrovolníky, v podobě dotazníků a pozorování, bylo zjištěno, že je hra i přes některé nedostatky hratelná a zajímavá a byl by zájem o její plnou verzi. 4 Shrnutí problémů a komplikací při využití dat DBpedie Na základě zkušeností a výsledků testování byly shrnuty hlavní problémy a komplikace využívání dat z DBpedie. Mezi ně patří například získávání dat z koncových bodů DBpedie za chodu aplikace, jež se prokázalo jako znatelně časově náročnější než jejich získání z lokálního datasetu. Tyto koncové body jsou také občas nedostupné či znatelně zpomalené. Využití DBpedie komplikuje i nedostatečné označení objektů alespoň ontologickými třídami samotné DBpedie a nedostatek vhodných popisných informací. Pro program v této práci by se hodilo především jednoznačné rozlišení pohlaví a jazykové národnosti osob.

94 80 Využití DBpedie ke tvorbě strategické znalostní hry Díky automatickému mapování z infoboxů a zaktualizovávání jen některých informací vznikají často nepřesnosti až chyby. Jde například o odlišné číselné hodnoty přiřazené ke stejné jedinečné vlastnosti, nebo o přiřazení států k vlastnosti, jejíž hodnotou má být město. Komplikované je také zpracovávání a kontrola informací. Zde se jedná především o snahu o vyčištění textu od nechtěných výrazů, jako jmen hádaných objektů a jejich různých podob. Při použití cizích obrázků si také nemůžeme být jisti jejich obsahem, zde však byly problémy jen výjimečné. 5 Závěr Na základě analýzy a práce s DBpedií jsme došli k závěru, že její využití v jejím aktuálním stavu k tvorbě her a znalostních aplikací je sice možné, ale zatím příliš pracné a nespolehlivé, vhodné spíše jen k výzkumným a experimentálním účelům. Bylo by však možné použít data z DBpedie jako kostru pro vytvoření lokálně uložených dat, následně doplněných za pomoci jiných datových zdrojů či vlastní manuální práce. Literatura 1. Berners-Lee, T.: Linked Data [online] [cit ]. Dostupné z: 2. Cyganiak, R., Jentzsch, A.: The Linking Open Data cloud diagram [online] [cit ]. Dostupné z: 3. Morsey, M., Lehmann, J., Auer, S., Stadler, C., Hellmann, S.: DBpedia and the live extraction of structured data from Wikipedia. Program: Electronic library and information systems, Vol. 46 Iss: 2 (2012) Siorpaes, K., Hepp, M.: Games with a Purpose for the Semantic Web. In: IEEE Intelligent Systems [online] [cit ]. Dostupné z: 5. Turečková, Š.: Využití propojených dat na webu ke tvorbě strategické znalostní hry. Praha, Diplomová práce. Vysoká škola ekonomická v Praze. Fakulta informatiky a statistiky. 6. Warren, R., Champion, E.: Linked Open Data Driven Game Generation. In: The Semantic Web ISWC 2014: 13th International Semantic Web Conference, Springer Inter-national Publishing, Riva del Garda, Italy (2014) Annotation: Using DBpedia to create a strategic (knowledge) game The paper addresses the usage of DBpedia for automatic question generation suitable for use in games. Appropriate ways of selecting wanted objects from DBpedia and ways of obtaining and processing relevant information from them were proposed, including a method for estimating renown of individual objects. Some of the methods are applied to create a program for a question generation from the data obtained through DBpedia during the run of the application. The real possibility of using these questions generated from DBpedia for gaming purposes is subsequently proved by the design, prototype and tests of a knowledge strategic multiplayer game. The paper also mentoins major issues and possible complications from using the data obtained through DBpedia or DBpedia Live endpoints.

95 Moderné informetrické metódy hodnotenia vedeckého výskumu Dalibor FIALA 1, Martin DOSTAL 1, Ján PARALIČ 2, Gabriel TUTOKY 2, Cecília HAVRILOVÁ 2 1 Katedra informatiky a výpočetní techniky, FAV ZČU v Plzni Univerzitní 2732/8, Plzeň dalfia@kiv.zcu.cz, madostal@kiv.zcu.cz 2 Katedra kybernetiky a umelej inteligencie, FEI TU v Košiciach Letná 0, Košice jan.paralic@tuke.sk, gabriel.tutoky@tuke.sk, cecilia.havrilova@tuke.sk Abstrakt. Hlavným cieľom tohto príspevku je informovať o bilaterálnom Česko- Slovenskom výskumnom projekte zameranom na analýzu súčasných, ako aj návrh a overenie nových scientometrických ukazovateľov, vychádzajúcich z metód analýzy citačných sietí a metód dolovania znalostí z textov. V rámci metód založených na analýze sietí je pritom hlavná pozornosť venovaná možnostiam adaptácie algoritmu PageRank pre potreby uvedeného cieľa. V rámci metód založených na použití dolovania znalostí z textov ide predovšetkým o modelovanie vzťahu medzi scientometrickými ukazovateľmi významnosti publikácií a ich atribútmi získanými metódami dolovania v textoch. Klíčová slova: citačné siete, scientometrické ukazovatele, dolovanie znalostí z textov. 1 Úvod Hodnotenie vedeckého výskumu sa v posledných rokoch stalo veľmi dôležitou činnosťou, nakoľko rozpočty organizácií zaisťujúcich financovanie vedy sa zmenšujú, ale potreba výskumu a inovácií naopak rastie. Je preto jasné, že je nevyhnutné rozpoznať vysoko kvalitný výskum, ktorý bude mať vo financovaní prioritu, od nekvalitného výskumu, ktorého podpora je neefektívna. Vedecká disciplína zaoberajúca sa meraním vedy sa nazýva scientometria a spolu so spriaznenými odbormi bibliometrie a webometrie tvorí základ prudko sa rozvíjajúceho vedného odboru zvaného informetria. Informetria stojí na rozhraní medzi informatikou a informačnou vedou a je v súčasnosti medzi vedcami veľmi aktuálnou témou [1]. Toto tvrdenie je možné dokladovať aj významom nedávno založeného Journal of Informetrics (v roku 2007), jedného z popredných časopisov v odbore informačných vied. 2 Prehľad súčasného stavu Hodnotenie vedy je možné na rôznych úrovniach a môže byť ľahko prenesené do hodnotenia jednotlivých bádateľov, výskumných tímov, inštitúcií alebo dokonca krajín. Takéto hodnotenie sa väčšinou zakladá na hodnotení produktivity (počtu publikácií) a vplyvu (počtu citácií) výskumnej práce. V hodnotení produktivity nie sú dôležité iba počty samotných publikácií, ale aj reputácia zdrojov týchto publikácií. To nás vedie M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

96 82 Moderné informetrické metódy hodnotenia vedeckého výskumu k posudzovaniu vplyvu časopisov a konferencií. V tomto kontexte je dôležitým scientometrickým ukazovateľom kvality časopisov ich faktor vplyvu (impact factor). Ten používa len jednoduché relatívne počítanie citácií a má mnoho nedostatkov, ktoré sa informetrici snažia odstrániť. Bollen et al. [2] aplikovali rekurzívny algoritmus PageRank používaný vo vyhľadávači Google [3] na citačnú sieť časopisov a našli veľké rozdiely medzi rebríčkami časopisov podľa kvality zisťovanej týmto spôsobom a založenej na štandardnom faktore vplyvu. Algoritmus PageRank, ktorý je možné použiť na akýkoľvek orientovaný graf, berie do úvahy nielen počet citácií získaných nejakým uzlom, ale aj kvalitu citujúcich uzlov. Kvalitný citujúci uzol má sám mnoho citácií od iných kvalitných uzlov. Preto je kvalita uzlov definovaná rekurzívne a často sa označuje za prestíž na rozdiel od popularity reprezentovanej jednoduchými počtami citácií. V porovnaní s populárnym časopisom (alebo vedcom, inštitúciou či krajinou) môže byť prestížny časopis citovaný menej, ale zato prestížnymi časopismi (vedcami). Hoci sa tieto metódy vyšších radov už dlho používajú na webe k zisťovaniu významnosti stránok, v hodnotení výskumu sú stále ešte relatívnou novinkou. Použitie PageRanku bolo nedávno rozšírené z citačnej siete časopisov tiež na siete iných typov bol použitý k vyhľadávaniu vynikajúcich publikácií vo fyzike a k všeobecnému hodnoteniu publikácií a krajín. PageRank a vážený PageRank boli počítané pre autorov v kocitačných sieťach, citačných grafoch a grafoch spolupráce. Vážené citácie a časový faktor boli zahrnuté v ďalších štúdiách. Vo všeobecnosti sa dá povedať, že sa PageRank ukazuje byť sľubným nástrojom hodnotenia vedeckého výstupu. Fiala a kol. [6] sa vo svojej práci zamerali na pozmenený štandardný algoritmus PageRanku, zohľadňujúci informácie nielen o citáciách medzi autormi, ale aj o ich spolupráci. Hlavnou myšlienkou je to, že nie všetky citácie majú rovnakú váhu citácia od kolegu by mala byť považovaná za menej významnú ako citácia od cudzieho vedca. Neskôr tento model rozšírili tiež o časovú informáciu o citáciách a spolupráci [4]. V tomto novom modeli iba spolupráca predchádzajúca citácii znižuje jej váhu, zatiaľ čo počet spoločných publikácií citujúceho a citovaného autora napísaných po citácii nemá vôbec žiadny vplyv na hodnotenie citácie. Avšak počet spoločných publikácií nebol jediným faktorom ovplyvňujúcim váhy citácií zaviedli celkom 14 nových scientometrických ukazovateľov a otestovali ich rozsiahlou kolekciou citačných dát [5]. 3 Ciele projektu Cieľom projektu je preto analýza súčasných kvantitatívnych metód hodnotenia vedeckého výskumu a návrh a overenie nových prístupov k objektívnejšiemu a spravodlivejšiemu posudzovaniu vedeckej výkonnosti. Zvláštny dôraz kladieme na metódy analýzy sietí (vrátane PageRanku a jeho variantov), v ktorých sa znalosti plzenskej textminingovej skupiny dajú výhodne skombinovať so znalosťami košickej výskumnej skupiny, ktorej členovia v minulosti prevádzali analýzy okrem iného firemných a citačných sietí [7], [8]. Cieľom projektu je tiež riešenie problémov ako napr.: rozlíšenie medzi celoživotnými zásluhami a súčasnou výkonnosťou, zohľadnenie spoluautorstva ako v publikáciách tak v citáciách, zohľadnenie rozdielov medzi jednotlivými vedeckými odbormi, odlišné správanie sa vedcov v rôznych fázach ich kariéry a ďalšie.

97 Poster prezentovaný na komunitním setkání 83 4 Dosiahnuté výsledky V článku [9] sme skúmali možnosť využívania prepojených dát za účelom pokročilej analýzy softvérových špecifikácií. Tieto dokumenty sa svojou odbornosťou a použitým názvoslovím veľmi podobajú vedeckým publikáciám. S úspechom je teda možné ich využívať pre vývoj metód, ktoré budú následne aplikované na vedecké články. Môže sa jednať napr. o detekciu pomenovaných entít, ale hlavne o odvodzovanie témy článku podľa nájdených pojmov a určenia vzdialenosti medzi článkami v priestore prepojených dát. Scientometriu je tak možné obohatiť o automaticky určené tematické oblasti článkov a autorov je možné automaticky deliť podľa ich oblasti záujmu, bez toho aby sme boli závislí na správnej voľbe kľúčových slov a kategórií pri vedeckých publikáciách. Ďalším naším výsledkom je článok [10], v ktorom skúmame otázku, či je vhodné hodnotiť autorov podľa siete autorov alebo siete publikácií. Za týmto účelom využívame niekoľko variant PageRanku a vyhodnocujeme ich s využitím dát z ISI Web of Science. V inej práci [11] sme sa zaoberali vzťahom medzi PageRankom a jednoduchým počítaním citácií ako vhodných ukazovateľov významnosti vedcov a v ďalšej práci sme sa venovali vplyvu starnutia hrán v sieti [12], t.j. redukcii zriedkavých a naopak zosilňovania častých a významných hrán v citačných a kolaboračných sieťach autorov na hodnotenie úspešnosti výskumníkov [13]. Zo všetkých uvedených štúdií bolo najväčšie množstvo dát spracovaných v [11], kde sa spracovával citačný graf s viac ako pol miliónom publikácií niekoľkými miliónmi citácií medzi autormi. Aj tak sa ale analýza dala realizovať bežnými výpočtovými prostriedkami. Vyhodnocovanie efektivity skúmaných metód oceňovania kvality vedeckých pracovníkov je vo všetkých prípadoch pomerne chúlostivou záležitosťou a spočíva v automatizovanom vytváraní rebríčkov autorov odborných publikácií na základe uvedených informatických metód a v ich porovnávaní s určitým referenčným rebríčkom zlatým štandardom úspešných vedcov. V našich experimentoch sme za tento zlatý štandard považovali množinu vedcov, ktorí dostali nejaké prestížne ocenenie (napr. ACM Turing Award) alebo pôsobia v edičných radách významných časopisov vo svojom odbore. Výsledky vyššie uvedených troch publikácií [10, 11, 13] je možné zhrnúť konštatovaním, že PageRank všeobecne (vzhľadom k svojim výpočtovým nákladom) nemusí dávať lepšie výsledky než jednoduché počítanie citácií, že je vhodnejšie ho počítať zo siete publikácií než zo siete autorov a že vplyv starnutia hrán v kolaboračnej sieti autorov sa v niektorých prípadoch prejavuje pozitívne objektívnejším ohodnotením významu autorov. Okrajovo sme sa venovali aj možnostiam vhodnej vizualizácie výsledkov našich algoritmov v rámci danej citačnej siete [14]. 5 Poďakovanie Táto práca bola podporovaná Agentúrou na podporu výskumu a vývoja na základe Zmluvy č. SK-CZ a grantom MSMT MOBILITY 7AMB14SK090. Literatúra 1. Bar-Ilan, J.: Informetrics at the beginning of the 21st century-a review. Journal of Informetrics, 2 (2008), Bollen, J., Rodriguez, M. A., Van De Sompel, H.: Journal status. Scientometrics, 69 (2006),

98 84 Moderné informetrické metódy hodnotenia vedeckého výskumu 3. Brin, S., Page, L.: The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30 (1998), Fiala, D.: Mining citation information from CiteSeer data. Scientometrics, 86 (2011), Fiala, D.: Time-aware PageRank for bibliographic networks. Journal of Informetrics, 6 (2012), Fiala, D., Rousselot, F., Ježek, K.: PageRank for bibliographic networks. Scientometrics, 76 (2008), Repka, M., Paralič, J.: Company Networks Analysis. LAP Lambert Academic Publishing, Saarbrucken, Repka, M., Paralič, J.: Objavovanie znalostí v citačných sieťach. In Proc. ZNALOSTI, Pavel Smrž (Ed.), VŠE v Praze, Nakladatelství Oeconomica (2010), Dostal, M., Nykl, M., Ježek, K.: Semantic analysis of software specifications with Linked Data in Journal of Theoretical and Applied Information Technology, 67 (2014), Nykl, M., Ježek, K., Fiala, D., Dostal, M.: PageRank variants in the evaluation of citation networks. Journal of Informetrics, 8 (2014), Fiala, D., Šubelj, L., Žitnik, S., Bajec, M.: Do PageRank-based author rankings outperform simple citation counts? Journal of Informetrics, 9 (2015), Tutoky, G., Paralič, J.: Time Based Modelling of Collaboration Social Networks. Lecture Notes in Computer Science, 6922 (2011), Fiala, D., Tutoky, G., Koncz, P., Paralič, J.: Ageing of edges in collaboration networks and its effect on author rankings. Acta Polytechica Hungarica (submitted in 2015). 14. Kováčová, T., Havrilová, C., Paralič, J.: Návrh a implementácia vizualizácie citačných sietí. Electrical Engineering and Informatics VI (submitted in 2015) Annotation: Modern informetric methods for the evaluation of scientific research This paper briefly presents Czech-Slovak research project focussed on analysis of present, as well as the design and verification of new scientometric indicators based on citation network analysis methods and text mining methods. Within citation networks analysis methods the main focus is on adaptation options of PageRank algorithm for the needs of given goal. Within methods based on text mining the focus is on modelling the relationship between scientometric indicators of publications significance and their attributes obtained by text mining methods. The object of the project is also exploring dependencies between citation rates and the popularity of the topic, as well as visualization of citation networks.

99 Online Forum Summarization Peter KREJZL 1, Josef STEINBERGER 1, Tomáš HERCIG 2, Tomáš BRYCHCÍN 2 1 Department of Computer Science and Engineering, Faculty of Applied Sciences, University of West Bohemia, Univerzitní 8, Plzeň krejzl@kiv.zcu.cz jstein@kiv.zcu.cz 2 NTIS New Technologies for the Information Society, Faculty of Applied Sciences, University of West Bohemia, Univerzitní 8, Plzeň tigi@kiv.zcu.cz brychcin@kiv.zcu.cz Keywords: summarization, linking, stance mining 1 Extended Abstract Almost each online magazine or news publishing articles on various topics encourage readers to interact through comments. Very often such an article may contain several hundreds of comments, related either to a specific part of the article or reacting on one of preceding comments. The purpose of this paper is to describe a system that is able to summarize such a mass of comments. An important initial step in developing a reader comment summarization system is to determine what comments relate to, be that either specific points within the text of the article, the global topic of the article, or comments made by other users. This is called a linking task. A set of link types or labels may be articulated to capture phenomena such as agreement (e.g. in favour, against) and sentiment (e.g. positive, neutral, negative). In the linking task, the system takes as input a news article with a set of comments. The set of comments can be reduced according to predefined criteria, like the number of likes. Otherwise, it could contain thousands of comments. The search space for links is defined by the union of Cartesian product of article sentences with comment sentences and comment sentences with other comment sentences (AS x CS CS x CS). The system is expected to link each comment sentence to an article sentence or to a preceding comment sentence and then label each link for argument structure in_favour, against, impartial and sentiment positive, neutral, negative. The sentence, either article sentence or comment sentence is assumed to be the appropriate unit here. The system processes all comment sentences and calculates their similarities to the article sentences or preceding (parent) comment sentences. The similarity score is based on two models. The first model is vector space model (VSM) and the second one is Latent M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

100 86 Online Forum Summarization Dirichlett allocation (LDA). The final score is calculated as an average of similarity scores computed using both the models. 1 Both model were trained against the data from TREC. Glasgow Herald 1995 and Los Angeles Times 1994 and 2002 for English and La Stampa 1994 for Italian. Sentences containing less than six words are filtered out. The final output of our system consists of X percent of links, ordered by the largest similarity score, where X is a system parameter. The need of some minimal sentence length is obvious, too short sentences like simple true, I like it are not delivering much information for the final summarization. Also LDA and VSM scores for this kind of sentences were too low. 2 The next step is to calculate sentiment polarities. For this part of the system, we trained the maximum entropy classifier. For each detected link, sentiments of both sentences are calculated. It is then classified into three classes: positive, neutral or negative. The comment sentiment is used to fill the sentiment label of the link 3. The English training dataset consists of the Facebook dataset (Zhang et al., 2011) and IMDB dataset in (Pang et al., 2002). Italian dataset comes from Sentipolc 2014 (Basile et al., 2014). In the future versions, it might be possible to extend the system to support more classes and add more granularity. Each of the existing three classes could be split into multiple classes like positive to strongly positive, positive, less positive and so on. Both the article sentence sentiment and the linked sentence sentiment are used to assign the agreement (argument) label. The following table describes the simplest method to derive the label in the in_favour, against, impartial scale. Comment : POSITIVE Comment : NEUTRAL Comment : NEGATIVE Linked: POSITIVE Linked: NEUTRAL Linked: NEGATIVE IN FAVOUR IN FAVOUR AGAINST IMPARTIAL IMPARTIAL IMPARTIAL AGAINST AGAINST IN FAVOUR Tab.1. Comparing the comment sentence and the linked sentence polarities to derive the argument label. The system was originally developed for the shared task for Multiling OnForumS 4. Four different research groups participated in the shared task, each group submitting two runs. In addition, two baseline system runs were included making a total of ten different system runs. 1 The system is currently being reworked and weights for each model is being added. Current tests show that VSM model is significantly more important and the system is giving best results when weights are set to 70-90% vs 30-10% for VSM vs. LDA. 2 This also would be a system parameter in the new version 3 Also the sentiment of the article sentence may contribute to the overall link sentiment in the currently developed version. 4

101 Poster prezentovaný na komunitním setkání 87 The links identified by the system went through validation in the crowdsourcing system - Crowd Flower. The contributors were asked to judge whether the two shown sentences are related. In the case of the yes answer they validated also the detected sentiment and argument structure. The source documents for English were mostly online articles from The Guardian and also Crowd Flower users were limited to be based in UK, so the best available language skills were guaranteed. The approach used for evaluation is based on the concept of pooling [10], where the assumption is that possible links that were not proposed by any systems are deemed irrelevant. The test set contained ten English articles and five Italian. Table 2 shows some basic characteristics of the test texts. Language Number of Number of Number Number of article sentences comment of article comment words sentences words English Italian Tab. 2. Number of words/sentences for each test language. At this moment, we have only results of precision. Table 3 shows precision and rank of our system. Run Linking Argument Sentiment Best UWB (4) (3) (5) Average Worst Tab. 3. Multiling 2015 evaluation the OnForumS task. UWB = University of West Bohemia In five of the ten English articles, all links proposed by our system were correct. It was ranked third (out of ten). All predictions of argument structure were correct in eight articles. Our run was ranked thirds with a very large precision (0.975). In seven articles, all sentiment predictions were correct, ranking our system eight. The final system should be able to process an article with its comments and summarize them, so the reader of the summary can easily see the most important parts of the article as well as the most important comments related to the article statements (split into three categories in favour, against and neutral). 2 Acknowledgement This work was supported by grant no. SGS advanced computing and information systems and by project MediaGist, EU's FP7 People Programme (Marie Curie Actions), no

102 88 Online Forum Summarization References 1. Valerio Basile, Andrea Bolioli, Malvina Nissim, Viviana Patti, and Paolo Rosso Overview of the evalita 2014 sentiment polarity classification task. Proceedings of the 4th evaluation campaign of Natural Language Processing and Speech tools for Italian (EVALITA 14). 2. W. G. Charles Contextual correlates of meaning. Applied Psycholinguistics, 21(04): John R. Firth A Synopsis of Linguistic Theory, Studies in Linguistic Analysis, pages Thomas L. Griffiths and Mark Steyvers Finding scientific topics. Proceedings of the National Academy of Sciences of the United States of America, 101(Suppl 1): , April. 5. Michal Konkol Brainy: A machine learning library. In Leszek Rutkowski, Marcin Korytkowski, Rafa Scherer, Ryszard Tadeusiewicz, Lotfi A. Zadeh, and Jacek M. Zurada, editors, Artificial Intelligence and Soft Computing, volume 8468 of Lecture Notes in Computer Science. Springer Berlin Heidelberg. 6. Peter Krejzl, Josef Steinberger, Tomáš Hercig, Tomáš Brychcín UWB Participation in the Multiling s OnForumS Task 7. Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schutze Scoring, term weighting, and the vector space model. Cambridge University Press. Cambridge Books Online. 8. Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan Thumbs up?: sentiment classification using machine learning techniques. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing- Volume 10, pages Association for Computational Linguistics. 9. Herbert Rubenstein and John B. Goodenough Contextual correlates of synonymy. Commun. ACM, 8(10): , October. 10. Ian Soboroff Test collection diagnosis and treatment. In Proceedings of the Third International Workshop on Evaluating Information Access (EVIA), pages 34 41, Tokyo, Japan, June. 11. Kunpeng Zhang, Yu Cheng, Yusheng Xie, Daniel Honbo, Ankit Agrawal, Diana Palsetia, Kathy Lee, Wei-keng Liao, and Alok Choudhary, Ses: Sentiment elicitation system for social media data. In Data Mining Workshops (ICDMW), 2011 IEEE 11th International Conference on, pages IEEE.

103 Kombinácia informácií z používateľského profilu a kolaboratívneho filtrovania v rámci odporúčaní Cecília HAVRILOVÁ 1, Ján PARALIČ 2, Dávid BAŇAS 3 1,2,3 Katedra kybernetiky a umelej inteligencie, FEI TU v Košiciach Letná 9, Košice 1 cecilia.havrilova@tuke.sk, 2 jan.paralic@tuke.sk, 3 david.banas@student.tuke.sk Abstrakt. Cieľom tohoto príspevku je podať krátky popis experimentov z oblasti odporúčaní založených na kolaboratívnom filtrovaní s využitím informácií obsiahnutých v používateľskom profile. Naša hypotéza bola, že pridanie informácií o užívateľoch by malo výsledky odporúčaní zlepšiť. Na overenie tejto hypotézy sme v experimentoch použili známe dáta MovieLens. Všetky experimenty boli vykonávané v prostredí nástroja RapidMiner, pričom pri ich realizácii sme vychádzali z vytvoreného procesu kolaboratívneho filtrovania, ktorý pozostával z kombinácie metód Item k-nn a Matrix Factorization. Výsledky experimentov, vyhodnocované prostredníctvom štandardných metrík RMSE, MAE, NMAE ale našu hypotézu nepotvrdili. Kľúčové slova: odporúčacie systémy, kolaboratívne filtrovanie, zhlukovanie 1 Úvod Odporúčacie systémy (RS) sú softvérové nástroje a techniky poskytujúce podnety na položky užitočné pre používateľa. Ako sa spomína v knihe Recommender systems handbook [1], v rámci RS môžeme hovoriť väčšinou o osobnom prístupe k používateľovi, prípadne určitej skupine používateľov s podobnými znakmi, ktorým sú jednotlivé návrhy predkladané. Kolaboratívne filtrovanie funguje na princípe rovnakých záujmov používateľov, takže môžeme povedať, že zahŕňa sociálny prvok. Používatelia sú na základe podobných preferencií resp. podobného správania triedení do skupín a každá nová položka je odporúčaná používateľom, ktorí sú si podobní. Kolaboratívne filtrovanie sa v dnešnej dobe považuje za najpopulárnejšiu techniku tvorby odporúčaní a je tiež najviac využívanou technikou v komerčnej sfére. Jeho výhody využívajú najmä on-line obchody, ktorým umožňuje upravovať ponuku produktov na základe potreby a záujmu zákazníka, čím podporujú zvýšenie predaja. 2 Prehľad súčasného stavu Kolaboratívne filtrovanie je založené na tvorbe odporúčaní na základe používateľských hodnotení jednotlivých položiek. Ako vo svojej práci uvádza Jannach a kol. [2], táto technika nevyžaduje žiadne špecifikácie alebo podrobné informácie o používateľovi či položkách. Výhodou teda je, že odporúčací systém nepotrebuje tieto informácie uchovávať v pamäti. Na druhej strane, pokiaľ by systém tieto informácie mal, mohol by ich využiť a tvorba odporúčaní by mohla byť efektívnejšia a užitočnejšia. Qing Li a Kim B.K popísali M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

104 90 Kombinácia informácií z používateľského profilu a kolaboratívneho filtrovania... vo svojej práci [3] hybridný spôsob odporúčaní založený na kombinácii metódy založenej na obsahu a metódy založenej na kolaboratívnom filtrovaní. V prípade tejto hybridnej metódy sa autori zaoberali zhlukovaním položiek pričom spájali informácie o položkách a ich hodnoteniach za účelom identifikácie podobnosti týchto položiek. Na zgrupovanie položiek autori využívali algoritmy zhlukovania a získané výsledky použili na tvorbu matice hodnotení. Iné metódy zhlukovania boli použité v práci autorov Višňovský a kol. [4], kde autori zisťovali ako môže byť proces zhlukovania stabilizovaný v prípade zvyšovania počtu používateľských hodnotení. Výsledky boli predvídateľné zvyšujúcim sa počtom hodnotení sa zlepšuje zaradenie používateľa do správnej skupiny. Vychádzajúc z týchto publikácií sme realizovali experimenty kombinujúce metódy zhlukovania a metódy kolaboratívneho filtrovania. 3 Realizované experimenty a dosiahnuté výsledky Pre účely našich experimentov sme zvolili voľne dostupný dataset MovieLens 1M 1. Tento dátový súbor obsahuje viac ako 1 milión hodnotení od používateľov o filmoch. Dataset obsahuje 3 základné dátové súbory s nasledovnými atribútmi: - ratings.dat ID používateľa, ID filmu, hodnotenie, časová známka hodnotenia, - movies.dat ID filmu, názov filmu, žáner, - users.dat ID používateľa, pohlavie, vek, zamestnanie, zip kód (PSČ). Našim cieľom bolo zlepšiť existujúce výsledky kolaboratívneho filtrovania. V nástroji RapidMiner sme vytvorili proces kolaboratívneho filtrovania (CF), ktorý využíval pre odporúčanie jeden súbor zo sady MovieLens 1M a to súbor ratings.dat. Nad týmito dátami sme vytvorili proces, ktorý je uvedený na Obr. 1 Proces CF. Obr. 1 Proces CF Keďže metóda CF využíva na odporúčanie atribúty ID používateľa, ID produktu a hodnotenie, odfiltrovali sme nepotrebný atribút časová známka. Operátorom Split Data sme rozdelili dáta na trénovaciu časť (80%) a testovaciu časť (20%). Atribútom sme nastavili potrebné roly, ktoré jednoznačne identifikujú používateľov a filmy. Atribút hodnotenie sme určili ako cieľový atribút, ktorý má byť hodnotený a následne predikovaný. Pomocou operátora Multiply sme rovnakú trénovaciu vzorku údajov poslali na spracovanie dvom algoritmom CF: Item k-nn a Matrix Factorization (MF).Vytvorené modely sme skombinovali do jedného modelu pomocou operátora Model Combiner, ktorý vráti jeden predikčný model na základe váženého priemeru. Tento výsledný model sme testovali pomocou operátora Apply Model, do ktorého vstupovala oddelená 1

105 Poster prezentovaný na komunitním setkání 91 testovacia vzorka dát. Posledným použitým operátorom bol operátor Performance, pomocou ktorého sme zmerali výkon predikčného modelu na základe RMSE, MAE, NMAE na testovacej množine. Výsledky procesu možno vidieť v Tab. 1. Tab. 1 Výsledky procesu CF pred zhlukovaním MovieLens 1M MA NMA Method RMSE E E Item k-nn + MF 0,853 0,670 0,167 Dosiahnuté výsledky sú v rámci odporúčaní zaujímavé, my sme sa však rozhodli vytvoriť experimenty, na základe ktorých by bolo možné zistiť vplyv zhlukovania používateľského profilu na jednotlivé odporúčania. Preto pred vyššie popísaný proces odporúčania sme vsunuli proces zhlukovania. Pre zhlukovanie sme použili súbor users.dat z množiny MovieLens 1M, ktorý obsahuje atribúty ID používateľa, vek, pohlavie, zamestnanie, zip kód. Súbor users.csv sme načítali v nástroji RapidMiner a po odfiltrovaní atribútov zamestnanie a zip kód sme dáta uložili do zdrojov programu. Pre zhlukovanie sme použili algoritmus K-means, ktorý pre zadelenie užívateľov do zhlukov používa Euklidovu vzdialenosť. Každý proces zhlukovania prebiehal v 10-tich iteráciách, v rámci ktorých bolo vykonaných maximálne 100 optimalizačných krokov. Vytvárali sme zhluky, kde konštanta k (počet zhlukov) bola rovná 50, 40, 30, 20, 15, 10, 5. Ukážka takéhoto podprocesu v rámci celkového procesu CF je na Obr. 2, kde môžeme vidieť zároveň nastavenia algoritmu K-means. Obr. 2 Podproces zhlukovania Po procese zhlukovania sme oddelili zhluky používateľov do samostatných množín na základe značky, ktorú pridal algoritmus K-means každému používateľovi. Každému používateľovi sme priradili filmy, ktoré hodnotil a tiež hodnotenia, ktoré daným filmom dal, aby sme dáta upravili do tvaru potrebného pre odporúčanie. V rámci tejto úpravy boli brané do úvahy všetky filmy, ktoré používateľ ohodnotil. Nad každou množinou, zhlukom sme aplikovali celý proces odporúčania, ktorý sme predtým vytvorili. Každé CF po zhlukovaní sa vyhodnotilo, za každý zhluk samostatne. Na základe týchto čiastkových výsledkov sme pomocou váženého priemeru vypočítali celkové výsledky za každý proces zhlukovania samostatne. Súhrnné výsledky za každý proces zhlukovania (nie za každý zhluk) uvádzame v nasledujúcej tabuľke Tab. 2.

106 92 Kombinácia informácií z používateľského profilu a kolaboratívneho filtrovania... Tab. 2 Výsledky CF po zhlukovaní používateľského profilu Počet zhlukov RMSE MAE NMAE 5 0,879 0,692 0, ,898 0,707 0, ,908 0,715 0, ,916 0,721 0, ,925 0,730 0, ,940 0,742 0, ,943 0,745 0,186 V Tab. 2 možno vedieť lineárnu závislosť narastajúcej chyby odporúčania s narastajúcim počtom zhlukov. Týmto experimentom sa teda stanovená hypotéza nepotvrdila. Pri dátach MovieLens 1M nedochádza k zlepšeniu odporúčania, ak pred procesom CF vykonávame zhlukovanie používateľov na základe ich profilu. Pravdepodobne informácie o používateľoch, ktoré sú k dispozícii, nepostačujú na presnejšie zohľadnenie ich preferencií. Vytvorené skupiny používateľov z dostupného profilu algoritmom K-means nevystihujú referencie k filmom tak dobre, ako samotná technika Matrix Factorization, ktorá hľadá skryté faktory používateľov z ich hodnotení. Nepotvrdenie stanovenej hypotézy nad dátami MovieLens 1M neznamená všeobecne platný záver že používateľov nemá zmysel zhlukovať pred procesom odporúčania. V budúcich prácach by sme sa chceli venovať experimentom, kde v rámci dát budeme mať rozsiahlejší používateľský profil, na základe ktorého ich budeme zhlukovať. Taktiež chceme skúmať iné vplyvy, ktoré môžu zlepšiť zhlukovanie a následne techniku CF. Poďakovanie: Táto práca bola podporovaná Agentúrou na podporu výskumu a vývoja na základe Zmluvy č. SK-CZ Literatúra 1. Ricci, F.; Rokach, L.; Shapira, B.; Kantor, P.B., Recommender Systems Handbook, Springer Science+Business Media, Jannach, D.; Zanker, M.; Felfernig, A.; Friedrich, G., Recommender systems: An introduction, Cambridge University Press, LI, Qing - KIM, Byeong M.: An approach for combining content-based and collaborative filters [online]. In: Proceedings of the sixth international workshop on Information retrieval with Asian languages-volume 11. Association for Computational Linguistics, p VIŠŇOVSKÝ, Juraj, et al.: The Cold-start Problem: Minimal Users Activity Estimation [online]. Bratislava, Annotation: The combination of user profile information and collaborative filtering method within recommendation This paper analyses how information from user profile influences quality of recommendations. We first start with an overview of recommendation systems, their functions methods used. The empirical part focuses on collaborative filtering method with the aim to find improvement of recommendations based on the user profile. The main objective for realized experiments was to verify the hypothesis that using information stored in user s profiles can improve collaborative filtering recommendation results. All our experiments were realized in RapidMiner tool on well-known MovieLens dataset. For evaluation of results we used standard metrics such as RMSE, MAE and NMAE.

107 Multi-user preference learning for e-commerce recommendation Michal KOPECKÝ 1, Ladislav PEŠKA 1, Peter VOJTÁŠ 1, Marta VOMLELOVÁ 2 1 Dept. Software Engineering, MFF UK in Prague Malostranské nám. 25, Prague Kopecky peska vojtas@ksi.mff.cuni.cz 2 Dept. Theoretical Computer Science and Math. Logic, MFF UK in Prague Malostranské nám. 25, Praha marta@ktiml.mff.cuni.cz Abstract. We present an overview of our efforts to improve personalized recommendation. We structure our discussion along several axis e.g. explicit or implicit user input, success measure by RMSE or precision at top-k, leisure or traditional shopping, frequency of purchases, etc. Key words: Multi-user data analytics, preferential fuzzy sets, data mining, cognitive second order logic models, prototypes, offline experiments, order sensitive metrics 1 Introduction Our main motivation for this extended abstract is the increase of internet activities, especially in e-commerce, recommender systems and personalization efforts. We briefly sketch our efforts and illustrate some of models, methods, prototypes, data, experiments and metrics. In different communities these efforts bear different names. A common denominator are multi-user data analytics and/or preference learning and/or recommender systems. 2 Axis of the challenge We consider instance ranking learning for a set of users on items represented by feature vectors (attribute values in the data cube). That is we consider preferences generated by a ranking function (for each user u separately) r u : Items [0,1] this can be seen as a special case of fuzzy sets, we call them preferential fuzzy sets. Special attention is paid to monotonizable preferences in content based recommendation. We say that an instance ranking (for a specific user) is monotonizable if it is a monotone combination of score functions on domains of attributes (representing the degree of being ideal value of respective attribute). Score functions on domain (see e.g. Fig.1 and Fig.3) transform preference on data cube instances to Pareto order preference cube. We consider learning of a monotone combination function which combines attribute preferences to global preference represented by ranking function (see Fig.2). M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

108 94 Multi-user preference learning for e-commerce recommendation Monotonized preferences can be expressed as generalized annotated program rules and hence are intuitive and can serve as a human understandable explanation. Moreover there are efficient algorithms for top-k recommendations. The problem can be shaped along following dimensions/axis (there are some dependencies between them): - explicit or implicit user input, implicit user behavior and privacy concerns - preference indicators (rating, purchase, indirect, ) - leisure or traditional shopping, - frequency of purchases (day, week, month, season, year, once a life, ) - methods (regression, data mining, fuzzy) - recommendation collaborative, content-based, hybrid - data (large e.g. more than 1000 users, 3000 items and 5000 attributes) - public private data, benchmarks, competitions, - sparsity of training data - success measure by RMSE or precision at top-k, other order sensitive metrics - experiments off-line, online A/B testing, user-studies, models should be usable for online deployment, hiding marketing strategy and privacy, competition awareness - models logic (deduction, induction), databases (aggregations beyond first order predicate logic), uncertainty (statistics, graphical models, ) - coping diversity, popular items, - semantically rich, simple data - semantical enrichment of data via web based information linked open data, WikiPedia, DBPedia, web information extraction, domain ontologies, - natural language processing, parsing, dependency, named entity extraction, named entity disambiguation, Fig.1. Illustration for using regression on user s rating of sample objects projected to one attribute, here price Fig.3. Illustration of a method for learning combination function

109 Poster prezentovaný na komunitním setkání 95 We do not deal with issues connected to human computer interaction, user interface design, business understanding, customer management systems, market and retail strategy we have a narrow focus on what can a computer science offer to retail practically. Neither we deal with perception side of the domain image, sound, video, multimedia (multimodal) search, From the point of preference learning, we are interested in users to which it is hard to recommend. We consider the challenge of optimization between quality of learning and minimization of set of users which are hard to recommend. We report on several experiments on public (also some conference competitions) and private datasets. Fig. 3. Illustration for method of user preference mining on nominal attribute, here color We give some figures illustrating our methods of multi-user analytics for attribute preference on numeric attribute (Fig.1.), nominal attribute (Fig.3.); combination function (Fig.2.) and distribution of easy and hard predictable users wrt different measures (Fig.4.). We acknowledge partial support from Czech grants SVV , GAUK , P46 and GACR-P S. 3 References We refer to publications of Alan Eckhardt, Tomas Horvath, Ladislav Peska and Peter Vojtas with coauthors at From the last achievements we mention only: 1. Peska, L.; Vojtas, P.: Hybrid Recommending Exploiting Multiple DBPedia Language Editions, In ESWC 2014 Linked Open Data-enabled Recommender Systems Challenge, Peska L., Vojtas P. Hybrid Biased k-nn to Predict Movie Tweets Popularity, poster, 3. Peska, L. Vojtas, P.: Recommending for Disloyal Customers with Low Consumption Rate. In SOFSEM 2014, Springer, LNCS 8327, 2014, Vomlelova, M. Kopecky M. Vojtas P. Transformation and aggregation preprocessing for top-k recommendation GAP rules induction. In Rule Challenge and Doctoral

110 96 Multi-user preference learning for e-commerce recommendation RuleML N. Bassiliades et al Eds. CEUR Workshop Proceedings M. Kopecky, L. Peska, P. Vojtas, M. Vomlelova. Monotonization of User Preferences. Accepted for FQAS 2015, to appear in Springer LNCS Fig.4. Illustration of distribution of users with respect to correctness(lt_lt), incorrect(lt_gt), incomparable(nc) of Pareto order, learned by different methods, compared to ground truth given by rating for (hard predictable users are outliers)

111 Vizualizácia výsledkov vyhľadávania vo forme konceptového zväzu Peter BUTKA Katedra kybernetiky a umelej inteligencie, FEI TU v Košiciach Letná 9, Košice peter.butka@tuke.sk Abstrakt. Tento príspevok sa venuje problematike vizualizácie množiny výsledkov vyhľadávania pomocou konceptového zväzu. Predstavuje návrh interaktívnej aplikácie pre exploráciu takýchto dát s cieľom poskytnúť používateľovi štruktúrovaný prehľad o rôznych zhlukoch v rámci množiny výsledkov zdieľaných vďaka podobným atribútom, ktoré sú hierarchicky usporiadané a umožňujú organizovať výsledky a uľahčiť navigáciu medzi nimi, vrátane lepšieho porozumenia prehľadávanej domény a (a jej aspektov). Našim cieľom je v spolupráci so skupinou na univerzite OVGU v Magdeburgu (Data & Knowledge Engineering Group) implementovať nástroj priamo využívajúci vyhľadávací stroj (napríklad cez Bing API) a využiť prostriedky vizualizácie rôznych pohľadov na zhluky výsledkov v špecifickej štruktúrovanej forme definovanej konceptovým zväzom. Tento nástroj je vo vývoji, pričom sa testujú rôzne možnosti využitia fuzzy rozšírenia vo vizualizácii. Po jeho dokončení je plánované rozšírenie experimentov a prípadová používateľská štúdia zameraná na testovanie používateľskej skúsenosti s nástrojom. Kľúčové slová: vyhľadávanie informácií, konceptové zväzy, interaktívna vizualizácia, exploračná analýza, formálna konceptová analýza. 1 Úvod Jednou z možností využitia výsledkov z oblasti konceptových zväzov je vizualizácia hierarchických vzťahov medzi podmnožinami skúmaných objektov v závislosti na hodnotách ich atribútov. Výsledky získané v procese vyhľadávania poskytujú zoznam objektov so skrátenými popismi, ako aj s metadátami alebo prístupom k celým dokumentom. Jednou z možností ako tieto výsledky usporiadať a prehľadávať je aj aplikácia algoritmov z oblasti FCA (Formal Concept Analysis [1]). V rámci tohto príspevku je popísaný jeden z možných prístupov využívajúci nástroj zobrazovania grafov prepájajúcich nájdené dokumenty alebo ich skupiny pomocou hranami špecifikovaných vzťahov. Tento postup je čiastočne rozpracovaný a realizovaný, pričom základom je adaptácia pôvodného prístupu so zobrazovaním podmnožín objektov vo výsledku vyhľadávania podľa vybraných atribútov a v podobe konceptového zväzu cez nástroj pre vizualizáciu nájdených grafových štruktúr, ktorý bude rozšírením existujúcej aplikácie interaktívnej vizualizácie grafov vyvinutej na univerzite OVGU v Magdeburgu (Data & Knowledge Engineering Group), s ktorou na tejto úlohe spolupracujeme. M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

112 98 Vizualizácia výsledkov vyhľadávania vo forme konceptového zväzu 2 Konceptové zväzy vo vizualizácii výsledkov vyhľadávania V praxi existuje viacero príkladov použitia metód z oblasti FCA pre vizualizáciu výsledkov vyhľadávania. V zásade sa delia na [2]: - Priame využitie štruktúry konceptového zväzu pre prehľadávanie vytvorí sa konceptový zväz a ten sa priamo používa na prehľadávanie a navigáciu v priestore hierarchického usporiadania zhlukov dokumentov získaných z množiny výsledkov. - Redukcia konceptového zväzu a použitie redukovanej štruktúry pre prehľadávanie výsledkov a navigáciu medzi nimi. - Využitie metód z oblasti FCA len ako analytického nástroja pre podporu nájdenia lineárneho usporiadania výsledkov (napr. na základe numerickej hodnoty relevancie), respektíve jeho adaptácia (zmena usporiadania) vzhľadom k vlastnostiam a štruktúre zväzu, ako aj vzhľadom na spätnú väzbu od používateľa. Väčšina existujúcich prístupov sa venuje pri analýze výsledkov vyhľadávania tvorbe a využitiu klasických ( crisp ) konceptových zväzov, postavených na binárnej vstupnej tabuľke dát (popisujúcej objekty a atribúty v rámci množiny nájdených výsledkov vyhľadávania). Z pohľadu komplexnejšej analýzy je určite zaujímavé pozerať sa na problém organizovania výsledkov vyhľadávania aj pre prípady, keď sú jednotlivé dokumenty popísané rôznymi typmi atribútov. Znamená to, že okrem binárnych sú popísané dokumenty aj pomocou ďalších ako nominálne, numerické, ordinálne, či inak definované pomocou kompletného zväzu hodnôt. Takto definovaný objekt-atribútový model je možné spracovať buď zložitejšou formou predspracovania do podoby crisp prípadu (konceptuálne škálovanie), alebo použitím vybraného fuzzy prístupu. Náš hlavný cieľ je analyzovať možnosti (a vytvoriť príslušný nástroj) pre využitie jednostrannej fuzzikácie v analýze vstupov (viď. model zovšeobecneného jednostranne fuzzy konceptového zväzu [3]), čím sa dosiahne lepší a prehľadnejší popis konceptov (zhlukov výsledkov vyhľadávania). 3 Navrhovaná adaptácia a rozšírenie nástroja CET Search Základom aplikácie je nástroj CET Search vyvinutý najmä Stefanom Haunom [4], ktorý umožňuje vložiť do aplikácie dopyt, zavolať príslušný vyhľadávací stroj (napríklad v našom prípade prvotného prototypu používame Bing API), analyzovať výsledky a generovať graf uzlov a prepojení. V prípade daného nástroja sú uzly zvyčajne jednotlivé stránky a hrany reprezentujú nájdené podobnosti alebo vzťahy medzi stránkami. Daný nástroj používa XMPP protokol na odosielanie zmien vo vizualizácii grafu pomocou špecifického formátu (Beef) pre zdieľanie údajov o uzloch a hranách, ktoré sa majú na vizualizačnej ploche zobraziť. Graf je interaktívny a je možné ho upravovať, vyťahovať informácie o uzloch a hranách, ako aj meniť vzhľad celého grafu (napríklad redukovať zobrazované podrobnosti). Náš nástroj adaptuje túto myšlienku a technológie, pričom cieľom je aby výsledná aplikácia: - modelovala uzly ako koncepty zväzu generované na základe výsledkov vyhľadávania získaného cez Bing API (alebo inak získané) uzly by mali zohľadňovať a popisovať obsah daného konceptu, - modelovala hrany ako reláciu špecializácie respektíve generalizácie v obvyklom zmysle v rámci konceptového zväzu,

113 Poster prezentovaný na komunitním setkání 99 - umožnila interaktívne prehliadať podmnožiny výsledkov vyhľadávania a ich usporiadania, vrátane naznačenia dôležitých atribútov zodpovedných za daný krok špecializácie alebo generalizácie (pomocou popisu príslušnej hrany), - využila okrem možnosti použitia binárnych atribútov aj ďalšie rozšírenia, ako napríklad váhovanie slov v rámci získaných výsledkov (váhovaný vektorový model podľa extrahovaných slov), popis metadát o objektoch rôznych typov, externé hodnotenie jednotlivých výsledkov (napríklad počet hviezdičiek ), či iné zložitejšie usporiadanie hodnôt atribútov. Výsledkom bude nástroj pre interaktívnu exploračnú analýzu výsledkov vyhľadávania k zadanému dopytu vo forme konceptového zväzu (ako rôznych hierarchicky usporiadaných zhlukov nájdených objektov podľa rôznych špecifických kombinácií ich atribútov), respektíve jeho grafovej vizualizácie, ktorá môže byť špecifická z pohľadu podanej štruktúrovanej informácie. Táto aplikácia bude následne testovaná z pohľadu používateľov a ich skúseností v úlohe vizuálneho dolovania vyhľadanej množiny dát. Príklad veľmi skorého výstupu aplikácie, už produkujúcej interaktívne prehľadávateľný konceptový zväz, je na Obr.1. Obr.1. Ukážka prvého pokusu o zobrazenie konceptového zväzu vytvoreného k dopytu snow leopard oddeľujúceho vetvy zamerané na rôzne interpretácie výsledkov 4 Záver V rámci tohto príspevku sme sa zaoberali problematikou vizualizácie množiny výsledkov vyhľadávania pomocou konceptového zväzu. Našim cieľom je v spolupráci so skupinou na univerzite OVGU v Magdeburgu (Data & Knowledge Engineering Group) implementovať nástroj priamo využívajúci vyhľadávací stroj (napríklad cez Bing API) a využiť prostriedky vizualizácie rôznych pohľadov na zhluky výsledkov v špecifickej štruktúrovanej forme definovanej konceptovým zväzom. Tento nástroj je vo vývoji, pričom sa testujú rôzne možnosti využitia fuzzy rozšírenia vo vizualizácii. Po jeho dokončení je

114 100 Vizualizácia výsledkov vyhľadávania vo forme konceptového zväzu plánované rozšírenie experimentov a prípadová používateľská štúdia zameraná na testovanie používateľskej skúsenosti s nástrojom. Acknowledgement The work presented in this paper was supported by the Transregional Collaborative Research Centre SFB/TRR 62 "Companion-Technology for Cognitive Technical Systems" funded by the Germany Research Foundation (DFG) (50%), as the result of the Project implementation: University Science Park TECHNICOM for Innovation Applications Supported by Knowledge Technology, ITMS: , supported by the Research & Development Operational Programme funded by the ERDF (30%) and partially supported by the Slovak Grant Agency of Ministry of Education and Academy of Science of the Slovak Republic under grant No. 1/1147/12 (20%). My special thanks go to Prof. Nürnberger (Data & Knowledge Engineering Group, OVGU Magdeburg) and his group for their help and cooperation with the adaption of CET Search tool. Literatúra 1. Ganter, B., Wille, R.: Formal Concept Analysis: Mathematical Foundations. Springer- Verlag, Berlin, Poelmans, J., Ignatov, D.I., Viaene, S., Dedene, G., Kuznetsov, S.: Text Mining Scientific Papers: A Survey on FCA-Based Information Retrieval Research. In: Advances in Data Mining - Applications and Theoretical Aspects, Lecture Notes in Computer Science 7377 (2012), Butka, P., Pócs, J.: Generalization of one-sided concept lattices. Computing and Informatics 32 (2013) Haun, S., Nürnberger, A., Kötter, T., Thiel, K., Berthold, M.R.: CET - a tool for creative exploration of graphs. In: Machine learning and knowledge discovery in databases, Lecture Notes in Computer Science 6323 (2010) Annotation: Visualization of query retrieval results using concept lattice This contribution is related to interactive exploration and visualization of query result sets using concept lattices. It provides basic idea of the interactive application for exploration of such data with the goal to support user with structured view on different clusters within the objects obtained from query thanks to shared attributes, which are hierarchically organized and helpful in organization and navigation within data. This could lead to better understanding the domain and its aspects. Our goal is to implement tool with direct search (e.g., using Bing API) and to use means of visualization of views on clusters of documents within query result in specific form defined by concept lattice. This tool is work-in-progress and we will analyze different extensions which will use fuzzy approaches from the area of concept lattices. After completion of the tool we plan to extend the experiments and realize user study in order to test user experience with the tool.

115 Class-based outlier detection and interpretation Leona NEZVALOVÁ, Luboš POPELÍNSKÝ, Karel VACULÍK, and Václav BLAHUT KD Lab, FI MU, Botanická 68a, Brno Abstrakt. We focus on outlier detection in labeled data. We present a new approach based on Random Forests. We also bring two novel method that exploits the tree ensemble learned by RF for finding interpretation of outliers. Keywords: outlier detection, classified data, outlier interpretation 1 Class-based outliers Outlier detection [2] is an area of data analysis for finding anomalies in data. The main stream of outlier detection defines, for a given statistical distribution, an outlier (or a series of outliers in the case of contextual outliers) as a case that maximally differs from the rest of cases. No class label is taken into account. Outlier detection in labeled data was elaborated in [7]. Class outliers are those cases that look anomalous when class labels are taken into account, but they do not have to be anomalous when the class labels are ignored. Distance and density-based approach has been published in [8] and its slightly improved version is now available in RapidMiner. Usability of these methods in Custom Relation Management and also in educational data was demonstrated [7, 13]. In this paper we present another approach based on Random Forests (RF) [4]. We also bring a novel method that exploits the tree ensemble learned by RF for finding interpretation of outliers. We present two methods, one based on tree reduction, the other on finding frequent branches in those trees. 2 RF-OEX RF-OEX, implemented on the top of Weka [6], exploits Random Forests, an ensemble classification and regression method that combines bagging with the idea of random selection of features before starting to learn a tree. RF-OEX consists of two parts, an outlier detection module 1 and an outlier interpretation module. In the following section we describe class outlier detection. Two methods for class outlier interpretation are described in Section Class outlier detection Random Forests can be used as an outlier detection method for classical settings, i.e. normal vs. anomalous data, in the following way. After each tree is built, all of the data are run down 1 First version has been implemented by Zuzana Pekarčíková[12]. M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

116 102 Class-based outlier detection and interpretation the tree, and proximity values, actually a proximity matrix, are computed for each pair of cases by the following way. Starting with zero proximity, for each couple of cases, if they occupy the same terminal node, their proximity is increased by one. Then, at the end of the run, the proximity values are normalized by dividing by the total number of trees and average proximity is computed for each instance. The main idea of RF-OEX lies in a different way of exploration of the proximity matrix. The method is actually unsupervised - we do not have any apriori labeling into normal and anomalous instance. The main difference then lies in the fact that RF-OEX exploits also the information about the class label and proximity of two cases is computed as a frequency (relative number) of trees that classified these two cases into the same class. Moreover, the outlier factor for an instance p is computed as a sum of three different measures of proximity or outlierness - proximity to the members of the same class OF1, misclassification measure (proximity to the members of other classes) OF2 and ambiguity measure OF3. A similar idea, but only for first two addends, has been elaborated in [7]. In the following, p stands for an element for which we compute the outlier factor. OF(p) = OF 1(p)same_class ~t~ OF 2(p) misclassification ~t~ OF 3(p) ambiguity OF 1(p)same_class. In this case, only proximities to cases from the same class, C p, are taken into account. Proximity Prox(p) of case p from class C p is then computed as an aggregation of proximities to all cases from the same class. Four aggregation functions have been implemented: sum, sum of squared proximity values, product, and cube root of sum of cubic values. In principle, the higher the proximity is, the lower its outlierness is, so we use inverse value of the proximity, ProxInverse(p) = 1/Prox(p), and normalize it because of different sizes of different classes. OF 2(p) misclassification. We stated that the similarity with members of a different class should increase the class outlier factor of p. We take c elements with highest proximity to p. Then we compute how frequently were those element incorrectly classified. To be comparable with OF 1 and OF 3, the value is multiplied by k = (1/4)*max q DOF 1(q) where DB is the set of all examples. OF3(p) ambiguity. To increase the importance of outliers that are far from all classes we add the third addend OF 3. We use again set C p, i.e. all cases form the same class as p, compute sum of proximities to case p and compare it with ideal situation when proximity to all examples is 1 and the sum is equal to card(c p). Then we multiply it with the same constant k as in the case of OF2. Experiments. For iris data set and the default settings (for more information see with the number of random features equal to the total number of input features we have got the following top outliers in this order. Instance 71 Class: Iris-versicolor Result Outlier Score: Instance 84 Class: Iris-versicolor Result Outlier Score: Instance 107 Class: Iris-virginica Result Outlier Score: 9.62.

117 Poster prezentovaný na komunitním setkání 103 Maybe it is not surprising that none of top outliers has been misclassified when the model has been learned and tested on the same data set. However, when analyzing probability distribution of classification to all three classes, for most of outliers (but not for all of them) there were observed a small difference between probability (confidence) of classification to the correct class and to the incorrect one. All the results can be found on in directory Results/OutlierDetection, files iris-weka-trees.randomforest*. 2.2 Outlier interpretation Several methods for constructing an interpretation of outliers have been recently published [1, 5, 9, 10] but only the following two for class outliers. The method in [7] analyzes frequent patterns that cover an instance/example and takes supports of those patterns for finding the most significant attribute-value couples as an explanation. However this method gives counterintuitive results even in very simple situations. In [3] a novel unsupervised way of detecting outliers for two-class problem by Inductive Logic Programming is presented. The essential idea is that the outliers somehow disrupt the model of the data. The detection is done by creating a model, then for each possible outlier (or a set of outliers) excluding this outlier(s), learning a new model and comparing it with the original model. This approach also allows us to divide outliers into three groups according to the way they disrupt the model learned with whole data set. As no implementation was available we re-implemented it. For class outlier explanation we developed two new methods. Both use already learned random trees and returns interpretation of outliers as a set of conjunctions of attributes or attribute-value couples with weights where a weight is proportional to expressive power of the conjunction. Reduction of random trees. For an outlier, we take all trees that classified this instance into an incorrect class. Actually we now work with two classes -O as outlier and N as normal - like in the classical outlier detection settings, which allows us to prune the trees. Specifically, all sub-branches that classify into N can be removed. In the next step, we remove internal nodes in the branch that do not influence classification by checking all values that attribute at this node can have got. After that pruning is done, sets of attributes are collected by running outliing instance down each tree. Each of those attribute sets interprets outlierness of examined point with weight that is given by frequency of occurrence in pruned trees. Let's look on the interpretation of most outliing instance number 71 and three more cases. Full list of interpretations can be found on the web page. Instance number:71, Class: Iris-versicolor petalwidth>=l.6, 0.6 Instance number:84, Class: Iris-versicolor petallength>=4.9,0.63 Instance number:37, Class: Iris-setosa sepallength>=5.4 && sepalwidth<3.7,1 Instance number: 107, Class: Iris-virginica petallength<4.9,0.51 or sepallength<5.7, 0.32

118 104 Class-based outlier detection and interpretation This method is much more efficient if compared with the ILP approach, ft prefers to find short interpretations and oversee sometimes more complex interpretations, fn opposite, the following method is able to find also longer conjunctions. Analysis of frequent branches. The second method looks for a frequent combination of attributes, i.e. a combination with support higher than minsupp again on the branches that classify the instance incorrectly. For each frequent combination we express the whole data set only by attributes that appeared in that frequent combination and observe how much the outlier factor changed. To compare these two values of the outlier factor, we first have to normalize each one of them. Combinations of attributes contribute to interpretation with weight that is proportional to size of achived outlier factor. The results follow. Instance number: 71, Class: Iris-versicolor petalwidth=l.8, 0.88 I t means that outlierness of instance no. 71 is caused from 88% by value 1.8 of attribute petalwidth. Now have a look at the third most outliing instance number 84. Instance number: 84, Class: Iris-versicolor petallength=5.1, 0.74 sepallength=6 && petallength=5.1, 0.26 Instance outlierness is caused from 74% by value of petallenght. There is also significant increase in outlierness if we combine attribute petalllenght with attribute sepallength. This combination participates in outlierness with 26%. 3 Conclusion Frequent attribute set allows to find more complex interpretation more frequently than the first method. Deeper comparison with Inductive Logic Programming approach [3] can be found in [11] and supplementary material on cz/~popel/ We introduced a novel method based on Random Forests that is competitive or overcome the existing methods. Two new methods for class-based outlier description and interpretation were presented. The open question is evaluation of class-based outlier detection. After this small step ahead, building benchmark data sets for this task more systematically will be the next goal. Besides the applications mentioned earlier, there are many others that can exploit information about class-based outliers, e.g. fake text recognition, when an written by a man pretends to be written by a woman. Acknowledgments. We would like to thank first of all to Luis Torgo for his assistance and fruitful discussions and also to the members of KD Lab FIMU for their help. We also thanks to reviewers for their comments. This work has been partially supported by Faculty of Informatics, Masaryk University.

119 Poster prezentovaný na komunitním setkání 105 References 1. ODD2 Ws on Outlier Detection & Description under Data Diversity, KDD Charu C. Aggarwal. Outlier Analysis. Springer, F. Angiulli and F. Fassetti. Exploiting domain knowledge to detect outliers. Data Min. Knowl. Discov., 28(2): , Leo Breiman. Random forests. Mach. Learn., 45(l):5-32, October Xuan Hong Dang, Barbora Micenkova, Ira Assent, and Raymond T. Ng. Local outlier detection with interpretation. In ECML PKDD 2013, Prague, Czech Republic, September 23-27, 2013, Proceedings, Part III, pages , Mark Hall et al. The weka data mining software: An update. SIGKDD Explor. NewsL, 11(1):10-18, November Zengyou He, Xiaofei Xu, Joshua Zhexue Huang, and Shengchun Deng. Mining class outliers: concepts, algorithms and applications in CRM. Expert Syst. Appl., 27(4): , Nabil Hewahi and Motaz Saad. Class outliers mining: Distance-based approach. International Journal of Intelligent Technology, 2(1):5568, B. Micenkova, R. T. Ng, X. H. Dang, and I. Assent. Explaining outliers by subspace separability. In IEEE ICDM, pages , Emmanuel Miiller, Fabian Keller, Sebastian Blanc, and Klemens Bohm. Outrules: A framework for outlier descriptions in multiple context spaces. In ECML PKDD 2012, Bristol, pages , Leona Nezvalova, Lubos Popelmsky, Luis Torgo, and Karel Vaculik. Class-based outlier detection: staying zombies or awaiting for resurrection? In IDA 2015, Saint Etienne. Springer, Zuzana Pekarcikova. Supervised outlier detection, /fi_m/diplomova_praca_pekarcikova.pdf. 13. Karel Vaculik, Leona Nezvalova, and Lubos Popelinsky. Educational data mining for analysis of students' solutions. In AIMSA, LNCS, pages , 2014.

120

121 Mapy bez bariér Petr HAZUZA 1,2 1 Nadace Charty 77 Mapy bez bariér Melantrichova 504/5, Praha petr.hazuza@bariery.cz 2 Katedra informačního a znalostního inženýrství, FIS VŠE Praha nám. W.Churchilla 4, Praha xhazp03@vse.cz Abstrakt. V rámci projektu Nadace Charty 77 Mapy bez bariér proběhne v roce 2015 mapování přístupnosti objektů z pohledu osob s omezenou hybností. Zmapováno bude bezmála 600 hradů, zámků či jinak turisticky atraktivních objektů po celé České republice, naměřené údaje budou vyneseny na on-line mapu, ale především budou publikována jako otevřená a strojově čitelná data mj. i v podobě propojených otevřených dat. Potřebný RDFS slovník pak vzniká v rámci diplomové práce autora tohoto článku. Projekt zmapováním zmíněných objektů však nekončí. Tento projekt si klade za cíl položit základy jednotného uložiště dat o přístupnosti objektů. Probíhají jednání s mapujícími organizacemi i institucemi, které mají o mapování zájem, a je jim nabízena platforma projektu pro publikaci jejich dat. Tvůrci aplikací tak budou moci využít bohatá data o přístupnosti objektů v jednotném formátu i struktuře. Klíčová slova: linked open data, RDFS slovník, data o přístupnosti objektů 1 Aktuální situace v ČR Existence dat o přístupnosti objektů navázaných na mapový podklad je pro osoby s hendikepem nutným předpokladem nejen pro kvalitní turistiku, ale také pro úspěšné řešení životních situací. Pokud se navíc jedná o data strukturovaná a otevřená, vzniká zde prostor pro tvorbu dalších aplikací, které vystavovatelé dat nemusí předvídat. Mapové projekty pro hendikepované rozdělujeme na dva základní typy lišící se ve způsobu, jakým jsou získávána vstupní data. Jedním je přístup komunitní, kdy údaje o přístupnosti generují sami uživatelé. Vzorem pro celý svět je v této oblasti německý projekt wheelmap.org 1, v ČR pak fungují projekty Vozejkmap 2 a Disway 3. Druhý přístup je profesionální mapování, kdy vyškolení odborníci měří detailní údaje o přístupnosti budovy od šíře vstupních dveří až po vnitřní rozměry toalet. Stupeň přístupnosti objektu se nejčastěji určuje podle Metodiky klasifikace přístupnosti objektů 4 (Metodika), která za přispění Ministerstva pro místní rozvoj vznikla v pracovní skupině vedené Pražskou organizací vozíčkářů. Z důvodu finanční a časové náročnosti získávání těchto dat je promapovaný jen zlomek ČR a navíc nejsou ani jednotlivé zmapované oblasti nijak propojeny. Každá městská část, každé město, má vlastní on-line mapu přístupnosti na M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

122 108 Mapy bez bariér svých webových stránkách nebo v podobě tištěných map, které nejsou efektivně distribuovány mezi cílovou skupinu. V těchto materiálech se v naprosté většině nepoužívají ani kompletní data, ale jen zkrácená podoba v podobě piktogramu značícího stupeň přístupnosti a textového popisu. Samotná surová naměřená data jsou pouze zaarchivována v tištěné podobě, nejsou tedy nijak elektronicky zpracovávána neřkuli publikována. 2 Projekt Mapy bez bariér Vzhledem k podmínkám operačního programu EU, z kterého se podařilo získat prostředky na projekt Mapy bez bariér (Projekt) v letech , se v úvodní fázi projektu změří údaje o takřka 600 turisticky zajímavých objektech. Tento seznam vznikl s dat od agentury CzechTourism, Národního památkového ústavu a Národního informačního a poradenského střediska pro kulturu. Cílovou skupinou projektu nejsou jen hendikepovaní, ale také rodiče s kočárky a senioři. Projekt je inovativní tím, že naměřená data bude sdílet v otevřené a strojově čitelné podobě. Pro sběr dat a vyhodnocování stupně přístupnosti objektu bude využita výše uvedená Metodika. O data již vyjádřily zájem portály Mapy.cz 5 a Vozejkmap. Významní partneři Projektu jsou Asociace krajů České republiky a Svaz měst a obcí České republiky, kteří v memorandu vyjádřili vůli vést své členy k šíření dat o přístupnosti pod otevřenou licencí. Jednání s cílem propagovat myšlenku sdílení dat o přístupnosti probíhají i se zástupci občanských iniciativ, které se problematice přístupnosti věnují. 3 Slovník přístupnosti objektů Údaje o přístupnosti objektů budou v rámci Projektu publikovány i ve formě linked open data. Protože dle dostupných informací z celoevropské informační sítě EUROPE DIRECT 6, European Documentation Centre Praha 7 a platformy Joinup 8 zřízenou Evropskou komisí zatím neexistuje žádný architektonický RDFS 9 slovník ani RDFS slovník, který by popisoval doménu přístupnosti, je nutné pro potřeby Projektu vytvořit RDFS slovník (Slovník) vlastní. Návrh Slovníku je hlavním předmětem diplomové práce autora a v době vzniku tohoto příspěvku neexistovala ještě jeho finální podoba, hlavní struktura však již navržena byla. Podoba Slovníku vychází z formulářů, do kterých se zaznamenávají údaje o objektu a na základě kterých se následně určuje stupeň přístupnosti daného objektu. Tyto formuláře jsou součástí uvedené Metodiky. Skládají se z jednoho formuláře pro samotný objekt, do kterého se zaznamenávají údaje o přístupu k objektu, o vlastnostech vstupů i samotného interiéru. K tomuto hlavnímu formuláři jsou pak volitelné přílohy pro výtah, rampu, plošinu a upravené WC. Příloh je vyplněno vždy tolik, kolik je v budově daných prvků. Prvním požadavkem na Slovník je tedy to, aby odpovídal logické struktuře formulářů a pokrýval všechna jejich pole. Tato struktura je modelována pomocí následujících tříd:

123 Poster prezentovaný na komunitním setkání 109 Obrázek 1 Model základních tříd Třída jup 10 :Object odpovídá formuláři o objektu. Stejným způsobem jsou modelovány i formulářové přílohy nebo entity, které se ve formulářích opakovaně vyskytují. Vlastnosti těchto tříd odpovídají patřičným polím ve formulářích. Reálný objekt pak lze modelovat následujícím způsobem: < a jup:organization; jup:haspart < < a jup:complex; jup:partof < jup:haspart < < a jup:object; jup:partof < jup:haspart < < a jup:elevator; jup:partof < jup:haspart < < a jup:elevatorshaftdoor; jup:partof < jup:doorwidth 90. Dalším požadavkem na Slovník je automatizované vyhodnocování stupně přístupnosti dle Metodiky nad daty reprezentovanými RDF 11 grafem. Po technické stránce se převážně jedná o navržení vhodné hierarchie tříd a vlastností pro SPARQL 12 dotazy testující jednotlivá kritéria pro vyhodnocení stupně přístupnosti. Např. pro testování kritéria požadujícího, aby byla výška prahů u dveří ve vstupech do objektu maximálně 2cm pak bude možné psát: SELECT * {?object a jup:object. OPTIONAL {?door a/(rdfs:subclassof)* jup:door; jup:partof [a/rdfs:subclassof jup:entrance; jup:partof?object]; jup:doorstepheight?doorstepheight. FILTER(?doorStepHeight=<2) } } 10 prefix jup odpovídá původnímu názvu projektu jednotné uložiště přístupnosti

124 110 Mapy bez bariér Návrh struktury tříd je důležitý i pro další rozšíření formulářů potažmo Slovníku. Současná Metodika řeší pouze klasifikaci přístupnosti objektů pro osoby s omezenou hybností. V rámci Projektu však byla vedena diskuze s patřičnými organizacemi ohledně vzniku metodik pro ostatní postižení tak, aby např. i nevidomí měli svoji konvenci pro značení přístupnosti. Pro tyto účely bylo iniciováno zařazení patřičných polí do formulářů. Slovník řeší také napojení na již existující relevantní datasety jako je Registr územní identifikace, adres a nemovitostí, častěji známý jako RÚIAN. Díky těmto datům pak lze klást dotazy důležité pro praktické využití dat o přístupnosti. Jako příklad lze uvést SPARQL dotaz na výskyt objektů s danými kvalitativními požadavky v maximální vzdálenosti od určitého místa: SELECT * {?object a jup:object; jup:hasname?hasname; jup:hasplace?hasplace; jup:objectaccessibilitybymkpo jup:accessibleobjectbymkpo; jup:sameas?sameas. SERVICE < {?hasplace ruian:adresnibod [schema:geo [schema:longitude?long;schema:latitude?lat]]. } SERVICE < {?sameas dbpedia:abstract?abstract. } FILTER(bif:st_intersects(bif:st_point(STRDT(?long, xsd:float),strdt(?lat, xsd:float)), bif:st_point( , ), 2)). } V dalším pokračování projektu se předpokládá rozšíření Slovníku o možnost pokrýt data z komunitních portálů. Původně měla být tato data obsažená již v úvodní fází projektu, nakonec však bylo rozhodnuto začít pouze s daty profesionálními. Dále se pak nabízí rozšíření Slovníku o mapování přístupností tras a komunikací. Metodika řešící toto téma je nyní v rané fázi vývoje a zatím neexistuje ani dostupný a efektivní sběr potřebných dat. S danými organizacemi je však Nadace Charty 77 v úzkém kontaktu. V neposlední řadě je tu také možnost rozšířit Slovník tak, aby byl použitelný i v jiných zemích. Literatura 1. Pičman, M., Hazuza, P.: Snadnější plánování výletů a dovolených. Můžeš ( ) 59. Annotation: Maps without Barriers As part of our project Maps without Barriers realized under Charta 77 Foundation, in 2015 we intend to map accessibility of buildings and its premises from the perspective of people with limited mobility. We plan to inspect nearly 600 catles, palaces and other tourist attractions in the Czech Republic. The acquired data will be gathered and published as an on-line map in form of open and machine-readable data. It will also appear as Linked Open Data. The required RDFS vocabulary will be designed as part of the assigment carried out in the diploma thesis of the author of this article. However, the project will not end with mapping premises, the main objective is to provide a solid foundation for a unified database of accessibility of buildings and its premises. Negotiations with institutions and organizations interested in mapping are in progress and we try to offer them our project platform for publication of their data. Application designers will therefore be able to use abundant data on accessibility of buildings and its premises in a unified formate and structure.

125 Modelovanie záujmov používateľa vo vektorovom priestore latentných čŕt Márius ŠAJGALÍK, Michal BARLA, Mária BIELIKOVÁ Ústav informatiky a softvérového inžinierstva, FIIT STU v Bratislave Ilkovičova 2, Bratislava {marius.sajgalik,michal.barla,maria.bielik}@stuba.sk Abstrakt. V našej práci sa zameriavame na využitie multidimenzionálneho vektorového priestoru latentných čŕt. Tento relatívne nový alternatívny spôsob reprezentácie slov prináša nové jednoduchšie možnosti riešenia známych problémov spracovania prirodzeného jazyka, vďaka čomu sa v súčasnosti dostáva do popredia. Práve preto sa snažíme bližšie preskúmať aj problém modelovania záujmov používateľa, ktorý mapujeme na problém extrakcie kľúčových slov. Klíčová slova: extrakcia kľúčových slov, vektory čŕt, modelovanie záujmov používateľa. 1 Úvod V oblasti modelovania používateľa je reprezentácia záujmov v podobe kľúčových slov jednou z populárnych alternatív [3]. Kľúčové slová, ktoré reprezentujú používateľov záujem, sú pre používateľa ľahko pochopiteľné a jednoducho použiteľné aj pri zbere spätnej väzby. Ľahká sémantika zároveň poskytuje pevný základ personalizácii [7]. Aby sme vedeli lepšie strojovo spracovávať slová ako jednotky textu, potrebujeme poznať vzťahy medzi nimi, ktoré im dajú potrebnú sémantiku. Jedným zo spôsobov je použiť ontológiu, taxonómiu, alebo nejaký slovník, ktorý obsahuje takéto vzťahy. Príkladom je lexikálna databáza WordNet [13], ktorá reprezentuje tzv. ľahkú ontológiu a spája slová do synonymických skupín, medzi ktorými definuje rôzne vzťahy. V súčasnosti sa do popredia dostáva alternatívna reprezentácia slov, tzv. distribuovaná reprezentácia slov, ktorá mapuje slová na viacrozmerné vektory čŕt [2]. Tým sa mení podstata viacerých problémov, pretože napr. problém určovania podobnosti slov vieme transformovať na problém merania podobnosti príslušných vektorov. Vieme určiť, ktoré slová najviac spolu súvisia, vieme vypočítať vektor, ktorý kóduje nejaký vzťah medzi slovami, ako napr. vzťah jednotného a množného čísla podstatných mien. Takáto reprezentácia je teda veľmi užitočná, dokáže zachytiť viaceré sémantické a syntaktické vzťahy medzi slovami [8] a má potenciál nahradiť súčasné ručne vyrobené taxonómie, ontológie a rozličné slovníky, ktoré často obsahujú rôzne chyby a nepresnosti. Čoraz väčším problémom sa stáva aj manažment prepojených dát, ktoré vznikajú z rôznych zdrojov a tak je potrebné riešiť nové problémy súvisiace s ich nízkou kvalitou, duplikátmi, či dokonca kontradikčnosťou [4]. Obrovský problém predstavuje aj škálovateľnosť ontológií. Je nepredstaviteľné, aby ontológia reprezentovala väčšie celky ako napr. frázy, či dokumenty. Naopak vektory latentných čŕt dokážu reprezentovať nielen slová, ale aj frázy, odstavce, dokumenty, či celé kategórie dokumentov. M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

126 112 Modelovanie záujmov používateľa vo vektorovom priestore latentných čŕt 2 Modelovanie záujmov používateľa extrakciou kľúčových slov V našej práci reprezentujeme záujmy používateľa formou kľúčových slov. Aby sme takto vedeli vypočítať záujmy používateľa, potrebujeme metriku zaujímavosti pre extrahované kľúčové slová. Preto sa v našej práci zameriavame na problém kategorizácie dokumentov. To znamená, že sa snažíme extrahovať diskriminačné kľúčové slová, t.j. také, ktoré budú mať dobrú rozlišovaciu schopnosť pri zaraďovaní dokumentov do príslušných kategórií. Ukazuje sa, že na štandardných datasetoch kategorizácie dokumentov je použitie diskriminačných metrík efektívnejšie v porovnaní so štandardnou metrikou dôležitosti TF-IDF [10]. Na základe dosiahnutých výsledkov môžeme konštatovať, že väčšina metrík, ktoré sú založené na frekvencii slov v rámci kategórií, dosahujú porovnateľné a zároveň najlepšie výsledky z pomedzi skúmaných metrík. Práve tu je priestor pre výber vhodnej metriky zaujímavosti. Kľúčové pre daný problém je vhodné definovanie kategórií, ktoré potrebujeme rozlišovať. Našim cieľom je ukázať, že aj bez existencie explicitných kategórií dokumentov vieme využiť implicitné kategórie, ktoré sú ukryté v dátach. Príkladom implicitných kategórií je napr. rozdelenie webových stránok v histórií prehliadania podľa času návštevy. Čas návštevy môže byť absolútny, alebo relatívny, napr. v rámci dňa. Pri dátach viacerých používateľov môžu aj samotní používatelia reprezentovať kategórie, t.j. každý používateľ má priradenú samostatnú kategóriu a všetky webové stránky, ktoré navštívil patria do tejto kategórie. Ďalšou možnosťou je využiť algoritmy zhlukovania, alebo modely tém, ktoré nám tiež dokážu poskytnúť potrebné kategórie automaticky, bez potreby ručného značkovania. 3 Kvantitatívne vyhodnotenie modelu záujmov používateľa Vyhodnotenie navrhnutého modelu používateľa predstavuje netriviálny problém. Keďže každý používateľ je jedinečný, objektívne vyhodnotenie často vyžaduje obrovský objem dát. Táto požiadavka nie je jednoducho splniteľná vo verejnom výskumnom prostredí, keďže súkromné informácie sú príliš citlivé, aby mohli byť zverejnené. V prípade menších dát potrebujeme sofistikovanejšie metódy vyhodnotenia. Preto väčšina prístupov využíva časovo náročnejšie kvalitatívne vyhodnotenie, napr. vo forme dotazníka [5]. Takéto vyhodnotenie je ale vhodnejšie skôr na modelovanie stereotypov, ktoré vieme opísať niekoľkými črtami. Alternatívne vieme využiť objektívnejšiu múdrosť davu. To však vyžaduje dobre motivovať obrovský počet anotátorov. Okrem finančnej motivácie vieme využiť hry s účelom [12], no návrh hier s dobrou motiváciou je veľmi náročný. Identifikácia implicitných kategórií (resp. automatické vytvorenie explicitných kategórií) nám umožňuje kvantitatívne vyhodnotiť kvalitu modelu záujmov používateľa vyhodnotením úspešnosti kategorizácie dokumentov. Kvantitatívne vyhodnotenie znamená veľký prínos v oblasti modelovania používateľa, kde v súčasnosti dominuje kvalitatívne vyhodnotenie. Predstavuje oveľa efektívnejší spôsob vyhodnotenia, keďže nevyžaduje manuálne hodnotenie, či značkovanie dát. To v praxi znamená možnosť viacerých iterácií vo vývoji nových metód, či modelov. Výskumník tak získa spätnú väzbu skôr a teda získa aj viac času na odladenie chýb, či iných skrytých nedostatkov, ktoré sa prejavia až po vykonaní experimentu. Existencia kvantitatívneho vyhodnotenia sa tak s veľkou pravdepodobnosťou odzrkadlí aj vo vyššej kvalite navrhovaných metód a modelov. Hoci kvantitatívne vyhodnotenie v tejto oblasti nie je nič nové, väčšinou vyžaduje, aby samotní používatelia poskytli hodnotenie objektov záujmu [14], či ručne značkovali dáta [6]. Ak v literatúre nájdeme kvantitatívnu metódu vyhodnotenia, ktorá nevyžaduje ručné značkovanie dát, riešený problém je často veľmi špecifický a metóda vyhodnotenia nie je

127 Poster prezentovaný na komunitním setkání 113 všeobecne použiteľná (napr. podľa [9] vieme kvantitatívne vyhodnotiť model dialógov určovaním poradia príspevkov na Twitteri). Na druhej strane, v literatúre často nachádzame kvantitatívne vyhodnotenie v podobe kategorizácie dokumentov (ako napr. v článku o populárnom modeli tém LDA [1]), čo indikuje možnosť využitia kategorizácie dokumentov pri vyhodnotení modelu používateľa, keby sme vedeli identifikovať nejaké prirodzené kategórie (bez potreby dodatočného značkovania dát). V [11] sa nám podarilo experimentálne overiť kvantitatívnu metódu vyhodnotenia modelu používateľa na reálnych dátach histórie prehliadania webu viacerých používateľov. Okrem konečných čísel úspešnosti sa nám podarilo ukázať, že aj takýmto kvantitatívnym prístupom dokážeme sledovať zaujímavé vlastnosti dát a použitej metódy a vieme tak veľmi efektívne ladiť aj priebežný návrh metódy. Porovnaním výsledkov môžeme sledovať rôzny vplyv metrík. Vieme takto odhaliť vplyv použitia jednotlivých zložiek metrík ako je napríklad započítanie TF zložky (absolútna frekvencia slova v rámci jedného dokumentu). Na základe takéhoto pozorovania vieme zároveň identifikovať dôležitosť identifikácie lokálnych a globálnych tém. V niektorých prípadoch ako napríklad v digitálnych knižniciach, môžu byť totiž dôležitejšie malé témy, ktoré sú viac špecifické a skôr lokálne pre menšiu časť dokumentov, zatiaľ čo v iných prípadoch ako napr. na divokom webe, kde majú používatelia rôznorodejšie a stereotypnejšie záujmy, môže byť výhodnejšie sústrediť sa na väčšie globálnejšie témy, ktoré využijeme napr. pri odporúčaní novinových článkov. Ďalším zaujímavým pozorovaním pri analýze dosiahnutých výsledkov v [11] je rozdiel v efektívnosti využitia diskriminačných metrík oproti výsledkom dosiahnutých pri vyhodnotení na štandardných datasetoch v [10]. Ukazuje sa, že na reálnych dátach používateľov, kedy sa snažíme kvantitatívne vyhodnotiť úspešnosť kategorizácie dokumentov medzi používateľov, ktorí tieto dokumenty čítali, nemajú diskriminačné metriky až taký veľký vplyv ako v prípade umelých kategórií. Napriek tomu však môžeme pozorovať vyššie spomínané zaujímavé vplyvy rôznych zložiek metrík. To naznačuje, že štandardné metriky kategorizácie dokumentov nie sú v takomto prípade dostatočne efektívne. To zároveň znamená, že pre daný problém je dôležité aj nájdenie vhodnej diskriminačnej metriky a nemôžme sa spoliehať na univerzálnosť diskriminačných metrík, ktoré sú efektívne pri kategorizácii dokumentov s explicitnými kategóriami. Poďakovanie. Táto publikácia vznikla vďaka čiastočnej podpore projektov VG1/0646/15, VG1/0752/14 a v rámci OP Výskum a vývoj pre projekt: Medzinárodné centrum excelentnosti pre výskum inteligentných a bezpečných informačno-komunikačných technológii a systémov, ITMS , spolufinancovaný zo zdrojov Európskeho fondu regionálneho rozvoja. Literatúra 1. Blei, D.M., Ng, A.Y., Jordan, M.I.: Latent dirichlet allocation. In: Journal of Machine Learning Research, vol. 3, (2003), pp Collobert, R., Weston, J.: A unified architecture for natural language processing: deep neural networks with multitask learning. In: Proc. of the 25th int. conf. on Machine learning, ACM, (2008), pp Gauch, S., Speretta, M., Chandramouli, A., Micarelli, A.: User profiles for personalized information access. In: LNCS: The Adaptive Web: Methods and Strategies of Web Personalization. Vol Springer-Verlag, (2007).

128 114 Modelovanie záujmov používateľa vo vektorovom priestore latentných čŕt 4. Holub, M., Proksa, O., Bieliková, M.: Detecting identical entities in the semantic web data. In: SOFSEM 2015: Theory and Practice of Computer Science, volume 8939 of LNCS, Springer-Verlag, (2015), pp Lipták, M.: Researcher Modeling in Personalized Digital Library. Master thesis, Slovak University of Technology in Bratislava, (2014). 6. Liu, F., Pennell, D., Liu, F., Liu, Y.: Unsupervised approaches for automatic keyword extraction using meeting transcripts. In: Proc. of NAACL-HLT, ACL, (2009), pp Mika, P.: Ontologies are us: A unified model of social networks and semantics. In: Journal of Web Semantics, Vol. 5, No. 1, (2007), pp Mikolov, T. et al.: Linguistic regularities in continuous space word representations. In: Proc. of NAACL-HLT, ACL, (2013), pp Ritter, A., Cherry, C., Dolan, B.: Unsupervised modeling of Twitter conversations. In: Proc. of NAACL-HLT, ACL, (2010), pp Šajgalík, M., Barla, M., Bieliková, M.: Exploring multidimensional continuous feature space to extract relevant words. In: Statistical Language and Speech Processing, Springer-Verlag, (2014), pp Šajgalík, M., Barla, M., Bieliková, M.: Modelling User Interests in Latent Feature Vector Space based on Document Categorisation. In: IIT.SRC 2015, Nakladateľstvo STU, (2015). 12. Šimko, J., Bieliková, M.: Games with a purpose: User generated valid metadata for personal archives. In: 6th Int. Workshop on Semantic Media Adaptation and Personalization (SMAP). IEEE, (2011), pp Varelas, G., Voutsakis, E., Raftopoulou, P., Petrakis, E.G.M., Milios, E.E.: Semantic similarity methods in wordnet and their application to information retrieval on the web. In: Proc. of the 7th annual ACM int. workshop on Web information and data management (WIDM '05), ACM, pp (2005). 14. Zukerman, I., Albrecht, D.W.: Predictive statistical models for user modeling. In: User Modeling and User-Adapted Interaction, vol. 11, no. 1-2, (2001), pp Annotation: Modelling user interests in latent feature vector space In our work we focus on utilisation of multidimensional vector space of latent features. This relatively new alternative way of word representation offers new and simpler solutions to known problems in the domain of natural language processing, which is why it becomes so popular nowadays. That is also the reason why we examine the problem of modelling user interests, which we map onto problem of keyword extraction. Besides novel method of modelling user interests, we also devised a novel and quite generic method of quantitative evaluation of user models, which represents an invaluable contribution in the domain of user modelling.

129 Knowledge discovery in practice František BABIČ, Alexandra LUKÁČOVÁ, Ján PARALIČ Department of Cybernetics and Artificial Intelligence, FEI TU of Košice Letná 9, Košice {frantisek.babic, alexandra.lukacova, Abstract. Data mining and currently mainly in connection with big data more attractive concept of data science represent an interesting approach how to extract potential interesting and useful knowledge from various volumes of data that can be structured or unstructured. In this paper we describe four case studies based on real data sets that we analyzed: dataset containing information about civil aviation accidents in USA; dataset representing medical characteristics of the patients from Croatia; dataset including collected questionnaires from hospitalized patients in Slovakia and data about road accidents in UK. Obtained results are plausible, show the high usefulness for practice, but also existing barriers related to data quality, computational complexity and integration of data from different sources in different formats. Keywords: classification, model, rules, Apriori. 1 Metabolic Syndrome diagnostics Metabolic Syndrome (MetSy) is a well-known cluster of cardiovascular risk factors, components of which include central obesity (abdominal fat accumulation), impaired glucose tolerance, hypertension and atherogenic dyslipidemia, defined as increased serum triglycerides (TG) and decreased HDL-cholesterol (HDL) [4]. Data were collected in a family practice located in an urban area of the town of Osijek, the north-eastern part of Croatia, the region known by high prevalence of cardiovascular and other chronic diseases, higher than average for Croatia. MetSy database contains 93 patients records including 61 medical variables and one variable describing target diagnosis called Metabolic Syndrome. 60 patients in the analyzed dataset have diagnosed syndrome and 33 do not. We performed different experiments, starting with the whole database of patients, than with the data sample including only female patients and on the other hand over the sample including only men. In our experiment we used two alternative instances of algorithm C4.5: J48 implemented in Weka data mining tool and C5.0 provided by SPSS data mining software. Also, we investigated the optimal cut-off values for selected attributes which best distinguish diseased and healthy patients within the measure called Youden index. Obtained results represent generated decision trees as prediction models for binary classification and identified new optimal cut-off values for four significant variables FOLNA (Folic acid) and HbA1c (Average blood glucose during last three months) for men and MO (Monocytes % in White Blood Cell differential) and TSH (Thyroid-stimulating hormone) for women. All results were evaluated by participated medical expert, e.g. - IF HbA1C =< 4.41 AND Insulin =< 27.1 AND Cardiovascular diseases = yes AND Cortisol in the morning =< THEN MetSy = 1 M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

130 116 Knowledge discovery in practice - (Expert evaluation: obtained rules confirmed the known fact on the associations between impaired glucose metabolism (indicating with HbA1c), hyperinsulinemia (a measure of insulin resistance) and CV diseases). More details can be found in [2]. 2 Hepatitis diagnostics World Health Organization defines hepatitis as an inflammation of the liver. The condition can be self-limiting or can progress to fibrosis (scarring), cirrhosis or liver cancer. Hepatitis viruses are the most common cause of hepatitis in the world but other infections, toxic substances (e.g. alcohol, certain drugs), and autoimmune diseases can also cause hepatitis. Presented experiments do not represent typical example of hepatitis diagnosis through appropriate biomarkers. Source dataset is represented by collected anonymous questionnaire fulfilled by patients involved in a prospective multicenter study that was organized by the Slovak Infectologists SLS co-financing by the educational grant Roche Slovakia, s.r.o. A total of patients were examined, final set for processing and modeling phase contained 39 attributes; distribution of female and male patients was almost similar (52:48 in %); only 79 patients had confirmed hepatitis B and 65 hepatitis C. For our experiments we used Chi-squared Automatic Interaction Detector (CHAID) which is one of the oldest tree classification methods originally proposed by Kass [5]. The optimal cut-off points of a diagnostic test are defined as the points at which the expected utility of this test is maximized [7]. Used cost-benefit method for this purpose is based on calculating of the ROC curve slope at the optimal cut-off points. We re able to extract some decision rules from generated CHAID models, e.g.: - Overcoming the any hepatitis in the past = no AND 39 < Age <= 56 AND Surgical operation = yes THEN hepatitis B = positive. One of the medically interesting results is that not only elevated values of ALT but even those between 0.56 and 0.8 μkat/l can be associated with unrecognized HBV infection. Extracted new cut-off points for both Hepatitis B virus and C virus represents more sensitive diagnosis, i.e. they should lower the costs implied by late diagnosis of chronic hepatitis B or C, which is associated with much higher treatment costs. More details can be found in [6]. 3 Descriptive and predictive analyses of aviation accidents Aviation accident is defined as an occurrence associated with the operation of an aircraft, which takes place between the time any person boards the aircraft with the intention of flight until such time as all such persons have disembarked, where a person is fatally or seriously injured, the aircraft sustains damage or structural failure or the aircraft is missing or is completely inaccessible. Data used in these experiments contained accidents from FAA Accident/Incident Data System between years This initial dataset contained more than 25 thousand records described by 23 attributes, e.g. Aircraft damage, Aircraft category, Purpose of flight, Total serious injuries, Weather. During preprocessing phase, some new attributes were derived; we solved a relative high number of missing values within several sorting techniques and applied algorithm k-nearest neighbor to fill in; and finally we solved unbalanced character of target attribute within the random sampling, Synthetic Minority

131 Poster prezentovaný na komunitním setkání 117 Over-sampling Technique, etc. For the modelling phase we used algorithms C5.0, CART and Random Forest to generate classification models and also Apriori algorithm to mine relevant association rules. The most accurate model (geometric mean 80.61%) was combination of random over-sampling and C5.0 algorithm with following parameters: pruning severity 75, minimum records per child branch 20, cross-validate with 10 folds in training set, boosting with 10 trials. In the case of association rules mining available data about accidents and related values of attributes are very different, which did not allow the Apriori algorithm to mine any frequent item sets and relevant association rules. For example we present some decision rules extracted from generated classification models: - Weather Condition= IMC AND Purpose of Flight = Personal AND Broad Phase of Flight = Maneuvering THEN Result = Fatal. - Broad Phase of Flight = Maneuvering AND Number of Engines >1 AND Aircraft Category = Air-plane THEN Result = Fatal. More details can be found in [1]. 4 Analysis of road accidents data Currently, the road traffic safety is a one of the serious social problems. In 2011, more than 30,000 people died on the roads of the European Union. For every death on Europe's roads there are an estimated 4 permanently disabling injuries such as damage to the brain or spinal cord, 8 serious injuries and 50 minor injuries 1. An interesting source of data in this domain is the United Kingdom (UK), which from 1926 collects data about road accidents within the Reported Road Casualties Great Britain, an official statistical publication of the UK Department for Transport on traffic casualties, fatalities and related road safety data. For our experiments we decided to analyze sample from the time period that was divided into three separate datasets representing accidents with records described by 32 attributes, casualties with records and 14 attributes and vehicles with records described by 21 attributes. Classification models were generated by three decision trees algorithms: Random Forest, Gradient Boosted Classification and Random Forest Big Data that were available within H2O platform and deliver the best results of all the experiments. For association rules mining we used Apriori algorithm implemented in the R language. During preprocessing phase we eliminated some attributes in the accidents dataset representing coordinates or number identifying the roads of first and second class as attributes with low information value for our target task. Also we eliminated some other attributes based on correlation analysis. The most time consuming operation was the integration into single data sample within specified conditions. The best classification accuracy 85% was achieved by models Gradient Boosted Classification and Random Forest for Big Data. In the case of association rules mining, we discovered several rules that represent interesting findings about reasons of accidents occurrence, e.g. representation of males in discovered rules despite of relatively equable distribution of the relevant attribute (male: female = 1.3:1); accidents that happen on Sunday will have fatal consequences with the highest probability despite fact that this day of week showed the least number of accidents. More details can be found in [3]. 1

132 118 Knowledge discovery in practice 5 Conclusion In conclusion it can be stated that not only large volume of data represent nowadays an important source of information for different purposes, e.g. optimization, decision support, safety improvement, increasing performance and profits, etc. It is necessary to adapt existing methods and algorithms to new conditions and requirements or also to design and implement new approaches suitable for data streams analysis or other intensive evolving directions. Big players in this domain offer some complex software platforms for analytical purposes, but there is still room for research activities that can be, for example, more targeted or more appropriate for specific examples. We presented four cases as a part of our current research activities with the aim to evaluate a potential of adapted data mining methods to solve various real tasks in practice. In the case of medical data obtained results were evaluated by participated medical expert and used in daily diagnostic process. Two other examples were solved as pilot cases for possible future cooperation with partners who have suitable data available or solve similar tasks. Performed experiments can be understood as initial step in continual analytical process that will be further improved with additional data samples and mining techniques, e.g. effective methods for processing and analyses of the large data samples, evaluation of suitable IT solutions for these methods or results available in the form of decision support systems easily understandable for non-expert users. Acknowledgment This publication is the result of the Project implementation: University Science Park TECHNICOM for Innovation Applications Supported by Knowledge Technology, ITMS: , supported by the Research & Development Operational Programme funded by the ERDF (50%); supported also by the Slovak Grant Agency of the Ministry of Education and Academy of Science of the Slovak Republic under grant No. 1/1147/12 (50%). References 1. Babič, F., et al.: Descriptive and Predictive Analyses of Data Representing Aviation Accidents. In: New Research in Multimedia and Internet Systems, Advances in Intelligent Systems and Computing, Springer, Vol. 314 (2015) Babič, F., et al.: On Patient s Characteristics Extraction for Metabolic Syndrome Diagnosis: Predictive modelling based on Machine Learning. In: Lecture Notes in Computer Science, Springer International Publishing Vol.8649 (2014) Babič, F., Zuskacova, K.: Analysis of road accidents data to identify frequent patterns and important factors (submitted to the ISAT 2015 conference) 4. Eckel, R.A., Grundy, S.M., Zimmet, P.Z.: The metabolic syndrome. Lancet, Vol.365 (2005) Kass, G.V.: An Exploratory Technique for Investigating Large Quantities of Categorical Data. Applied Statistics 29(2), (1980) Lukáčová, A., et al.: How to increase the effectiveness of the hepatitis diagnostics by means of appropriate machine learning methods (accepted at the ITBAM 2015) 7. Vranova, J., Horak, J., Kratka, K., Hendrichova, M., Kovarikova, K.: ROC analysis and the use of cost-benefit analysis for determination of the optimal cut-point. Journal of Czech Physicians, Vol.148 (2009)

133 Rozpoznání anomálních uživatelů na českém Twitteru Petr JIRÁSEK 1, Lubomír POPELÍNSKÝ 2 1 FI MUNI Brno Botanická 68a, Brno jirda@mail.muni.cz 2 Katedra teorie programování, FI MUNI Brno Botanická 68a, Brno popel@mail.muni.cz Abstrakt. Práce se zabývá návrhem metody pro rozpoznání anomálních uživatelů s využitím přístupů pro detekci anomálií. V rámci práce byla provedena analýza anomálních uživatelů a pozorování vlivu jejich příspěvků na klasifikaci sentimentu na sociální síti Twitter. Klíčová slova: dolování z dat, detekce odlehlých bodů, rozpoznání anomálních uživatelů, Twitter, klasifikace sentimentu 1 Úvod Sociální síť Twitter je jednou z největších sociálních sítí na světě a je specifická především tím, že příspěvek na této síti může mít maximálně 140 znaků. Nejen díky tomu je proto populární na této síti hledat zvláštní skupiny uživatelů označované jako anomální uživatelé (tj. spammeři, roboti nebo účty se zvláštním slovníkem) a dále také řešit klasifikační úlohy jako rozpoznání tématu nebo určení sentimentu. V naší práci jsme navrhli metodu pro rozpoznání anomálních uživatelů s využitím přístupů pro detekci anomálií. Nalezené anomální uživatele jsme analyzovali a sledovali vliv příspěvků těchto uživatelů na klasifikaci sentimentu na sociální síti Twitter. 2 Kdo je to anomální a normální uživatel? Abychom měli dostatečnou představu, jaký uživatel je anomální a jak anomální uživatelé vypadají, je potřeba si ujasnit, co pod pojmem anomální uživatel rozumíme. Anomálním uživatelem označujeme uživatele, který se chová extrémně v některých svých atributech chování, existuje zde podezření, že takový účet není spravován člověkem, ale je určitým způsobem automatizován nebo šíří v rámci sítě informačně prázdné zprávy, duplicity nebo naopak šíří nadmíru zpráv založených na základě nějakého vzorce. Zpravidla se tak jedná o skupiny uživatelů, jako jsou spam účty a infikované účty, robotické účty a automaticky spravované účty, RSS čtečky a další účty. V opačném případě chápeme jako normální uživatele všechny ostatní účty. Jsou to uživatelé, kteří zpravidla vykazují interakci se svým okolím, jejich profil není výrazně jednosměrně orientován a jejich jednání je přirozené. Do této skupiny mimo jiné patří osobní účty projevující interakci s okolím, účty firem, společností a internetových služeb poskytující M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

134 120 Rozpoznání anomálních uživatelů na českém Twitteru servis svým uživatelům nebo projevující interakci s okolím, informační účty komunikující se svými odběrateli, celebrity, významné osobnosti a další. 2.1 Motivace Je několik důvodů, proč je vhodné hledat anomální uživatele na sociální síti Twitter. Prvním z nich je snaha o jejich studium a pochopení jejich chování, což nám může pomoci při jejich klasifikaci do jednotlivých podskupin. Dále někteří anomální uživatelé mohou porušovat obecné podmínky užívání služby a jejich rozpoznáním můžeme takové uživatelské účty pozastavit nebo trvale zablokovat. Dalším důvodem je pak možnost využití nalezených metod pro filtraci vlivu anomálních uživatelů a jejich specifického slovníku obsaženém v jejich příspěvcích od dat generovaných normálními uživateli. Twitter disponuje obrovským množstvím dat, které různé organizace a nástroje využívají k trénování svých modelů při klasifikaci a jiných činnostech, přičemž vliv dat produkovaných anomálními uživateli může mít negativní vliv na tyto nástroje. 2.2 Data V období ledna a února 2015 byly automatizovaně sbírány data z Twitteru obsahující data českých a anglických uživatelů. Ke každému uživateli byly vždy uloženy informace o jeho profilu a 200 posledních příspěvcích, které uživatel v historii publikoval. Celkem data obsahovala informace o českých a anglických uživatelích. Jelikož při některých provedených experimentech bylo nutné vytvářet trénovací a testovací množiny, bylo nezbytné využít práci dvou anotátorů, kdy v případě jejich neshody o přiřazení třídy rozhodl třetí anotátor. Všichni anotátoři měli předchozí zkušenost se sociální síti Twitter a Cohenova kappa [1] ve všech případech anotace dosahovala úrovně splňující požadavky na její důvěryhodnost. 3 Detekce anomálních uživatelů Základním předpokladem pro rozpoznání anomálních uživatelů je mít k dispozici dostatek informací, z kterých lze rozhodnout, zda je uživatel normální nebo anomální. Proto ke každému uživateli jsou u navržené metody sbírány informace, které lze rozdělit do tří skupin. První skupina informací se zabývá chováním uživatele a jeho rysy. Patří zde atributy jako počty pozitivních a negativních příspěvků (sentiment je detekován na základě emotikonů v příspěvku), počet klíčových slov, URL odkazů nebo zmínek jiných uživatelů v příspěvku, počet převzatých příspěvků, směrodatnou odchylkou délek příspěvků, počtem slov ve slovní zásobě a další. Druhá skupina informací se zabývá aktivitou uživatele v čase. Bere v potaz informace o časových intervalech mezi příspěvky, v jakou hodinu dne uživatel přispěl kolika příspěvky atd. Na základě těchto atributů tak lze detekovat automatizované chování účtů. Poslední skupina atributů vychází ze slovníku uživatele. Jelikož si pamatujeme 200 posledních příspěvků každého uživatele, jsme schopni vytvořit dokument obsahující tyto zprávy. Nad dokumentem je provedeno předzpracování a tokenizace, kdy se stává každé užité slovo atributem, jehož hodnota reprezentuje počet výskytů slova. 3.1 Testované přístupy a výsledky V rámci práce byly testovány různé přístupy pro detekci anomálií. Mezi hlavní dva přístupy patřily metody založené na učení s učitelem, kde byly s využitím programu Weka [2]

135 Poster prezentovaný na komunitním setkání 121 testovány algoritmy NaiveBayesMultinomial (dále NBM), Support Vector Machine (dále SVM), Random Forest (dále RF) a majoritně hlasující klasifikátor složeny z předchozích tří metod (dále Vote). U metod založených na učení bez učitele byly vyzkoušeny metody LOF 1 a OR 2 implementované v balíčku DMwR [3]. Obě metody slouží k ohodnocení každé instance koeficientem odlehlosti v rámci datové sady, kde LOF k určení míry odlehlosti využívá lokální okolí instance a OR naopak hierarchické shlukování. Všechny experimenty byly vždy paralelně provedeny jak na české, tak anglické datové sadě. Učení s učitelem U metod učení s učitelem obsahovala trénovací množina 100 anomálních a 100 normálních uživatelů. Testovací množina pak obsahovala 50 příkladů z obou tříd. Tokenizace dokumentu uživatele byla testována v konfiguraci na unigramy, bigramy a jejich kombinaci. Nejlepších výsledků dosahovala u české datové sady metoda Vote (kombinace unigramů a bigramů) s úspěšností 89 % následována metodou RF (unigramy) s úspěšností 88 %. U anglické datové sady metoda Vote (kombinace unigramů a bigramů) dosahovala úspěšnosti 94 % a metoda RF (unigramy) 92 %. Učení bez učitele Pro vyhodnocení úspěšnosti metod založených na učení bez učitele byla vytvořena množina náhodně vybraných uživatelů pro český a anglický Twitter. Hodnota parametru nejbližšího okolí byla u LOF nastavena na hodnotu 50, jelikož při experimentech dosahovala lepších výsledků než nižší hodnoty a naopak vyšší hodnoty vedly k prodloužení doby potřebné pro výpočet bez výrazného vlivu na výsledek. Výsledné ohodnocené instance algoritmem byly sestupně seřazeny dle přiřazeného koeficientu a vyhodnocení bylo podrobeno 100 prvních instancí, které dle výstupu dosahují nejvyššího koeficientu (zhruba odpovídá koeficientu 2 a více). U OR se postupovalo obdobným způsobem. Na základě sestupného pořadí ohodnocených instancí bylo vyhodnocení podrobeno také 100 prvních uživatelů, kteří dosahovali nejvyššího koeficientu (zhruba odpovídá koeficientu 0,8 a více). Ukázalo se, že LOF dosahuje úspěšnosti v nejlepším případě 98 % a OR 92 %. Úspěšností v tomto případě rozumíme, jaký podíl instancí podrobených vyhodnocení bylo anotátory označeno jako anomální, tedy jaká byla přesnost. 3.2 Shrnutí Při testování dosahovala nejlepší úspěšnosti 98 % metoda LOF a dobrých výsledků dosahovala také klasifikace s využitím metody RF a to v nejlepším případě 94 %. Při porovnávání obou přístupů je nutné uvažovat také jejich rozdílnost. Klasifikační metody se musí vypořádat jak s klasifikací normálních a anomálních uživatelů, tak také musí být schopny rozhodnout pro každou testovanou instanci. Naopak metoda využívající LOF nám vrátí pouze seznam uživatelů seřazených sestupně dle přiřazeného skóre, kde předpokládáme, že největší hustota anomálních uživatelů se nachází na začátku seznamu a dále postupně klesá. LOF je tedy vhodné použít tehdy, pakliže máme množinu uživatelů a potřebujeme získat nejvíce anomální uživatele (uživatelé ohodnoceni nejvyšším koeficientem odlehlosti). Typicky se tak jedná o případy, kdy chceme očistit trénovací množinu apod. Naopak 1 Local outlier factor 2 Outlier ranking

136 122 Rozpoznání anomálních uživatelů na českém Twitteru klasifikaci je vhodné použít tehdy, pokud je kladen důraz na rychlé rozpoznání uživatele a je požadováno přiřazení třídy každé testované instanci. 4 Charakteristika anomálních uživatelů Kromě detekce anomálních uživatelů jsme provedli také jejich analýzu s využitím shlukové analýzy. Ukázalo se, že anomální uživatele nalezené naší metodou lze rozdělit do tří skupin a to na robotické účty, spam účty a RSS čtečky v kombinaci s propagačními účty. Robotické účty jsou specifické především svou pravidelností přispívání a zpravidla nevykazují tak pestrou slovní zásobu. Zpravidla také přispívají příspěvky stejné délky, jelikož příspěvky odpovídají často zprávám vycházejících ze vzorové šablony. Jedná se tak o účty informující o počasí, aktuálním dni (například informace o datu, svátku, kurzech měny) apod. Naopak spam účty se orientují na co největší zásah v rámci komunity. Jejich motivace je především propagovat komerční až nebezpečná sdělení vedoucí na závadný obsah nebo vést agresivní marketingovou kampaň. Tyto účty zpravidla vykazují vysoký počet užití klíčových slov a zmínek uživatelů, čímž zvyšují šanci úspěšnosti jejich kampaně, jelikož frekventovaná klíčová slova jsou sledována velkou řadou uživatelů a zmínka uživatele naopak vyvolá notifikaci uživatele, který pak má tendenci si sdělení spam účtu prohlédnout. Poslední skupinou jsou pak RSS čtečky v kombinaci s propagačními účty, které vykazují nízkou interaktivitu se svým okolím a pestřejší slovní zásobu. Jejich příspěvky jsou nepravidelné, s nízkým počtem výskytu klíčových slov a délka příspěvku není vždy fixní. Byla také nalezena speciální skupina účtů nesoucí rysy předchozích tří. Ta je specifická tím, že její slovník je zcela odlišný. Příkladem tak může být účet britského Big Benu, který informuje každou hodinu s využitím opakující se sekvence slov BONG BONG k aktuální hodině. Jelikož jsme schopni díky těmto rysům anomální uživatele rozdělit do jednotlivých skupin, můžeme tak přistupovat k jednotlivým skupinám anomálních uživatelů rozdílně dle jejich specifik. V praxi tak může být kupříkladu vhodné spam účty blokovat nebo přistupovat k jednotlivým skupinám dle dané politiky služby. 5 Klasifikace sentimentu Analýza sentimentu se v posledních letech stává čím dál populárnější oblastí pro studium. Může se kupříkladu využít při marketingové analýze ohlasů zákazníků na nový produkt vstupující na trh nebo jejich recenzí [4]. V rámci práce jsme otestovali úspěšnost klasifikace sentimentu pro český a anglický jazyk. Trénovací množina byla vytvořena na základě učení z emotikonů [5], které spočívá v přiřazení třídy sentimentu příspěvku na základě obsaženého emotikonu ve zprávě. Tento přístup tak umožňuje automatizovaně přiřadit třídu velkému počtu instancí bez nutnosti lidské práce. Zároveň jsme také otestovali, jaký vliv mohou mít anomální uživatelé na výsledky klasifikace sentimentu a zda odstranění jejich příspěvků z trénovací množiny s využitím navržené metody může vést ke zlepšení výsledků klasifikace.

137 Poster prezentovaný na komunitním setkání Klasifikace bez odstranění anomálních uživatelů Experimenty byly vždy prováděny pro klasifikaci sentimentu do dvou a do tří tříd, kde třídy byly označeny jako pozitivní, negativní a neutrální sentiment. U klasifikace do dvou tříd nebyly příspěvky neutrálního sentimentu zařazeny. Trénovací množina pro český jazyk obsahovala příspěvků z každé třídy, pro anglický jazyk se pak jednalo o příspěvků z každé třídy. Přiřazení třídy bylo založeno na metodě učení z emotikonů, kde jako neutrální byl označen takový příspěvek, který neobsahoval emotikon. Testovací množina pro český jazyk obsahovala 580 instancí a pro anglický jazyk 456 instancí. Třídy těmto příkladům byly přiřazeny při anotaci. Klasifikace pak probíhala s využitím několika algoritmů a to NBM, SVM a RF. Tokenizace textu příspěvků byla vždy provedena na unigramy, bigramy a na jejich kombinaci. Počet tokenů byl omezen na nejfrekventovanějších pro každou třídu. Nejlepších výsledků dosahoval klasifikátor NBM v kombinaci s tokenizací na unigramy. U klasifikace do tří tříd dosahoval u českého jazyka úspěšnosti 62,9 % a u anglického 64,5 %. Baselina pro český jazyk odpovídala hranici 35,4 % a pro anglický jazyk 36 %. Při klasifikaci do dvou tříd dosahoval úspěšnosti u českého jazyka 80,6 % a u anglického jazyka 82,5 % při baseline 51,2 % pro český jazyk a 50,3 % pro anglický jazyk. 5.2 Klasifikace po odstranění anomálních uživatelů Při klasifikaci po odstranění anomálních uživatelů byla prvně na trénovací množiny pro český a anglický jazyk aplikována metoda pro detekci anomálních uživatelů s využitím LOF. Jelikož ke každému příspěvku známe jeho autora, tak jsme schopni detekovat podmnožinu anomálních uživatelů s využitím navržené metody a jejich příspěvky odstranit. Jakmile byly trénovací množiny očištěny, byly provedeny experimenty stejným způsobem jako v předchozím případě a byly sledovány rozdíly mezi výsledky. Jak pro český tak anglický jazyk došlo ke zlepšení klasifikace do dvou tříd sentimentu a do tří tříd sentimentu. Při klasifikaci do tří tříd došlo v nejlepším případě ke zlepšení u českého jazyka o 0,7 % a u anglického jazyka o 1,3 %. Při klasifikaci do dvou tříd u českého jazyka bylo zaznamenáno zlepšení o 1,3 % a u anglického o 2,1 %. Ze získaných výsledků se tedy zdá, že odstranění anomálních uživatelů může pomoci ke zlepšení klasifikace sentimentu na sociální síti Twitter. 6 Závěr V rámci této práce byla navržena metoda pro rozpoznání anomálních uživatelů, kde metoda LOF dosahuje úspěšnosti až 98 % a metoda využívající klasifikaci s pomocí algoritmu RF dosahuje úspěšnosti až 94 %. Zároveň byla provedena charakteristika anomálních uživatelů pomocí metody shlukování a jednotlivé podskupiny anomálních uživatelů byly analyzovány a blíže popsány. Ukázalo se, že jak na českém, tak anglickém Twitteru lze rozdělit anomální uživatele do stejných podskupin, které jsou vyznačeny podobným chováním v několika znacích uživatele. Při klasifikaci sentimentu na pozitivní, neutrální a negativní příspěvky bylo dosaženo úspěšnosti až 65,8 % a při klasifikaci na pozitivní a negativní příspěvky úspěšnosti až 84,6 %, přičemž pro český Twitter byla vždy úspěšnost mírně nižší. Také byl navržen postup, jakým způsobem lze využít metodu pro rozpoznání anomálních uživatelů ke zlepšení výsledků klasifikace, což se ukázalo být relevantním postupem. Aplikovaná metoda v některých případech po odstranění příspěvků anomálních uživatelů z trénovací množiny zvýšila

138 124 Rozpoznání anomálních uživatelů na českém Twitteru úspěšnost klasifikace v nejlepším případě až o 2,1 %. Metoda by tak mohla pomoci v řadě aplikací, kde jsou využívány příspěvky uživatelů k řešení různých klasifikačních problémů. Všechny provedené experimenty byly vždy provedeny jak s využitím dat z českého, tak anglického Twitteru, což pomohlo ověřit uplatnitelnost navržené metody bez závislosti na zvoleném jazyce a zároveň sledovat rozdílnost výsledků klasifikace sentimentu pro oba jazyky. Detailní informace k navržené metodě a provedených experimentech lze nalézt v [6]. Literatura 1. Pustejovsky, J.: Natural language annotation for machine learning. O'Reilly, ISBN Hall, M., aj.: The WEKA data mining software: an update. ACM SIGKDD explorations newsletter, ročník 11, číslo 1 (2009), Torgo, L.: Package DMwR. (2013). Dostupné z: 4. Habernal, I., Ptáček, T., Steinberger, J.: Supervised sentiment analysis in Czech social media. Information Processing & Management, ročník 50, číslo 5 (2014), Dostupné z: 5. Go, A., Lei H., Richa B.: Twitter sentiment classification using distant supervision. CS224N Project Report, Stanford 1 (2009). 6. Jirásek, P.: Rozpoznání anomálních uživatelů na sociální síti Twitter. Brno, Diplomová práce. Masarykova univerzita. Fakulta informatiky. Vedoucí práce Lubomír Popelínský. Annotation: Anomaly detection at Twitter The work concerns with designing a method of anomalous users recognition on the Twitter social network, the anomalous users' characteristics, and an impact the method of anomalies elimination has on the classification results. In the work the reader is familiarized with the Twitter social network specifics and the work further specifies the terms anomalous and normal user. In the main part of the work the designed method is depicted, including the results of the tested approaches. An analysis of anomalous users follows together with their characteristics. A special attention is paid to the sentiment classification and verification of the designed method's impact on the classification results.

139 Data Stream Mining in the Power Engineering Domain Petra VRABLECOVÁ, Viera ROZINAJOVÁ, Anna BOU EZZEDDINE Institute of Informatics and Software Engineering, Faculty of Informatics and Information Technologies, Slovak University of Technology in Bratislava Ilkovičova 2, Bratislava {petra.vrablecova, viera.rozinajova, Abstract. The smart grids and the smart meters are becoming the source of the vast volumes of data in the power engineering domain. The quarter-hourly measurements of power consumption can be very useful for the stakeholders of the electricity market. The precise prediction of the power demand from the data is essential to the satisfaction of the consumers demands and the elimination of the fines for overload or shortage of the power in the grid. The current power demand forecasting methods are not ready to cope with such amounts of data and the high pace of data arrival. In this paper we present a prediction method that complies the basic requirements for mining the big data streams fixed time and memory resources, single scan over data, concept drift adaptation, and reasonable precision. Keywords: stream mining, power demand forecasting, stream data analysis, concept drift, big data, data mining. 1 Introduction The smart grids will become reality in many EU countries including Czech Republic and Slovakia. The member states undertook the directive 2009/72/EC of the European parliament and of the Council and plan to equip at least 80 % of the power consumers with intelligent metering systems by the year Since the electricity is a non-storable commodity it is in everybody s interest to treat it efficiently. The smart meters brings many advantages for all of the stakeholders of the electricity market from the producers and the transmission system operators to the distributors and the consumers. The analysis of the data from the smart meters (which are able to measure the power consumption each 15 minutes) can for example help the consumers to monitor their own power consumption or the distributors to effectively provide the power for their balancing groups. It has potential to improve the power management (e.g. power production planning, power transmission and control) and contribute to the better operation of the electricity market. Recommender or support decision systems can also utilize the smart metering data, e.g. recommendations of the most suitable tariff for a consumer or recommendations of the renewable energy sources installation. In our work we focus on the power distributors who have to supply the consumers from their balancing groups. The insufficient supply or oversupply is penalized by the regulation authorities. Therefore it is essential for a distributor to know the power demand of his balancing group in advance. The analysis of historical smart metering data is ideal for this purpose and the precise power demand predictions can be beneficial for the distributor s power scheduling and regulation. M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

140 126 Data Stream Mining in the Power Engineering Domain The main features of the smart metering data are similar to the features of the big data volume and velocity. The volume of data depends on the size of the balancing group, respectively the number of distributor s customers. It varies from thousands to millions. The data velocity is expressed by the arrival of new measurements every 15 minutes. During the quarter hour the power demand prediction is to be updated and the distributor has a chance to react to the current situation by operating in the electricity market. The electricity can be traded down to hour intervals starting from the next hour. The distributor can buy the missing voltage or sell the extra power. This short-time trading allows the distributors to quickly adapt to the grid situation, saves them money they would have to pay for the regulation fees and helps to better maintain the voltage balance in the grid. To make instant predictions from the smart metering data a proper prediction method needs to be utilized. The traditional data mining methods are not capable to handle the constantly growing dataset with higher pace of data arrival. Therefore stream mining methods needs to be employed. We describe the restrictions of stream mining and the features of stream mining methods in section 2. In section 3 we describe our own power demand forecasting method we develop in order to comply the restrictions and the features. We present our current promising results and discuss them from multiple points of view, e.g. precision, required resources, distributor s requirements. In the end we reveal the planned improvements of our method for the future research. 2 Data stream mining Unlike the traditional data mining, the stream mining is restricted in four aspects [2]. Time and memory resources are limited and required to be constant. Single scan over data only is possible during the processing. Concept drifts can t disrupt the learning process and the stream mining method has to be able to deal with those. They occur in the stream over time because of the changes in the variables that affect the monitored (target) variable or the changes in the relation between the variables and the target. Formally, the concept drift is defined by the equation 1. pti is the joint probability distribution at time ti between the set of input variables X and the target variable y [3]. X: p t0 (X, y) p t1 (X, y) (1) The concept drifts in the power engineering domain (see Fig. 1) can be caused by the bank holidays, nation-wide TV broadcasts, malfunctions, change of consumer s behaviour, etc. Fig. 1. Examples of concept drifts in power consumption data. Precision of the result of a stream mining method must be same or approximately the same as the precision of the non-stream (batch) methods. The prediction methods can be categorized according to the number of aspects they consider. Precision aspect is a prerequisite for every prediction method.

141 Poster prezentovaný na komunitním setkání 127 The most unrestrictedly are defined the incremental methods. They basically regard only one extra aspect time and memory resources. By the definition [6] an incremental method should learn additional information from new data, should not require access to the training set, should preserve acquired knowledge and should be able to accommodate classes that may be introduced with new data. They can process the data in chunks of various sizes and they can read the chunks multiple times. The online methods consider also the single scan aspect. They process each training example only once at arrival without the need for storage and reprocessing, and maintain a current hypothesis that reflects all the training instances so far [5]. The methods (both incremental and online), which can deal with the concept drift, are commonly called adaptive. Based on the cue for the adaptation they further divide into blind and informed. The blind adaptation happens on regular basis regardless of whether the concept drift occurred in data or not, e.g. the prediction model is recomputed each 15 minutes to ensure it is relevant for the currently incoming data. Another examples of blind adaptation are ensemble models [4] or models with parameters defined as functions [9]. The informed adaptation happens only when the concept drift is detected in data. Various statistical methods, which monitor the measures of central tendency and dispersion of the current prediction errors, were developed for this purpose [7]. Alternatively we can consider groups of models that are designed for specific contexts as an informed adaptation. The proper model is chosen for prediction in a given situation [1]. 3 Incremental adaptive power demand forecasting We aim to design a short-term power demand forecasting method that will predict the electricity consumption of a balancing group for the next 24 hours (i.e. 96 quarter-hours). Daily error up to 5 % is acceptable by the power distributors. We included this fact in our design. It is built on the time series analysis, specifically the exponential smoothing method. Its double seasonal variant can model the strong seasonal dependencies that are present in the power consumption data, i.e. day-night and weekday-weekend consumption [8]. The smoothing method alone is not an incremental nor adaptive method. In order to make it adaptive and prevent the prediction model to become outdated with the occurrence of a drift in the data stream, i.e. its prediction error would be inadequately big, we constantly monitor the prediction error on arrival of new data. In case it is too big, we adjust the level of the smoothing based on the most recent data (last two weeks) so the predictions were more precise. The test, that determines whether the error is too big, checks if the mean absolute percentage error of the last 96 predictions, i.e. last day, was higher than 5 %. Our method assumes that there exists an initial smoothing model, which was trained on a longer chunk of data. Then it stores only the last two weeks of the stream data and the current error of the last 96 predictions. Given that the model is updated only when its performance is worsening and not on each arrival of new data, our method spares the computing resources, too. During the evaluation so far we were interested in questions like To what extent does the concept drift monitoring improve the predictions?, Can the informed adaptation be as accurate as blind adaptation? Does it require more resources? In our experiments we used Slovak smart metering data. The initial model was trained on 8 weeks of data. The next 4 weeks of data were used to make predictions with our method. In the end we evaluated the mean absolute percentage error over the whole test period and the number of times the model needed to be updated. We performed this test on data with concept drifts and without the drifts. In the end we compared it to traditional mining when at the end of each day the

142 128 Data Stream Mining in the Power Engineering Domain arrived data were added to the train set and a new prediction model was trained to predict the next day (i.e. the blind adaptation). We found that our method with the informed adaptation significantly improved the power demand forecasting when considering time and memory resources needed during the computations (55.35 % less model updates than the blind adaptation). This feature is extremely useful in big data stream environment. In return, the accuracy of the predictions did not significantly drop (0.36% higher error on average) and we managed to maintain the daily 5 % deviation that is acceptable in the power demand forecasting. Throughout the whole test period (4 weeks) on data with concept drifts the mean absolute percentage error was 4.40 % on average (4.04 % with the blind adaptation). On the data without the drifts it was 3.40 % (adaptive) versus 3.18 % (blind). In the future we would like to continue improving the design of our method, e.g. compare different concept drift detection methods. Additional data like weather forecasts or current number of consumers can be incorporated in a concept drift detection or even prediction. We want to study different variants of the smoothing method to achieve better precision and time complexity. Currently we study how to reduce the size of data needed in memory by online time series segmentation methods. Ultimately we have an ambition to transform our whole method to be online and eliminate the need to remember the last two weeks of data. Acknowledgement. This contribution was created with the support of the Research and Development Operational Programme for the project International Centre of Excellence for Research of Intelligent and Secure Information-Communication Technologies and Systems, ITMS , co-funded by the ERDF; and the Scientific Grant Agency of Slovak Republic, grant No. VG 1/0646/15 and VG 1/1221/12. References 1. Dannecker, L. et al.: Context-Aware Parameter Estimation for Forecast Models in the Energy Domain. Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics) 6809 LNCS (2011) Gama, J.: Data Stream Mining: the Bounded Rationality. Informatica 37 (2013) Gama, J. et al.: A survey on concept drift adaptation. ACM Comput. Surv. 46 (2014) Minku, L.: Online Ensemble Learning in the Presence of Concept Drift. The University of Birmingham, Oza, N.C., Russell, S.: Experimental comparisons of online and batch versions of bagging and boosting. In: Proc. Seventh ACM SIGKDD Int. Conf. Knowl. Discov. Data Min. - KDD 01, (2001), Polikar, R. et al.: Learn++: An incremental learning algorithm for supervised neural networks. IEEE Trans. Syst. Man Cybern. Part C Appl. Rev. 31 (2001) Ross, G.J. et al.: Nonparametric Monitoring of Data Streams for Changes in Location and Scale. Technometrics 53 (2011) Taylor, J.W.: Short-Term Electricity Demand Forecasting Using Double Seasonal Exponential Smoothing. J. Oper. Res. Soc. 54 (2003) Taylor, J.W.: Smooth transition exponential smoothing. J. Forecast. 23 (2004)

143 OWL Visualization in UML Jana AHMAD, Petr KŘEMEN Department of Cybernetics, FEE CTU Prague {ahmadjan, Abstract. UML and OWL have different goals and approaches. However they have some similarities, especially for representing structure (class diagrams). In this paper we tried to develop OWLtoUML tool to visualize OWL in UML. This Tool can be useful to transform owl ontology to UML class that can be helpful to present the data structure and organization. Keywords: UML, OWL, XMI, model transformation, Ontology mapping. 1 Introduction This paper intends to provide an informative comparison between ontology language OWL and modeling language UML. It compares the features of OWL2 with the features of UML 2.0. The structure of UML is different from OWL. Therefore we are trying to understand the relationship between them. Since they have features in common and also different features. This paper attempts to visualize ontology structure, map ontology features to UML class diagram, by developing OWLtoUML tool which can be helpful to present the data structure and organization. 2 Related work There are already some tools but they are either hardly interpretable and reusable (e.g. OWLGred but it is not UML) There are already some tools but they are either hardly interpretable and reusable (e.g. OWLGred but it is not UML) 1. The OWLGrEd ontology editor: allows graphical visualization and authoring of OWL 2.0 ontologies using a compact yet intuitive presentation that combines UML class diagram notation with textual Manchester syntax for class expressions OWLViz: is designed to be used with the Protege-OWL editor 10. It enables class hierarchies in an OWL Ontology to be viewed and incrementally navigated, allowing comparison of the asserted class hierarchy and the inferred class hierarchy 4. And because UML is easily readable, a new tool was implemented. It allows to transform important features of OWL2-DL to visually acceptable form. 3. OWL2XMI Project: by SWAP: Semantic Web Architecture and Performance Group 1.It is a java project to facilitate the creation of class UML diagrams, it generates a XMI file from one ontology, and this XMI file can be imported using UML tools such as: StarUML, ArgoUML, and Visual Paradigm. Limitations of the project: In this project is not their intention explain the trouble of convert OWL ontologies into UML M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, , pp

144 130 OWL Visualization in UML representation. Since, UML does not support ontology features, such as: sub properties; equivalent, transitive, reflexive properties, etc OWLtoUML tool: It is a java project, User Interface: Java Swing. Jena framework (open source semantic Web framework for Java) 5. Pellet Reasoner 6. This tool aims to convert classes and the relation between classes and properties to UML class diagram. After loading ontology is read and classified. It generates XMI (XML Metadata Interchange) 7 file version 2.1.this XMI file can be imported by Visual Paradigm UML tool. 3 Convert OWL to UML via XMI 3.1 Classes and SubClasses Both UML and OWL make an equal distinction between classes, also the concepts of generalization in UML and OWL2 are similar 4. Because of this similarity, a transformation from OWL classes and Subclasses into OWL classes is straight forward 8. Example: <rdf: Description rdf:about=" <rdfs: subclassof rdf:resource=" <rdf:type rdf:resource=" </rdf: Description> 3.2 Data Property Fig. 1. A Class and generalization relationship It is easy to notice that data property is associated with an instance of Datatype. So we can represent data property as Attribute in UML Class diagram 8. Fig. 2. Vizualization of the DataProperty with attributes in UML class

145 Poster prezentovaný na komunitním setkání 131 Example: <owl:datatypeproperty rdf:id="min"> <rdfs:domain rdf:resource="#range"/> <rdfs:range rdf:resource=" </owl:datatypeproperty> 3.3 Object Property In general an Object property can connect two or more objects (cardinality 2...*) with exactly two ends. So OWL object property can be visualized as an association and it is also a direct member of an ontology. One Object property can be transformed to one directed association in UML 9. Example of object property: <rdf:description rdf:about=" <rdfs:subpropertyof rdf:about=" <rdfs:range rdf:resource=" <rdfs:domain rdf:resource=" <rdf:type rdf:resource=" </rdf:description> Fig. 3. Transformation of the ObjectProperty to Association. 3.4 Inverse of object property Inverse of object property (tow object properties) can be transformed to bi-directional association Sub properties Fig. 4. Inverse of Object Property transformation One property can specialize other property which is the Super property of this sup property. Sub property inherits domain constraints of their parent property. In UML class models it is not only possible to use generalization for classes but also for associations. One association can inherit from another association which makes it a suitable candidate for OWL2 sub property modeling But there are problems related to Sub Properties in UML. - UML 2.0 does not explicitly support it. - Visual Paradigm create a Sub Property association and export generalization on associations. - Visual Paradigm delete Sub Property association When import it.

146 132 OWL Visualization in UML Fig. 5.Visual Paradigm (Create Sub Property) Fig. 6. Visual Paradigm delete Sub Property association when import the file 3.1 Comment transformation The concepts of comment in UML and OWL2 are similar, a transformation from OWL comments and is straight forward. Example: owl:class rdf:id="camera"> <rdfs:subclassof rdf:resource="#purchaseableitem"/> <rdfs:comment> Camera OWL Ontology Author: Roger L. Costello </rdfs:comment> </owl:class>

aneb Perfekt perfektně.

aneb Perfekt perfektně. aneb Perfekt perfektně. 2013 se v angličtině nazývá Present Perfect, tedy Přítomný perfekt. Patří k časům přítomným, ačkoliv se jistě nejedná o klasický přítomný čas tak, jak jsme zvykĺı z češtiny. jistým

More information

Upozorňujeme,že můžete formáty pro čtečky převádět ON-LINE na internetu do formátu PDF apod.

Upozorňujeme,že můžete formáty pro čtečky převádět ON-LINE na internetu do formátu PDF apod. Dobrý den, děkujeme za Nákup,níže máte odkazy pro bezplatné stažení.knihy jsou v archivech PDF(nepotřebujete čtečku e-knih),txt(nepotřebujete čtečku e-knih), a dále pro čtečky : soubory typu: PDB,MOBI,APNX

More information

BIRD Internet Routing Daemon

BIRD Internet Routing Daemon BIRD Internet Routing Daemon Ondřej Zajíček CZ.NIC z.s.p.o. IT 13 Úvod I Úvod do dynamického routování I Představení démona BIRD I OSPF a BIRD I BGP a BIRD Dynamické routování I Sestavení routovacích tabulek

More information

Pracovná skupina 1 Energetický management a tvorba energetických plánov mesta

Pracovná skupina 1 Energetický management a tvorba energetických plánov mesta Pracovná skupina 1 Energetický management a tvorba energetických plánov mesta Metodológia a podpora poskytovaná v rámci Dohovoru primátorov a starostov Skúsenosti českých miest Skúsenosti mesta Litoměřice

More information

Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 2, rok 2007, ročník LIII, řada strojní článek č.

Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 2, rok 2007, ročník LIII, řada strojní článek č. Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 2, rok 2007, ročník LIII, řada strojní článek č. 1556 Abstract Miroslav MAHDAL * CONTROL OF MODEL THROUGH INTRANET/INTERNET

More information

Témy dizertačných prác pre uchádzačov o doktorandské štúdium

Témy dizertačných prác pre uchádzačov o doktorandské štúdium Témy dizertačných prác pre uchádzačov o doktorandské štúdium Študijný odbor: 3.3.15 Manažment, Študijný program: Znalostný manažment Akademický rok 2010/2011 1. Školiteľ: doc. Ing. Vladimír Bureš, PhD.

More information

Aktuální otázky přípravy budoucích učitelů VÝZNAM TEORIE, EMPIRIE A PEDAGOGICKÉ přírodovědných, PŘÍBUZNÝCH OBORŮ

Aktuální otázky přípravy budoucích učitelů VÝZNAM TEORIE, EMPIRIE A PEDAGOGICKÉ přírodovědných, PŘÍBUZNÝCH OBORŮ VI. Mezinárodní konference k problematice přípravy učitelů pro přírodovědné a zemědělské předměty na téma: Aktuální otázky přípravy budoucích učitelů VÝZNAM TEORIE, EMPIRIE A PEDAGOGICKÉ PRAXE přírodovědných,

More information

Agris on-line Papers in Economics and Informatics

Agris on-line Papers in Economics and Informatics Agris on-line Papers in Economics and Informatics Volume III Number 1, 2011 Social Networks as an Integration Tool in Rural Areas Agricultural Enterprises of the Czech Republic E. Červenková 1, P. Šimek

More information

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA STAVEBNÍ ÚSTAV BETONOVÝCH A ZDĚNÝCH KONSTRUKCÍ FACULTY OF CIVIL ENGINEERING INSTITUTE OF CONCRETE AND MASONRY STRUCTURES PRIESTOROVÝ

More information

Politológia a politická analýza. Syllabus kurzu

Politológia a politická analýza. Syllabus kurzu Politológia a politická analýza Syllabus kurzu Prednáška: streda 11.30 13.00 streda 9.45 11.15 Lucia Klapáčová 13.30 15.00 - Andrea Figulová 15.15 16.45 - Teodor Gyelnik (ENG) Prednášajúci Andrea Figulová

More information

Rychlý průvodce instalací Rýchly sprievodca inštaláciou

Rychlý průvodce instalací Rýchly sprievodca inštaláciou CZ SK Rychlý průvodce instalací Rýchly sprievodca inštaláciou Intuos5 Poznámka: chraňte svůj tablet. Vyměňujte včas hroty pera. Bližší informace najdete v Uživatelském manuálu. Poznámka: chráňte svoj

More information

1 Introduction. Nečaský 2

1 Introduction. Nečaský 2 Methodologies and best Best practices Practices for Open for Data Open Data publication Publication Jan Kučera J. 1,2 Kučera, Dušan 1, 2, D. Chlapek Chlapek 1, 1, Jakub J. Klímek Klímek 2, M. 2 Nečaský,

More information

OSOBNOSTNÉ ASPEKTY ZVLÁDANIA ZÁŤAŽE

OSOBNOSTNÉ ASPEKTY ZVLÁDANIA ZÁŤAŽE OSOBNOSTNÉ ASPEKTY ZVLÁDANIA ZÁŤAŽE Katarína Millová, Marek Blatný, Tomáš Kohoutek Abstrakt Cieľom výskumu bola analýza vzťahu medzi osobnostnými štýlmi a zvládaním záťaže. Skúmali sme copingové stratégie

More information

Sledovanie čiary Projekt MRBT

Sledovanie čiary Projekt MRBT VYSOKÉ UČENÍ TECHNIC KÉ V BRNĚ BRNO UNIVERSITY OF T ECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNO LOGIÍ ÚSTAV AUTOMATIZA CE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMUNICATION

More information

Jak pracuje. Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK. ELRC Training Workshop, 15. prosinec 2015 1/28

Jak pracuje. Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK. ELRC Training Workshop, 15. prosinec 2015 1/28 Jak pracuje automatický překlad Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/28 Osnova Úloha strojového překladu. Obtížnost

More information

Jak pracuje. Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK. ELRC Workshop, 14.

Jak pracuje. Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK. ELRC Workshop, 14. Jak pracuje automatický překlad Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Workshop, 14. duben 2016 1/31 Osnova Úloha strojového překladu. Obtížnost překladu.

More information

Possibilities of visualisation geolocation of web pages visitors

Possibilities of visualisation geolocation of web pages visitors Possibilities of visualisation geolocation of web pages visitors Lukáš Svoboda Katedra geoinformatiky, Přírodovědecká fakulta, Univerzita Palackého, tř. Svobody 26, 771 46, Olomouc, Česká republika l_svoboda@centrum.cz

More information

Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 1, rok 2008, ročník LIV, řada strojní článek č.

Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 1, rok 2008, ročník LIV, řada strojní článek č. Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 1, rok 2008, ročník LIV, řada strojní článek č. 1601 Miroslav MÜLLER *, Rostislav CHOTĚBORSKÝ **, Jiří FRIES ***, Petr HRABĚ

More information

KATALOG JARO LÉTO 2008

KATALOG JARO LÉTO 2008 KATALOG JARO LÉTO 2008 Šperky jsou artiklem, vymykajícím se z většiny ostatního zboží. Nejde o nic, co bychom potřebovali k životu, a přesto po nich touží naprostá většina žen. S muži už to pravda není

More information

Application of new information and communication technologies in marketing

Application of new information and communication technologies in marketing Application of new information and communication technologies in marketing Ladislav Izakovič, Department of Applied Informatics, Faculty of Natural Sciences, University of SS. Cyril and Methodius, J. Herdu

More information

OPEN SOURCE SOFTWARE FOR GEOSCIENCES AT UNIVERSITY OF WEST BOHEMIA

OPEN SOURCE SOFTWARE FOR GEOSCIENCES AT UNIVERSITY OF WEST BOHEMIA OPEN SOURCE SOFTWARE FOR GEOSCIENCES AT UNIVERSITY OF WEST BOHEMIA Bc. Josef Bezděk 1, Ing. Karel Jedlička 2, Ing. Jan Ježek 3, Ing. Jiří Petrák 4 Geomatic section of Department of Mathematics, Faculty

More information

GEOGRAFICKÉ INFORMÁCIE GEOGRAPHICAL INFORMATION

GEOGRAFICKÉ INFORMÁCIE GEOGRAPHICAL INFORMATION UNIVERZITA KONŠTANTÍNA FILOZOFA V NITRE CONSTANTINE THE PHILOSOPHER UNIVERSITY IN NITRA FAKULTA PRÍRODNÝCH VIED FACULTY OF NATURAL SCIENCES GEOGRAFICKÉ INFORMÁCIE GEOGRAPHICAL INFORMATION Ročník / Volume

More information

PORUCHY A OBNOVA OBALOVÝCH KONŠTRUKCIÍ BUDOV - Podbanské 2012

PORUCHY A OBNOVA OBALOVÝCH KONŠTRUKCIÍ BUDOV - Podbanské 2012 PORUCHY A OBNOVA OBALOVÝCH KONŠTRUKCIÍ BUDOV Podbanské 2012 CIEĽ A ZAMERANIE KONFERENCIE : Cieľom konferencie je poskytnúť priestor pre prezentovanie nových a aktuálnych výsledkov vedeckej a výskumnej

More information

JAZYKOVÉ A METAJAZYKOVÉ SCHOPNOSTI DIEŤAŤA

JAZYKOVÉ A METAJAZYKOVÉ SCHOPNOSTI DIEŤAŤA Prešovská univerzita v Prešove Pedagogická fakulta JAZYKOVÉ A METAJAZYKOVÉ SCHOPNOSTI DIEŤAŤA Program vedeckého seminára organizovaného v rámci riešenia grantového projektu KEGA 023PU-4/2012 Encyklopédia

More information

Jaro / Léto 2007. products. Dell. Od počítače k datovému centru

Jaro / Léto 2007. products. Dell. Od počítače k datovému centru Jaro / Léto 2007 products Dell Od počítače k datovému centru 2 / DELL PRODUCTS OBSAH DELL PRODUCTS / 3 PRŮVODCE NOV ÝMI PRODUKT Y DELL Tento katalog obsahuje přehled našich produktů, které mohou být přínosem

More information

Luk aˇ s R uˇ ziˇ cka Pomocn a slovesa

Luk aˇ s R uˇ ziˇ cka Pomocn a slovesa Pomocná slovesa Přehled funkcí Leden 2013 Přehled funkcí 1 děje probíhající právě ted 2 děje probíhající, ale ne nutně právě ted 3 děje probíhající dočasně 4 budoucí použití (pevná dohoda) Děje probíhající

More information

IBM Security Framework: Identity & Access management, potreby a riešenia.

IBM Security Framework: Identity & Access management, potreby a riešenia. Juraj Polak IBM Security Framework: Identity & Access management, potreby a riešenia. Nová doba inteligentná infraštruktúra Globalizácia a globálne dostupné zdroje Miliardy mobilných zariadení s prístupom

More information

Matematika tekutin v pohybu

Matematika tekutin v pohybu Matematika tekutin v pohybu Matematický ústav AVČR, Praha 185. zasedání US ČR, Praha, 16. září 2014 Základní myšlenka modelování Johann von Neumann [1903-1957] In mathematics you don t understand things.

More information

Course Name: Financing and economics management

Course Name: Financing and economics management Course Name: Financing and economics management Author: mjr. Ing. Blanka Adámková, Ph.D. Topic: T21 Place and task of economic management Course Objectives: The aim of the lecture is to establish a system

More information

aneb Perfektní minulost.

aneb Perfektní minulost. aneb Perfektní minulost. 2013 se v angličtině nazývá Past Perfect. Používáme jej tehdy, potřebujeme-li jasně vyjádřit, že nějaký děj proběhl ještě dříve než minulý děj, o kterém hovoříme. Podívejme se

More information

Register priestorových informácií

Register priestorových informácií Slovenský národný metaúdajový profil Informatívne podujatie 5. 8. 2015 Konzorcium dodávateľov: Národný metaúdajový profil Obsah témy Koncepční a organizační diskuze úvod do problematiky metadat důvody

More information

USING THE WINQSB SOFTWARE IN CRITICAL PATH ANALYSIS

USING THE WINQSB SOFTWARE IN CRITICAL PATH ANALYSIS USING THE WINQSB SOFTWARE IN CRITICAL PATH ANALYSIS Abstract UŽITÍ PROGRAMU WINQSB V ANALÝZE KRITICKÉ CESTY Mgr. Kamil Peterek 2 College of logistics p.b.c., Perov e-mail: kamil.peterek@vslg.cz In the

More information

8.2 Transformace, množinové operace

8.2 Transformace, množinové operace 8.2. TRANSFORMACE, MNOŽINOVÉ OPERACE 8.2 Transformace, množinové operace 8.2.1 Transformace Posunutí, otočení a změna rozměrů umožňují efektivní práci s objekty. Je jednodušší umístit objekt v požadovaných

More information

Martin Gregor. 7. června 2016

Martin Gregor. 7. června 2016 Co (nového) Vás čeká na IES? Malá ochutnávka z naší kuchyně nejen pro přijaté studenty Institut ekonomických studíı FSV UK 7. června 2016 Šance na přijetí Hlavním kritériem přijetí je kombinovaný NSZ percentil:

More information

Management Development Practices in the Czech Reality

Management Development Practices in the Czech Reality Management Development Practices in the Czech Reality Zuzana Dvořáková Introduction Personnel management in the Czech business environment started to be internationalised by multinational enterprises from

More information

IT services for analyses of various data samples

IT services for analyses of various data samples IT services for analyses of various data samples Ján Paralič, František Babič, Martin Sarnovský, Peter Butka, Cecília Havrilová, Miroslava Muchová, Michal Puheim, Martin Mikula, Gabriel Tutoky Technical

More information

Branch and Process Solutions in ERP Systems

Branch and Process Solutions in ERP Systems Petr Sodomka, Hana Klčová, Jiří Kříž Center for investigations into Information Systems (CVIS) Department of Informatics Faculty of Business and Management Brno University of Technology Kolejní 2906/4,

More information

Hana Voňková, katedra školní a sociální pedagogiky. 26.11. 12:05-17:35 v M103, 7.1. 12:35-14:05 v R305

Hana Voňková, katedra školní a sociální pedagogiky. 26.11. 12:05-17:35 v M103, 7.1. 12:35-14:05 v R305 Obecná didaktika vyučující Hana Voňková, katedra školní a sociální pedagogiky email h.vonkova@gmail.com konzultace během zimního semestru úterý 14:15-15:00 v R225 kód v SISu OKNPP141 povinný kurz v rámci

More information

WK29B / WK29W. Bluetooth Wireless Slim Keyboard. User manual ( 2 5 ) Uživatelský manuál ( 6 10) Užívateľský manuál (11 15)

WK29B / WK29W. Bluetooth Wireless Slim Keyboard. User manual ( 2 5 ) Uživatelský manuál ( 6 10) Užívateľský manuál (11 15) WK29B / WK29W Bluetooth Wireless Slim Keyboard User manual ( 2 5 ) Uživatelský manuál ( 6 10) Užívateľský manuál (11 15) 1. Installing the batteries The EVOLVEO WK29B / WK29W keyboard uses two AAA alkaline

More information

Tourism, Hospitality and Commerce

Tourism, Hospitality and Commerce Ročník III, číslo 2, 2012 Volume III, Number 2, 2012 Journal of Tourism, Hospitality and Commerce Vysoká škola obchodní a hotelová s.r.o. College of Business and Hotel Management Ltd. ISSN 1804-3836 Journal

More information

Môže sa to stať aj Vám - sofistikované cielené hrozby Ján Kvasnička

Môže sa to stať aj Vám - sofistikované cielené hrozby Ján Kvasnička Môže sa to stať aj Vám - sofistikované cielené hrozby Ján Kvasnička Territory Account Manager Definícia cielených hrozieb Široký pojem pre charakterizovanie hrozieb, cielených na špecifické entity Často

More information

aneb Co bylo, bylo, co zbylo, zbylo.

aneb Co bylo, bylo, co zbylo, zbylo. aneb Co bylo, bylo, co zbylo, zbylo. 2013 Minulé časy Minulý čas se vyznačuje především tím, že jím popisované děje jsou již ukončeny a dále neprobíhají. Často jsou tyto skutečnosti naznačeny signálním

More information

E-puck knihovna pro Python

E-puck knihovna pro Python E-puck knihovna pro Python David Marek Univerzita Karlova v Praze 5. 4. 2011 David Marek (MFF UK) E-puck knihovna pro Python 5. 4. 2011 1 / 36 Osnova 1 Představení e-puck robota 2 Připojení 3 Komunikace

More information

POST MILITARY AREAS IN THE CZECH REPUBLIC AND THEIR REVITALIZATION EXAMPLES OF THE TOWNS OF HODONÍN AND UHERSKÉ HRADIŠTĚ

POST MILITARY AREAS IN THE CZECH REPUBLIC AND THEIR REVITALIZATION EXAMPLES OF THE TOWNS OF HODONÍN AND UHERSKÉ HRADIŠTĚ Acta Universitatis Palackianae Olomucensis Geographica, Vol. 42, No. 2, 2011, pp. 107-119 107 POST MILITARY AREAS IN THE CZECH REPUBLIC AND THEIR REVITALIZATION EXAMPLES OF THE TOWNS OF HODONÍN AND UHERSKÉ

More information

Návod k použití: Boxovací stojan DUVLAN s pytlem a hruškou kód: DVLB1003

Návod k použití: Boxovací stojan DUVLAN s pytlem a hruškou kód: DVLB1003 Návod na použitie: Boxovací stojan DUVLAN s vrecom a hruškou kód: DVLB1003 Návod k použití: Boxovací stojan DUVLAN s pytlem a hruškou kód: DVLB1003 User manual: DUVLAN with a boxing bag and a speed bag

More information

GRASS GIS. O GRASSu. http://les-ejk.cz. 6. června 2007

GRASS GIS. O GRASSu. http://les-ejk.cz. 6. června 2007 GRASS GIS O GRASSu Jáchym Čepický http://les-ejk.cz 6. června 2007 Obsah Open Source a Free Software for Geoinformatics FOSS4G GRASS GIS Co je GRASS Komunita Dokumentace Instalace Obsah Open Source a Free

More information

Neural networks in data mining

Neural networks in data mining Neural networks in data mining Neuronové sítì v data mining A.VESELÝ Czech University of Agriculture, Prague, Czech Republic Abstract: To posses relevant information is an inevitable condition for successful

More information

1-2/2010. Podniková ekonomika. Elektronický odborný časopis o ekonomike, manažmente, marketingu a logistike podniku ISSN 1336-5878

1-2/2010. Podniková ekonomika. Elektronický odborný časopis o ekonomike, manažmente, marketingu a logistike podniku ISSN 1336-5878 1-2/2010 Podniková ekonomika Elektronický odborný časopis o ekonomike, manažmente, marketingu a logistike podniku ISSN 1336-5878 1 OBSAH Filip Ježek Vývoj daňového zatížení a státniho dluhu ČR 3 Daniel

More information

T T. Think Together 2011. Sandra Milena Choles Arvilla THINK TOGETHER. Srovnávání řízení rizik pro softwarové projekty

T T. Think Together 2011. Sandra Milena Choles Arvilla THINK TOGETHER. Srovnávání řízení rizik pro softwarové projekty Česká zemědělská univerzita v Praze Provozně ekonomická fakulta Doktorská vědecká konference 7. února 2011 T T THINK TOGETHER Think Together 2011 Srovnávání řízení rizik pro softwarové projekty Comparative

More information

WLA-5000AP. Quick Setup Guide. English. Slovensky. Česky. 802.11a/b/g Multi-function Wireless Access Point

WLA-5000AP. Quick Setup Guide. English. Slovensky. Česky. 802.11a/b/g Multi-function Wireless Access Point 802.11a/b/g Multi-function Wireless Access Point Quick Setup Guide 1 5 Česky 9 Important Information The AP+WDS mode s default IP address is 192.168.1.1 The Client mode s default IP is 192.168.1.2 The

More information

1.1. KNIŽNÁ LITERATÚRA VO FONDE KNIŽNICE JUSTIČNEJ AKADÉMIE SR

1.1. KNIŽNÁ LITERATÚRA VO FONDE KNIŽNICE JUSTIČNEJ AKADÉMIE SR VÝBEROVÁ BIBLIOGRAFIA LITERATÚRY k vzdelávaciemu podujatiu: Interpretácia právnych princípov a zásad práva Miesto konania: Detašované pracovisko Justičnej akadémie Slovenskej republiky v Omšení Termín

More information

E-business solutions and the open source software for the small and medium size enterprises

E-business solutions and the open source software for the small and medium size enterprises E-business solutions and the open source software for the small and medium size enterprises E-business řešení a otevřené programy pro malé a střední podniky Z. Havlíček, E. Šilerová, Č. Halbich Czech University

More information

Human resources development in rural areas of the Czech Republic

Human resources development in rural areas of the Czech Republic Human resources development in rural areas of the Czech Republic Vývoj lidských zdrojů ve venkovském prostoru ČR L. Svatošová Czech University of Life Sciences, Prague Czech Republic Abstract: al development

More information

Článková bibliografia z vybraných periodík AK

Článková bibliografia z vybraných periodík AK Článková bibliografia z vybraných periodík AK APRÍL 2011 1. EE časopis pre elektrotechniku a energetiku č.1 (2011) 15 2.Obrana č. 3 (2011) 20 3. Zbraně & náboje č. 4 (2011) 17 4. Science & Military č.

More information

LOGISTICS CONCEPT OF SUPPLY CHAIN IN AUTOMOTIVE PRODUCTION

LOGISTICS CONCEPT OF SUPPLY CHAIN IN AUTOMOTIVE PRODUCTION Abstract LOGISTICS CONCEPT OF SUPPLY CHAIN IN AUTOMOTIVE PRODUCTION Koncepce logistiky dodavatelského řetězce v automobilové výrobě Ing. Andrea Lešková, PhD. Technical University of Košice, Faculty of

More information

Ostrava, tř. 17. listopadu, Ostrava Poruba. Ing. Ph.D., K-Geo, Mastná 1, Ostrava, tel. (+420)59 611 7633, e-mail: ludek.kovar@kgeo.

Ostrava, tř. 17. listopadu, Ostrava Poruba. Ing. Ph.D., K-Geo, Mastná 1, Ostrava, tel. (+420)59 611 7633, e-mail: ludek.kovar@kgeo. 1 RESEARCH OF APPLICATION OF DYNAMIC PENETRATION TEST FOR IMPROVEMENT OF ENGINEERING GEOLOGICAL INVESTIGATION POSSIBILITIES IN OSTRAVA BASIN VÝZKUM APLIKACE DYNAMICKÉ PENETRACE PRO ZLEPŠENÍ MOŢNOSTI INŢENÝRSKOGEOLOGICKÉHO

More information

NEURAL NETWORKS IN INTRUSION DETECTION SYSTEMS NEURONOVÉ SÍTĚ V SYSTÉMECH PRO DETEKCI NAPADENÍ

NEURAL NETWORKS IN INTRUSION DETECTION SYSTEMS NEURONOVÉ SÍTĚ V SYSTÉMECH PRO DETEKCI NAPADENÍ NEURAL NETWORKS IN INTRUSION DETECTION SYSTEMS NEURONOVÉ SÍTĚ V SYSTÉMECH PRO DETEKCI NAPADENÍ Arnošt Veselý, Dagmar Brechlerová Abstract: Security of an information system is its very important property,

More information

CENOVÁ NABÍDKA. jednatc~ Krmivo pro laboratorní zvířata" k veřejné soutěži. Krnov, 17.09.2014. Ing. Jiří Bauer. Předmět zakázky:

CENOVÁ NABÍDKA. jednatc~ Krmivo pro laboratorní zvířata k veřejné soutěži. Krnov, 17.09.2014. Ing. Jiří Bauer. Předmět zakázky: CENOVÁ NABÍDKA k veřejné soutěži Předmět zakázky: Krmivo pro laboratorní zvířata" Krnov, 17.09.2014 Ing. Jiří Bauer jednatc~ Obsah cenové nabídky:!.identifikace uchazeče výběrového řízení str.2 2.Cenová

More information

ZVÁRANIE SVAŘOVÁNÍ ZVÁRANIE TITÁNU. Náročné technologické aplikácie vo VÚZ PI SR 11-12 2012

ZVÁRANIE SVAŘOVÁNÍ ZVÁRANIE TITÁNU. Náročné technologické aplikácie vo VÚZ PI SR 11-12 2012 11-12 2012 ZVÁRANIE odborný časopis so zameraním na zváranie a príbuzné technológie ročník 61 SVAŘOVÁNÍ ISSN 0044-5525 Náročné technologické aplikácie vo VÚZ PI SR ZVÁRANIE TITÁNU ZVÁRANIE-SVAŘOVÁNÍ 1/2008

More information

Comparative standards for the evaluation of clinical and epidemiological data in oncology: methodical development and verification on population data

Comparative standards for the evaluation of clinical and epidemiological data in oncology: methodical development and verification on population data Dissertation thesis in oncology Comparative standards for the evaluation of clinical and epidemiological data in oncology: methodical development and verification on population data Jan Mužík 2010 Masaryk

More information

LV5WDR Wireless Display Receiver Rýchla príručka

LV5WDR Wireless Display Receiver Rýchla príručka LV5WDR Wireless Display Receiver Rýchla príručka 1 1. Predstavenie Wireless display receiver S Wireless display receiver (ďalej len WDR) môžete jednoducho zobrazovať multimediálny obsah (videá, fotografie,

More information

Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 2, rok 2006, ročník LII, řada strojní článek č.

Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 2, rok 2006, ročník LII, řada strojní článek č. Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 2, rok 2006, ročník LII, řada strojní článek č. 1530 Radim FARANA *, Jaromír ŠKUTA **, Lačezar LIČEV ***, Josef SCHREIBER

More information

Netradiční informační zdroje ve vzdělávání: vliv Personal Learning Environments (PLEs) na informační zdroje a hodnocení přenosu znalostí

Netradiční informační zdroje ve vzdělávání: vliv Personal Learning Environments (PLEs) na informační zdroje a hodnocení přenosu znalostí Netradiční informační zdroje ve vzdělávání: vliv Personal Learning Environments (PLEs) na informační zdroje a hodnocení přenosu znalostí Jakub Štogr ~ Univerzita Karlova v Praze INFORUM ~ Praha ~ 2010

More information

HYUNDAI Phablet HP503Q

HYUNDAI Phablet HP503Q HYUNDAI Phablet HP503Q Stručný návod k obsluze Quick start guide Príručka stručným návodom V1.0.0/10/2015/CZ/EN/SK 1 Základní informace Před prvním použitím Vašeho nového přístroje si pozorně přečtěte

More information

Agris on-line Papers in Economics and Informatics

Agris on-line Papers in Economics and Informatics Agris on-line Papers in Economics and Informatics Volume III Number 4, 2011 ICT helps to overcome disabilities P. Benda, Z. Havlíček, V. Lohr and M. Havránek Department of Information Technologies, Faculty

More information

OFFICEJET 7500A. Stručná příručka Úvodná príručka E910

OFFICEJET 7500A. Stručná příručka Úvodná príručka E910 OFFICEJET 7500A Stručná příručka Úvodná príručka E910 Copyright Information 2010 Copyright Hewlett-Packard Development Company, L.P. Edition 1, 3/2010 Reproduction, adaptation or translation without prior

More information

FORUM STATISTICUM SLOVACUM

FORUM STATISTICUM SLOVACUM 6/2007 FORUM STATISTICUM SLOVACUM I S SN 1 3 3 6-7 4 2 0 7 6 9 7 7 1 3 3 6 7 4 2 0 0 1 Slovenská štatistická a demografická spoločnosť Miletičova 3, 824 67 Bratislava www.ssds.sk Naše najbližšie akcie:

More information

J. S. NOVOTNÝ: Resilience dětí a možnosti její podpory a rozvoje 324. K. DANIŠKOVÁ: Možné kritériá hodnotenia pohybovej tvorivosti 332

J. S. NOVOTNÝ: Resilience dětí a možnosti její podpory a rozvoje 324. K. DANIŠKOVÁ: Možné kritériá hodnotenia pohybovej tvorivosti 332 OBSAH 4/2008 L. MEDVEĎOVÁ: Rodové odlišnosti a vývinová dynamika školských stresorov v ranej adolescencii 287 Š. PORTEŠOVÁ - V. KONEČNÁ - M. BUDÍKOVÁ - H. KOUTKOVÁ: Strachy rozumově nadaných dětí jako

More information

Installation manual Wireless Keypad

Installation manual Wireless Keypad Advanced Operations Please know exactly what you are doing when processing the operations below. It could cause errors or erase settings which make keypad stop working. Please disarm from keypad before

More information

OFFICEJET PRO 8500A. Stručná příručka Úvodná príručka A910

OFFICEJET PRO 8500A. Stručná příručka Úvodná príručka A910 OFFICEJET PRO 8500A Stručná příručka Úvodná príručka A910 Copyright Information 2010 Copyright Hewlett-Packard Development Company, L.P. Edition 1, 3/2010 Reproduction, adaptation or translation without

More information

CZECH-ASIAN FORUM business, cultural and educational exchange

CZECH-ASIAN FORUM business, cultural and educational exchange ČESKO-ASIJSKÉ FÓRUM obchodní, kulturní a vzdělávací výměna CZECH-ASIAN FORUM business, cultural and educational exchange 2. ROČNÍK/2 nd EDITION Březen / March 2008 CZECH-ASIAN FORUM business, cultural

More information

Strojárstvo. 11 Koncepcie hodnotenia strojárskych prevádzok. Conceptions for Evaluation of Engineering Plants. Použitie Denavit Hertenbergovho

Strojárstvo. 11 Koncepcie hodnotenia strojárskych prevádzok. Conceptions for Evaluation of Engineering Plants. Použitie Denavit Hertenbergovho Strojárstvo odborné a vedecké články Obsah \ Contents 02 Diagnostické zariadenia monitorujúce stav obrábacích strojov Diagnostic Equipment for Monitoring of Machine-Tool Statements 05 Modulární pásový

More information

Transactions of the VŠB Technical University of Ostrava, Mechanical Series. article No. 1897. Martin IVAN * Alessandra GROSSO **

Transactions of the VŠB Technical University of Ostrava, Mechanical Series. article No. 1897. Martin IVAN * Alessandra GROSSO ** Transactions of the VŠB Technical University of Ostrava, Mechanical Series No. 1, 2012, vol. LVIII article No. 1897 Martin IVAN * Alessandra GROSSO ** DELIVERY RELIABILITY OPTIMALIZATION IN DISTRIBUTION

More information

Economic efficiency of agricultural enterprises and its evaluation

Economic efficiency of agricultural enterprises and its evaluation Economic efficiency of agricultural enterprises and its evaluation Ekonomická efektivnost zemìdìlských podnikù a její hodnocení E. ROSOCHATECKÁ Czech University of Agriculture, Prague, Czech Republic Abstract:

More information

Agris on-line Papers in Economics and Informatics. Software Tools for Movement Visualization in Agrarian Sector

Agris on-line Papers in Economics and Informatics. Software Tools for Movement Visualization in Agrarian Sector Agris on-line Papers in Economics and Informatics Volume VII Number 2, 2015 Software Tools for Movement Visualization in Agrarian Sector J. Pavlík, J. Vaněk, M. Stočes Department of Information Technology,

More information

ČESKY SLOVENSKY ENGLISH USER GUIDE LG-H850. www.lg.com MFL69472701 (1.0)

ČESKY SLOVENSKY ENGLISH USER GUIDE LG-H850. www.lg.com MFL69472701 (1.0) ČESKY USER GUIDE SLOVENSKY ENGLISH LG-H850 MFL69472701 (1.0) www.lg.com Informace o uživatelské příručce ČESKY Děkujeme, že jste si vybrali tento produkt LG. Pro zajištění bezpečnosti a správnosti používání

More information

Prezentaci ukončíte stiskem klávesy ESC. GNU Emacs. Pavel Janík, CZLUG

Prezentaci ukončíte stiskem klávesy ESC. GNU Emacs. Pavel Janík, CZLUG Prezentaci ukončíte stiskem klávesy ESC. GNU Emacs Pavel Janík, CZLUG Editor nebo operační systém? Eight (eighty) megabytes and constantly swapping rozsáhlé možnosti jednoduché rozšiřování skvělá dokumentace

More information

Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 2, rok 2006, ročník LII, řada strojní článek č.

Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 2, rok 2006, ročník LII, řada strojní článek č. Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 2, rok 2006, ročník LII, řada strojní článek č. 1555 Abstract Jaromír ŠKUTA *, Radim FARANA ** APPLICATION OF STEPPING ENGINE

More information

Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 1, rok 2006, ročník LII, řada strojní článek č.

Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 1, rok 2006, ročník LII, řada strojní článek č. Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 1, rok 2006, ročník LII, řada strojní článek č. 1494 Roman DUDEK *, Petr NOVÁK ** BREAKOUT PREDICTION SYSTEM PROTIPRŮVALOVÝ

More information

PRODUCTION PLANNING MODEL USING REA ONTOLOGY

PRODUCTION PLANNING MODEL USING REA ONTOLOGY PRODUCTION PLANNING MODEL USING REA ONTOLOGY EKONOMIKA A MANAGEMENT Dominik Vymětal, Miroslav Hučka, František Huňka, Josef Kašík 1. Introduction Enterprise production planning and control models at operational

More information

CESTA K PROFESIONÁLNÍMU OŠETŘOVATELSTVÍ III

CESTA K PROFESIONÁLNÍMU OŠETŘOVATELSTVÍ III Slezská univerzita v Opavě Filozoficko-přírodovědecká fakulta Ústav ošetřovatelství CESTA K PROFESIONÁLNÍMU OŠETŘOVATELSTVÍ III Sborník příspěvků III. Slezské vědecké konference ošetřovatelství s mezinárodní

More information

English EB1030/ EB1031/ EB1033. User Manual

English EB1030/ EB1031/ EB1033. User Manual X English EB1030/ EB1031/ EB1033 User Manual English E6785 First Edition January 2012 Copyright 2012 ASUSTeK COMPUTER INC. All Rights Reserved. No part of this manual, including the products and software

More information

4 th Letici Kameny Trophy (29 th February - 2 nd March 2008) TOURNAMENT PROGRAMME

4 th Letici Kameny Trophy (29 th February - 2 nd March 2008) TOURNAMENT PROGRAMME TOURNAMENT PROGRAMME 4 th Letici Kameny Trophy (29 th February - 2 nd March 2008) Dear curlers, We want to thank you for your registration to our tournament and we would like to wish you GOOD CURLING.

More information

Possibilities and limits for capital structure optimalising model design of Czech dairy industry

Possibilities and limits for capital structure optimalising model design of Czech dairy industry Possibilities and limits for capital structure optimalising model design of Czech dairy industry Konstrukce modelu pro optimalizaci kapitálové struktury podnikù èeského mlékárenského prùmyslu G. CHMELÍKOVÁ

More information

Ústav radioelektroniky. Pomocné obvody a základní periférie

Ústav radioelektroniky. Pomocné obvody a základní periférie Ústav radioelektroniky Vysoké učení technické v Brně Pomocné obvody a základní periférie mikrokontrolérů Mikroprocesorová technika, přednáška č. 5 Ing. Frýza Tomáš, Ph.D. 14. října 2008 Obsah přednášky

More information

Celoživotné vzdelávanie z pohľadu trvalo udržateľného rozvoja

Celoživotné vzdelávanie z pohľadu trvalo udržateľného rozvoja Projekt LLABS: Celoživotné vzdelávanie z pohľadu trvalo udržateľného rozvoja 2013-1-RO1-GRU06-29574-5 Celoživotné vzdelávanie z pohľadu trvalo udržateľného rozvoja Legislatíva a politiky v niektorých európskych

More information

MICROSOFT WORD 2010. Mgr. Krejčí Jan (ZSJP) MICROSOFT WORD 2010 21. září 2012 1 / 21

MICROSOFT WORD 2010. Mgr. Krejčí Jan (ZSJP) MICROSOFT WORD 2010 21. září 2012 1 / 21 MICROSOFT WORD 2010 Mgr. Krejčí Jan Základní škola Jaroslava Pešaty, Duchcov 21. září 2012 Mgr. Krejčí Jan (ZSJP) MICROSOFT WORD 2010 21. září 2012 1 / 21 Microsoft Word 2010 Anotace V souboru typu pdf

More information

A 4G consite s.r.o., Šlikova 406/29, 169 00 Praha 6, Czech Republic info@4gconsite.com +420 602 24 44 65

A 4G consite s.r.o., Šlikova 406/29, 169 00 Praha 6, Czech Republic info@4gconsite.com +420 602 24 44 65 Evaluation Report Evaluation of a Project under the Czech Republic s Development Cooperation in the Water and Sanitation Sector in the Palestinian Autonomous Territories Annex A: List of abbreviations

More information

Týždeň 1. Úvodné stretnutie informácie o obsahu kurzu, spôsobe hodnotenia, úvod do problematiky demokracie

Týždeň 1. Úvodné stretnutie informácie o obsahu kurzu, spôsobe hodnotenia, úvod do problematiky demokracie Teórie demokracie Výberový predmet Vyučujúci: JUDr. Mgr. Michal Mrva Charakteristika kurzu Kurz má za cieľ oboznámiť študentov s problematikou demokracie v jej historickej perspektíve s dôrazom na vývoj

More information

Juridizácia ľudských práv v kontexte judikatúry Európskeho súdu pre ľudské práva

Juridizácia ľudských práv v kontexte judikatúry Európskeho súdu pre ľudské práva Juridizácia ľudských práv v kontexte judikatúry Európskeho súdu pre ľudské práva zborník príspevkov z vedeckej konferencie Zostavili: prof. JUDr. Ján Svák, DrSc. JUDr. Andrea Erdősová, PhD. 1 Paneurópska

More information

CAN EVERYBODY WORK WITH MAPS ON THE INTERNET? Otakar Čerba 1

CAN EVERYBODY WORK WITH MAPS ON THE INTERNET? Otakar Čerba 1 CAN EVERYBODY WORK WITH MAPS ON THE INTERNET? Otakar Čerba 1 1 Department of mathematics, Faculty of Applied Sciences, The University of West Bohemia in Pilsen, Univerzitní 23, 306 14, Plzeň, Czech Republic

More information

Prediction of labour and personal costs development in the food industry branches in the Czech Republic up to 2013

Prediction of labour and personal costs development in the food industry branches in the Czech Republic up to 2013 Prediction of labour and personal costs development in the food industry branches in the Czech Republic up to 2013 Predikce vývoje pracovních sil a osobních nákladů potravinářských výrobních oborů v České

More information

Linked Open Government Data Analytics

Linked Open Government Data Analytics Linked Open Government Data Analytics Evangelos Kalampokis 1,2, Efthimios Tambouris 1,2, Konstantinos Tarabanis 1,2 1 Information Technologies Institute, Centre for Research & Technology - Hellas, Greece

More information

THE ROLE AND FUNCTION OF SAFETY AUDITING IN COAL MINING MANAGEMENT

THE ROLE AND FUNCTION OF SAFETY AUDITING IN COAL MINING MANAGEMENT Sborník vědeckých prací Vysoké školy báňské Technické univerzity Ostrava Řada hornicko-geologická Volume L (2004), No.1, p. 117-122, ISSN 0474-8476 Stanisław KRZEMIEŃ *, Zygmunt KORBAN ** THE ROLE AND

More information

ACQUIRING, ORGANISING AND PRESENTING INFORMATION AND KNOWLEDGE ON THE WEB. Pavol Návrat

ACQUIRING, ORGANISING AND PRESENTING INFORMATION AND KNOWLEDGE ON THE WEB. Pavol Návrat Computing and Informatics, Vol. 28, 2009, 393 398 ACQUIRING, ORGANISING AND PRESENTING INFORMATION AND KNOWLEDGE ON THE WEB Pavol Návrat Institute of Informatics and Software Engineering Faculty of Informatics

More information

The Role of Information System in Hospital Management and its Developing Process

The Role of Information System in Hospital Management and its Developing Process The Role of Information System in Hospital Management and its Developing Process Vladimír Mazanec, MD., MBA Sanatorium Dr. Guhra n. o. Tatranska Polianka Slovak Republic Abstract Information system of

More information

Distribution of Plum pox virus in the Czech Republic

Distribution of Plum pox virus in the Czech Republic Distribution of Plum pox virus in the Czech Republic JAROSLAV POLÁK Division of Plant Medicine Research Institute of Crop Production, -Ruzyně, Czech Republic Abstract POLÁK J. (2002): Distribution of Plum

More information

Modern tools for development of interactive web map applications for visualization spatial data on the internet

Modern tools for development of interactive web map applications for visualization spatial data on the internet Acta Montanistica Slovaca Ročník 14 (2009), mimoriadne číslo 1, 4-11 Modern tools for development of interactive web map applications for visualization spatial data on the internet Ardielli Jiří 1, Minarčík

More information

INTEGRAL SAFETY 2011 INTEGROVANÁ BEZPEČNOSŤ 2011

INTEGRAL SAFETY 2011 INTEGROVANÁ BEZPEČNOSŤ 2011 STU BA, MtF, Ústav bezpečnostného a environmentálneho inžinierstva Trnava Zväz slovenských vedeckotechnických spoločností, Bratislava Slovenská spoločnosť pre životné prostredie, Bratislava INTEGRAL SAFETY

More information

: Architectural Lighting : Interiérové svietidlá

: Architectural Lighting : Interiérové svietidlá SEC Lighting : Architectural Lighting : nteriérové svietidlá : Shape Harmony : Tradition The company SEC accepts with enthusiasm the challenges of continuously changing world. n our opinion, luminaries

More information