An object-oriented wrapper to relational databases with query optimisation

Size: px
Start display at page:

Download "An object-oriented wrapper to relational databases with query optimisation"

Transcription

1 POLITECHNIKA ŁÓDZKA WYDZIAŁ ELEKTROTECHNIKI, ELEKTRONIKI, INFORMATYKI I AUTOMATYKI KATEDRA INFORMATYKI STOSOWANEJ mgr inŝ. Jacek Wiślicki Ph.D. Thesis An object-oriented wrapper to relational databases with query optimisation praca doktorska Obiektowa osłona do relacyjnych baz danych z uwzględnieniem optymalizacji zapytań Advisor: prof. dr hab. inŝ. Kazimierz Subieta Łódź 2007

2 To my wife and son, for their love, belief and patience

3 Index of Contents ABSTRACT... 5 ROZSZERZONE STRESZCZENIE... 7 CHAPTER 1 INTRODUCTION Motivation Theses and Objectives History and Related Works Thesis Outline CHAPTER 2 THE STATE OF THE ART AND RELATED WORKS The Impedance Mismatch Related Works Wrappers and Mediators ORM and DAO XML Views over Relational Data Applications of RDF Other Approaches The egov-bus Virtual Repository Conclusions CHAPTER 3 RELATIONAL DATABASES Relational Optimisation Constraints Relational Calculus and Relational Algebra Relational Query Processing and Optimisation Architecture Space Search Reduction Planning Size-Distribution Estimator Relational Query Optimisation Milestones System-R Starburst Volcano/Cascades CHAPTER 4 THE STACK-BASED APPROACH SBA Object Store Models SBQL SBQL Semantics Sample Queries Updateable Object-Oriented Views SBQL Query Optimisation Independent Subqueries Rewriting Views and Query Modification Removing Dead Subqueries Removing Auxiliary Names Low Level Techniques CHAPTER 5 OBJECT-RELATIONAL INTEGRATION METHODOLOGY General Architecture and Assumptions Query Processing and Optimisation Naive Approach vs. Optimisation A Conceptual Example Page 3 of 235

4 Index of Contents CHAPTER 6 QUERY ANALYSIS, OPTIMISATION AND PROCESSING Proposed Algorithms Selecting Queries Deleting Queries Updating Queries SQL Query String Generation Stack-Based Query Evaluation and Result Reconstruction Query Analysis and Optimisation Examples Relational Test Schemata Selecting Queries Imperative Constructs Multi-Wrapper and Mixed Queries SBQL Optimisation over Multi-Wrapper Queries Sample Use Cases Rich Employees Employees with Departments Employees with Cars Rich Employees with White Cars CHAPTER 7 WRAPPER OPTIMISATION RESULTS Relational Test Data Optimisation vs. Simple Rewriting Application of SBQL optimisers CHAPTER 8 SUMMARY AND CONCLUSIONS Prototype Limitations and Further Works Additional Wrapper Functionalities APPENDIX A THE EGOV-BUS PROJECT APPENDIX B THE ODRA PLATFORM B.1 ODRA Optimisation Framework APPENDIX C THE PROTOTYPE IMPLEMENTATION C.1 Architecture C.1.1 Communication protocol C.2 Relational Schema Wrapping C.2.1 Example C.2.2 Relational Schema Models C.2.3 Result Retrieval and Reconstruction C.3 Installation and Launching C.3.1 CD Contents C.3.2 Test Schemata Generation C.3.3 Connection Configuration C.3.4 Test Data Population C.3.5 Schema Description Generation C.3.6 Server C.3.7 Client C.4 Prototype Testing C.4.1 Optimisation Testing C.4.2 Sample batch files INDEX OF FIGURES INDEX OF LISTINGS INDEX OF TABLES BIBLIOGRAPHY Page 4 of 235

5 Abstract This Ph.D. thesis is focused on transparent and efficient integration of relational databases to an object-oriented distributed database system available to top-level users as a virtual repository. The core of the presented solution is to provide a wrapper a dedicated generic piece of software capable of interfacing between the virtual repository structures (in the most common case object-oriented updateable views) and the wrapped relational database, enabling bidirectional data exchange (e.g. retrieval and updates) with optimal query evaluation. The idea of integration of distributed, heterogeneous, fragmented and redundant databases can be dated to the eighties of the last century and the concept of federated databases, nevertheless the virtual repository approach is closer to the distributed mediation concept from the early nineties. Regardless of the origin, the goal of such systems is to present final and complete business information transparently combined of data stored in bottom-level resources, exactly matching top-level user demands and requirements. In the most general case, the resources mean any data sources and feeds, including the most common relational databases (the focus of the thesis), objectoriented and object-relational databases, XML and RDF data stores, Web Services, etc. The need for integration of various resources representing completely different paradigms and models is caused by the characteristics of the nowadays data and information management systems (besides the resources distribution, fragmentation, replication, redundancy and heterogeneity) the software is usually written is some high-level object-oriented programming language that is completely unadjacent to the resource-level query language (the phenomenon is often referred to as the impedance mismatch). This integration process must be completely transparent so that an end user (a human or an application) is not aware of an actual data source model and structure. Page 5 of 235

6 Abstract On the other side, an object-oriented database communicating directly with such a wrapper must be opaque it must work as a black box and its underlying objectrelational interface cannot be available directly from any system element located in upper layers. Another feature of a wrapper is its genericity its action and reliability must be completely independent of a relational resource it wraps. Also neither data materialisation nor replication are allowed at the virtual repository side (or any other intermediate system module), of course except for current query results that must be somehow returned to users querying the system. Similarly, updating the wrapped resource data from the virtual repository level and its object-oriented query language must me assured. Besides the transparency aspects, the most effort has been devoted to efficient optimisation procedures enabling action of powerful native relational resource query optimisers together with the object-oriented optimisation methods applicable in the virtual repository. The virtual repository for which the wrapper was designed relies on the stackbased approach (SBA), the corresponding stack-based query language (SBQL) and the updateable object-oriented views. Therefore the wrapper must be capable of transforming object-oriented queries referring to the global schema expressed in SBQL into SQL-optimiseable relational queries, whose results are returned to the virtual repository in the same way as actual object-oriented results. The thesis has been developed under the egov-bus (Advanced egovernment Information Service Bus) project supported by the European Community under Information Society Technologies priority of the Sixth Framework Programme (contract number: FP6-IST STP). The idea with its different aspects (including the virtual repository it is a part of and data fragmentation and integration issues) has been presented in over 20 research papers, e.g. [1, 2, 3, 4, 5, 6, 7]. Keywords: database, object-oriented, relational, query optimisation, virtual repository, wrapper, SBA, SBQL Page 6 of 235

7 Rozszerzone streszczenie Liczba dostępnych obecnie źródeł danych jest ogromna. Wiele z nich jest dostępne poprzez Internet, jakkolwiek mogą one nie być publiczne lub ograniczać dostęp do ściśle określonej grupy uŝytkowników. Takie zasoby są rozproszone, niejednorodne, podzielone i nadmiarowe. Idea, której część została opracowana i zaimplementowana w poniŝszej pracy doktorskiej polega na wirtualnej integracji takich zasobów w zcentralizowaną, jednorodną, spójną i pozbawioną fragmentacji oraz nadmiarowości całość tworzącą wirtualne repozytorium zapewniające pewne powszechne funkcjonalności i usługi, włączając w to infrastrukturę zaufania (bezpieczeństwo, prywatność, licencjonowanie, płatności, itp.), Web Services, rozproszone transakcje, zarządzanie procesami (workflow management), itd. Głównym celem przedstawionych prac jest integracja heterogenicznych relacyjnych baz danych (zasobów) do obiektowego systemu bazodanowego, w którym takie zasoby są widziane jako czysto obiektowe modele i składy, które mogą być w przeźroczysty sposób odpytywane za pomocą obiektowego języka zapytań (innymi słowy, muszą być one nieodróŝnialne od rzeczywistych zasobów obiektowych). W związku z tym schematy relacyjne muszą zostać osłonięte wyspecjalizowanym oprogramowaniem zdolnym do dwukierunkowej wymiany danych pomiędzy znajdującym się na samym dole SZRBD i innymi elementami systemu. Ten proces musi być przeźroczysty, aby końcowy uŝytkownik (człowiek lub aplikacja) nie był w Ŝaden sposób świadomy faktycznego modelu zasobu. Z drugiej strony, obiektowa baza danych komunikująca się bezpośrednio z taką osłoną musi być całkowicie nieprzejrzysta (czarna skrzynka), aby osłona nie była w Ŝaden sposób bezpośrednio dostępna z Ŝadnego elementu systemu znajdującego się w górnych warstwach architektury. Kolejną cechą takiej osłony jest pełna generyczność jej działanie, niezawodność i własności wydajnościowe powinny być całkowicie uniezaleŝnione od zasobu, który kryje. Z załoŝenia niedozwolone są takŝe materializacja i replikacja danych relacyjnych Page 7 of 235

8 Rozszerzone streszczenie po stronie wirtualnego repozytorium (ani Ŝadnego innego pośredniego modułu systemu), oczywiście poza bieŝącymi wynikami zapytań, które muszą zostać zwrócone uŝytkownikom odpytującym system. Tezy pracy zostają zdefiniowane jak poniŝej: 1. Spadkowe bazy relacyjne mogą zostać w przeźroczysty sposób włączone do obiektowego wirtualnego repozytorium, a znajdujące się w nich dane przetwarzane i aktualizowane przez obiektowy język zapytań nieodróŝnialnie od danych czysto obiektowych, bez konieczności materializacji i replikacji. 2. Dla takiego systemu mogą zostać opracowane i zaimplementowane mechanizmy umoŝliwiające współdziałanie obiektowej optymalizacji wirtualnego repozytorium z natywnymi optymalizatorami zasobu relacyjnego. Sztuka budowania obiektowych osłon przeznaczonych do integracji heterogenicznych zasobów relacyjnych do homogenicznych obiektowych systemów bazodanowych jest rozwijana od około piętnastu lat. Prowadzone prace mają na celu połączenie znacznie starszej teorii baz relacyjnych (podstawy zostały zebrane i zaprezentowane przez Edgara F. Codda prawie czterdzieści lat temu) z względnie młodym paradygmatem obiektowym (pojęcie obiektowego systemu bazodanowego pojawiło się w połowie lat osiemdziesiątych ubiegłego stulecia, a podstawowe koncepcje zamanifestowane w [8], jakkolwiek odpowiednie prace rozpoczęły się ponad dziesięć lat wcześniej). Prezentowana praca doktorska jest skoncentrowana na nowatorskim podejściu do integracji heterogenicznych zasobów relacyjnych do rozproszonego obiektowego systemu bazodanowego. Zasoby te muszą być dostępne dla globalnych uŝytkowników poprzez globalny model obiektowy i obiektowy język zapytań, tak aby ci uŝytkownicy nie byli w Ŝaden sposób świadomi faktycznego modelu i składu zasobu. Opracowany i zaimplementowany proces integracji jest całkowicie przeźroczysty i umoŝliwia dwukierunkową wymianę danych, tj. odpytywanie zasobu relacyjnego (pobieranie danych zgodnych z kryteriami zapytań) i aktualizację danych relacyjnych. Ponadto, znajdujące się tuŝ nad zasobem relacyjnym struktury obiektowe (utworzone bezpośrednio w oparciu o ten zasób) mogą zostać bezproblemowo przekształcane i filtrowane (poprzez kaskadowo nabudowane aktualizowalne perspektywy obiektowe) w taki sposób, aby odpowiadały modelowi biznesowemu i ogólnemu schematowi, którego część mają stanowić. Poza aspektami przeźroczystości, największy wysiłek Page 8 of 235

9 Rozszerzone streszczenie został poświęcony procedurom wydajnej optymalizacji zapytań umoŝliwiającej działanie natywnych optymalizatorów zasobu relacyjnego. Te funkcjonalności zostały osiągnięte poprzez wyspecjalizowany moduł stanowiący osłonę obiektowo-relacyjną, nazywany dalej w skrócie osłoną. Zaprezentowane w pracy doktorskiej prototypowe rozwiązanie zostało oparte o podejście stosowe do języków zapytań i baz danych (SBA, Stack-Based Approach), wynikające z niego język zapytań (SBQL, Stack-Based Query Lanuage) oraz aktualizowalne obiektowe perspektywy, interfejs JDBC, protokół TCP/IP oraz język SQL. Implementacja została wykonana w języku Java TM. Koncepcja z jej róŝnymi aspektami (włącznie z wirtualnym repozytorium, którego jest częścią oraz kwestiami fragmentacji i integracji danych) przedstawiona została w ponad 20 artykułach, np. [1, 2, 3, 4, 5, 6, 7]. Praca doktorska została wykonana w ramach projektu egov-bus (Advanced egovernment Information Service Bus) wspieranego przez Wspólnotę Europejską w ramach priorytetu Information Society Technologies Szóstego Programu Ramowego (nr kontraktu: FP6-IST STP). Tekst pracy został podzielny na następujące rozdziały, których zwięzłe streszczenia znajdują się poniŝej: Chapter 1 Introduction Wstęp Rozdział zawiera motywację do podjęcia tematyki, tezy, cele i załoŝenia pracy doktorskiej, opis wykorzystanych rozwiązań technicznych oraz zwięzły opis stanu wiedzy i prac powiązanych z tematyką. Chapter 2 The State of the Art and Related Works Stan wiedzy i prace pokrewne W tej części pracy omówione zostały stan wiedzy oraz inne prowadzone na świecie prace mające na celu powiązanie baz relacyjnych z obiektowymi systemami i językami programowania. Jako punkt wyjściowy zostało przyjęte zjawisko niedopasowania impedancji pomiędzy systemami językami zapytań i językami programowania, jego konsekwencje i moŝliwe rozwiązania problemu. W szczególności uwzględniona została architektura mediatorów i wrapperów zaproponowana przez G. Wiederholda w 1992 oraz szereg rozwiązań opartych na tym właśnie modelu. W dalszej kolejności opisane zostały róŝnorodne rozwiązania ORM (Object-Relational Page 9 of 235

10 Rozszerzone streszczenie Mapping) i DAO (Data Access Objects) mające na celu mapowanie istniejących danych zgromadzonych w systemach relacyjnych na struktury obiektowe dostępne z poziomu obiektowych języków programowania oraz zapewnianie trwałości obiektów na poziomie obiektowych języków programowania w (relacyjnych) bazach danych, odpowiednio. Część rozdziału została poświęcona takŝe technikom udostępniania danych relacyjnych poprzez perspektywy XML oraz RDF. Oddzielny podrozdział stanowi krótki opis roli osłony w ogólnej architekturze wirtualnego repozytorium opracowywanego w ramach projektu egov-bus. Chapter 3 Relational Databases Relacyjne bazy danych Znajdują się tutaj podstawy systemów relacyjnych oraz optymalizacji zapytań relacyjnych z istniejącymi wyzwaniami i opracowanymi metodami, głównie w odniesieniu do najpopularniejszego obecnie języka SQL. Główna część rozdziału dotyczy architektury optymalizatora zapytań wyraŝonych w języku SQL działającego w oparciu o rachunek relacyjny i algebrę relacyjną oraz najpopularniejszych technik stosowanych we współczesnych systemach relacyjnych. Wspomniane zostały równieŝ kamienie milowe w rozwoju optymalizacji zapytań relacyjnych takie jak System-R, Starburst i Volcano. Chapter 4 The Stack-Based Approach Podejście stosowe Rozdział koncentruje się na podstawach podejścia stosowego (SBA) oraz obecnie zaimplementowanych w wirtualnym repozytorium metodach optymalizacji zapytań obiektowych, głównie w odniesieniu do języka SBQL, który został wykorzystany podczas prac nad prototypem osłony. W rozdziale ujęte zostały metody optymalizacji SBQL oparte na przepisywaniu zapytań (optymalizacja statyczna) związane z jak najwcześniejszym wykonywaniem selekcji, przepisywaniem perspektyw (query modification), usuwaniem martwych podzapytań i pomocniczych nazw, jak równieŝ wykorzystaniem indeksów. Chapter 5 Object-Relational Integration Methodology Metodologia integracji obiektowo-relacyjnej Ta część pracy stanowi koncepcyjny opis opracowanej i zaimplementowanej metodologii integracji zasobów relacyjnych do obiektu wirtualnego repozytorium. Omówione zostały załoŝenia systemu, sposób odwzorowania schematów z zastosowaniem aktualizowanych perspektyw oraz przetwarzania zapytań obiektowych Page 10 of 235

11 Rozszerzone streszczenie na relacyjne. Wprowadzone zostały takŝe podstawy przetwarzania zapytania mającego na celu umoŝliwienia działania optymalizacji obiektowej oraz relacyjnej. Rozdział zakończony jest abstrakcyjnym (niezaleŝnym od implementacji) przykładem mapowania schematów oraz optymalizacji zapytania. Chapter 6 Query Analysis, Optimisation and Processing Analiza, optymalizacja i przetwarzanie zapytań W rozdziale znajduje się szczegółowe omówienie opracowanych i zaimplementowanych algorytmów analizy i transformacji zapytań, które mają na celu uzyskanie maksymalnej wydajności i niezawodności systemu. Zaprezentowane zostają przykładowe schematy relacyjne oraz proces ich odwzorowania (za pomocą aktualizowanych perspektyw obiektowych) na schemat obiektowy dostępny dla wirtualnego repozytorium. Omówione metody poparte są rzeczywistymi przykładami przekształceń zapytań odnoszących się do wspomnianych schematów testowych, w których szczegółowo zademonstrowane są poszczególne etapy analizy i optymalizacji. Na końcu rozdziału znajdują się przykłady dalszych transformacji utworzonego schematu obiektowego, które mogą zostać zastosowane w górnych warstwach wirtualnego repozytorium. Chapter 7 Wrapper Optimisation Results Wyniki optymalizacji osłony Rozdział stanowi prezentację i dyskusję wyników optymalizacji przeprowadzanej przez osłonę w odniesieniu do niezoptymalizowanych zapytań oraz do zapytań optymalizowanych za pomocą mechanizmów SBQL. Działanie osłony przetestowane zostało na względnie duŝym zbiorze testowych zapytań (odnoszących się to przykładowych schematów wprowadzonych w poprzednim rozdziale) wykorzystujących róŝnorodne mechanizmy optymalizacyjne języka SQL, którego zapytania wykonywane są bezpośrednio na zasobie relacyjnym. Przeprowadzone zostały takŝe testy dla róŝnych wielkości baz danych, w celu obserwacji zaleŝności wyniku optymalizacji od liczności pobieranych rekordów oraz liczby wykonywanych złączeń. Chapter 8 Summary and Conclusions Podsumowanie i wnioski Zawarte zostały tutaj doświadczenia i wnioski zdobyte podczas opracowywania osłony i testowania prototypu. Podsumowanie wyników optymalizacji przeprowadzanej przez prototyp jednoznacznie dowodzi słuszności tez pracy doktorskiej. Osobny Page 11 of 235

12 Rozszerzone streszczenie podrozdział poświęcony jest dalszym pracom, które mogą zostać wykonanie w celu rozwoju prototypu i rozszerzenia jego funkcjonalności. Tekst pracy został rozszerzony o trzy załączniki omawiające kolejno projekt egov-bus, obiektowy system bazodanowy ODRA odpowiedzialny za obsługę wirtualnego repozytorium, w ramach którego został zaimplementowany prototyp osłony oraz szczegóły implementacji prototypu osłony. Page 12 of 235

13 Chapter 1 Introduction 1.1 Motivation Nowadays, we observe an enormous number of data sources. Many of them are available via Internet (although they may be not public or restrict access to a limited number of users). Such resources are distributed, heterogeneous, fragmented and redundant. Therefore, information available to users (including governmental and administrative offices and agencies as well as companies and industry) is incomplete and requires much effort and usually manual (or human-interactive computer-aided) analysis to reveal its desired aspects. Even after such time and resource consuming process actually there is no guarantee that some important pieces of information are not lost or overlooked. The main idea partially developed and implemented in the thesis is to virtually integrate such resources into a centralised, homogeneous, integrated, consistent and non-redundant whole constituting a virtual repository providing some common functionalities and services, including a trust infrastructure (security, privacy, licensing, payments, etc.), web services, distributed transactions, workflow management, etc. The proposed solution is focused on relational databases that are the most common in currently utilised (and still developed) data and information management systems. Contemporary system designers still choose them since they are mature, predictable, stable and widely available as either commercial or free products with professional maintenance and technical support. On the other hand programmers tend to use highlevel object-oriented programming languages that collide with relational paradigms and philosophy (the object-relational impedance mismatch phenomenon). Global migration to object-oriented database systems is unlike in reasonable future due to programmers habits, its unpredictably high costs (and time required) and lack of commonly accepted Page 13 of 235

14 Chapter 1 Introduction object-oriented standards and mature database systems (most of them are functional, however still experimental prototypes). These factors reveal strong need for providing a smooth bridge between relational and object-oriented technologies and systems enabling the effective and seamless manipulating relational data in the object-oriented manner together with combining them with purely object-oriented data. 1.2 Theses and Objectives The Ph.D. dissertation is focused on a novel approach to integration of heterogeneous relational database resources in an object-oriented distributed database system. Such resources must be available to global (top level) users via a common object data model (provided by the virtual repository) and an object-oriented query language so that these users are not aware of an actual resource data model and storage. Relational databases are mapped as purely object-oriented models and stores that can be transparently queried with an object-oriented query language. In other words, they are to be compatible with actual object-oriented resource. Therefore, relational schemata must be wrapped (enveloped) with some dedicated pieces of software interfaces capable of bidirectional exchanging data between a bottom-level RDBMS and other elements of the system. Such an interface is referred to as a relational-to-object data wrapper, or simply a wrapper. This integration process must be completely transparent so that an end user (a human or an application) is not aware of an actual data source model and structure. On the other side, an object-oriented database communicating directly with such a wrapper must be opaque it must work as a black box and its underlying objectrelational interface cannot be available directly from any system element located in upper layers. Another feature of a wrapper is its genericity: its action and reliability must be completely independent of a resource it wraps. Also neither data materialisation nor replication are allowed at the virtual repository side (or any other intermediate system module), of course except for current query results that must be somehow returned to users querying the system. Page 14 of 235

15 Chapter 1 Introduction The summarized theses are: 1. Legacy relational databases can be transparently integrated to an objectoriented virtual repository and their data can be processed and updated with an object-oriented query language indistinguishably from purely objectoriented data without materialisation or replication. 2. Appropriate optimisation mechanisms can be developed and implemented for such a system in order to enable coaction of the object-oriented virtual repository optimisation together with native relational resource optimisers. The prototype solution accomplishing, verifying and proving the theses has been developed and implemented according to the modular reusable software development methodology, where subsequent components are developed independently and combined according to the predefined (primarily assumed) interfaces. First, the state of the art in the field of integration of heterogeneous database and information systems was analysed. A set of related solutions has been isolated with their assumptions, strengths and weaknesses, considering possibility of their adaptation to the designed solution (Chapter 2). The experience of previous works together with requirements of the virtual repository and the author s experience from the previously participated commercial projects allowed designing and implementing the general modular wrapper architecture (subchapter 5.1 General Architecture and Assumptions). The architecture assures genericity, flexibility and reliability in terms of communication and data transfer and it was not subjected to any substantial verification and experiments. Basing on the above, the first working prototype (without optimisation issues, but allowing transparent and reliable accessing the wrapped resource, referred to as the naive approach) has been implemented and experimentally tested. Since this part of the solution is mutually independent of the virtual repository and the objectives were clear and well defined, the fast cascaded development model has been used. The next stage concerned thorough analysis of various optimisation methods used in relational database systems (Chapter 3) and object-oriented database systems, especially based on the stack-based approach (Chapter 4) implemented in the virtual repository (subchapter 2.3 The egov-bus Virtual Repository). The goal was to establish SBQL syntax patterns transformable to optimiseable SQL queries. Subsequently improved prototypes verified with experiments have allowed achieving a set of reliable query rewriting rules and designing the desired query optimiser. The evolutionary/spiral Page 15 of 235

16 Chapter 1 Introduction development model used at this stage was implied by integration of the wrapper with the independently developed virtual repository and its continuously changing implementation. Also, the experiments results concerning the query evaluation efficiency and reliability forced further improvement of the rewriting and optimisation methods. The described shortly development process consists mainly of analysis of related solutions in terms of the thesis objectives and integration requirements with the rest of the virtual repository. The conclusions allowed stating primary assumptions realised in subsequent prototypes and continuously verified with experiments. The resulting integration process is completely transparent and it enables bidirectional data transfer, i.e. querying a relational resource (retrieving data according to query conditions) and updating relational data. Moreover, bottom-level object-oriented data structures basing directly on a relational resource can be easily transformed and filtered (with multiply cascaded object-oriented updateable views, subchapter 6.3 Sample Use Cases) so that they comply with the business model and goals of the general schema they are a part of. Besides the transparency aspects, the most effort has been devoted to efficient optimisation procedures enabling action of powerful native relational resource query optimisers. The prototype solution realising the above goals and functionalities is implemented with Java TM language. It bases on: The Stack-Based Approach (SBA), providing SBQL (Stack-Based Query Language) being a query language with a complete computational power of regular programming languages and updateable object-oriented views, JDBC used for connecting to relational databases and manipulating their data; the technology is supported by almost all currently used relational systems, TCP/IP sockets allowing communication between distributed system components, SQL used for low-level communication with wrapped databases. 1.3 History and Related Works The art of building object-relational wrappers for integrating heterogeneous relational database resources into homogeneous object-oriented database systems has been developed for about fifteen years, struggling to join the much older theory of relational databases (almost forty years since its fundamentals were presented by Edgar F. Codd) with the relatively young object-oriented database paradigm. The term of an object- Page 16 of 235

17 Chapter 1 Introduction oriented database system first appeared in the mid-eighties of the last century and the concepts were manifested in [8], however the corresponding works started more than ten years earlier. The concept of mediators and wrappers was first formulated by Wiederhold in [9] as a set of indications for developing future information systems. The inspiration was the growing common demand for information induced by broadband networks and rapid Internet development, simultaneously obstructed by inefficient, fragmented, heterogeneous and distributed data sources. The main idea was to support the decisionmaking software with some flexible infrastructure (expressed in terms of mediators and wrappers) capable of retrieving complete information without human interference. A mediator was defined as an autonomous piece of software capable of processing data from am underlying datasource according to the general system requirements. Since mediators were considered resource-independent, they were supplied with wrappers another software modules transparently interfacing between the resource and the mediator itself. Another very important concept stated was that mediators are not to be accessible in any user-friendly language, but a communication-friendly language the mediation process (i.e. creating the actual information basing on various mediators and their datasources) is realised in the background and it must be reliable and efficient. The user interface is realised by some top-level applications and they should be userfriendly instead. The approach and the methodology presented in [9] had several implementations, e.g. Pegasus (1993), Amos (1994) and Amos II (developed since 2002), DISCO (1997) described shortly in the subchapter Wrappers and Mediators. In the virtual repository the described wrapper solution is a part of, the mediation process relies on updateable object-oriented views based on the Stack-Based Approach. There exist also many other approaches aiming to objectify relational data they are described in subchapters ORM and DAO, XML Views over Relational Data, Applications of RDF. Nevertheless, their application in the thesis was not considered due to completely different assumptions and goals. Page 17 of 235

18 Chapter 1 Introduction 1.4 Thesis Outline The thesis is subdivided into the following chapters: Chapter 1 Introduction The chapter presents the motivation for the thesis subject, the theses and the objectives, the description of solutions employed and the short description of the state of the art and the related works. Chapter 2 The State of the Art and Related Works The state of the art and the related works aiming to combine relational and object-oriented databases and programming languages (including mediator/wrapper approaches, ORM/DAO and XML) are briefly discussed here. Further, the wrapper location in the overall virtual repository architecture is presented. Chapter 3 Relational Databases The fundamentals of relational systems and their query optimisation methods and challenges are given, focused mainly on SQL, the most common relational query language. Chapter 4 The Stack-Based Approach The stack-based approach and SBQL, the corresponding query language, are presented, with the concept fundamentals and meaningful query examples. Also, the SBQL optimisation methods are introduced. Chapter 5 Object-Relational Integration Methodology The chapter presents the concept and the assumptions of the developed and implemented methodology for integrating relational resources into virtual repository structures. The schema transformation procedures are given, followed by query analysis, optimisation and processing steps. The chapter is concluded with a conceptual example of the query processing methods applied. Chapter 6 Query Analysis, Optimisation and Processing The detailed description of the developed and implemented query analysis and transformation methods is given, followed by demonstrative examples based on two relational test schemata introduced. The chapter ends with more complex examples of Page 18 of 235

19 Chapter 1 Introduction further schema transformations with object-oriented updateable views applicable in upper levels of the virtual repository. Chapter 7 Wrapper Optimisation Results The chapter provides the discussion of the optimisation results for the prototype based on a relatively large set of sample queries and various database sizes (for the schemata presented in the previous chapter). Chapter 8 Summary and Conclusions The conclusions and future works that can be performed for the further wrapper prototype development. The thesis text is extended with three appendices describing the egov-bus project, the ODRA platform responsible for the virtual repository environment and the wrapper prototype implementation issues. Page 19 of 235

20 Chapter 2 The State of the Art and Related Works The art of object-oriented wrappers built on top of relational database systems has been developed for years first papers on the topic are dated to late 80s and were devoted to federated databases. The motivation for the wrappers is reducing the technical and cultural difference between traditional relational databases and novel technologies based on object-oriented paradigms, including analysis and design methodologies (e.g., based on UML), object-oriented programming languages (e.g. C++, Java, C#), object-oriented middleware (e.g., based on CORBA), object-relational databases and pure objectoriented databases. Recently, Web technologies based on XML/RDF also require similar wrappers. Despite the big pressure on object-oriented and XML-oriented technologies, people are quite happy with relational databases and there is a little probability that the market will massively change soon to other data store paradigms (costs and time required for such migration are unpredictably huge). Unfortunately, the object-orientation has as many faces as existing systems, languages and technologies. Thus, the number of combinations of object-oriented options with relational systems and applications is very large. Additionally, wrappers can have different properties, in particular, can be proprietary to applications or generic, they can deal with updates or be read-only, can materialise objects on the wrapper side or deliver purely virtual objects, can deal with object-oriented query language or provide some iterative one-object-in-a-time API, etc. [10]. This causes an extremely huge number of various ideas and technologies. For instance, Google reports more than results as a response to the query object relational wrapper. Page 20 of 235

PRACA MAGISTERSKA. Metamodel and Workflow Management System for Object - Oriented Business Processes

PRACA MAGISTERSKA. Metamodel and Workflow Management System for Object - Oriented Business Processes PRACA MAGISTERSKA Metamodel and Workflow Management System for Object - Oriented Business Processes Metamodel i system zarzadzania przepływem pracy dla procesów biznesowych zorientowanych obiektowo Student

More information

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki KATEDRA INFORMATYKI PRACA MAGISTERSKA PRZEMYSŁAW DADEL, MARIUSZ BALAWAJDER ANALIZA

More information

Generic ESB Monitoring Architecture Compliant With JBI

Generic ESB Monitoring Architecture Compliant With JBI Generic ESB Monitoring Architecture Compliant With JBI Marek Psiuk Tomasz Bujok Supervisor: Prof. Krzysztof Zieliński Department of Electrical Engineering, Automatics, Computer Science and Electronics

More information

A Federated Architecture for Information Management

A Federated Architecture for Information Management A Federated Architecture for Information Management DENNIS HEIMBIGNER University of Colorado, Boulder DENNIS McLEOD University of Southern California An approach to the coordinated sharing and interchange

More information

ES 2 : A Cloud Data Storage System for Supporting Both OLTP and OLAP

ES 2 : A Cloud Data Storage System for Supporting Both OLTP and OLAP ES 2 : A Cloud Data Storage System for Supporting Both OLTP and OLAP Yu Cao, Chun Chen,FeiGuo, Dawei Jiang,YutingLin, Beng Chin Ooi, Hoang Tam Vo,SaiWu, Quanqing Xu School of Computing, National University

More information

JCR or RDBMS why, when, how?

JCR or RDBMS why, when, how? JCR or RDBMS why, when, how? Bertil Chapuis 12/31/2008 Creative Commons Attribution 2.5 Switzerland License This paper compares java content repositories (JCR) and relational database management systems

More information

Design and Evaluation of a Wide-Area Event Notification Service

Design and Evaluation of a Wide-Area Event Notification Service Design and Evaluation of a Wide-Area Event Notification Service ANTONIO CARZANIGA University of Colorado at Boulder DAVID S. ROSENBLUM University of California, Irvine and ALEXANDER L. WOLF University

More information

PROJECT FINAL REPORT

PROJECT FINAL REPORT PROJECT FINAL REPORT Grant Agreement number: 212117 Project acronym: FUTUREFARM Project title: FUTUREFARM-Integration of Farm Management Information Systems to support real-time management decisions and

More information

A Monitoring-based Approach to Object-Oriented Real-Time Computing

A Monitoring-based Approach to Object-Oriented Real-Time Computing A Monitoring-based Approach to Object-Oriented Real-Time Computing Dissertation zur Erlangung des akademischen Grades Doktoringenieur (Dr.-Ing.) angenommen durch die Fakultät für Informatik der Otto-von-Guericke-Universität

More information

Goal-driven Adaptive Monitoring of Dynamic Service Oriented Systems

Goal-driven Adaptive Monitoring of Dynamic Service Oriented Systems Faculty of Computer Science, Electronics and Telecommunications Goal-driven Adaptive Monitoring of Dynamic Service Oriented Systems Ph.D. Dissertation Marek Psiuk Supervisor: Prof. Krzysztof Zieliński

More information

SIMPL A Framework for Accessing External Data in Simulation Workflows

SIMPL A Framework for Accessing External Data in Simulation Workflows Peter Reimann b Michael Reiter a Holger Schwarz b Dimka Karastoyanova a Frank Leymann a SIMPL A Framework for Accessing External Data in Simulation Workflows Stuttgart, March 20 a Institute of Architecture

More information

JACK Intelligent Agents Summary of an Agent Infrastructure

JACK Intelligent Agents Summary of an Agent Infrastructure JACK Intelligent Agents Summary of an Agent Infrastructure Nick Howden, Ralph Rönnquist, Andrew Hodgson, Andrew Lucas Agent Oriented Software Pty. Ltd. 221 Bouverie St, Carlton Victoria 3053, Australia

More information

NEER ENGI ENHANCING FORMAL MODEL- LING TOOL SUPPORT WITH INCREASED AUTOMATION. Electrical and Computer Engineering Technical Report ECE-TR-4

NEER ENGI ENHANCING FORMAL MODEL- LING TOOL SUPPORT WITH INCREASED AUTOMATION. Electrical and Computer Engineering Technical Report ECE-TR-4 NEER ENGI ENHANCING FORMAL MODEL- LING TOOL SUPPORT WITH INCREASED AUTOMATION Electrical and Computer Engineering Technical Report ECE-TR-4 DATA SHEET Title: Enhancing Formal Modelling Tool Support with

More information

General Principles of Software Validation; Final Guidance for Industry and FDA Staff

General Principles of Software Validation; Final Guidance for Industry and FDA Staff General Principles of Software Validation; Final Guidance for Industry and FDA Staff Document issued on: January 11, 2002 This document supersedes the draft document, "General Principles of Software Validation,

More information

An architectural blueprint for autonomic computing.

An architectural blueprint for autonomic computing. Autonomic Computing White Paper An architectural blueprint for autonomic computing. June 2005 Third Edition Page 2 Contents 1. Introduction 3 Autonomic computing 4 Self-management attributes of system

More information

A Template for Documenting Software and Firmware Architectures

A Template for Documenting Software and Firmware Architectures A Template for Documenting Software and Firmware Architectures Version 1.3, 15-Mar-00 Michael A. Ogush, Derek Coleman, Dorothea Beringer Hewlett-Packard Product Generation Solutions mike_ogush@hp.com derek_coleman@hp.com

More information

P2P-VoD on Internet: Fault Tolerance and Control Architecture

P2P-VoD on Internet: Fault Tolerance and Control Architecture Escola Tècnica Superior d Enginyeria Departamento d Arquitectura de Computadors i Sistemas Operatius P2P-VoD on Internet: Fault Tolerance and Control Architecture Thesis submitted by Rodrigo Godoi under

More information

The Design of the Borealis Stream Processing Engine

The Design of the Borealis Stream Processing Engine The Design of the Borealis Stream Processing Engine Daniel J. Abadi 1, Yanif Ahmad 2, Magdalena Balazinska 1, Uğur Çetintemel 2, Mitch Cherniack 3, Jeong-Hyon Hwang 2, Wolfgang Lindner 1, Anurag S. Maskey

More information

Interactive Process Models

Interactive Process Models Interactive Process Models Håvard D. Jørgensen hdj@sintef.no Department of Computer and Information Science Faculty of Information Technology, Mathematics and Electrical Engineering Norwegian University

More information

Best Practices: Use of Web Application Firewalls

Best Practices: Use of Web Application Firewalls Best Practices: Use of Web Application Firewalls Version 1.0.5, March 2008, English translation 25. May 2008 Author: OWASP German Chapter with collaboration from: Maximilian Dermann Mirko Dziadzka Boris

More information

Scalability for IoT Cloud Services

Scalability for IoT Cloud Services R E S E A R C H G R O U P F O R Distributed Systems Master s Thesis at the Institute for Pervasive Computing, Department of Computer Science, ETH Zurich Scalability for IoT Cloud Services by Martin Lanter

More information

System Programming in a High Level Language. Andrew D Birrell

System Programming in a High Level Language. Andrew D Birrell System Programming in a High Level Language Andrew D Birrell Dissertation submitted for the degree of Doctor of Philosophy in the University of Cambridge, December 1977. Except where otherwise stated in

More information

A Process for COTS Software Product Evaluation

A Process for COTS Software Product Evaluation A Process for COTS Software Product Evaluation Santiago Comella-Dorda John Dean Grace Lewis Edwin Morris Patricia Oberndorf Erin Harper July 2004 TECHNICAL REPORT ESC-TR-2003-017 Pittsburgh, PA 15213-3890

More information

Mirrors: Design Principles for Meta-level Facilities of Object-Oriented Programming Languages

Mirrors: Design Principles for Meta-level Facilities of Object-Oriented Programming Languages Mirrors: Design Principles for Meta-level Facilities of Object-Oriented Programming Languages Gilad Bracha Sun Microsystems 4140 Network Circle Santa Clara, CA 95054 (408) 276-7025 gilad.bracha@sun.com

More information

Software Deployment, Past, Present and Future

Software Deployment, Past, Present and Future Software Deployment, Past, Present and Future Alan Dearle Alan Dearle is a Professor of Computer Science at St Andrews, Scotland s first University. His current research interests include programming languages,

More information

Use of IFC Model Servers

Use of IFC Model Servers Aalborg University Department of Production Department of Civil Engineering Aarhus School of Architecture Department of Building Design Use of IFC Model Servers Modelling Collaboration Possibilities in

More information

Introduction When Lifecycle People Products Management Development Tailoring Other. 2002-2008 DSDM Consortium. DSDM Public Version 4.

Introduction When Lifecycle People Products Management Development Tailoring Other. 2002-2008 DSDM Consortium. DSDM Public Version 4. DSDM Public Version 4.2 Manual Introduction When Lifecycle People Products Management Development Tailoring Other 2002-2008 DSDM Consortium http://www.dsdm.org/version4/2/public/default.asp [12-1-2008

More information

ediscovery in digital forensic investigations

ediscovery in digital forensic investigations overy in digital forensic investigations D Lawton R Stacey G Dodd (Metropolitan Police Service) September 2014 CAST Publication Number 32/14 overy in digital forensic investigations Contents 1 Summary...

More information

Anatomy of a Database System

Anatomy of a Database System Anatomy of a Database System Joseph M. Hellerstein and Michael Stonebraker 1 Introduction Database Management Systems (DBMSs) are complex, mission-critical pieces of software. Today s DBMSs are based on

More information

Implementing Declarative Overlays

Implementing Declarative Overlays Implementing Declarative Overlays Boon Thau Loo UC Berkeley Petros Maniatis Intel Research Berkeley Tyson Condie UC Berkeley Timothy Roscoe Intel Research Berkeley Joseph M. Hellerstein Intel Research

More information