DEPLOYING AND MONITORING HADOOP MAP-REDUCE ANALYTICS ON SINGLE-CHIP CLOUD COMPUTER

Similar documents

Hadoop Architecture. Part 1

How To Build A Cloud Computer

Apache Hadoop. Alexandru Costan

Welcome to the unit of Hadoop Fundamentals on Hadoop architecture. I will begin with a terminology review and then cover the major components

Weekly Report. Hadoop Introduction. submitted By Anurag Sharma. Department of Computer Science and Engineering. Indian Institute of Technology Bombay

The Comprehensive Performance Rating for Hadoop Clusters on Cloud Computing Platform

Elasticsearch on Cisco Unified Computing System: Optimizing your UCS infrastructure for Elasticsearch s analytics software stack

Tutorial: Big Data Algorithms and Applications Under Hadoop KUNPENG ZHANG SIDDHARTHA BHATTACHARYYA

Architecting for the next generation of Big Data Hortonworks HDP 2.0 on Red Hat Enterprise Linux 6 with OpenJDK 7

Hadoop: A Framework for Data- Intensive Distributed Computing. CS561-Spring 2012 WPI, Mohamed Y. Eltabakh

Performance Comparison of SQL based Big Data Analytics with Lustre and HDFS file systems

- Nishad Nerurkar. - Aniket Mhatre

Hadoop Distributed File System. Dhruba Borthakur June, 2007

Mobile Cloud Computing for Data-Intensive Applications

GeoGrid Project and Experiences with Hadoop

Distributed File System. MCSN N. Tonellotto Complements of Distributed Enabling Platforms

Chapter 7. Using Hadoop Cluster and MapReduce

Networking in the Hadoop Cluster

INTERNATIONAL JOURNAL OF PURE AND APPLIED RESEARCH IN ENGINEERING AND TECHNOLOGY

Apache Hadoop new way for the company to store and analyze big data

Comparative analysis of mapreduce job by keeping data constant and varying cluster size technique

Seeking Opportunities for Hardware Acceleration in Big Data Analytics

Dell Reference Configuration for Hortonworks Data Platform

Overview. Big Data in Apache Hadoop. - HDFS - MapReduce in Hadoop - YARN. Big Data Management and Analytics

Keywords: Big Data, HDFS, Map Reduce, Hadoop

Hadoop MapReduce and Spark. Giorgio Pedrazzi, CINECA-SCAI School of Data Analytics and Visualisation Milan, 10/06/2015

Data-Intensive Computing with Map-Reduce and Hadoop

Performance and Energy Efficiency of. Hadoop deployment models

CSE-E5430 Scalable Cloud Computing Lecture 2

Hadoop Distributed File System. Dhruba Borthakur Apache Hadoop Project Management Committee

Big Data Performance Growth on the Rise

Hadoop & its Usage at Facebook

Journal of science STUDY ON REPLICA MANAGEMENT AND HIGH AVAILABILITY IN HADOOP DISTRIBUTED FILE SYSTEM (HDFS)

How To Run Apa Hadoop 1.0 On Vsphere Tmt On A Hyperconverged Network On A Virtualized Cluster On A Vspplace Tmter (Vmware) Vspheon Tm (

Performance Comparison of Intel Enterprise Edition for Lustre* software and HDFS for MapReduce Applications

Lecture 5: GFS & HDFS! Claudia Hauff (Web Information Systems)! ti2736b-ewi@tudelft.nl

THE HADOOP DISTRIBUTED FILE SYSTEM

The Performance Characteristics of MapReduce Applications on Scalable Clusters

Data-intensive computing systems

Can High-Performance Interconnects Benefit Memcached and Hadoop?

Fault Tolerance in Hadoop for Work Migration

HDFS Users Guide. Table of contents

International Journal of Advance Research in Computer Science and Management Studies

Lustre * Filesystem for Cloud and Hadoop *

Introduction to Hadoop HDFS and Ecosystems. Slides credits: Cloudera Academic Partners Program & Prof. De Liu, MSBA 6330 Harvesting Big Data

Hadoop & its Usage at Facebook

HDFS Federation. Sanjay Radia Founder and Hortonworks. Page 1

A Multilevel Secure MapReduce Framework for Cross-Domain Information Sharing in the Cloud

!"#$%&' ( )%#*'+,'-#.//"0( !"#$"%&'()*$+()',!-+.'/', 4(5,67,!-+!"89,:*$;'0+$.<.,&0$'09,&)"/=+,!()<>'0, 3, Processing LARGE data sets

Hadoop: Embracing future hardware

Big Data Analytics - Accelerated. stream-horizon.com

Open source Google-style large scale data analysis with Hadoop

GraySort and MinuteSort at Yahoo on Hadoop 0.23

Parallel Processing of cluster by Map Reduce

Hadoop Distributed File System. Dhruba Borthakur Apache Hadoop Project Management Committee June 3 rd, 2008

Reference Architecture and Best Practices for Virtualizing Hadoop Workloads Justin Murray VMware

MapReduce and Hadoop Distributed File System

Deploying Hadoop with Manager

Maximizing Hadoop Performance and Storage Capacity with AltraHD TM

Hadoop Distributed File System. T Seminar On Multimedia Eero Kurkela

Accelerating Hadoop MapReduce Using an In-Memory Data Grid

Networking Virtualization Using FPGAs

Enabling High performance Big Data platform with RDMA

A Performance Analysis of Distributed Indexing using Terrier

marlabs driving digital agility WHITEPAPER Big Data and Hadoop

Deploying Cloudera CDH (Cloudera Distribution Including Apache Hadoop) with Emulex OneConnect OCe14000 Network Adapters

White Paper. Big Data and Hadoop. Abhishek S, Java COE. Cloud Computing Mobile DW-BI-Analytics Microsoft Oracle ERP Java SAP ERP

CURSO: ADMINISTRADOR PARA APACHE HADOOP

What We Can Do in the Cloud (2) -Tutorial for Cloud Computing Course- Mikael Fernandus Simalango WISE Research Lab Ajou University, South Korea

Mr. Apichon Witayangkurn Department of Civil Engineering The University of Tokyo

Hadoop Distributed File System. Jordan Prosch, Matt Kipps

BigData. An Overview of Several Approaches. David Mera 16/12/2013. Masaryk University Brno, Czech Republic

MapReduce and Hadoop. Aaron Birkland Cornell Center for Advanced Computing. January 2012

Intro to Map/Reduce a.k.a. Hadoop

Hadoop Cluster Applications

Apache Hadoop Cluster Configuration Guide

A Framework for Performance Analysis and Tuning in Hadoop Based Clusters

MapReduce and Hadoop Distributed File System V I J A Y R A O

Parallel Data Mining and Assurance Service Model Using Hadoop in Cloud

Accelerating and Simplifying Apache

How To Use Hadoop

A very short Intro to Hadoop

The Hadoop Distributed File System

Java Garbage Collection Characteristics and Tuning Guidelines for Apache Hadoop TeraSort Workload

HDFS: Hadoop Distributed File System

Data Warehousing and Analytics Infrastructure at Facebook. Ashish Thusoo & Dhruba Borthakur athusoo,dhruba@facebook.com

CS2510 Computer Operating Systems

CS2510 Computer Operating Systems

HADOOP ON ORACLE ZFS STORAGE A TECHNICAL OVERVIEW

Take An Internal Look at Hadoop. Hairong Kuang Grid Team, Yahoo! Inc

Power-Aware High-Performance Scientific Computing

MapReduce Evaluator: User Guide

LARGE-SCALE DATA PROCESSING USING MAPREDUCE IN CLOUD COMPUTING ENVIRONMENT

Transcription:

DEPLOYING AND MONITORING HADOOP MAP-REDUCE ANALYTICS ON SINGLE-CHIP CLOUD COMPUTER ANDREAS-LAZAROS GEORGIADIS, SOTIRIOS XYDIS, DIMITRIOS SOUDRIS MICROPROCESSOR AND MICROSYSTEMS LABORATORY ELECTRICAL AND COMPUTER ENGINEERING DEPARTMENT NATIONAL TECHNICAL UNIVERSITY OF ATHENS

TIME IS BYTES

NEW OPEN QUESTIONS FOR COMPUTER ARCHITECTS 8500 Exabytes @ 2015 How Big Data and Scale-Out Workloads Performs on Manycores? DATA SCALE UP Data-centers @ 2015 300 Exabyte @ 2000 WORKLOADS SCALE OUT 50-core Intel Phi @ 2015 Single server @ 2000 TECHNOLOGY SCALE DOWN Single-core Pentium-Pro@ 2003

SCOPE OF THIS PAPER HADOOP ANALYTICS ON CHIP: HOW TO DEPLOY & MONITOR HADOOP MAPREDUCE CLUSTERS INTEL SINGLE-CLOUD-CHIP (SCC) MANYCORE WORKLOAD CHARACTERIZATION: ANALYSIS OF HADOOP ANALYTIC WORKLOADS ON REAL- SILICON INTEL-SCC MANYCORE PERFORMANCE-POWER TUNING: HADOOP CONFIGURATIONS FOR EFFICIENT PERFORMANCE- POWER TRADE-OFFS W.R.T. CLUSTER TOPOLOGIES AND FREQUENCY SETTINGS

INTEL SCC: ARCHITECTURAL SPECIFICATION Intel SCC Power Management RESEARCH CHIP BUILT IN INTEL LABS. 48 P54C IA CORES ORGANIZED IN 24 TILES. CORE FREQUENCY FROM 100 MHZ TO 800 MHZ. ON-DIE 2D MESH NETWORK. 24 PACKET-SWITCHED ROUTERS. MESH NETWORK FREQUENCY 800 MHZ OR 1.6 GHZ. 32 GB OF DRAM THROUGH 4 DDR3 MEMORY CONTROLLERS. MEMORY CONTROLLER FREQUENCY 800 MHZ OR 1066 MHZ. 16 KB OF FAST LOCAL SRAM ON EACH TILE, CALLED THE MESSAGE PASSING BUFFER (MPB). BOARD MANAGEMENT MICROCONTROLLER (BMC). INITIALIZES AND SHUTS DOWN CRITICAL SYSTEM FUNCTIONS. CONNECTED TO A MANAGEMENT CONTROL PC (MCPC) BY A PCI- EXPRESS CABLE.

HADOOP CLUSTER: HDFS + MAPREDUCE HDFS: DISTRIBUTED FILE SYSTEM [NAMENODE, DATANODES] EFFICIENT AND RELIABLE ACCESS TO DATA NAMENODE: MANAGES FILE SYSTEM NAMESPACE AND REGULATES ACCESS TO FILES BY CLIENTS. DATANODE: MANAGES STORAGE ATTACHED TO THE NODES THAT THEY RUN ON. BLOCK CREATION, DELETION, AND REPLICATION UPON INSTRUCTION FROM THE NAMENODE. MAPREDUCE: SCALABLE PARALLLEL PROGRAMMING MODEL MAP TASKS PROCESS INDEPENDENT SPITS OF INPUT DATA AS <KEY,VALUE> PAIRS TO GENERATE A SET OF INTERMEDIATE <KEY, VALUE> PAIRS. REDUCE TASKS MERGE ALL INTERMEDIATE VALUES ASSOCIATED WITH THE SAME INTERMEDIATE KEY, SO AS TO PRODUCE THE FINAL OUTPUT <KEY, VALUE> PAIRS. INPUT AND THE OUTPUT FILES ARE STORED IN HDFS. TASK SCHEDULING WHERE THE DATA IS ALREADY PRESENT, VERY HIGH AGGREGATE BANDWIDTH ACROSS THE CLUSTER.

HADOOP DEPLOYMENT OF INTEL SCC (1/2) LIMITATIONS SOLUTION RESTRICTED APPLICATION DEVELOPMENT API OF INTEL SCC LINUX GENTOO IMAGE FOR THE INTEL SCC ON EACH INTEL SCC CORE. ONLY 640 MB OF MAIN MEMORY FOR EACH CORE. JAVA HEAP SPACE OF 128 MB FOR HADOOP DAEMONS AND THE CHILD JVM LIMITED TCP/IP STACK TO SUPPORT CLUSTER SW NAT ROUTING WITH MODIFIED ROUTING TABLES INTERNET ACCESS FOR INTEL SCC CORES DIRECT ACCESS TO INTERNAL VIRTUAL NETWORK INTERFACES OF THE INTEL SCC CORES (MB0)

HADOOP DEPLOYMENT OF INTEL SCC (2/2) LIMITATIONS SOLUTION HIGH I/O LOAD AND VERY LOW FREE MAIN MEMORY SPACE CAUSES CORES TO FREEZE AND BECOME UNREACHABLE FREQUENTLY. HADOOP CONSIDERS CONSIDERS RACK PROXIMITY NODE-FAILOVER WATCHDOG. PINGS INTEL SCC CORES PERIODICALLY. IF CORE UNREACHABLE, INTEL SCC LINUX IS BOOTED AND CORRESPONDING HADOOP DAEMON IS STARTED ON-DIE CLUSTER EXPLICITLY DIVIDED TO HADOOP RACKS. NO PARMA-DITAM EFFICIENT 2016 FRAMEWORK RUNTIME MONITORING ADAPT GANGLIA MONITORING ON INTEL SCC

HADOOP CLUSTER TOPOLOGY EXPLORATION (1/4) 16-node Hadoop cluster

HADOOP CLUSTER TOPOLOGY EXPLORATION (2/4) 24-node Hadoop cluster

HADOOP CLUSTER TOPOLOGY EXPLORATION (3/4) 32-node Hadoop cluster

HADOOP CLUSTER TOPOLOGY EXPLORATION (4/4) 48-node Hadoop cluster

EXPERIMENTAL PROCESS THE PERFORMANCE OF FOUR MAPREDUCE APPLICATIONS (WORDCOUNT, BAYES CLASSIFICATION [COUDSUITE], K-MEANS CLUSTERING AND FREQUENT PATTERN GROWTH[DATACENTERBENCH]) IS INVESTIGATED WHEN THEY ARE EXECUTED ON THE INTEL SCC EXPERIMENTAL ANALYSIS EXPLORES SCALABILITY, PERFORMANCE AND POWER CONSUMPTION TRADEOFFS FOR DIFFERENT CLUSTER TOPOLOGY ORGANIZATIONS AND FREQUENCY CONFIGURATIONS.

WORKLOAD CHARACTERIZATION: BAYES CLASSIFIER (1/3) DCSDCSC

WORKLOAD CHARACTERIZATION: BAYES CLASSIFIER (2/3) DCSDCSC

WORKLOAD CHARACTERIZATION: BAYES CLASSIFIER (3/3) DCSDCSC

IMPACT OF RESOURCE ALLOCATION ON PERFORMANCE - ENERGY Frequent Pattern Growth: Experimental Analysis K-Means Clustering: Experimental [More...] Analysis (1/ 2) [More...] (a) WordCount (b) Bayes Classifier Andreas - Lazaros Georgiadis ( NTUA) Diploma T hesis Andreas - Lazaros Georgiadis April ( NTUA) 27, 2015 38 / 56Diploma T hesis Apr (c) K-Means Andreas - Lazaros Georgiadis (NT UA) Diploma T hesis Apri (d) Frequent-Pattern Groth

CORE-FREQUENCY ASSIGNMENT IN HADOOP CLUSTER LOW ENERGY REGION: TASKTRACKER: 800MHZ DATANODE: 200 MHZ HIGH PERFORMANCE REGION: TASKTRACKER: 800 MHZ DATANODE: 200 800 MHZ

CONCLUSIONS HADOOP MAPREDUCE WORKLOADS DEPLOYED AND MONITORED ON THE INTEL SCC CORES. PLATFORM LIMITATIONS AND SOLUTIONS EXTENSIVE EXPERIMENTATION REGARDING TO THE ANALYSIS OF HADOOP MAPREDUCE WORKLOADS OVER DIVERSE CLUSTER TOPOLOGIES INTERESTING PERFORMANCE-ENERGY TRADE-OFFS IN RESPECT TO CORE- FREQUENCY ALLOCATION STRATEGY OF THE DATA-NODES VS. TASKTRACKERS

THANK YOU QUESTIONS?