Sie sind auf Seite 1von 40

Big Data con Hadoop en SQL

Server SSIS 2016


Ángel M. Rayo

##SQLSatMadrid
¿Quién soy?

 Ángel M. Rayo
 twitter.com/oyara
 Technology Lead Expert en Netmind
 Más de 9.000 horas de experiencia formativa
 Microsoft Certified Trainer desde 2005

 MCDBA SQL 2000 – MCSA SQL 2014


##SQLSatMadrid
Agenda

 Hadoop
 HDInsight
 SQL Server SSIS 2016
 Referencias

##SQLSatMadrid
Big Data con Hadoop en SQL Server SSIS 2016

HADOOP

##SQLSatMadrid
Hadoop

Apache™ Hadoop®

Grandes
Procesado
conjuntos de
distribuido
datos

Modelos de
Clústeres de
programación
ordenadores
sencillos

##SQLSatMadrid
Hadoop

• 2003 – Google File System


• 2004 – MapReduce
• 2006 – Hadoop 0.1.0
• 2011 – Hadoop 1.0
• 2015 – Hadoop 1.7
• 25 de agosto de 2016 – Hadoop 2.7.3

##SQLSatMadrid
Hadoop – Componentes

Apache™ Hadoop®

Hadoop
Hadoop Distributed
Common File System
(HDFS™)

Hadoop
Hadoop YARN
MapReduce

##SQLSatMadrid
Hadoop – Otros componentes

##SQLSatMadrid
Hadoop

##SQLSatMadrid
Big Data con Hadoop en SQL Server SSIS 2016

HDINSIGHT

##SQLSatMadrid
HDInsight

• Servicio Hadoop alojado en Microsoft Azure


• Gestión de clústeres
• Framework diseñado para:
• Gestión
• Análisis
• Reporting
• Utiliza la distribución Hortonworks Data Platform (HDP)

##SQLSatMadrid
HDInsight

##SQLSatMadrid
HDInsight – Uso

• Hadoop as a Service (HaaS)


• Crear soluciones y servicios Big Data
• Administrar y monitorizar clústeres Hadoop
• Analizar y generar estadísticas de:
• Disponibilidad
• Utilización

##SQLSatMadrid
HDInsight – Creación

##SQLSatMadrid
Big Data con Hadoop en SQL Server SSIS 2016

SQL SERVER SSIS 2016

##SQLSatMadrid
SQL Server

• ¿Hace falta decir qué es? ;-)


• Sistema gestor de bases de datos relacionales Microsoft
• 1989 – SQL Server 1.0
• 1 de junio de 2016 – SQL Server 2016 (14.0)

##SQLSatMadrid
SQL Server 2016 – Servicios y herramientas

Service Replication Analysis Reporting


Broker Services Services Services

Full Text
Notification Integration
Search SQLCMD
Services Services
Service

SQL Server Business


Visual
Management Intelligence
Studio Studio Dev Studio

##SQLSatMadrid
SQL Server 2016 SSIS

• Plataforma de integración datos y aplicaciones de flujos


de trabajo
• Herramienta Data Warehouse rápida y flexible
• ETL
• Extraction
• Transformation
• Loading

##SQLSatMadrid
SQL Server 2016 SSIS

Data SQL Server


Transformation Integration
Services (DTS) Services (SSIS)

Disponible desde SQL Server 6.5 a Disponible desde SQL Server 2005
SQL Server 2000 .NET como base de ejecución

Control Flow
Data Flow
Event Handlers
Package Explorer

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Situación hasta SQL Server 2014


• Podemos utilizar Hadoop mediante conexión ODBC
• Acceso a recursos con scripts PowerShell

Situación desde SQL Server 2016


• Se incluye Hadoop como fuente de datos
• SSIS 2016 se integra con soluciones Big Data

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Gestor de conexiones
• WebHCat – API REST
Apache™ Hive
• WebHDFS – API
REST HDFS

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Tareas de flujo de control (Control Flow)

Hadoop File Hadoop Hive


Hadoop Pig Task
System Task Task

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Hadoop File
System Task

Funcionamiento
• Obtiene, copia o mueve ficheros
• Utiliza la API REST del clúster
• El acceso es directo al almacén HDFS

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Hadoop File
System Task

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Hadoop Hive
Task

Funcionamiento
• Envía consultas HiveQL
• Utiliza la API REST WebHCat (aka Templeton)
• Funcionamiento mediante sistema de colas

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Hadoop Hive
Task

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Hadoop Pig
Task

Funcionamiento
• Envía scripts Pig
• Pig Latin + API REST de WebHCat (aka Templeton)
• Funcionamiento mediante sistema de colas

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Hadoop Pig
Task

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Tareas de flujo de datos (Control Flow)

HDFS File HDFS File


Source Destination

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

HDFS File
Source

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

HDFS File
Destination

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Otros componentes
• Azure Feature Pack for Integration Services (SSIS)
• Componentes:
• Gestores de conexiones Azure
• Tareas
• Componentes de flujo de datos (Data Flow)
• Azure Blob Enumerator
• https://www.microsoft.com/en-us/download/details.aspx?id=49492

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Gestores de conexiones Azure

Azure
Azure Storage
Subscription
Connection
Connection
Manager
Manager

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Tareas

Azure Azure
Azure Azure
HDInsight HDInsight
HDInsight Hive HDInsight Pig
Create Cluster Delete Cluster
Task Task
Task Task

Azure Blob
Azure Blob
Download
Upload Task
Task

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Componentes Data Flow

Azure Blob Azure Blob


Source Destionation

##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop

Azure Blob
Enumerator

##SQLSatMadrid
Referencias

Hadoop
• http://hadoop.apache.org/

HDInsight
• https://azure.microsoft.com/es-es/services/hdinsight/

SQL Server 2016


• http://www.microsoft.com/es-es/server-cloud/products/sql-server/default.aspx

##SQLSatMadrid
Gracias

¡GRACIAS!

@oyara
@netmindIT

##SQLSatMadrid
BIG Thanks to SQLSatMadrid Sponsors

##SQLSatMadrid
4 Sponsor Sessions at 11:40

Don’t miss them, they might be getting


distributing some awesome prizes!
 HPE
 SolidQ
 KABEL
 TSD Consulting
Also BIG Raffle prizes at the end of the
event provided by:
Plainconcepts, SolidQ, Kabel, TSD
Consulting, Pyramid Analytics & sqlpass.es

##SQLSatMadrid