Sie sind auf Seite 1von 8

Las aplicaciones de big data dependen de redes subyacentes que hacen posible la transferencia de

información. Estas redes pueden ser reales (convencionales) o virtuales (servicios alojados en
centros de datos). De cualquier manera, la responsabilidad de la ejecución sin problemas de la
aplicación, a pesar del aumento del volumen de tráfico, recae en el proveedor del servicio. Los
proveedores de servicios se enfrentan a muchos desafíos con respecto a la prestación de un servicio
de alta calidad.

SDN tiene el potencial de mejorar el rendimiento de las aplicaciones de Big Data.

Las aplicaciones de Big Data están aumentando en número y alcance.

La escala de algunas de estas aplicaciones ahora excede los petabytes de información que está
disponible para Access.

Algunas de estas aplicaciones incluyen, entre otras, imágenes médicas, imágenes satelitales, datos
bancarios y datos generados por servicios gubernamentales automatizados.

Independientemente de dónde provengan los datos, lo que es importante es ver cómo se pueden
almacenar estos datos de manera eficiente, de manera que cuando se requiera se pueda poner a
disposición dentro de una cierta cantidad de tiempo.

El tiempo varía según el tipo de aplicación. Algunas aplicaciones son más críticas en tiempo
comparado con las otras.

Los datos grandes se refieren a datos que exceden los tamaños convencionales. Aunque no existe
una definición específica del término, generalmente significa que los datos no se pueden manejar
utilizando métodos convencionales de procesamiento de datos.

Teniendo en cuenta que los tiempos de recuperación deben ser aptos para aplicaciones, las
aplicaciones de big data se ocupan del almacenamiento y la recuperación de datos de una manera
optimizada para archivos grandes. Teniendo en cuenta que los tiempos de recuperación deben ser
aptos para aplicaciones, las aplicaciones de big data se ocupan del almacenamiento y la
recuperación de datos de una manera optimizada para archivos grandes.

Es pertinente señalar que, a menudo, estas aplicaciones no tratan con archivos más pequeños con
la misma eficiencia.

Hadoop es una de esas aplicaciones desarrollada inicialmente por Google Inc. para mejorar su
búsqueda

Más tarde, la aplicación, llamada mapreduce fue de código abierto y recogido por Apache [1] que
lo desarrolló como Hadoop

Hadoop is a big data management system that is soluble. It can run on a single machine and
thousands of machine depending on the requirement

Además, Hadoop permite el cálculo de datos en el servidor / servidor en los que residen los datos
en lugar de hacerlo centralmente, distribuyendo así la parte de cálculo. Esta es la flexibilidad que
hace que Hadoop sea casi el líder de la industria en almacenamiento de big data.
Esta es la flexibilidad que hace que Hadoop sea casi el líder de la industria en almacenamiento de
big data.

El controlador también puede cambiar en función de la hora del día o los requisitos de cambio de
tráfico.

Según ciertas estimaciones, 1/3 del tráfico total de Internet durante el fin de semana en los EE. UU.
Es tráfico neto de pasajeros.9

Dado que las aplicaciones de big data son aplicaciones específicas desarrolladas para administrar
archivos grandes en las mismas redes, hay una serie de problemas que pueden ocurrir durante la
transferencia.

Estos problemas están relacionados con cómo funciona TCP y cómo se transfieren archivos grandes
en sesiones TCP, sin embargo, el problema principal es que la condición de la red puede cambiar
durante la transferencia ya que el archivo es tan grande.

Cuando se solicita, las partes del archivo se recuperan de múltiples ubicaciones dentro del centro
de datos y se envían a la red pública de datos (PDN). La parte de la transferencia que ocurre dentro
del centro de datos se ve obviamente afectada por las condiciones de la red dentro del centro de
datos.

Aquí es donde SDN puede ayudar y producir mejoras en la eficiencia.

Cuando se emplea SDN en un entorno de big data, se esperan una serie de mejoras. Antes que nada,
veamos dónde encaja SDN en la imagen más grande de Big Data. Hay dos lugares potenciales para
el empleo de SDN.

1) Dentro del centro de datos: las aplicaciones de Big Data como Hadoop dependen en gran
medida de las redes de centros de datos. Estas redes forman la base de Hadoop. Los
servidores que actúan como nodos de datos transfieren gran cantidad de información a
otros servidores y servicios. Tradicionalmente, el tráfico dentro del centro de datos tiene un
volumen mayor en comparación con el tráfico entre el usuario y el centro de datos. Después
de agregar un archivo al sistema Hadoop, se somete a un proceso que implica la
descomposición de archivos grandes en trozos más pequeños. Estos fragmentos se
transportan a nodos de datos respectivos utilizando la red del centro de datos.
Una vez en el nodo de datos, los datos pasan por debajo del cálculo que se requiere para
guardar el fragmento de archivo. Dependiendo del tamaño del archivo, el transporte de
trozos puede beneficiarse del enrutamiento eficiente que ofrece el uso de SDN.
Cuando se usa dentro del centro de datos (que es el caso de uso más probable), el
controlador SDN controla el flujo de información entre nodos de datos, como se muestra
en la Fig. 1. El controlador también se puede configurar para identificar flujos más grandes
y priorizar dichos flujos para la aplicación para funcionar sin problemas. Además de la
optimización de flujo, el controlador se puede optimizar para manejar patrones de tráfico
variables. Por ejemplo, algunas aplicaciones experimentan demanda estacional mientras
que otras experimentan un perfil de demanda algo uniforme.

2. Entre centros de datos: esta es una ubicación de controlador de varios niveles que
conecta múltiples centros de datos. El beneficio es que las mismas políticas se pueden
implementar a través de regiones geográficas.
Esta situación también se representa en la figura 1. El principio u operación básica es el
mismo; sin embargo, los controladores SDN locales manejan el tráfico dentro de un centro
de datos mientras que el controlador maestro SDN controla el tráfico entre los centros de
datos. Los nodos de datos se conectan usando una topología plana o más compleja,
Es pertinente señalar que la ubicación del controlador de varios niveles no es exagerada ya
que todos los centros de datos admiten aplicaciones y máquinas virtuales en múltiples
ubicaciones geográficas sin dejar de ser parte de la misma aplicación. Tal disposición solo
puede funcionar, sin embargo, cuando ambos centros de datos están conectados mediante
enlaces directos, lo cual es típicamente el caso.
En términos generales, los cuellos de botella son creados por los protocolos existentes, así
como por el ancho de banda disponible.
Por lo tanto, la optimización se consigue mejorando los protocolos y / o técnicas existentes,
como se muestra en la Fig. 2. El rendimiento se muestra como dependiente del tamaño de
las ventanas TCP [11]. El tamaño de la ventana TCP define la rapidez con que se transporta
la información desde el origen hasta el destino
Usando los protocolos existentes, las ventanas TCP se mantienen en un valor múltiple más
pequeño y, dependiendo de la condición del enlace, se incrementa gradualmente. Si se
enfrenta un problema durante la transferencia, el widnow vuelve a reducirse

Esto es significativo porque el mapeo / reducción depende de los tiempos de procesamiento


y una ligera mejora en el rendimiento del mapa / reducción puede dar como resultado una
mejora significativa global significativa en la aplicación. Una cosa que es exclusiva de las
aplicaciones de big data es que la respuesta es menor en términos de datos. Este
comportamiento es similar al que se experimenta en el tráfico HTTP, sin embargo, la
respuesta en el caso de los grandes datos es tan grande que oscurece la importancia del
tamaño de la solicitud [13].
Por ejemplo, una solicitud de pocos kilobytes de bytes puede capturar un archivo tan grande
como pocos gigabytes. La optimización de flujo es otra técnica que se usa para codificar
flujos, lo que no solo resulta en la optimización del espacio de tabla, sino también en el
tiempo de búsqueda de flujo. Esencialmente, las reglas se colocan de forma inteligente en
función de los requisitos en lugar de las reglas generales que se instalan en todos los
enrutadores [14].
Esta técnica limita el dominio de las redes convencionales, sin embargo, se emplea un
enfoque híbrido que es beneficioso. El caching de reglas es otra técnica que se emplea para
grabar las reglas más utilizadas en el hardware. La grabación en hardware da como
resultado una mayor velocidad de ejecución de la regla [15].
Las mejoras específicas a las aplicaciones también son una posibilidad. Por ejemplo, las
aplicaciones relacionadas con multimedia también están experimentando una gran
demanda en estos días. Como tales aplicaciones necesitan transmitir multimedia, deben
estar afinadas muy específicamente para cada aplicación. Tales optimizaciones dan como
resultado mejoras de rendimiento significativas como se muestra en [16]. Multimedia,
como se mencionó anteriormente también es uno de los tipos de contenido más famoso
para el consumo de los consumidores en América del Norte y en todo el mundo.
SDN también se puede usar para controlar nodos en uno o más centros de datos, lo que
significa que puede reemplazar por completo el firmware convencional de los enrutadores
/ conmutadores.
El mayor beneficio de esto es que puede haber una serie de situaciones donde la latencia
es de suma importancia y cuando las reglas están disponibles todo el tiempo, el conmutador
no necesita comunicarse con el controlador, reduciendo así el tiempo requerido para
ejecutar la regla y transferir informacion.

Actualmente, las aplicaciones de big data como Hadoop están optimizadas solo para
archivos grandes. El soporte para archivos más pequeños junto con archivos grandes será
un avance hacia la adopción masiva de big data como un paradigma de almacenamiento
predeterminado

Las tecnologías de big data se están volviendo cada vez más populares debido a las técnicas
poco convencionales que almacenan y recuperan información. Las aplicaciones de Big Data
están optimizadas para archivos grandes y trabajar con archivos más pequeños produce
desafíos. Las aplicaciones como Hadoop utilizan las redes subyacentes para ofrecer servicios
sin problemas para los clientes. Las redes subyacentes se desarrollan principalmente para
manejar el tráfico de Internet, que es de naturaleza explosiva. Sin embargo, la aplicación Big
Data tiene una huella de tráfico diferente. Las redes convencionales pueden aprovechar las
redes definidas por software (SDN) para ofrecer una infraestructura mejor y más robusta
para aplicaciones de big data. En este trabajo presentamos diversas propuestas que se
presentan en la literatura y se discuten sus ventajas y desventajas. Este trabajo será la base
para futuras investigaciones en el dominio.
Optimal Decision Making for Big Data Processing at Edge-Cloud Environment: An
SDN Perspective
Se propone un esquema de corte de carga de trabajo eficiente para manejar aplicaciones de uso
intensivo de datos en un entorno de nube multinivel utilizando redes de software definidas (SDN).
Para manejar eficientemente las migraciones entre DC, se presenta un esquema de control basado
en SDN, que proporciona una programación de flujo de tráfico de red sensible a la energía.

Con

When big data meets software-defined networking: SDN for big


data and big data for SDN

Las buenas características de SDN pueden facilitar enormemente la adquisición, transmisión,


almacenamiento y procesamiento de big data, los macrodatos tendrán profundos impactos en el
diseño y operación de SDN. En este documento, presentamos las buenas características de SDN para
resolver varios problemas que prevalecen con las aplicaciones de big data, incluido el procesamiento
de big data en centros de datos en la nube, entrega de datos, optimización conjunta, arquitecturas
científicas de big data y problemas de programación. Mostramos que SDN puede administrar la red
de manera eficiente para mejorar el rendimiento de las aplicaciones de big data. Además,
demostramos que los macrodatos también pueden beneficiar a SDN, incluida la ingeniería de
tráfico, el diseño de capas cruzadas, la derrota de los ataques de seguridad y las redes de centros
de datos intra e inter-basados en SDN. Además, discutimos una serie de cuestiones abiertas que
deben abordarse para considerar conjuntamente big data y SDN en futuras investigaciones.

En particular, varias buenas características (por ejemplo, separación de los planos de control y datos,
control lógicamente centralizado, visión global de la red, capacidad de programar la red) pueden
facilitar en gran medida la adquisición, transmisión, almacenamiento y procesamiento de big data.
Por ejemplo, los big data generalmente se procesan en los centros de datos de la nube. En
comparación con los centros de datos tradicionales, los centros de datos basados en SDN pueden
tener un mejor rendimiento al asignar dinámicamente los recursos en los centros de datos a
diferentes aplicaciones de big data para cumplir con los acuerdos de nivel de servicio (SLA) de estas
aplicaciones de big data.
Del libro de experiencias anteriores, Microsoft y Oracle, han comenzado a desarrollar proyectos de
big data. Varias agencias federales de EE. UU., Incluida la Agencia de Proyectos de Investigación
Avanzada de Defensa (DARPA), la Fundación Nacional de Ciencia y los Institutos Nacionales de Salud,
han invertido mucho en la investigación de big data. Aún quedan por abordar muchos desafíos de
investigación para Big Data, incluidas las plataformas analíticas, el soporte subyacente de la red, los
modelos de procesamiento de datos, la organización de datos, el almacenamiento distribuido y la
privacidad y seguridad de los datos. En este artículo, nos centramos en los desafíos relacionados con
el soporte subyacente de las redes para aplicaciones de big data.

Definido por software

Comenzando con NOX (el primer controlador SDN diseñado)

En esta sección, mostramos que las buenas características de SDN pueden beneficiar a las
aplicaciones de big data en varios aspectos, incluyendo el procesamiento de big data en centros de
datos en la nube, entrega de datos, programación en tiempo de ejecución para optimizar
aplicaciones de big data, arquitecturas científicas de big data y programación en Hadoop, como se
muestra en la Fig. 1.

SDN

Los grandes datos generalmente se procesan en los centros de datos de la nube. Debido a que los
requisitos de recursos de las aplicaciones de big data cambian dinámicamente en los centros de
datos en la nube, es importante asignar y administrar los recursos de los centros de datos en la nube
de manera eficiente para cumplir con los SLA de diferentes aplicaciones de big data. El SLA de una
aplicación de big data es el acuerdo negociado entre un proveedor de servicios de Big Data y sus
usuarios. Define las características del servicio de big data proporcionado, incluidos los objetivos de
nivel de servicio, la calidad de servicio (QoS) esperada y las sanciones si el proveedor de servicios de
big data no cumple estos objetivos. Algunos SLA comunes para rendimiento de aplicaciones de big
data son tiempo de respuesta, tiempo de procesamiento, tasa de falla, confianza, seguridad, tiempo
de negociación, tiempo de mantenimiento, estimación de costos, cantidad de datos procesados,
cantidad de datos recibidos, cantidad de datos emitidos, calidad de datos de entrada y salida,
tiempo de persistencia de datos, movimiento de datos

En [4], se estudia un centro de datos en la nube basado en SDN para aplicaciones de big data.
Específicamente, se propone una red OpenFlow basada en SDN con conmutadores de entrada
combinada y en cola de cruce (CICQ) para programar paquetes para diferentes aplicaciones de big
data. En este enfoque, el controlador mantiene una tabla de aprovisionamiento de ancho de banda
para diferentes tipos de aplicaciones de big data y la envía a los interruptores CICQ. Luego los
conmutadores deciden las prioridades de programación de paquetes basadas en la tabla de
aprovisionamiento de ancho de banda del controlador. El recurso se asigna de manera eficiente y el
consumo de energía también se reduce para diferentes aplicaciones de big data en los centros de
datos en la nube. En [5], los autores presentan los centros de datos basados en SDN con una
composición de topología óptima y equilibrio de carga de tráfico. La composición de topología
óptima encuentra una topología de red de centro de datos de subconjunto que puede acomodar las
demandas de tráfico esperadas de diferentes aplicaciones de big data. Para manejar la congestión
de la red, el balanceo de la carga del tráfico distribuye las demandas cambiantes del tráfico sobre la
topología del subconjunto óptimo encontrado.

SDN

En [7], se presenta un enfoque híbrido (óptico y eléctrico) que aprovecha la óptica de capa física
para acelerar la entrega de tráfico para cada patrón. El plano de control controlado por la aplicación
es compatible con SDN, lo que permite la configuración de tiempo de ejecución flexible y dinámica
de los dispositivos fotónicos para admitir patrones de tráfico complejos. Para manejar los datos de
estallido en aplicaciones de big data, los autores de [8] presentan una arquitectura de transporte
tópico habilitada para SDN que se integra perfectamente con la implementación de SDN. En esta
arquitectura programable, un nodo central de transporte se abstrae en un conmutador virtual
programable que aprovecha el protocolo OpenFlow para el control. Con una demostración
prototipo de aplicaciones de big data, se muestra que la capacidad de programación y la flexibilidad
que trae SDN pueden beneficiar enormemente la entrega de datos para aplicaciones de big data.

Además, la transmisión de video y videoconferencia de ultra alta definición son ejemplos de


aplicaciones de big data que requieren un gran ancho de banda para una entrega eficiente de
extremo a extremo. Estas demandas agregadas de ancho de banda para la entrega a través de redes
centrales se pueden satisfacer con redes ópticas conmutadas por circuito de multiplexión por
división de longitud de onda (WDM) de alta capacidad. Los autores de [9] proponen un sistema que
integra SDN y planos de control de conmutación de etiquetas multiprotocolo generalizados (GMPLS)
y demuestran que dicha arquitectura puede admitir varias aplicaciones de big data. En este enfoque,
se puede referir a OpenFlow como el "cerebro de red" y GMPLS se usa para soportar múltiples tipos
de conmutación, como la multiplexión por división de tiempo (TDM), Lambda, banda de onda y
conmutación de fibra, Programación

Debido a los entornos cambiantes, muchas aplicaciones de big data requieren reconfiguraciones
frecuentes. La capacidad de programación de SDN en tiempo de ejecución es muy útil para
aplicaciones de big data que requieren reconfiguraciones frecuentes. Para estudiar la integración
entre las aplicaciones de big data y el control de red, los autores de [10] introducen una estructura
de capas cruzadas de una red basada en SDN para aplicaciones de big data.

Das könnte Ihnen auch gefallen