Test 1

l nuevo paradigma de big data
a) Implica un cambio de la causalidad a la correlacin.
b) Se basa en la validacin de hiptesis formuladas previamente.
c) Implica que la muestra de los datos es escogida aleatoriamente.
d) Todas son ciertas.
La b) es falsa porque las hiptesis forman parte del modelo de causalidad. De forma similar, las muestra
de los datos se utiliza en los modelos tradicionales. En Big Data se utilizan todos los datos para los
clculos.
Segn la definicin de Big Data ms extendida:
a) Aplicar una solucin basada en Big Data slo tiene sentido cuando se cumplen las condiciones
de las 3 V's: velocidad, volumen, variedad.
b) La velocidad significa que el tiempo para procesar los datos es muy pequeo.
c) La variedad significa que los datos pueden provenir de diferentes fuentes.
La a) es falsa porque aplicar una solucin BI basada en Big Data tiene sentido aunque se cumpla slo
una de las condiciones de las 3 V's. La c) tambin es falsa porque la variedad significa que los datos son
de tipo no estructurado (por ejemplo, texto sin formato). La correcta es la b).
La 4 V del Big Data
a) Significa la variedad de los datos.
b) Se utiliza para medir la exactitud del clculo.
c) Fue introducida por IBM y es ampliamente aceptada por la comunidad.
d) Ninguna es cierta.
La 4V significa la veracidad de los datos, evaluada en la exactitud del dato y del clculo. Aunque es
cierto que fue introducida por IBM, no existe unanimidad en la comunidad sobre su aceptacin.
De la relacin entre un sistema BI tradicional y un sistema basado
en Big Data, podemos decir que:
a) La solucin de Big Data se utiliza como complemento al sistema de BI tradicional; no

sustituye al sistema de BI tradicional.
b) En un sistema basado en Big Data, los datos almacenados en el data warehouse son derivados
o filtrados.
c) A diferencia de los sistemas Big Data, en un sistema de BI tradicional los datos son
almacenados en el data warehouse en su mnima granularidad.
La respuesta correcta es la d). Todas son ciertas.

En el esquema general MapReduce:
a) Los datos iniciales se encuentran divididos en mltiples documentos o ficheros que pueden ser
procesados en paralelo por la funcin Map.
b) La funcin Reduce extrae de los datos iniciales las claves que utilizar la funcin Map
posteriormente para asignarles un valor.
c) La funcin Map traduce los datos iniciales a una serie de pares clave-valor, y la funcin
Reduce combina todos los pares clave-valor de los documentos o ficheros tratados.
d) La a) y la c) son ciertas.
La b) es falsa porque la funcin Reduce se encarga de combinar las claves de mltiples documentos o
datos para crear un valor reducido (combinado) nico para cada clave. El resto son ciertas, por lo que la
correcta es la d).
En el sistema de ficheros distribuidos de Apache Hadoop:
a) Los datos se almacenan en bases de datos NoSQL.

b) Los datos se procesan de forma secuencial.
c) Por encima del sistema de ficheros, Hadoop incorpora un motor de ejecucin de trabajos
MapReduce.
d) No existe tolerancia a fallos puesto que los procesos de integridad aseguran que los datos no
se encuentran replicados.
La a) es falsa puesto que, generalmente, Hadoop utiliza el sistema de ficheros distribuido HDFS. La b) es
falsa puesto que los datos se distribuyen en diferentes nodos y pueden ser, por tanto, procesados en
paralelo. La d) es falsa puesto que existen mltiples copias de los datos en diferentes nodos, por lo que
existe tolerancia a fallos. La correcta es la c).
El sistema Apache Spark
a) Se basa en el modelo MapReduce, de forma similar a Apache Hadoop.
b) Los datos se almacenan en bases de datos relacionales.
c) Puede utilizar bases de datos NoSQL o HDFS para almacenar los datos.
d) Es un mdulo para la extraccin de conocimiento del ecosistema de Apache Hadoop.
La a) es falsa puesto que Spark no utiliza el modelo MapReduce. La b) es falsa porque los datos se
pueden almacenar en distintos sistemas de ficheros distribuidos, entre ellos HDFS, y bases de datos
NoSQL. La d) es falsa puesto que Spark es una aplicacin independiente, aunque puede utilizarse
conjuntamente con Hadoop.

Test 1

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Test 1

Hochgeladen von

Copyright:

Verfügbare Formate

l nuevo paradigma de big data

a) Implica un cambio de la causalidad a la correlacin.

b) Se basa en la validacin de hiptesis formuladas previamente.

c) Implica que la muestra de los datos es escogida aleatoriamente.

d) Todas son ciertas.

c) La variedad significa que los datos pueden provenir de diferentes fuentes.

d) Todas son ciertas.

a) Significa la variedad de los datos.

b) Se utiliza para medir la exactitud del clculo.

c) Fue introducida por IBM y es ampliamente aceptada por la comunidad.

a) La solucin de Big Data se utiliza como complemento al sistema de BI tradicional; no

d) Todas son ciertas.

La respuesta correcta es la d). Todas son ciertas.

a) Los datos se almacenan en bases de datos NoSQL.

a) Se basa en el modelo MapReduce, de forma similar a Apache Hadoop.

b) Los datos se almacenan en bases de datos relacionales.

d) Es un mdulo para la extraccin de conocimiento del ecosistema de Apache Hadoop.

Das könnte Ihnen auch gefallen