+52 222 812 6913
info@cesuma.mx

Titulación Oficial 
Calidad Europea 

InicioBig Data¿Qué es el big data?

¿Qué es el big data?

El Big Data son conjuntos enormes de diversos datos. Son gigantescos porque el volumen de datos es tan grande que un simple ordenador no podría manejarlo, y son diversos porque los datos no están estructurados, son propensos a errores y están en diferentes formatos. El Big Data se acumulan rápidamente y se utilizan para diferentes fines.

Funcionamiento de la tecnología data

Las fuentes de recogida de Big Data se dividen en tres tipos:

  1.       Social
  2.       Máquina
  3.       Transaccional

Todo lo que una persona hace en línea es una fuente de Big Data social. Cada segundo, los usuarios suben 1, 000 fotos a Instagram y envían más de 3 millones de correos electrónicos. La contribución personal de cada persona por segundo es de una media de 1.7 megabytes.

Entre otros ejemplos de fuentes sociales de Big Data se encuentran las estadísticas de países y ciudades, los datos de desplazamientos, los registros de defunciones, de nacimientos, así como los historiales médicos.

El Big Data también son generados por las máquinas, los sensores y el Internet de las cosas. La información procede de los teléfonos, los altavoces, las lámparas y los sistemas domésticos inteligentes, las cámaras de vídeo de las calles y los satélites meteorológicos.

Los datos transaccionales proceden de compras, transferencias de dinero, entregas de bienes y transacciones en cajeros automáticos.

¿Cómo se gestiona el Big Data?

Las matrices de Big Data son tan grandes que el simple Excel no puede ocuparse de ellas. Por eso se utiliza un software especial para tratarlo.

Este sistema es llamado «escalable horizontalmente» porque distribuye las tareas entre varios ordenadores que procesan la información simultáneamente. Mientras más máquinas participen en el trabajo, mayor será la productividad del proceso.

Este software se basa en MapReduce, un modelo de computación paralela. Dicho modelo funciona de la siguiente manera:

  • En primer lugar, los datos se filtran según las condiciones establecidas por el investigador, se clasifican y se asignan a los distintos ordenadores (nodos).
  • Después, los nodos calculan sus bloques de datos en paralelo y transmiten el resultado del cálculo a la siguiente iteración.

El MapReduce no es un programa concreto, sino un algoritmo que puede usarse para resolver la mayoría de los problemas de procesamiento de big data.

Entre los programas de software que se basan en MapReduce:

Hadoop: se trata de un conjunto de programas de código abierto para el almacenamiento de archivos, la programación y la colaboración de datos. El sistema está diseñado para que si un nodo falla, la carga se redistribuya inmediatamente a otros nodos sin interrumpir el cálculo.

Apache Spark: es un conjunto de bibliotecas que permiten la computación en memoria y el acceso múltiple a los resultados del cálculo. Se emplea para una amplia gama de tareas, desde el simple procesamiento y filtrado de datos hasta el aprendizaje automático.

Los profesionales del big data utilizan ambas herramientas: Hadoop para construir la infraestructura de datos y Apache Spark para procesar la información en tiempo real.

¡Comparte este artículo!

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

15 − ocho =

Este sitio está protegido por reCAPTCHA y se aplican la política de privacidad y los términos de servicio de Google.

body, p { line-height: inherit; }