¿Qué es el big data?

El Big Data son conjuntos enormes de diversos datos. Son gigantescos porque el volumen de datos es tan grande que un simple ordenador no podría manejarlo, y son diversos porque los datos no están estructurados, son propensos a errores y están en diferentes formatos. El Big Data se acumulan rápidamente y se utilizan para diferentes fines.

Funcionamiento de la tecnología data

Índice de contenidos

1. Funcionamiento de la tecnología data

2. ¿Cómo se gestiona el Big Data?

Las fuentes de recogida de Big Data se dividen en tres tipos:

Social
Máquina
Transaccional

Todo lo que una persona hace en línea es una fuente de Big Data social. Cada segundo, los usuarios suben 1, 000 fotos a Instagram y envían más de 3 millones de correos electrónicos. La contribución personal de cada persona por segundo es de una media de 1.7 megabytes.

Entre otros ejemplos de fuentes sociales de Big Data se encuentran las estadísticas de países y ciudades, los datos de desplazamientos, los registros de defunciones, de nacimientos, así como los historiales médicos.

El Big Data también son generados por las máquinas, los sensores y el Internet de las cosas. La información procede de los teléfonos, los altavoces, las lámparas y los sistemas domésticos inteligentes, las cámaras de vídeo de las calles y los satélites meteorológicos.

Los datos transaccionales proceden de compras, transferencias de dinero, entregas de bienes y transacciones en cajeros automáticos.

¿Cómo se gestiona el Big Data?

Las matrices de Big Data son tan grandes que el simple Excel no puede ocuparse de ellas. Por eso se utiliza un software especial para tratarlo.

Este sistema es llamado «escalable horizontalmente» porque distribuye las tareas entre varios ordenadores que procesan la información simultáneamente. Mientras más máquinas participen en el trabajo, mayor será la productividad del proceso.

Este software se basa en MapReduce, un modelo de computación paralela. Dicho modelo funciona de la siguiente manera:

En primer lugar, los datos se filtran según las condiciones establecidas por el investigador, se clasifican y se asignan a los distintos ordenadores (nodos).
Después, los nodos calculan sus bloques de datos en paralelo y transmiten el resultado del cálculo a la siguiente iteración.

El MapReduce no es un programa concreto, sino un algoritmo que puede usarse para resolver la mayoría de los problemas de procesamiento de big data.

Entre los programas de software que se basan en MapReduce:

Hadoop: se trata de un conjunto de programas de código abierto para el almacenamiento de archivos, la programación y la colaboración de datos. El sistema está diseñado para que si un nodo falla, la carga se redistribuya inmediatamente a otros nodos sin interrumpir el cálculo.

Apache Spark: es un conjunto de bibliotecas que permiten la computación en memoria y el acceso múltiple a los resultados del cálculo. Se emplea para una amplia gama de tareas, desde el simple procesamiento y filtrado de datos hasta el aprendizaje automático.

Los profesionales del big data utilizan ambas herramientas: Hadoop para construir la infraestructura de datos y Apache Spark para procesar la información en tiempo real.

Acerca de
Últimas entradas

Paola Lucena

Licenciada en Comunicación Social

Creativa, social media manager, copywriter y amante de gatitos. Donde me encanta escribir y crear conceptualizaciones para las marcas, y expresarme libremente a través de mis letras.

Últimas entradas de Paola Lucena (ver todo)

El rol del pensamiento lateral en la innovación educativa - 27 de octubre de 2024
Evaluación del desempeño laboral: métodos y mejores prácticas - 27 de octubre de 2024
Cómo diseñar un plan de negocio para una empresa turística: pasos y ejemplos - 27 de octubre de 2024

¿Qué es el big data?

Funcionamiento de la tecnología data

¿Cómo se gestiona el Big Data?

Programas Online

DEJA UNA RESPUESTA Cancelar respuesta