En la primera década del siglo XXI se han disparado ráfagas de información constantemente. Hoy en día producimos mucha información casi sin darnos cuenta: cuando ingresamos nuestros datos para crear una cuenta en internet, subimos una foto a Instagram, o mandamos nuestra localización por WhatsApp. Podría decirse que, empresas como Google, eBay, LinkedIn y Facebook fueron construidos alrededor de grandes volúmenes de datos desde el principio. Sin embargo, ¿a qué hace referencia el término Big Data?

¿Qué es el Big Data?

Un estudio realizado a 20 compañías de gran envergadura por el Instituto Internacional para el Análisis de Estados Unidos llegó a la siguiente conclusión:

El Big Data trata de la variedad, no de volumen: la encuesta indica que las empresas se centran en el variedad de datos, no en su volumen, tanto hoy como hace tres años. El objetivo más importante y la recompensa potencial de las iniciativas del big data es la capacidad de analizar diversas fuentes de datos así como los nuevos tipos de datos, no la gestión de grandes conjuntos de los mismos “.

La pregunta que nos hacemos a continuación es cómo procesamos toda esa cantidad y variedad de datos que producimos, o si lo llevamos a un ejemplo más real, cómo hace una gran compañía como el Bank of America para procesar sus 2,2 trillones de activos (2012) y sus 50 millones de clientes.

Aquí es donde entran en juego la tecnología hoy en día existente de los sistemas gestores de bases de datos (SGBD). Una alternativa para el procesamiento de toda esa información podría ser Postgre SQL. PostgreSQL es un sistema de gestión de bases de datos relacional orientado a objetos y libre.

Como muchos otros proyectos de código abierto, el desarrollo de PostgreSQL no es manejado por una empresa y/o persona, sino que es dirigido por una comunidad de desarrolladores que trabajan de forma desinteresada, altruista, libre y/o apoyada por organizaciones comerciales.

POSTGRE SQL Y BIG DATA
Imagen corporativa de Postgre SQL. El elefante es símbolo de la robustez de este sistema gestor de bases de datos.

Características de PostgreSQL

Y es que PostgreSQL, en su nueva versión 9.5 incluye varias características que aseguran que continúa teniendo un papel muy importante en las bases de datos de código abierto capaces de procesar grandes volúmenes de información. Entre ellos están:

  • Indexación BRIN: Este nuevo tipo de índice permite que las tablas que contienen datos de registro con miles de millones de filas se podrían indexar y buscar en el 5% del tiempo requerido por los índices antiguos.
  • Clasificaciones más rápidas: PostgreSQL ahora ordena texto y datos numéricos más rápido, usando un algoritmo llamado «teclas abreviadas». Esto hace que algunas consultas que necesitan para ordenar grandes cantidades pueden verse aceleradas 20 veces más rápido.
  • CUBE, ROLLUP y GROUPING SETS: Estas nuevas cláusulas SQL estándar permiten a los usuarios generar informes con múltiples niveles de resumen en una sola consulta en lugar de requerir varios. CUBO también permitirá integrar fuertemente PostgreSQL con más herramientas de informes en línea, tales como Tableau.
  • Foreign Data Wrappers (FDWs): los FDWs permiten el uso de PostgreSQL como motor de consulta para otros sistemas de grandes volúmenes de datos, tales como Hadoop y Cassandra. La versión 9.5 añade importación de esquemas externos y unirse a conexiones de consulta a bases de datos externas.
  • TABLESAMPLE: Esta cláusula SQL permite escoger una muestra estadística rápida de grandes tablas, sin necesidad de clasificación previa.

Como vemos, PostgreSQL se ha convertido en una herramienta muy eficaz para el procesamiento de grandes volúmenes de información del Big Data. Estaría bien que, si no lo ha hecho ya, el Bank of America se planteara seriamente este sistema gestor de bases de datos relaciones como alternativa para procesar su información.

Bibliografía: https://geoinnova.org/blog-territorio/postgre-sql-big-data/

Copiar URL
Categories: Postgresql
0 0 vote
Califica el artículo
Suscribir
Notificar de
0 Comentarios
Inline Feedbacks
View all comments