¿Qué es el big data?

Como tantos otros términos que han pasado a formar parte de nuestras vidas, Big Data planea a nuestro alrededor, sin tener muchas veces muy claro el significado de esas dos palabras, más allá de su traducción literal. Y es que es sencillo imaginarse que hoy en día las bases de datos tienen que lidiar con una buena cantidad de números, cifras, referencias… etc.

De hecho, si nos paramos a pensar y analizar un poco el contexto que nos rodea diariamente, a nivel cotidiano, podemos imaginar someramente los tweets, por ejemplo, que se lanzan diariamente a la red. Y todos tienen que estar correctamente diferenciados, etiquetados en lo referente a su procedencia, la fecha de publicación, número de caracteres…

Ahora imaginémonos toda esa cantidad de información que ha de estar almacenada, de alguna forma, en algún lugar, día tras día, semana tras semana, año tras año. De repente es fácil ver que hay un volumen que se escapa a unos recursos de análisis, almacenamiento y gestión habituales, ¿verdad?

Gestionar bases de datos gigantescas

El big data nace a partir de esta necesidad: la de gestionar y analizar estas gigantescas bases de datos con el objetivo de poderlas convertir en información suficiente y necesaria para la toma de determinadas decisiones.

Lógicamente, para que este almacenamiento se produzca con eficacia es necesario el uso de determinadas infraestructuras, tecnologías y servicios, que han ido generándose influidas por la necesidad de responder a estos retos.

¿Cuándo hablamos de Big Data y no de bases de datos ordinarias? Pues sencillamente cuando el volumen de los datos o registros superan la capacidad de los softwares habituales. Y es que cuando hablamos de semejantes volúmenes, hay muchos factores a tener en cuenta. Si hablamos de volúmenes de datos, evidentemente, hay millones a clasificar. Hagamos unas sencillas cuentas:

La relación entre Bytes y Kilobytes es de 103, con respecto al Megabyte es de 106, luego vienen los Gigabytes (109), los Terabytes (1012), lo Petabytes (1015), los Exabytes (1018), y los Zettabytes (1021). Bien, pue sel volumen de información que se desprende de nuestros smartphones diariamente, es de 1 Quintillón (1.000.000.000.000.000.000.000.000.000.000) es decir 1030 de bytes. No parece poco, ¿verdad?

Igual de importante que la cantidad, es su procedencia: la variedad de datos que se registran diariamente, tiene que ver mucho con el hecho de dónde provienen. Habrá datos de interés procedentes de las redes sociales, ¿te imaginas la cantidad de información que se mueve al día sólo en facebook? ¿el número de fotografías que se sube diariamente a esta red? ¿los contenidos web de diferentes procedencias? pues todos los datos que se puedan relacionar con perfiles, costumbres, gustos edades… siempre serán susceptibles a ser de interés. Existen innumerables procedencias de diferentes índoles: datos biométricos, reconocimiento facial, huellas dactilares, adn… también datos que máquinas cruzan con máquinas para su correcto funcionamiento: RFID, datos GPS… todos almacenables cuantificables y analizables. Y es que hay que pensar que la humanidad crece de manera exponencial su volumen de información anualmente. 

Se puede establecer una tasa de crecimiento en los últimos años cercana al 75% anual, según datos de Cisco.

Pero más allá del mero volumen de datos, para los análisis del Big Data son importantes otras variables, como la velocidad, ya que de poco serviría una cantidad de datos inmensa, si su capacidad de procesamiento es muy lenta: los datos por ejemplo que se mueven diariamente en transacciones del Ibex, seguramente perderían valor si no estuvieran emitidos prácticamente a tiempo real.

La exactitud de los datos, o la falta de ella, hace jugar un papel imprescindible en todas estas bases de datos de gigantesco tamaño. Listados de clientes, o clientes prospectos, relación entre ellos y determinadas cualidades o acciones, no siempre podrán estar exactamente documentados, o bien estructurados. Según las diferentes capas de estructura o de exactitud, en función de la procedencia y de los logaritmos utilizados para el desgrane de toda esta información, se puede responder a diferentes niveles de interés.

Muchos son los esfuerzos para valorar la exactitud o veracidad de determinados datos brutos. Hay que tener en cuenta que pueden venir de muy diferentes orígenes, proporcionando muy distintas cualidades en la calidad de los datos.

Al fin y al cabo, el Big Data no es el manejo y almacenamiento de datos como finalidad en sí. De lo que se trata todo ello, es de proporcionar los datos necesarios y más exactos posibles, para convertir todo ese volumen en información. Y la necesidad de tener de forma veraz y actualizada esa información permite tener una visión necesaria y en ocasiones suficiente para tomar decisiones. A esto se podría reducir la funcionalidad del Big Data: tener a mano la “fotografía” de los datos que necesitamos, para a través de ella, poder llegar a la conclusión de cuál sería el paso estratégicamente más adecuado para los intereses de una corporación, empresa, iniciativa… etc.

Las bases de datos en sí son caracteres desprovistos de inteligencia. Por ello, son todos los servicios desplegados alrededor los que dan sentido a tan desmesurado volumen de información. Tener la capacidad de organizar con eficacia (y en un tiempo proporcionado) volúmenes de datos cuya procedencia, variedad, veracidad pueden ser tan dispares, y poder establecer el valor resultante de los mismos, manejados mediante logaritmos que discriminen y desentrañen su sentido no es tarea nada fácil.

Deja tu comentario