domingo, 11 de diciembre de 2011

Big Data?


Big Data

Es necesario? Como utilizarlo?

Todos oímos últimamente esta palabreja sin saber exactamente que significa realmente, pero lo que mas sorprende es que nos lo vendan como algo nuevo. Google lleva utilizando el "Big data" desde que comenzaron a tocar de puerta en puerta buscando financiación, y de eso hace mas de 10 años. Otras empresas también lo utilizaban mucho antes. Así que por qué ahora?

Antes la información se borraba ya que no había espacio suficiente y el coste de almacenamiento era caro. Hoy en día cualquier usuario domestico tiene discos duros de varios Terabytes, mucho mas que algunas empresas de comienzo de siglo. A medida que se iba abaratando el coste de almacenar la información se borraba menos información. Y en cuanto detectaron que almacenando una gran cantidad de información en el tiempo era posible predecir tendencias de comportamiento se hizo cada vez mas interesante. Pero esto ya lo sabia Google.

Olvidando a Google, tenemos otros ejemplos mas recientes como Samsung que lo utiliza en su motor de recomendación de contenidos en sus nuevas televisiones inteligentes o "smart TV". Las compañias de seguros también comienza a usarlo para determinar el perfil de riesgo de los conductores y decidir el precio.

Un estudio reciente de Bain & Company muestra que las empresas que antes adoptaron el uso de análisis de Big Data se han convertido en las empresas lideres en sus respectivos sectores. Del estudio se traduce que estas empresas lideres son:


  • Tienen dos veces más probabilidades de estar en el cuartil superior en lo que a resultados financieros se refiere en sus respectivas industrias.
  • Son cinco veces mas rápidos en tomar decisiones que sus competidores
  • Tienen tres veces mas de probabilidad de ejecutar las decisiones que tenian previstas
  • El doble de probabilidades de usar los datos correctamente en la toma de decisiones.

Esta es razón suficiente para que las empresas competidoras se suban al carro del "Big Data",  o se actualizan o mueren. Y para estar dentro las empresas necesitan 4 patas para sustentar la "mesa de los resultados":

  • 1ª pata: son los datos mismos, grandes cantidades de datos (aunque no siempre sea necesario)
  • 2ª pata: herramientas de análisis avanzado como Hadoop y NoSQL 
  • 3ª pata: personal capaz de usar estas herramientas. Lo que nos lleva a la 4ª pata
  • 4ª pata: Experiencia, quizas la mas importante de las 3 ya que para obtener información precisa o de valor es necesario un equipo humano con conocimientos del negocio de la compañia, de las herramientas, de las leyes de protección, etc.
Sin embargo estos pilares no servirán de nada si la empresa no utiliza la información proporcionada o no llega a las personas adecuadas. Llevo muchos años trabajando para grandes corporaciones y si las imaginamos como un cuerpo humano podemos decir que el brazo izquierdo no sabe lo que hace el derecho y en la mayoría de los casos ni siquiera los dedos. Muchas se limitan a crear una intranet con la información pero no hay tiempo para leer o no saben donde ha sido colocada la información o es demasiada. Al final se queda en nada.

Los grandes lideres en análisis lo tienen claro, el exito del Big Data debe ser introducido de una forma profunda dentro de la organización.



La definición de "Big Data" que mas me gusta es la de la metodologia MIKE 2.0

Se define como "Big data" a los conjuntos de datos de pequeño o gran tamaño con un alto grado de complejidad y permutaciones posibles en los que el valor de la información que se puede extraer deriva de innovadoras técnicas de análisis. El termino "Big" se refiere no solo al tamaño sino a la complejidad de la información y la forma de sacar partido de ella.







Efectivamente, el "Big data" es como un iceberg de datos. Solo vemos los datos de la superficie, pero para ver el resto debemos "bucear".

El concepto Big Data está viviendo su edad de oro. Cómo gestionar y explotar las bases de datos internas, la información de los usuarios/clientes es vital para las empresas que aspiran a no quedarse atrás en la competición y según Viktor Mayer-Schönberger, profesor de regulación y gestión de internet en el Internet Institut de la Universidad de Oxford y uno de los expertos más reconocidos de datos masivos, el Big data ha sido la causa del éxito de compañías como Facebook, Gmail, Netflix o Amazon:


Google no existiría sin los datos masivos, tampoco Facebook. Amazon supuestamente ha obtenido un tercio de sus ganancias de productos que la gente compra por el sistema de recomendaciones, que no es otra cosa que Big Data.


Es Necesario?

Si, desde luego. Es más, siempre debe serlo. El conocimiento obtenido a través de los datos permitirá a las grandes empresas y en general a cualquier servicio publico o privado ofrecernos una mejora sustancial de nuestros deseos. El futuro de la televisión pasa por el "Big data". La publicidad se ofrecerá directamente en la televisión en función del perfil del usuario y quien tenga la información de ese perfil será la empresa ganadora, y de momento es Google. Por qué todavía no lo pueden hacer? Porque solo es viable en sistemas con conexión a internet, o lo que es lo mismo, cuando al entrar en la televisión lo hagamos con un perfil de usuario, igual que si fuera un navegador.



Como utilizarlo?

Ya hemos comentado los 4 pilares o patas, pero también es necesario tener una idea del resultado que pretendemos, así que eso depende de si se espera una respuesta inmediata por parte de la empresa o puede ser para hacer una oferta global. El primer caso seria por ejemplo al pedir el precio de un perfume, el sistema deberá evaluar si eres hombre o mujer, edad, ingresos, etc. Como es posible saber los ingresos? No es necesario, basta saber que has comprado otras veces, búsquedas por precio desechadas, y por supuesto, el sexo y la edad influye. Los hombres ganan más que las mujeres (lo siento pero es la estadística) y los mayores ganan mas que los jóvenes.

En cualquier caso es necesaria la acumulación de datos, cuantos mas datos mejor. Si queremos saber cuantos hombres compran frente a mujeres será necesario inferir esa información de alguna forma, ya sea con un usuario registrado y preguntando su sexo a la hora de registrarse o analizando los productos comprados, solo que en este caso se pierde calidad de la información. Un ordenador es comprado por ambos sexos y aunque podemos imaginar por el modelo a que sexo pertenece no es posible afirmarlo.

Así pues es necesario saber a priori cual es la estrategia de la empresa, aunque a partir del análisis de la información podamos encontrar nuevos nichos de mercado.


Instrumento de control o ayuda a la toma de decisiones?

Teri Morse, vicepresidenta de contratación de Xerox, y responsable de los centros de atención al cliente que la empresa tiene en EEUU y que dan trabajo a 45.000 trabajadores, cuenta como hasta 2010 seguían un proceso de selección estándar a través de entrevistas. A partir de entonces, Xerox cambió el sistema, pasando a una evaluación "on line" que añadía pruebas de personalidad, habilidad y evaluación cognitiva. Una vez realizados los test, un algoritmo se encargaba de analizar las respuestas junto con información objetiva obtenida de la solicitud del candidato, y emitía un veredicto que tenía en cuenta nuevos criterios de valoración. Con este nuevo método de contratación Xerox mejoró el ratio de abandono del trabajador.

El problema, contaba, ocurre cuando los gerentes ya no quieren realizar entrevistas y lo dejan todo en manos del sistema experto creado. 

Hay que recordar que del "Big data" se obtiene información para realizar acciones ya sea de forma manual o a través de un sistema experto creado en base a los datos aportados. 

Y este si puede ser el gran problema de los big data, los sistemas expertos que se convierten en un instrumento que cambia nuestra forma de pensar, que sustituye un sistema por otro más barato, y que no es tomado como una ayuda para la toma de decisiones sino como la herramienta que toma las decisiones. Sustituye la posibilidad empírica por la probabilidad matemática y el saber humano por algoritmos basados en datos previos.

Es fiable tomar decisiones basándonos en la simple correlación? La preocupación habitual es la que señala que serán los ordenadores los que tomen las decisiones, lo cual nos aterra. ¿Confiaríamos en el sistema de salud si en lugar de un médico nos prescribiera las medicinas una máquina? Quienes apoyan el mundo de los big data señalan que eso son miedos atávicos, ya que si se puede llegar a mejores análisis a través de los big data haríamos mal en no tomarlos en consideración.

Los sistemas expertos basados "big data" son muy útiles y lo seguirán siendo y en el futuro aún mas. Los algoritmos decidirán lo mejor para nosotros en el futuro. ¿Suena bien? Eso son los sistemas expertos basados en "big data". 

La versión actual del anillo de poder de Sauron "Un anillo para controlarlos a todos" es en su versión nueva Matrix , y esta vez ha llegado para quedarse.









jueves, 15 de enero de 2009

Cloud Computing... De verdad es cloud computing o solo cloud?


Cloud Computing realidad o mito?

Seguro que todos han oído hablar del cloud computing como la mejor innovación de los últimos años en su área. Quien no ha oído hablar, por ejemplo, de DropBox como servicio de cloud computing?

Cloud computing



Esta es la definición en la wikipedia:

La computación en la nube, concepto conocido también bajo los términos servicios en la nube, informática en la nube, nube de cómputo o nube de conceptos, del inglés cloud computing, es un paradigma que permite ofrecer servicios de computación a través de Internet.






Bueno, estrictamente hablando, solo con mencionar "servicios en la nube" ya aplicaría a todo, correo electrónico, excel online, almacenamiento de datos(DropBox), etc. 

Realmente el cloud computing comienza cuando las aplicaciones comerciales se trasladan a la Nube. El paso de los modelos de software tradicionales a Internet ha adquirido un mayor impulso en los últimos 3 años aunque ya se estaba gestando antes. Fijando la vista hacia el futuro, los proximos años Cloud Computing promete nuevas maneras de colaborar desde cualquier parte a través de nuestros dispositivos móviles. 

Sin embargo, hoy en día el cloud computing esta mas orientado a empresas que a usuarios finales. La filosofía de utilizar la nube por las empresas viene de la mano de reducir costes principalmente. Las tres principales razones por las que las empresas eligen entrar en la nube son 'reducción de costes', ‘un uso más eficiente del sistema’, y ‘la mejora del servicio que se produce’. De esta forma, vemos que, entre otras razones, las empresas acuden al uso del cloud computing por su seguridad, por extraño que pueda parecer a muchos, cosa que corrobora el hecho de que, hablando sectorialmente, sean precisamente los sectores de la Banca/Finanzas y el Sector Público los que más utilizan la nube, y la naturaleza de estos sectores les obligan a contemplar la máxima seguridad en ambos casos. 

Hasta aquí nada nuevo. Esto ha existido desde los inicios. Por qué de repente ahora germina la palabreja del 'Cloud computing' o 'La nube'? Esto es cosa de los ingenieros del marketing, que consiguen convertir una palabra en algo de moda y vendernos algo ya existente o conocido como si fuese lo mejor.  

Ya hace tiempo que Google intenta vendernos su servicio "Google docs" sin mucho éxito. Pero por qué no ha tenido éxito? Pues porque para poderlo utilizar tenemos que estar conectados continuamente y además tener una buena conexión a Internet. Otro gran problema es que depende del navegador de Internet para ejecutar las aplicaciones. Por eso sacaron Google Chrome entre otros motivos. Por supuesto, todo con una estrategia en mente, ganar dinero. Cosa que no es negativa, es lógica, pero por lo menos que no mientan diciendo que lo han hecho por nosotros.

El Cloud Computing existe practicamente desde que existe Internet porque además es una variante del "grid computing". Y el mejor exponente de por donde pensaba que irían los tiros en el futuro era el salvapantallas del proyecto Seti creado allá por 1999, mucho antes de que existiera una nube en algún sitio.
SETI@home Multi-Beam screensaver

Aquí podemos ver una imagen del salvapantallas del proyecto SETI. Que consistía en que un usuario descargara el salvapantallas de SETI y este se ejecutaría cuando el usuario no estuviese usando el ordenador. Lo que hace el salvapantallas es procesar la información de las señales que se reciben del espacio para intentar descubrir vida inteligente mas allá de nuestro sistema solar.Realmente cual es la finalidad del cloud computing?
El dinero por supuesto. Hace unos cuantos años las grandes empresas del sector empezaron a ver que sus servidores no se usaban el 100% del tiempo. Como un restaurante, solo vas al mediodía o por la noche a comer. Y que hacer en el medio? Pues estas empresas concibieron la idea de ofrecer los servicios de sus granjas de servidores en alquiler. A partir de ahí el resto ya lo conocéis todos, marketing y creación de servicios y sobre todo y fundamental... crear la necesidad en el usuario.

Hoy en día veremos que nos venden las capas del negocio del cloud computing en este orden.

  1. Software como servicio, que ofrece todas las aplicaciones que los usurios comunes pueden querer usar como puede ser hojas de excel, word, agendas, correo, etc.
  2. Plataforma como servicio, en esta capa se ofrecen aplicaciones como servicio para que otros puedan ofrecer los servicios al usuario final.
  3. Infraestructura como servicio, en esta capa se encuentran los servidores que hacen posible las otras dos capas.

Obviamente el orden es al revés, una vez que se encontraron con un montón de maquinas infrautilizadas decidieron alquilarlas directamente. Después comenzaron a ofrecer servicios de plataforma y por ultimo directamente aplicaciones. No todos han sido capaces de llegar a la primera capa, pero por lo menos han conseguido reutilizar las maquinas infrautilizadas.



En consecuencia

Nos engañan para sacarnos el dinero. Realmente no es necesario mentir pero lo hacen. El cloud computing es bueno, es interesante y nos ayuda. Pero no para todo. 

Os pongo un extracto de la wikipedia:
Richard Stallman, fundador de la Free Software Foundation, cree que la computación en nube pone en peligro las libertades de los usuarios, porque éstos dejan su privacidad y datos personales en manos de terceros. Ha afirmado que la computación en nube es "simplemente una trampa destinada a obligar a más gente a adquirir sistemas propietarios, bloqueados, que les costarán más y más conforme pase el tiempo."
Efectivamente, muchos de nosotros tenemos una licencia de Microsoft Excel, uno de los mejores programas que existen por cierto, pero si lo pasamos todo a la nube un día nos encontraremos que tenemos que pagar una cuota cada mes y de por vida a cambio de poder usarlo. Y si no la pagas en dinero la pagaras en publicidad que es la estrategia de Google. Por qué solo he mencionado a Google? Simplemente porque son los mas listos y numero uno en este ámbito pero no son los únicos. Todas las empresas intentan hacer lo mismo. Microsoft con windows Azure. Facebook, Twitter, etc. Y todas siguen los pasos de Google de una forma u otra. 

La suerte esta echada.