Hace relativamente poco tiempo leía un post en instrumentalskepticism sobre algunos de los mayores mitos que han despertado recientemente en el campo del análisis de datos. Es evidente que la temática alrededor el análisis de datos se ha convertido en un hot topic en los últimos años. Como siempre ocurre alrededor de los las corrientes que se convierten en mainstream se generan a su alrededor una serie de palabras de moda o buzzwords. Me llamó poderosamente la atención (por la elocuencia de la misma) una frase:

“Después de todo, cualquier ciencia es una ciencia de datos ¿Acaso hay alguna ciencia que no sea una ciencia de datos?”

Debido a nuestra capacidad limitada, las personas no somos capaces de entender ninguna ciencia como un todo. En su lugar, tratamos de compartimentar las ciencias en disciplinas, como la física, la química, la biología, etc. Lo mismo ocurre con la ciencia de datos, tendemos dividir y segmentar diferentes aspectos de la misma ciencia en materias: aprendizaje automático (ML), inteligencia de negocio (BI), BigData, minería de datos, etc.

En realidad, la ciencia de datos no es ni más ni menos que un conjunto de herramientas y habilidades que se apoyan en los recursos tecnológicos existentes en cada momento para solucionar problemas reales. De alguna u otra manera, los problemas reales (dinámicas de negocio, procesos de producción, experimentos científicos, etc.) siempre pueden reescribirse en términos matemáticos para finalmente dar lugar a modelos. Y los modelos son solo eso; modelos. Nadie discrepará conmigo en que el análisis de los sentimientos de las personas es un tema casi inabordable. Sin embargo, si construimos un modelo simple, que cuantifique en 0, 2 y 4 el sentimiento de mensajes de texto cortos en función de que éstos reflejen percepciones, malas, neutras y buenas, tendremos una poderosa herramienta para la supervisión, monitorización y evaluación del impacto de nuestras nuevas campañas comerciales en redes sociales.

La caja de herramientas del analista o consultor es la que contiene algunas o todas las buzzwords mencionadas anteriormente. Sin embargo, por muchas herramientas que tengamos a nuestra disposición a través de los recursos tecnológicos actuales, de nada sirven si no conocemos su la forma de usarlas ni para qué sirven.

Es precisamente en este último punto donde se encuentra el núcleo de valor en cualquier proceso de negocio que implique una gestión intensiva de los datos como herramienta fundamental en los procesos de toma de decisión.

De acuerdo con Jeffrey Strickland en su post sobre “¿Qué hacemos los consultores de analítica?” la mayoría de consultores de analítica y analistas (de datos) no se dan cuenta de que son (también) vendedores.

Por lo tanto, como analistas o consultores, nuestra principal función es la de re-interpretar la pregunta (real) de nuestro cliente en términos de métricas que podamos explotar a través de procesos de inteligencia de negocio. Si bien es cierto que, a veces, esto es más un arte que una ciencia, existen algunos “recetarios” que pueden ser útiles a la hora de enfocar un proceso de consultoría, una venta consultiva o una asistencia técnica a nuestros clientes.

Particularmente adecuada me parece la receta de Mr. Vince Roske en “Making Analysis Relevant”. La receta, pese a su sencillez, condensa perfectamente las preguntas que deberíamos de ser capaces de responder tras las sesiones iniciales de consultoría.

  • ¿Cuál es la pregunta?
  • ¿Cuál es la verdadera pregunta (en términos analíticos)?
  • ¿Qué aspecto tiene la presentación final?
  • ¿Qué información inicial conozco?
  • ¿Dónde puedo obtener la información (adicional) que necesito?

A este proceso inicial se le conoce como framing y es una de las partes más críticas en todo nuestro proyecto de data analysis. A partir de aquí, algunas de las fases más habituales en nuestro proyecto serán:

  • Hablar con los responsables de cada una de las unidades de negocio implicadas en el análisis. Debemos de procurar hablar especialmente con personas que comprendan y se manejen con lenguaje analítico y cantidades quantitativas.
  • Comprender las diferentes fuentes de datos y sus respectivos pesos sobre el problema a resolver.
  • En función de lo anterior, analizar y comprender las diferentes técnicas de analítica susceptibles de ser aplicadas en la resolución del problema.

Concluyendo, la ciencia de datos constituye un buen instrumento como apoyo en los procesos de toma de decisión en los negocios. Sin embargo, no debemos caer en la tentación de tratar de sustituir la experiencia humana y el aprendizaje natural como base del proceso. Finalmente, un sistema de inteligencia de negocio será mejor en la medida que se haya diseñado por un buen analista a partir de un conocimiento intensivo del negocio y la experiencia sectorial adecuada de los managers de la compañía.