epespad

Los escollos de los datos de la ciencia

Los escollos de los datos de la ciencia (y cómo se pueden evitar)

Los escollos de los datos  de la ciencia

De Indrayudh Ghoshal, para The Next Web Julio 30 de 2017


Dependiendo de quién te pregunte, vas a escuchar la ciencia de datos descrita como sexy por algunos, y decididamente no por otros.

Sexy, sospecho, porque en el mundo de los geekdom-loving de hoy, imaginamos que los abrigos del laboratorio finalmente han dado vuelta a su laser-como, precisión académica a la frontera económica final, datos, y la represa que sostiene todas esas penetraciones dólar-cargadas de esos datos Está a punto de estallar.

Decididamente unsexy, porque en su mayor parte, el trabajo es laborioso, aburrido, desordenado y fácil de tropezar.

Como es de esperar, la realidad está en algún lugar entre sexy y no (pero definitivamente a la derecha del centro). Hay un montón de trabajo de gruñido que va a ser capaz de responder a las preguntas matizadas que realmente añadir valor a las empresas. El 80 por ciento del tiempo de un científico de datos va en la preparación de los datos, y sólo el 20 por ciento en realmente mirarlo.

Vamos a desglosar un enfoque típico de un problema de ciencia de datos, por lo que estamos en el mismo estadio.

Pasos para resolver un problema de ciencias de la información

Identificación de objetivos - El negocio establece objetivos o metas.

Identificar palancas - Se identifican las palancas de negocio que pueden ser modificadas o desplegadas [este paso es opcional y también puede venir más adelante]. Esto ayuda a limitar el análisis (por ejemplo, el negocio selecciona la palanca de asignación de cupón de descuento a clientes seleccionados).

Recopilación de datos - Se recopilan los datos correctos, ya sean los propios almacenes de datos existentes en el negocio, los datos de fuentes secundarias (comprados / intercambiados de un tercero externo) o los datos primarios (por ejemplo, estudios de mercado específicamente encargados).

Preparación de datos - La mayoría de los datos va a tener una cierta cantidad de incompletud o suciedad. El científico de datos hace elecciones, consistentes con el contexto empresarial, de cómo descartar los datos.

Modelado de datos y generación de información - Los algoritmos correctos, el necesario modelo matemático, todo lo que es "científico" sobre el campo, se lleva a cabo en este paso para identificar los patrones (o la falta de) en los datos. Es entonces que las ideas cristalizan.

Narración de historias - La visión se enmarca en el contexto de la historia más grande del negocio y cómo se relaciona con el objetivo, con recomendaciones de intervenciones específicas para actuar sobre la visión.

Bucle de retroalimentación de Predecir -> Intervenir -> Medir - Idealmente, el científico de datos crea una predicción de los resultados en caso de que dichas intervenciones se lleven a cabo, para que puedan ser medidos (resultado real vs predicción). La brecha medida ayuda al científico de datos a mejorar su propia comprensión y proceso.

Repetibilidad de creación: las herramientas y procesos utilizados están documentados para que puedan ser reutilizados fácilmente por otros en la organización. Esto tiene dos propósitos: (i) La reproducibilidad de los resultados aumenta la confianza en el proceso. (Ii) No tener que volver a hacer un buen trabajo reduce el costo de hacer preguntas en toda la organización.

Es un complejo conjunto de pasos, con micro-bucles esparcidos por todas partes, y mientras algunos peligros son obvios, son los lurkers, los que nadan bajo la superficie que a menudo nos atrapan. He consolidado debajo de algunas de las maneras más insidiosas que he encontrado el proceso analítico que consigue descarrilado, junto con algunas reflexiones sobre cómo prepararse para, o recuperarse de ellas.

Aquí están los escollos

Fluidos (en oposición a los concretos) Objetivos en los negocios - Cuando el objetivo de negocio es un objetivo en movimiento, el científico de datos debe esperar hasta que se establezca, o la gestión de prensa para arreglarlo en un punto. Sin embargo, es difícil saber cuándo un objetivo está a punto de moverse, así que una manera de abordar esto es trabajar en objetivos de negocio a largo plazo (menos propensos a moverse) en paralelo con los tácticos. A medida que los tácticos se vuelven más volátiles, los científicos de los datos (y de hecho, los jefes de los datos) deben asignar más de su propio tiempo a la solución de los objetivos a largo plazo del negocio hasta que la volatilidad en los objetivos tácticos se reduce. Esencialmente, este es un caso de gestión hacia arriba.

Imponer restricciones de tiempo poco realistas - Cuando los plazos de los negocios no están en línea con la mecánica no-mecánica, no predecible de la ciencia de los datos. Si el éxito de la ciencia de los datos se mide por la frecuencia de la generación de la percepción, estas ideas de golpear una mole pronto se degradarán en calidad y fiabilidad como el equipo comienza a cortar esquinas o chunk hasta una historia sólo así que hay algo más para entregar en la próxima reunión. En lugar de ello, un negocio se sirve mejor al establecer los objetivos y medir el progreso de la semana del equipo en la semana hacia esos objetivos.

Subestimar el desorden de los datos - Los científicos de datos tienen que usar el juicio para hacer frente a datos sucios o incompletos. Los supuestos que hacen, o los métodos que utilizan para tapar los datos que faltan deben ser coherentes con el contexto de la empresa. Además, cualquier suposición que se haga y los enfoques adoptados necesitan documentarse para el resto del equipo de modo que sean los mismos que se utilicen consistentemente en el tiempo (de manera que cualquier error de paralaje permanezca constante).

Costos estadísticos inadecuados - No hay duda de que las preguntas más matizadas requieren que el científico de datos tenga un fondo o experiencia con estadísticas para poder profundizar en su análisis, como precondiciones y garantías estadísticas. Uno no puede compensar lanzando más python o calcular el poder en el problema. Esto tiene que ser resuelto en la etapa de contratación, o más tarde, invirtiendo en la formación adecuada para garantizar que el científico de datos tiene las habilidades necesarias.

Misreading complexity (Leyendo incorrectamente la complejidad)(1) - Una aplicación errónea de la navaja de Occam. Los científicos de datos a veces pueden simplificar un problema en la medida en que pierde sentido. En su lugar, utilizar métodos simples para comprender la naturaleza del problema, como punto de partida. Luego, haga un progreso incremental.

Misreading complexity (Leyendo incorrectamente la complejidad) (2) - Sobre-complicar las cosas cuando la simplicidad habría bastado. Esto incluye la incorporación de datos tangenciales o métodos que agregan mucho más ruido que la señal, así como el uso de modelos estadísticos abiertamente complejos. ¿Por qué pasó esto? Ego, la falta de experiencia, los derechos de jactancia, el embellecimiento del curriculum vitae. La misma intervención que arriba. Comience simple, construya gradualmente. Se aplica a cómo se incorporan los datos, al igual que lo hace con los algoritmos.

Sesgos de datos - Los datos pueden tener sesgos implícitos basados ​​en cómo se recopila, así como dónde y por quién. Es fundamental que el científico de datos tenga una visión de extremo a extremo de qué datos se están recolectando y cómo se está recopilando. Por ejemplo, en el primer paso, muchas empresas en los EE.UU. se sorprenden al descubrir que la mayoría de sus clientes viven en Schenectady, Nueva York. Resulta que el código postal es 12345, que es un número que muchos clientes dan cuando su información se está recogiendo, y el campo de código postal está marcado como obligatorio. El científico de datos tiene que corregir estos sesgos de varias maneras, ya sea utilizando sus propios filtros o añadiendo una puntuación de importancia (weightage) a dichas columnas.

Falta de contexto - Esto se relaciona con el punto anterior. Los modelos tienen que ser combinados con el conocimiento del dominio para asegurar la lectura correcta de los datos. Esto a veces se pierde todo el camino de la contratación de los científicos de datos hasta que el científico de datos recién nombrado se encuentra siendo mostrado la puerta con 'los mejores deseos en su próximo esfuerzo'. Esto se debe a que no tenían la experiencia previa de trabajar en la industria que su negocio opera, y / o no se molestó en recogerlo durante su empleo. Uno no puede simplemente lanzar 'ciencia' (matemáticas + informática) en los datos y esperar macetas de oro. Hay un arte en él, y una gran parte del arte está combinando el contexto (incluyendo el conocimiento del dominio) con la ciencia (herramientas y técnicas).

Cuando se enfrenta a un grupo impaciente de altos directivos, que se apresuran a tomar la "acción", los matices y advertencias que el análisis estadístico introduce en la percepción pueden perderse rápidamente. Esto provoca una brecha entre la percepción y la acción tomada sobre tal penetración. Hacer algo basado en una comprensión errónea puede ser peor que no hacer nada.

Incentivo / desalineamiento de la restricción - Los encargados de tomar decisiones pueden tener otras limitaciones o incentivos que el científico de datos no consideró. Esto de nuevo puede conducir a una brecha entre la penetración y la acción final tomada. Sin embargo, el peor resultado es la desconfianza entre el equipo de datos y los responsables de la toma de decisiones. En este caso, los bucles de retroalimentación nunca se crean o se ejecutan de forma oblicua con un montón de apuntar con el dedo y no la propiedad.

Evitar estas trampas requiere un mayor nivel de auto-conciencia que muchos de nosotros. A veces perdemos el bosque por los árboles, y es útil tener un sistema de revisión por pares integrado en el proceso. También se debe construir un segundo nivel de inspección, donde los resultados de las acciones tomadas sobre la base de las recomendaciones se miden de cerca contra las predicciones hechas previamente, para medir su eficacia.

A medida que se ocupan de cuestiones cada vez más complejas de datos, espero que se preparen para el éxito por primera vez, ser conscientes de los errores potenciales que podría tomar y cuánto podrían costar, y en segundo lugar, mediante la creación de sistemas y procesos para que con cada uno Iteración, que reducir el número de errores potenciales, y por lo tanto el costo.

Al final, usted quiere que su organización pueda hacer más preguntas de sus datos, a todos los niveles, sabiendo que cada pregunta no sólo proporcionará una visión confiable, sino que el mismo acto de pedir fortalecerá el proceso analítico de la organización que mucho más.


With a little help from Google Translate for Business

0 comentarios - Los escollos de los datos de la ciencia