Aprendizaje automático

Proceso

Antes de comenzar un proyecto de aprendizaje automático es importante realizar una evaluación del estado de situación en el que se encuentra la organización, estas son algunas de las preguntas a responder antes de comenzar.

Los algoritmos de aprendizaje automático o Machine Learning (ML) están cambiando casi todas las industrias; están aumentando la productividad, optimizando los procesos y ayudando a tomar decisiones más informadas. Muchas organizaciones ya están aprovechando el poder del ML, o lo han establecido en su hoja de ruta como una oportunidad que vale la pena aprovechar.

El problema es que el ML es complejo y es necesario preguntarse qué se necesita considerar cuando se comienza un proyecto de estas características. Antes de iniciarlo es recomendable planificarlo. Esto ayudará a minimizar los riesgos potenciales y maximizar los beneficios esperados.

Puede ser de utilidad formularse estas preguntas antes de comenzar este tipo de proyectos, debido a que considera la estrategia, la cultura, los recursos y los datos de la organización donde se desarrollará el proyecto de ML y son una guía para construir la hoja de ruta estratégica, lo que permite acercarse a su implementación.

¿Cuáles son los objetivos de la organización?

Aunque el ML se inicie como un experimento, siempre debe haber un objetivo final que realmente importe y que pueda verse impactado por el ML. El criterio de éxito de un proyecto de ML no debería ser un cierto porcentaje de exactitud, sino una métrica de negocios.

Por ejemplo,  en el caso de que se necesite asegurar un servicio y el principal objetivo sea reducir los costos, se puede recurrir por ejemplo a soluciones de ML como los chatbots, el mantenimiento predictivo y la optimización del inventario. Un objetivo específico podría ser reducir los costos de procesamiento en un 10% para el final del segundo semestre y una forma de cumplir con esto sería a través de optimizaciones derivadas de los algoritmos de ML.

¿Cuál es la manera de medir el éxito en el proyecto de ML?

Cada proyecto de ML es diferente, por lo que es necesario definir una métrica de éxito que tenga sentido para el proyecto específico y que sea medible. Una vez que esa métrica está establecida, se debe asegurar que sea aceptada tanto por la parte administrativa como por la parte técnica.

Las posibles métricas de éxito de las iniciativas de ML son las horas de trabajo empleadas, el tiempo de respuesta o el % de precisión.         

¿Cómo maneja el riesgo la organización?

Como ocurre con todas las innovaciones, existe la posibilidad de que los resultados de la iniciativa de ML no resulten como se esperaba debido a varios factores. Tal vez sea  necesaria más cantidad de datos para hacer algo significativo, o que los datos simplemente no eran lo suficientemente buenos. Por ello, la posibilidad de que una iniciativa de ML fracase, se debe tomar como riesgo y ser capaz de pasar a otra iniciativa, en caso de que se aleje de lo esperado.

¿Cómo se adquiere el talento necesario?

La experiencia en el campo del ML es difícil de adquirir en el mercado, debido a su gran demanda. La subcontratación total o parcial del proyecto, es una buena alternativa cuando no se puede conseguir el personal adecuado (o no el suficiente), especialmente cuando el tiempo es importante y es necesario implementar la solución lo antes posible.

¿Tiene la organización una clara comprensión de lo que es el ML?

Comprender los diferentes casos de uso, lo que necesitan los algoritmos de ML y cuándo no pueden ser aplicados ayuda a tomar las decisiones correctas en el proyecto. Es importante entender conceptualmente lo que el ML aporta al proyecto, por ejemplo, leyendo blogs de aprendizaje automático y estudios de casos, asistiendo a conferencias o hablando con especialistas.

¿Está garantizado el acceso a la información?

Cuando se inician las iniciativas de ML, los técnicos necesitan tener un fácil acceso a la información. Necesitarán trabajar junto con personas clave, posiblemente de diferentes departamentos o áreas. Esas personas necesitan apoyar el proyecto con conocimientos empresariales y la burocracia interna será un aspecto a considerar. Lo ideal es que el ML y la ciencia de datos sean transversales a toda la organización: "la ciencia de los datos es la nueva contabilidad".

¿La iniciativa se planificó como un proyecto a mediano plazo?

Los resultados de las iniciativas de ML llevan tiempo, esto requiere que la organización considere la iniciativa de aprendizaje automático como un proyecto a mediano plazo. En el mundo del desarrollo de software, las estimaciones de tiempo siempre han sido un desafío, que es aún más complejo en el caso del desarrollo de ML, porque el proceso en sí mismo tiene más incertidumbre. Este tipo de proyectos pueden llevar varios meses de trabajo hasta que se consigan los resultados deseados.

¿Recopila la organización datos correctos?

Los algoritmos de aprendizaje automático necesitan datos para funcionar, y solo pueden ser tan buenos como los datos que le sean suministrados. Hay diferentes métodos y fuentes para recopilar los datos correctos, dependiendo de los objetivos de la organización. De todos modos, cuantos más datos de entrada  existan, mejores serán las posibilidades de que el modelo de ML funcione bien. En caso de dudas sobre la cantidad y calidad de los datos, es recomendable consultar a los científicos para evaluar los conjuntos disponibles y encontrar la mejor manera de llegar a datos de terceros.

¿Reúne la organización los datos en el formato correcto?

Además de tener la cantidad y el tipo de datos correctos, también es importante asegurarse de que su formato sea el adecuado. 

Un ejemplo es entrenar un modelo de visión por computadora para detectar imágenes de teléfonos. Para entrenarlo, se pueden tomar miles de fotos de teléfonos inteligentes con buena resolución y fondo blanco.

Sin embargo, en la realidad, es difícil tener imágenes exclusivamente de teléfonos: es más común obtener imágenes de personas que usan sus teléfonos en distintas posiciones, condiciones de luz, contraste, fondo, etc. lo que hará inútil el esfuerzo de haber recolectado los miles de fotos porque no se ajustan a las condiciones reales.  

Puede suceder que esto no funcione porque el caso de uso real era detectar a las personas que sostenían los teléfonos con diversas iluminaciones/contrastes/fondos, y no los teléfonos en sí mismos. El esfuerzo de recopilación de datos en el pasado habrá sido inútil, y se deberá empezar de nuevo. El error estuvo en el formato en el que se seleccionaron las imágenes: en lugar de documentar casos usuales (personas usando sus teléfonos) se tomaron miles de fotos exclusivamente de teléfonos.

Otro aspecto importante a evaluar es el sesgo en los datos que se están recolectando, porque los algoritmos de ML aprenderán y reproducirán ese sesgo. 

¿Se tuvo en cuenta el etiquetado humano de los datos?

Dependiendo del proyecto, la solución de ML puede basarse en algoritmos supervisados. Estos algoritmos requieren que los datos recogidos sean etiquetados, es decir, una persona necesitará especificar cuál es el resultado esperado para cada ejemplo que se ha recogido, de modo que el algoritmo pueda aprender de estos conocimientos. Es importante asegurarse de incluir los costos de las personas que construyen tal conjunto de datos en el presupuesto del proyecto.

Por dudas o consultas sobre estas recomendaciones escribir a: tecnologiasemergentes@agesic.gub.uy

Etiquetas