UNIVERSIDAD ESAN FACULTAD DE INGENIERÍA INGENIERÍA DE TECNOLOGÍAS DE LA INFORMACIÓN Y SISTEMAS “Desarrollo de un modelo predictivo con técnicas de Machine Learning para la detección temprana de anulación de pedidos en una empresa de distribución y comercialización” Trabajo de Suficiencia Profesional presentado en satisfacción parcial de los requerimientos para obtener el título profesional de Ingeniero(a) en Tecnologías de la Información y Sistemas AUTORES Rivera Tuesta, Shirley Paola Vargas Saldaña, Jhossy Jhossep Vilcacure Camasca, Eder Royer ASESOR Calderón Niquín, Marks ORCID Nº 0000-0002-5440-3978 Octubre, 2024 2 3 RESUMEN En una empresa peruana dedicada a la distribución y comercialización de productos de primera necesidad, especialista en el rubro de consumo masivo, se identificó la anulación de pedidos como la principal causa de las pérdidas económicas reportadas durante el segundo semestre del 2023. La investigación detalla el desarrollo de un modelo predictivo basado en técnicas de Machine Learning para anticipar las anulaciones de pedidos. A través de la metodología CRISP-DM, se recopiló información de las órdenes de entrega de dicho periodo, se entrenaron y evaluaron siete algoritmos. CatBoost obtuvo el mejor desempeño, con una precisión del 85.4%, un accuracy de 88.5%, y un AUC de 84%. Posteriormente, el modelo fue desplegado en un entorno controlado a través de un prototipo web, para simular su uso real. Se concluye que la implementación del modelo podría ayudar a la empresa a actuar proactivamente a posibles cancelaciones y fortalecer su toma de decisiones en base al modelo obtenido. Entre las recomendaciones se destacan la necesidad de supervisión continua del modelo, su integración en procesos automáticos, y la posibilidad de ampliar su aplicación a otras áreas operativas de la empresa. Palabras Clave: Machine learning, algoritmo CatBoost, anulación de pedidos, cadena de suministros, distribución. 4 ABSTRACT In a Peruvian company specializing in the distribution and commercialization of essential goods within the mass consumption sector, order cancellations were identified as the primary cause of economic losses reported during the second half of 2023. This research presents the development of a predictive model based on Machine Learning techniques to anticipate order cancellations. Following the CRISP-DM methodology, delivery order data from this period was collected, and seven algorithms were trained and evaluated. CatBoost demonstrated the highest performance, achieving 85.4% precision, 88.5% accuracy, and an AUC of 84%. Then, the model was deployed in a controlled environment through a web prototype to simulate real-world application. Findings suggest that implementing this model could enable the company to proactively address potential cancellations and strengthen decision-making processes based on the optimal model obtained. Key recommendations emphasize the need for continuous model monitoring, integration into automated processes, and the potential to extend its application to other operational areas of the company. Keywords: Machine learning, CatBoost algorithm, order cancellation, supply chain, distribution. 5 ÍNDICE DE CONTENIDOS Capítulo I: Planteamiento del Problema .................................................................................... 7 1.1 Descripción de la Realidad Problemática ........................................................................ 7 1.3 Justificación de la Investigación .................................................................................... 12 1.4 Delimitación de la Investigación ................................................................................... 12 1.4.1 Delimitación Espacial: ............................................................................................ 12 1.4.2 Delimitación Temporal: .......................................................................................... 13 Capítulo II: Marco Teórico ...................................................................................................... 14 2.1 Antecedentes de la Investigación ................................................................................... 14 2.2 Bases Teóricas ................................................................................................................ 24 2.3 Marco Conceptual .......................................................................................................... 42 Capítulo III: Entorno Empresarial ........................................................................................... 44 3.1 Descripción de la empresa ............................................................................................. 44 3.1.1 Reseña histórica y actividad económica ................................................................. 44 3.1.2 Descripción de la organización ............................................................................... 45 3.1.3 Datos generales estratégicos de la empresa ............................................................ 50 3.2 Modelo de negocio actual (CANVAS)........................................................................... 56 3.3 Mapa de procesos actual ................................................................................................ 59 Capítulo IV: Metodología De La Investigación ....................................................................... 62 4.1 Diseño de la Investigación ............................................................................................. 62 4.1.1 Diseño ..................................................................................................................... 62 4.1.2 Tipo ......................................................................................................................... 62 4.1.3 Enfoque ................................................................................................................... 62 4.1.4 Unidad de Análisis .................................................................................................. 63 4.1.5 Muestra ................................................................................................................... 63 4.2 Metodología de implementación de la solución ............................................................ 63 4.3 Metodología para la medición de resultados de la implementación .............................. 69 4.4 Cronograma de actividades y presupuesto ..................................................................... 72 4.4.1 Cronograma de Actividades .................................................................................... 72 4.4.2 Presupuesto ............................................................................................................. 72 Capítulo V: Desarrollo de la Solución ..................................................................................... 74 5.1.1 Planeamiento y descripción de Actividades ............................................................ 74 5.1.2 Desarrollo de actividades. Aplicación de herramientas de solución. (Presentación de cálculos, gráficos. Reportes u otros) ........................................................................... 77 6 5.2 Medición de la solución ............................................................................................... 104 5.2.1 Análisis de Indicadores cuantitativo y/o cualitativo ............................................. 104 5.2.2 Simulación de solución. Aplicación de Software ................................................. 117 6.1 Conclusiones ................................................................................................................ 119 6.2 Recomendaciones ........................................................................................................ 120 Referencia Bibliográficas....................................................................................................... 122 Anexos ................................................................................................................................... 128 7 Capítulo I: Planteamiento del Problema 1.1 Descripción de la Realidad Problemática El comercio y la distribución son sectores muy importantes para la economía global ya que han ido transformándose o cambiando gracias a los avances de la tecnología como el aprendizaje automático, inteligencia artificial y la automatización de procesos. Esto ha permitido mejorar significativamente la eficiencia de la cadena de suministros, la capacidad para manejar grandes cantidades de pedidos y reducir costos (Stackpole, 2020) y que los productos logren llegar desde los mismos almacenes de los fabricantes hasta los clientes finales. A nivel global, existen problemas con respecto a la anulación de pedidos. Esto se ha intensificado debido a diversos factores como: productos no disponibles en stock, gestión ineficiente de los inventarios, problemas logísticos y los cambios repentinos de los consumidores (McKinsey, 2024). En el Perú, este sector de distribución y comercialización desempeña un papel crucial en el desarrollo económico. De acuerdo con un estudio de “EY Supply Chain Overview 2021” se estima que el 34% de las empresas de distribución y comercialización tiene un nivel de madurez alto de gestión de la cadena de suministros. Mientras que el 66% se clasificó como una empresa en desarrollo con respecto a la gestión de la cadena de suministros. Así como la gestión de inventario y adopción de la tecnología (La cámara, 2021). Esta empresa peruana, que se usará para este estudio, destacada en el sector de comercialización y distribución ya que posee un extenso portafolio de productos, así como una amplia base de clientes. La empresa tiene como principal meta ampliar su red de clientes y alcanzar diferentes puntos de venta en el país y en sus provincias. De la misma forma, busca reducir costos al mejorar la eficiencia en el reparto de sus productos. La empresa está posicionada en la distribución en la zona Sur, Este y Norte del país, lo que hace que pueda llegar a puntos alejados y de difícil acceso de alguna otra empresa de la competencia. La empresa tiene una trayectoria de 70 años posicionada en la comercialización de diferentes productos, asimismo, tiene diferentes desafíos que dañan su reputación y afectan la rentabilidad que generan a lo largo de los años. Cuantificando las perdidas, se ha registrado que ha obtenido poco más de 2,8 millones de soles semestrales en la anulación de los pedidos. Por otro lado, se ha registrado el problema de la inseguridad, 8 ya que hay perdidas que suman los 30,000 soles anuales por robo a los transportistas. Adicionalmente, existe otro problema como la alta rotación de transportistas, el cual se ve reflejado con una rotación de 10% anual. Por último, existe una demora en la toma de pedidos de los vendedores hacia los clientes, lo que tiene como resultado que los tiempos de entrega sean mayores, lo que afecta directamente la satisfacción de los clientes. Mientras que los robos parciales de la mercadería se producen en promedio cada 2 meses lo que representa S/30,000 en un semestre. Figura 1: Ventas Totales – Julio a diciembre de 2023 Fuente: Elaboración propia Aunque los montos correspondientes a ambos tipos de robos, expresados en términos monetarios, son elevados, su impacto porcentual no resulta significativo. Los robos de la totalidad de la mercancía en el segundo semestre de 2023 representan el 0.24% de las ventas totales, mientras que los robos parciales corresponden al 0.1% de las mismas. El total de ventas de la empresa comercializadora y distribuidora en el segundo semestre de 2023 ascendió a S/ 29,844,271.21. Como se observa en la gráfica, se realizaron ventas por S/ 26,990,084.32, que fueron efectivamente entregadas a los clientes (tiendas y domicilios). No obstante, se registra un monto considerable de ventas anuladas, equivalente a S/ 2,854,186.89. 9 Figura 2: Ventas Totales – Semestre 2 - 2023 Fuente: Elaboración propia Por otro lado, estas ventas que sí logran ser entregadas equivalen a un 90.4% de las ventas totales y las ventas que no logran ser entregadas ascienden a un 9.6% de las ventas totales. Se ha utilizado un gráfico de Pareto que permite una priorización visual clara de los problemas identificados. Esta herramienta permite orientar los esfuerzos hacia la problemática más relevante, basada en los datos obtenidos mediante modelos de aprendizaje automático. Dichos modelos han permitido mejorar la capacidad predictiva para identificar de forma anticipada las anulaciones de pedidos. El análisis del gráfico de Pareto evidencia que el principal inconveniente está asociado a las anulaciones, atribuibles a once causas específicas. Figura 3: Distribución de pérdidas 2023.2 por categoría 10 Fuente: Elaboración propia La alta tasa de anulación de pedidos representa un problema grave en la empresa a largo plazo, ya que genera altas pérdidas en el área financiera y no fidelización de los clientes. Como resultado la reputación de la empresa se ve afectada, lo cual impacta negativamente en la rentabilidad. Los motivos que llevan a anulaciones o cancelaciones de pedidos se clasifican a continuación. • Cliente no desea 1 ítem del pedido: Sucede cuando el cliente ha cambiado de opinión sobre un producto en específico. Este pedido cuenta con deferentes ítems, del cual solo puede pedir el descuento de máximo de 1 ítem para que se le pueda hacer este descuento a su boleta total. • Pedido incompleto: Algún producto que se solicitó no llega a despacharse o a salir en la boleta, o cual puede deberse a falta de stock a olvidos del transportista en el almacén. Lo cual repercute en que el cliente rechace la totalidad de su boleta y como consecuencia principal se anule el pedido. • Precio no acordado: Esto suele suceder por la mala información que les brindan los vendedores a los clientes. • Cliente no cuenta con efectivo: El cliente no cuenta con el efectivo exacto para hacer el pago de su pedido y no cuenta con otro medio de pago, como yape, plin, tarjetas o pago con POS. • Cliente pide descuento por monto alto: El cliente realiza su pedido con un monto alto, pero desea que se le haga un descuento o alguna promoción que no se 11 le esté aplicando en la boleta, esta solicitud pasa a una evaluación y en diferentes ocasiones no se llega a ningún consenso por lo que se termina anulando el pedido. • Titular de pago ausente: Sucede cuando la persona autorizada para realizar el pago no se encuentra presente. • Dirección errada: Esto sucede cuando el transportista no encuentra la dirección del cliente o la información que se ha brindado al momento de generar el pedido es errónea. • Error de pedido: Esto suele pasar cuando el cliente ha realizado su pedido de una forma incorrecta, o ha generado un doble pedido por error. • Local cerrado: Pasa cuando los clientes no se encuentran en el establecimiento al momento que el transportista ha llegado a la ubicación exacta en donde indica la boleta. Lo cual denota la falta de comunicación con los clientes y los vendedores, los cuales deberían tener mapeadas las entregas durante el día para que estas sean exitosas. • Cliente no desea el pedido: Hubo un error al momento de la toma o digitalización del pedido o en su defecto que el cliente haya cambiado su opinión u opción de compra. • Cliente no solicitó el pedido: Esto suele ocurrir cuando alguien ajeno al cliente cuenta con sus datos, realiza pedidos con su nombre y D.N.I. Lo cual genera que el pedido sea realizado de forma exitosa pero que al momento de la entrega el cliente lo rechace en su totalidad. De esta forma, se establece la realidad problemática que aborda esta investigación. 1.2. Objetivos de la Investigación 1.2.1. Objetivo General OG1. Desarrollar un modelo predictivo utilizando técnicas avanzadas de Machine Learning que permita identificar de manera anticipada las anulaciones de pedidos. 1.2.2. Objetivo Específicos OE1. Utilizar la metodología CRISP-DM para guiar el desarrollo de modelos de aprendizaje automático. OE2. Identificar y recopilar una base de datos representativa y de calidad del registro de pedidos de la empresa en estudio. OE3. Utilizar técnicas de preprocesamiento a la base de datos recopilada. 12 OE4. Utilizar métricas para medir la eficiencia de los modelos de Machine Learning desarrollados para la predicción de anulaciones de pedidos. 1.3 Justificación de la Investigación 1.3.1 Justificación teórica El objetivo de esta investigación es contribuir al conocimiento actual mediante el uso de técnicas de aprendizaje automático como herramienta para la predicción del estado de las entregas de productos en una empresa de distribución. 1.3.2. Justificación metodológica El desarrollo de modelos mediante la aplicación de técnicas de aprendizaje automático sobre los datos recopilados durante el segundo semestre de 2023, con el fin de predecir el estado de una orden de entrega en una empresa distribuidora, se presenta como una propuesta para reducir la cantidad de entregas y ventas anuladas. El desarrollo de un modelo de aprendizaje automático constituye el eje principal de esta investigación. Siguiendo la hoja de ruta establecida por la metodología CRISP- DM, se llevarán a cabo diversas actividades, desde la recolección de datos hasta la selección del modelo más adecuado. 1.3.3. Justificación práctica Se dispondrá de un modelo de aprendizaje automático capaz de predecir el estado de una orden de entrega a partir de variables y características propias del proceso de distribución de productos de la empresa. El modelo ofrecerá una herramienta eficaz para predecir, gestionar y anticipar las posibles cancelaciones de entregas. Esto facilitará la planificación y ejecución de planes de acciones para minimizar costos y evitar inconvenientes derivados. La implementación del modelo en el entorno productivo les permitirá acercarse a cumplir su principal objetivo de disminuir las ventas anuladas provocadas por diversos motivos anteriormente descritos. 1.4 Delimitación de la Investigación 1.4.1 Delimitación Espacial: Esta investigación se desarrollará en una empresa situada en el distrito de La Victoria, en Lima, dedicada a la distribución de productos. Los datos a utilizar serán extraídos de las órdenes de entrega, tanto completadas como canceladas, correspondientes a los distritos de Lima Metropolitana. 13 1.4.2 Delimitación Temporal: La investigación en una empresa distribuidora se realizó con órdenes de entrega llevadas a cabo entre julio y diciembre de 2023. 1.4.3 Delimitación Conceptual: Esta investigación se enfocará en la creación de un modelo de aprendizaje automático mediante la metodología CRISP-DM para la predicción del estado de las órdenes de entrega de una empresa distribuidora. Para esto, se tomará en cuenta los datos resultantes de las órdenes de entrega, ajustando el proceso de minería de datos para comprender el contexto del negocio y alinearlo con los objetivos empresariales. 14 Capítulo II: Marco Teórico 2.1 Antecedentes de la Investigación 2.1.1 Tabla de resumen de artículos y tesis La investigación se desarrolló bajo los hallazgos de los siguientes artículos. Tabla 1 - Resumen de Artículos Resumen de artículos Relación Título Autores (Año) Aporte Problema Análisis de modelos basados en Machine Learning para la predicción de la demanda de productos en la empresa Dyna & Cía. S.A. Alejandro Correa Loaiza Propone utilizar el uso de técnicas de Machine Learning y modelos para desarrollar un modelo con una alta precisión en la demanda de productos en Dyna & Cía. S.A. Order Cancellation Behavior in Online Retailing: An Empirical Investigation Marta Viu-Roig & Eduard J. Alvarez-Palau Propone que la cancelación de pedidos disminuiría a partir de un cambio en la política de la forma de compra a través de aplicativos móviles Propuesta Application of Machine Learning Algorithms for Order Delivery Delay Prediction in Supply Chain Disruption Management Arun Thomas & Vinay V. Panicker (2023) Desarrolla un modelo predictivo basado en aprendizaje automático para anticipar retrasos en la entrega de pedidos. Proporciona una herramienta práctica para que las empresas mejoren su eficiencia operativa frente a disrupciones. 15 Solving the Problem of Class Imbalance in the Prediction of Hotel Cancelations: A Hybridized Machine Learning Approach Mohd A., Mohd F., Ahmad A., Jei W & Ripon C. (2021) Se utiliza la técnica Smote Enn para predecir las cancelaciones de reservas en la industria hotelera, teniendo como resultado la disminución de esta problemática. Instrument o CatBoost for big data: an interdisciplinary review John H & Taghi K. (2020) CatBoost es eficiente en Big Data. El articulo revisa las ventajas heterogéneas y la relevancia de estos mismos. Comparison of the CatBoost Classifier with other Machine Learning Methods Ibrahim A., Ridwan R., Muhammed M., Abdulaziz R & Saheed G. (2020) Se destaca que CatBoost supera a otros algoritmos predictivos para diferentes áreas. Escenario Warehouse management model integrating BPM- Lean Warehousing to increase order fulfillment in SME distribution companies Ambrosio, K., Lazo de la Vega, J. Quiroz, E. & Cabrera, G. (2022) Se identifican las causas raíz de problemas logísticos en operadores peruanos. Impacto positivo de la optimización logística en la gestión de entregas. Predicting Consumer Behaviour in Digital Market: A Machine Learning Approach Adebola, O. & Bukola, O. Se propone una estructura de minería orientada a predecir el comportamiento de clientes, con el objetivo de extraer sus tendencias. Fuente: Elaboración propia. Además, la investigación se desarrolló bajo los hallazgos de las siguientes tesis. 16 Tabla 2 - Resumen de Tesis Resumen de tesis Relación Título Autores (Año) Aporte Problema Use of Machine Learning in Supply Chain Management - Case Study with DataRobot Huovila, E. (2021) Aporta con la mejora de la eficiencia de Supply Chain Management mediante el uso de Machine Learning. Propuesta de mejora para reducir el tiempo de entrega de despacho de una empresa comercial aplicando Lean Manufacturing Ccasihue, Y. & Pareja, R. (2019) Retrasos en la entrega de repuestos y servicios y cancelación de pedidos debido a errores de programación y la falta de inventarios, lo que afecta la satisfacción del cliente. Propuesta Prediction of Cancellation Probability of Online Car-Hailing Orders Based on Multi- source Heterogeneous Data Fusion Sun, H., Lv, Z., Li, J., Xu, Z., Sheng, Z. & Ma, Z. (2022) Solución mediante predicción de cancelaciones de taxi en línea mediante técnicas de aprendizaje profundo. Afectando negativamente en la eficiencia de la aplicación de taxi. Optimización de la gestión de la cadena de suministro de una empresa distribuidora utilizando técnicas de aprendizaje automático Reinoso, S. (2023) Uso de metodología CRISP- DM y aprendizaje automático para mejorar la previsión de demanda. Se usaron los algoritmos de Regresión Lineal Múltiple, Vectores de Soporte de Regresión (SVR), Árboles de decisión y Redes Neuronales. Siendo SVR el mejor modelo. 17 Impacto positivo en la administración de la logística. Desarrollo de algoritmo de recomendación de SKU para los clientes de Alicorp que cuentan con un canal de atención digital usando técnicas de machine learning Espinoza, M., Limachi, A., Melo, N., Rodriguez, J. & Valencia, S. (2024) Se propuso el desarrollo de un algoritmo de recomendación SKU en Alicorp. Uso de metodología en un Trabajo de Suficiencia Profesional. Mediante el procesamiento de datos, el algoritmo logró recomendar productos en base al perfil del cliente. El mejor algoritmo fue LGBM Ranker con un recall o sensibilidad del 89.5%. Fuente: Elaboración propia. 2.1.2. Resumen de artículos Análisis de modelos basados en Machine Learning para la predicción de la demanda de productos en la empresa Dyna & Cía. S.A. Alejandro, C. (2023). Análisis de modelos basados en Machine Learning para la predicción de la demanda de productos en la empresa Dyna & Cía. S.A. Trabajo de grado especialización, Especialización en Analítica y Ciencia de Datos, Universidad de Antioquia, Medellín, Antioquia, Colombia, 2023. Su enfoque es usar técnicas de aprendizaje automático para predecir la demanda de Dyna y Cía S.A. Se concluyó que al aplicar el modelo la precisión aumenta significativamente y los resultados son mejores por un 8% más de precisión al del modelo anterior con un 82%. El uso de la herramienta Machine Learning aumenta la capacidad de predecir la demanda lo que da paso a la reducción de errores. Machine learning permite realizar predicciones flexibles y precisas adaptándose a los cambios constantes del mercado. Para el caso, se está usando como un modelo para predecir la eficiencia de los recursos y para que se pueda adaptar a nuevos datos de la organización. 18 Este estudio resalta diferentes técnicas como el modelo ARIMA, regresión logística, redes neuronales y random forest. Con la finalidad de mejorar la precisión y hacer que los pronósticos sean más eficientes y de esta forma se facilita elección de alternativas respecto la administración de la demanda. En esta investigación, Random Forest y redes neuronales han demostrado ser los modelos más robustos llegando ambos a un 90% de precisión. Order Cancellation Behavior in Online Retailing: An Empirical Investigation. Huseyn, A., Paolo, L & Gilvan C. (2023). Order Cancellation Behavior in Online Retailing: An Empirical Investigation. Haslam College of Business, The University of Tennessee, Knoxville. SSRN Electronic Journal. El artículo menciona que unos de los principales problemas de los repartos se dan por la ineficiencia en la coordinación, la desinformación y la deficiencia del cumplimiento de los recursos. Se menciona que es importante entender el comportamiento de las cancelaciones para poder implementar estrategias efectivas que gestionen la cancelación de pedidos sin incrementar la tasa de devoluciones. Se realizó un estudio para analizar el método econométrico y causa-experimental, se analizaron los productos y el proceso para determinar el motivo de las cancelaciones. Los resultados mostraron que los pedidos con más probabilidades de cancelación son los realizados desde las computadoras personales que los pedidos realizados desde dispositivos móviles, el cual reduce y se demuestra que las cancelaciones por error de pedido se disminuyen en un 15%. Además, se analizó que cuando existe una opción de entrega más lenta, aumenta la tasa de cancelaciones en un 12%. Este estudio planteo un cambio en la política de la cancelación de pedidos. Por ende, se implementó un área de atención al cliente especializado para las cancelaciones en línea. Este cambio hizo que las cancelaciones de pedidos se hicieran con un procedimiento más extenso, lo cual disminuyó el proceso de cancelación en la tasa de devolución de productos (15%). En conclusión, las políticas que implementen las empresas pueden tener un mayor o menor impacto en la gestión de los pedidos. Application of Machine Learning Algorithms for Order Delivery Delay Prediction in Supply Chain Management 19 Thomas, A. & Panicker, V. (2023). Application of Machine Learning Algorithms for Order Delivery Delay Prediction in Supply Chain Management. En Deepak, M., Bahubalendruni, M., Parhi, D. & Biswal, B. Intelligent manufacturing systems in Industry 4.0. IPDMIS 2022. Lecture notes in mechanical engineering. Springer. La investigación trata el problema de los retrasos en la entrega de pedidos causados por interrupciones en la logística, un desafío cada vez más frecuente en el entorno empresarial actual. Los eventos disruptivos, como desastres naturales y conflictos regionales, están afectando con mayor frecuencia las cadenas de suministro, causando demoras en las entregas y, en consecuencia, impactando la eficiencia operativa de las empresas. Ante este escenario, el trabajo se propone desarrollar un marco predictivo basado en algoritmos de aprendizaje automático (ML) para prever posibles retrasos en las entregas a tiempo para mitigar estos efectos. La metodología se basa en el uso de un conjunto de datos logísticos de una empresa de transporte, el cual presenta un problema de clases desbalanceadas, dado que solo el 3% de los pedidos sufren retrasos. Para abordar este desbalance, se empleó la técnica de sobre muestreo SMOTE. Los autores comparan varios algoritmos de ML, entre ellos Regresión Logística, K-Nearest Neighbors y Random Forest, utilizando como métrica principal el área bajo la curva, debido a la naturaleza desbalanceada del conjunto de datos. Los resultados del estudio subrayan la eficacia del modelo de aprendizaje automático desarrollado para predecir con precisión retrasos en la entrega de pedidos. El modelo basado en Random Forest se mostró superior al alcanzar un área bajo la curva de 0.98, lo que indica que es una métrica de rendimiento con una alta capacidad para diferenciar entre pedidos que sufrirían retrasos y aquellos que no. Además, el uso de validación cruzada estratificada de cinco pliegues ayudó a minimizar el sobreajuste. Entre sus aportes, se subraya el valor de las herramientas predictivas para anticipar los retrasos en la entrega de pedidos, brindando a las empresas la oportunidad de actuar de manera proactiva ante posibles interrupciones. Solving the Problem of Class Imbalance in the Prediction of Hotel Cancelations: A Hybridized Machine Learning Approach Adil, M.; Ansari, M.F.; Alahmadi, A.; Wu, J.-Z.; Chakrabortty, R.K. (2021) Solving the Problem of Class Imbalance in the Prediction of Hotel Cancelations: A Hybridized Machine Learning Approach. Processes 2021, 9, 1713. 20 Es muy representativa la cancelación de pedidos en el sector hotelero, ahí la importancia de determinar las razones principales de anulación en las reservas y poder predecirlas con mayor exactitud, como consecuencia se obtendrá el mejor rendimiento en la gestión de los ingresos. Estudios antes realizados muestran máquina de soporte vectorial, redes neuronales y arboles de decisión. Se busca identificar los marcos correctos a los datos, aplicar estrategia de estimación del precio correcto asignado a los clientes. Este método se le conoce como “ofrecer la habitación adecuada, al cliente adecuado”. Esto tiene diferentes aplicaciones como la cobranza de las reservas con antelación. Estas cancelaciones tienen mayor impacto en los hoteles que en los clientes ya que ellos tienen el derecho y la posibilidad de cancelar, esto puede ser perjudicial para los ingresos por cada habitación que se pudo haber vendido con un 100% de éxito. La cancelación de reservas puede deberse al mal tiempo o razones más comunes como buscar las mejores ofertas que el mercado pueda ofrecer. La cancelación puede representar hasta un 20% de la totalidad de reservas, incluso se ha determinado según un estudio que este porcentaje puede incrementar hasta en un 60% refiriéndonos a hoteles ubicados cerca a los aeropuertos. Se han implementado políticas de cancelación lo cual repercute en el daño de los ingresos para el hotel como en la imagen social del hotel, ya que aumenta el descontento en los hoteles. Se realizó un sobre muestreo combinando el método SMOTE. Se tuvo como resultado que Random Forest obtuvo una precisión del 92% y un AUC del 95%. Siendo este el mejor modelo de esta investigación. CatBoost for big data: an interdisciplinary review John, T. & Taghi, K. (2020) CatBoost for big data: an interdisciplinary review. Florida Atlantic University, 777 Glades Road, Boca Raton, FL, USA. En este artículo se resaltan los Árboles de Decisión Aumentados por Gradiente (GBDT), esta técnica ha sido utilizada en estudios de aprendizaje automático desde el inicio de su lanzamiento, en 2018. Se revisan estudios sobre CatBoost. En el contexto de Big Data. Esta herramienta resulta efectiva con datos heterogéneos y categóricos, a su vez, es sensible a los hiper parámetros, lo que resalta la importancia de su correcto ajuste en la aplicación. Esta revisión hace un énfasis a la comprensión de las aplicaciones de CatBoost en la resolución de problemas. 21 Se aplica un sistema usando regresión o clasificación para investigar diversos fenómenos. El poner en marcha la investigación permite clasificar y etiquetar conjuntos. A su vez se destaca a CatBoost como una herramienta eficiente de aprendizaje supervisado. Se denota evidencia de que los algoritmos GBDT superan otros modelos de aprendizaje. Sin embargo, tiene la característica de no ser lo suficientemente efectivas como las redes neuronales. Este estudio está en auge lo que sugiere que se debe elegir métodos automáticos. Se comparó el rendimiento de algoritmos de GBDT respecto al área y precisión de la curva de ROC. Lo cual indica que los algoritmos GBDT (CatBoost) no son la mejor opción para datos homogéneos. Como conclusión, el modelo GBDT y AdaBoost junto con Random Forest demostraron ser uno de los modelos más robustos en este escenario, dando como resultado 93.6% y 92.9% de accuracy, respectivamente. Comparison of the CatBoost Classifier with other Machine Learning Methods Ibrahim, A., Ridwan, R., Muhammed, M., Abdulaziz, R & Saheed, G. (2020) Comparison of the CatBoost Classifier with other Machine Learning Methods International Journal of Advanced Computer Science and Applications (IJACSA), (Vol. 11, No. 11). Las diferentes áreas requieren de técnicas y aprendizaje automático, lo cual incluye la predicción respecto a prestamos o promociones. El articulo usa diferentes algoritmos de machine learning, como CatBoost. Gracias a la acumulación de gran cantidad de datos ayuda a la evaluación de solvencia, mejorando la clasificación en que se realizan los préstamos. Desde que surgió el aprendizaje automático, se hicieron diversas investigaciones para diferenciar a los solicitantes. Existen estudios que comparan algoritmos como Radom Forest, el cual mostro un 71.75 % de precisión. CatBoost destacó en las predicciones automáticas. El artículo busca comparar ocho métodos de aprendizaje automático en la predicción de las aprobaciones relacionado con los préstamos, el cual destaca la eficiencia de los diferentes modelos en estudio. 22 Factores como edad, educación, experiencia y genero pueden influir en temas de promociones. Investigaciones han usado algoritmos de aprendizaje automático, revelando las posiciones y los años de trabajo que afecta a las promociones. Los resultados obtenidos en este experimento demostraron que: XGBoost tuvo un F1-Score = 92%, AUC = 82% y precisión = 93% reflejando así un balance entre sensibilidad y precisión y un modelo robusto. CatBoost también es un modelo robusto por tener un F1-Score = 95%, AUC = 82% y precisón = 91%. Sin embargo, su F1-Score demuestra mayor capacidad para identificar clases positivas. Random Forest tuvo un F1-Score = 94%, AUC = 71% y precisión = 70% Gradient Boost tuvo un F1-Score = 95%, AUC = 82% y precisión = 90% En conclusión, CatBoost y XGBoost han demostrado ser los algoritmos más robustos para este estudio. XGBoost tiene la mejor precisión = 93%, pero para futuros estudios e implementaciones se recomienda usar ambos modelos. Warehouse management model integrating BPM-Lean Warehousing to inrease order fulfillment in SME distributuion companies Ambrosio, K., Lazo de la Vega, M., Quiroz, J. & Cabrera, E. (2022, octubre) Warehouse management model integrating BPM-Lean Warehousing to increase order fulfillment in SME distribution comapanies. En 2022 8th International Engineering, Sciences and Technology Conference (IESTEC) (pp. 17-24). IEEE. La investigación aborda un problema significativo relacionado con la ineficiencia en la gestión del flujo de información y materiales en una empresa del sector de distribución de materiales de construcción. El proceso metodológico incluye la utilización de indicadores de rendimiento, como la precisión del registro de inventarios y la efectividad en la entrega de pedidos. Se implementan herramientas como el análisis ABC y la metodología 5S para mejorar la organización y gestión del espacio en el almacén. Además, se introduce un sistema de gestión de inventarios mediante plantillas KARDEX, complementado por la estandarización de procesos operativos a través de la observación y el flujo de trabajo documentado. Se identificaron varias causas raíz de los problemas observados, los cuales se clasificaron mediante un análisis de Pareto. Los resultados mostraron que un 65.12% de los inconvenientes se atribuían a un flujo de información ineficiente, mientras que el 23 34.88% se relacionaba con una gestión inadecuada del almacén. Estas deficiencias en la información y en la administración del inventario contribuían a un rendimiento subóptimo en la operación logística de la empresa. Los resultados destacaron la efectividad del enfoque metodológico aplicado y su capacidad para transformar la operación logística, optimizando la precisión y eficiencia en la gestión del inventario, la sostenibilidad económica y competitividad de la organización en el mercado. Los aportes de la investigación se evidencian en la mejora de indicadores clave, como la precisión de registro de inventarios y en la reducción del tiempo de ciclo en los procesos logísticos y administrativos. La implementación del modelo propuesto resulta en un incremento de la productividad y un descenso de errores en el manejo de inventarios, contribuyendo a un flujo de trabajo más eficiente. La precisión con respecto al índice de pedidos completos aumentó en un 82%, la precisión de registro de inventario aumentó en un 86%, la precisión de registro de ubicaciones en un 92% y una productividad del 94%. El artículo destaca que uno de los mayores problemas logísticos es la falta de un flujo eficiente de información entre el área administrativa y el almacén. La falta de información adecuada y en tiempo real dificulta la planificación logística, provocando retrasos en la preparación y el despacho de los pedidos. Otro problema relevante es la gestión ineficiente del almacén, en cuanto a la organización del espacio y el control de inventarios. Esto provoca tiempos de ciclos más largo, aumentos en los costos operativos y retrasos en la entrega de productos. La falta de precisión en los registros inventarios y la falta de estandarización de los procesos conducen a variaciones en la calidad de las operaciones, a una menor productividad y a un incremento en los errores en el despacho de productos. Predicting Consumer Behaviour in Digital Market: A Machine Learning Approach Adebola, O. & Bukola, O. (2019). Predicting Consumer Behaviour in Digital Market: A Machine Learning Approach. International Journal of Innovative Research in Science, Engineering and Technology. (Vol. 8, Issue 8). 24 Este articulo busca la creación de un modelo para predecir el comportamiento de clientes que visitan diferentes tiendas en línea. Se reconoce que predecir y a la vez resulta complicado la predicción de modelos. El objetivo del articulo centra su tema en extraer tendencias del comportamiento del cliente. La tecnología digital está asociada al marketing digital ya que el uso del internet está ligado a la promoción de servicios y productos. Esto ha impulsado a diferentes empresas a adaptar sus estrategias para hacerlas parte de la vida cotidiana del cliente. Existen diferentes técnicas para descubrir los patrones y las tendencias, en artículo: la predicción del comportamiento del cliente para realizar la anulación de sus pedidos con Machine Learning. Se recopilan grandes cantidades de datos desde 2007 al 2019 de los clientes para poder segmentarlos y ayudar a crear estrategias más efectivas. La aplicación de Big Data tiene un gran impacto en la estrategia de venta ya que genera un análisis más profundo y minucioso respecto a las anulaciones. En el estudio se usaron métodos de agregación y un modelo de minería de datos por regla de asociación para predecir eventos de forma comprensible en el sector empresarial. Por otro lado, en esta investigación no se especifican otros modelos de machine learning como Random Forest o XGBoost ya que la técnica de minería de reglas de asociación se aprovecha más para encontrar patrones en data sets transaccionales. El comportamiento de la variable busca la predicción de la forma de actual de los clientes. Se llegó a obtener una precisión cercana al 100% durante el estudio con umbral de soporte mínimo de 0.1 y un umbral de confianza de 0.2 para conseguir el rendimiento óptimo del estudio. 2.2 Bases Teóricas 2.2.1 Machine Learning Acorde a lo indicado por Alpaydin (2020), es una subdisciplina de la inteligencia artificial enfocada en desarrollar algoritmos, los cuales puedan analizar los datos que se le brinden, aprender de ellos y con esto mejorar su capacidad de predicción o clasificación, optimizando su desempeño. Estos modelos pueden identificar patrones complejos en los datos. 25 Según Skali Lami (2022), los modelos de Machine Learning hacen posible que las empresas mejoren su eficiencia operativa, reduzcan costos y aumenten la satisfacción del cliente mediante la automatización de decisiones y la personalización de servicios. También, Shahid (2020) destaca su capacidad de predecir eventos adversos en las actividades del negocio, como cancelaciones de pedidos o retrasos en las entregas, lo cual permite a las empresas ser proactivas y ajustar sus operaciones en tiempo real. 2.2.1.1 Clasificación de Machine Learning De acuerdo con Shahid (2020), Machine Learning se divide principalmente en tres tipos: • Aprendizaje supervisado: El modelo adquiere conocimiento a partir de datos previamente clasificados en el cual se le proporciona tanto las entradas como las salidas. Un algoritmo comúnmente utilizado en los aprendizajes supervisados es la regresión logística, cuya aplicación más conocida se ha dado en casos de predicción de demanda. • Aprendizaje no supervisado: El modelo no cuenta con las variables de salida etiquetadas y debe identificar patrones inherentes en los datos; Skali Lami (2022) destaca que esta técnica es útil para la segmentación de clientes. • Aprendizaje por refuerzo: Alpaydin (2020) expone que en este enfoque el modelo aprende mediante la interacción con un entorno y de esta forma mejora su rendimiento al hacer uso de la retroalimentación de sus acciones. Este tipo de aprendizaje es cada vez más importante en la robótica logística. 2.2.1.3 Modelos utilizados en Machine Learning 2.2.1.3.1 Regresión Logística Según Hosmer & Lemeshow (1989), es un modelo estadístico utilizado principalmente para resolver problemas de clasificación binaria. El modelo se basa en la función logística o sigmoidal, que transforma una combinación lineal de las características del modelo en una probabilidad entre 0 y 1. A menudo se utiliza en situaciones donde el objetivo es determinar la probabilidad de éxito o fracaso, sí o no, dado un conjunto de variables explicativas. Este modelo es altamente interpretativo y puede manejar interacciones entre las variables predictoras y su impacto en la probabilidad de un resultado determinado (Hosmer & Lemeshow, 1989). 26 Uno de sus principales hiperparámetros es C, que regula la regularización aplicada al modelo. Un valor bajo de C impone una regularización más fuerte, lo que ayuda a prevenir el sobreajuste, mientras que un valor alto permite al modelo ajustarse más a los datos. Además, las técnicas de regularización L1 (Lasso) y L2 (Ridge) son comunes para manejar la complejidad del modelo. L1 tiende a producir modelos esparsos al reducir algunos coeficientes a cero, mientras que L2 minimiza la magnitud de todos los coeficientes sin eliminarlos, lo que favorece una solución más equilibrada (Hastie, Tibshirani y Friedman, 2009). 2.2.1.3.2 Random Forest Es un conjunto de métodos de aprendizaje automático que fusiona varios árboles de decisión independientes con el objetivo de incrementar la precisión y disminuir el riesgo de sobreajuste (Breimann, 2001). Para Breimman (2001), una de sus mayores fortalezas radica en su habilidad para determinar la relevancia de las variables, lo que permite obtener una comprensión profunda y significativa de los datos analizados. Los hiperparámetros más importantes incluyen el número de estimadores, que representa el número de árboles en el bosque; la profundidad máxima, que controla cuán profundo puede ser cada árbol; y el mínimo de muestras por nodo y mínimo de muestras por hoja, que determinan cuándo detener las divisiones en el árbol. Al igual que en los árboles de decisión, el criterio de división puede ser Gini o Entropy, y afecta cómo se seleccionan las mejores divisiones en cada nodo (Breiman, 2001). 2.2.1.3.3 Árbol de Decisión Los árboles de decisión son algoritmos utilizados para tareas de clasificación y regresión que dividen el espacio de características en subconjuntos homogéneos (Quinlan, 1993). Según Quinlan (1993) en un árbol de decisión, cada nodo lleva a cabo una evaluación de una característica, y cada bifurcación que sale del nodo refleja el posible resultado de esa evaluación. Este procedimiento continúa de manera iterativa hasta llegar a un nodo terminal, donde se obtiene una predicción final. Los árboles de decisiones son fáciles de interpretar y visualizar, lo que los convierte en una herramienta útil. Sin embargo, son propensos al sobreajuste, aunque 27 técnicas como la poda y la selección de las características pueden mitigar este problema (Quinlan, 1993). Su hiperparámetro clave es la profundidad máxima, que controla el número de divisiones que el árbol puede hacer antes de detenerse. Un árbol muy profundo puede modelar perfectamente los datos de entrenamiento, mientras que un árbol superficial puede no capturar toda la complejidad del problema. El mínimo de muestras por nodo y el mínimo de muestras por hoja son parámetros que controlan cuándo se permite la división de un nodo, reduciendo el riesgo de crear ramas muy pequeñas que no generalizan bien (Breiman et al., 1984). Finalmente, el criterio de división (como Gini o Entropy) mide la calidad de una partición en cada nodo, determinando cómo se dividen los datos (Breiman, 2001). 2.2.1.3.4 Naive Bayes Según McCallum & Nigam (1998), Naive Bayes es un método de clasificación que utiliza principios probabilísticos fundamentados en el teorema de Bayes para hacer predicciones. Se llama “naive” o ingenuo en su traducción al español, porque asume que todas las características son independientes entre sí, lo cual rara vez es cierto en los conjuntos de datos en el mundo real. El algoritmo es simple de implementar, rápido y eficiente, especialmente en grandes volúmenes de datos. Uno de sus principales ventajes es que requiere pocos datos para entrenar y tiene un desempeño robusto en soluciones con datos dispersos (McCallum & Nigam, 1998). Aunque no tiene hiperparámetros ajustables como otros modelos, es apreciado por su simplicidad y rapidez en la clasificación, especialmente en grandes conjuntos de datos. A pesar de la fuerte suposición de independencia entre características, Naive Bayes ha mostrado un buen desempeño en problemas de clasificación de texto y otras áreas (Murphy, 2012). 2.2.1.3.5 K-Nearest Neighbors (KNN) KNN o K-Nearest Neighbors, K-Vecinos más cercanos en su traducción al español, es un algoritmo no paramétrico de clasificación y regresión que se basa en la proximidad de los datos en el espacio de las características (Cover & Hart, 1967). 28 Según Cover & Hart (1967), aunque es fácil de entender e implementar, KNN puede ser computacionalmente costoso cuando se trabaja con grandes conjuntos de datos. Su hiperparámetro más importante es el número de vecinos (k), que define cuántos puntos cercanos se consideran para hacer una predicción. Un valor pequeño de k puede hacer que el modelo sea sensible al ruido, mientras que un valor grande puede hacer que el modelo pierda detalles importantes. Los pesos determinan si todos los vecinos tienen la misma influencia o si los más cercanos influyen más en la predicción. Las métricas de distancia como Euclidean, Manhattan o Minkowski son opciones que definen cómo se mide la proximidad entre los puntos (Altman, 1992). 2.2.1.3.6 CatBoost Según Prokhorenkva, L. et al. (2018), CatBoost es un algoritmo de boosting basado en árboles que ha sido optimizado para trabajar de manera eficiencia con características categóricas, una tarea que a menudo es un desafío de muchos otros algoritmos. Este modelo combina el enfoque de boosting, es decir, mejoras sucesivas de modelos débiles, con técnicas avanzadas de manejo de datos categóricos, lo que permite mejores resultados en comparación con otros algoritmos de boosting tradicionales (Prokhorenkva, L. et al., 2018). Otra característica destaca es su capacidad para evitar el sobreajuste, gracias a su enfoque de optimización en el espacio de características y el uso de técnicas de regularización. CatBoost es altamente valorado en el análisis predictivo debido a su velocidad y precisión (Prokhorenkva, L. et al., 2018). Los hiperparámetros más relevantes en CatBoost incluyen el número de iteraciones, que define cuántos árboles se construirán, y la tasa de aprendizaje, que regula la cantidad de corrección que hace cada árbol sobre el modelo previo. La regularización L2_leaf_reg ayuda a evitar el sobreajuste aplicando una penalización en las hojas de los árboles (Prokhorenkova et al., 2018). 2.2.1.3.7 XGBoost El XGBoost (Extreme Gradient Boosting) es un algoritmo basado en boosting, que ha sido ampliamente utilizado debido a su eficiencia y rendimiento en tareas de clasificación y regresión. Fue desarrollado por Chen y Guestrin (2016) y es una versión 29 optimizada del algoritmo tradicional de gradient boosting. El objetivo principal del boosting es mejorar el rendimiento combinando varios modelos débiles (habitualmente árboles de decisión) en un ensamblaje para formar un modelo más robusto y preciso. Lo que distingue a XGBoost de otros métodos es su capacidad para gestionar grandes volúmenes de datos y su alto rendimiento computacional en entornos distribuidos (Chen y Guestrin, 2016). En el proceso de boosting, cada nuevo árbol trata de corregir los errores cometidos por los árboles anteriores, lo que permite que el modelo aprenda de manera secuencial. XGBoost mejora este enfoque aplicando técnicas de regularización que reducen el sobreajuste, lo cual es crucial en escenarios donde los datos contienen ruido. Las penalizaciones L1 y L2 que se implementan en XGBoost permiten controlar la complejidad del modelo, mejorando su capacidad generalizadora (Chen y Guestrin, 2016). Los hiperparámetros clave incluyen el número de estimadores, la tasa de aprendizaje, y la profundidad máxima de los árboles. La tasa de aprendizaje controla cuán rápido se ajusta el modelo a los errores, mientras que la profundidad máxima limita la complejidad de cada árbol, ayudando a evitar el sobreajuste. Otros hiperparámetros importantes incluyen gamma, que penaliza la creación de nuevos nodos, y submuestreo, que reduce la varianza al entrenar cada árbol con una fracción de los datos (Chen y Guestrin, 2016). 2.2.1.4 Indicadores para la medición de resultados en Machine Learning 2.2.1.4.1 Exactitud (Accuracy): Según Raschka y Mirjalli (2019), la exactitud es la métrica que mide la proporción de predicciones correctas que realiza un modelo, tomando en cuenta tanto las verdaderas positivas como las verdaderas negativas, en relación con el total de predicciones realizadas. Este indicador representa una evaluación global del desempeño del modelo al medir su capacidad para clasificar correctamente tanto las instancias positivas como negativas. Para Powers (2011), la Exactitud es calculada según la siguiente fórmula. 𝐸𝑥𝑎𝑐𝑡𝑖𝑡𝑢𝑑 = 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 30 Donde: • TP (True Positives o Verdaderos Positivos): Casos positivos correctamente identificados como positivos. • TN (True Negatives o Verdaderos Negativos): Casos negativos correctamente identificados como negativos. • FP (False Positives o Falsos Positivos): Casos negativos incorrectamente clasificados como positivos. • FN (False Negatives o Falsos Negativos): Casos positivos incorrectamente clasificados como negativos. No obstante, para Raschka y Mirjalli (2019), los autores advierten que esta métrica puede no ser siempre la más adecuada cuando se trabaja con datos desbalanceados, ya que un alto valor de exactitud podría estar ocultando un bajo rendimiento en la identificación de la clase minoritaria. En este tipo de escenarios, el uso de la exactitud puede ofrecer una percepción incorrecta de la calidad del modelo, y es necesario complementarla con otras métricas más específicas que ofrezcan una visión más detallada del rendimiento. 2.2.1.4.2 Precisión (Precision): La precisión se refiere a la relación entre los verdaderos positivos y el total de predicciones positivas realizadas por el modelo. En otras palabras, mide cuántas de las predicciones positivas fueron acertadas (Gerón, 2019). Según Powers (2011), la Precisión es calculada con la siguiente fórmula. 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃  +  𝐹𝑃 La precisión es importante cuando se busca reducir la cantidad de falsos positivos, es decir, aquellas situaciones en las que el modelo clasifica erróneamente una instancia como positiva (Gerón, 2019). Para Gerón (2019), este indicador es importante cuando cada predicción positiva sea confiable, lo que implica que el modelo debe ser altamente selectivo al realizar predicciones positivas. Sostiene que la precisión se complementa con el indicador de exhaustividad, ya que un alto valor de precisión no garantiza un buen desempeño global si el modelo falla en detectar muchos de los casos positivos reales. 31 2.2.1.4.3 Exhaustividad o Sensibilidad (Recall) Gerón (2019) define la exhaustividad o sensibilidad como una métrica que evalúa la habilidad del modelo para detectar correctamente los casos positivos. Evalúa cuántos de los eventos positivos reales fueron identificados por el modelo. Según Powers (2011), la Sensibilidad es calculada con la siguiente fórmula. 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = 𝑇𝑃 𝑇𝑃  +  𝐹𝑁 Para Gerón (2019), este indicador es útil en situaciones en las que no detectar un caso positivo tiene consecuencias significativas. A menudo, se utiliza en conjunto con la precisión, ya que existe una relación inversa entre ambas métricas: al aumentar una, la otra puede disminuir. 2.2.1.4.4 Especificidad (Specificity) Según Raschka y Mirjalili (2019), es la métrica que evalúa la habilidad de un modelo para correctamente identificar los casos negativos. Mide cuántas veces el modelo clasifica correctamente las instancias que no pertenecen a la clase positiva. Según Powers (2011), la Especificidad es calculada con la siguiente fórmula. 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 = 𝑇𝑁 𝑇𝑁  +  𝐹𝑃 La especificidad es particularmente importante cuando es esencial evitar la clasificación incorrecta de instancias negativas como positivas. Este indicador es complementario a la exhaustividad, especialmente en situaciones donde falsos positivos como negativos tienen un impacto significativo (Raschka y Mirjalili, 2019). Raschka y Mirjalili (2019) destacan que la especificidad es fundamental en escenarios en los que se busca un equilibrio entre la sensibilidad y la especificidad, siendo común el uso de métricas compuestas como la curva ROC para tomar decisiones más informadas sobre el rendimiento del modelo. 2.2.1.4.5 Curva ROC (Receiver Operating Characteristic) Según Gerón (2019), es una representación gráfica. En el eje Y se presenta la tasa de verdaderos positivos (sensibilidad), y en el eje X se grafica la tasa de falsos positivos (1 - especificidad), lo que permite evaluar el equilibrio entre ambos. 32 El objetivo principal de la curva ROC es mostrar el balance entre la sensibilidad y la especificidad del modelo a medida que se modifica el umbral de decisión utilizado para clasificar una instancia como positiva o negativa (Gerón, 2019). Goodgellow, Bengio y Courville (2016) destacan que la curva ROC es especialmente útil en problemas donde las clases están desbalanceadas, ya que la métrica utilizada (tasa de falsos positivos versus tasa de verdaderos positivos) es independiente de la distribución de la clase. En este sentido, permite evaluar el rendimiento del modelo de manera más adecuada en contextos donde la clase positiva es mucho más pequeña que la clase negativa, ya que, a diferencia de otras métricas como la exactitud, la curva ROC no se ve directamente afectada por esta desproporción. 2.2.1.4.6. AUC (Area Under the Curve) El AUC, o área bajo la curva en su traducción al español, es una métrica derivada de la curva ROC que cuantifica el rendimiento general de un modelo de clasificación binaria a través de diferentes umbrales de decisión. Según Gerón (2019), el AUC representa el área total bajo la curva ROC y tiene un rango de valores entre 0 y 1. Según Bradley (1997), la Especificidad es calculada con la siguiente fórmula. 𝐴𝑈𝐶 =  ∫ 𝑇𝑃𝑅(𝐹𝑃𝑅)𝑑𝐹𝑃𝑅 1   0 Donde: • TPR (True Positive Rate / Tasa de Verdaderos Positivos): Proporción de positivos correctamente identificados (Sensibilidad). • FPR (False Positive Rate / Tasa de Falsos Positivos): Proporción de negativos incorrectamente identificados como positivos. Un AUC de 1 refleja un modelo ideal que distingue de manera completa entre las clases positivas y negativas, mientras que un AUC de 0.5 indica que el modelo carece de habilidad para diferenciar entre ellas y realiza predicciones al azar. 2.2.2 Logística La logística se refiere al conjunto de acciones encargadas de coordinar y gestionar de forma efectiva el movimiento de productos, servicios e información, desde el punto de 33 origen hasta su destino final, con el propósito de cumplir las expectativas del cliente de manera eficiente (Tiwari, 2020). Según lo señalado por Tiwari (2020), la logística es un componente esencial y su adecuada ejecución es vital para sostener la competitividad. Dado que la gestión logística influye en aspectos cruciales como los costos operativos y la experiencia del cliente, es un proceso que cualquier organización, enfocada en mejorar sus operaciones, debe priorizar. 2.2.2.1 Componentes Clave de la Logística La logística involucra varios componentes clave que determinan su eficacia: • Gestión del transporte: Según un estudio del Instituto Tecnológico de Massachusetts (MIT), el transporte representa uno de los costos principales dentro de la logística; por lo cual, elegir las mejores rutas y formas de transporte debe ser prioridad si se tiene como objetivo reducir considerablemente los gastos operativos. • Gestión de inventarios: En logística, según lo estudiado por Tiwari (2020), una adecuada gestión de inventarios no solo posibilita que los productos estén disponibles cuando se necesitan, sino que también, al evitar la falta de stock y/o el exceso de productos, hace posible que se optimicen los costos y se mejore la eficiencia operativa. • Almacenamiento y distribución: En base a lo estudiado por Llord Broks(2023), una adecuada gestión de los almacenes resulta clave para las operaciones de un negocio ya que permitirá reducir los costos asociados claves para asegurar que los productos lleguen al cliente final en el menor tiempo posible y con los menores costos asociados. 2.2.2.2 Cadena de Suministro Hace referencia a la red completa de entidades, desde proveedores hasta clientes finales. Con relación a esto, Llord Brooks (2023), explica que la logística es un componente importante de esta red ya que, al facilitar la planificación, organización, diseño y control, mejora la transparencia y coordinación entre todas las partes involucradas. 34 Según Tiwari (2020), adoptar prácticas eficientes de gestión logística tendrá un impacto considerable en asegurar que los productos sean entregados puntualmente, sin incrementar los costos. Esto permitirá fortalecer la posición competitiva de una empresa dentro de su industria. 2.2.2.3 Tendencias Actuales en Logística Acorde a lo presentado por Brooks (2023), se está experimentando un incremento en el uso de herramientas como Machine Learning y análisis de datos, lo cual es causado por un nuevo concepto llamado “logística predictiva”. Estas las tecnologías indicadas anteriormente hacen posible predecir posibles interrupciones, optimizar rutas de transporte y gestionar inventarios de manera más eficiente, las cadenas de suministro que integran sistemas predictivos consiguen no solo adaptarse, sino que incluso pueden tomar acciones preventivas ante eventos inesperados como desastres naturales (Brooks, 2023). Además, la creciente tendencia de automatizar los procesos logísticos mediante del uso de robots y vehículos autónomos está cambiando la forma en que las empresas gestionan el almacenamiento y el transporte, lo que no solo contribuye a la eficiencia operativa sino también a la reducción de costos operativos. 2.2.3 Machine Learning en las empresas El uso de Machine Learning en el ámbito empresarial ha transformado completamente la forma en que estas manejan grandes volúmenes de datos, permitiendo optimizar sus procesos y tomar decisiones basadas en predicciones más precisas. Según un estudio del Instituto Tecnológico de Massachussets en 2019, la implementación de tecnologías de Machine Learning por parte de las empresas ha causado que se optimice la eficiencia operativa, se reduzcan costos y proporcionen experiencias personalizadas a los clientes. No obstante, aún existen muchas organizaciones que enfrentan desafíos a la hora de integrar completamente estas tecnologías en sus operaciones, creando una brecha entre la expectativa y la realidad del uso de estas nuevas tecnologías. 2.2.3.1 Ventajas del Machine Learning en las empresas 35 Las ventajas de Machine Learning en las empresas se extienden a diversas áreas, desde la optimización de la cadena de suministro hasta la mejora del servicio al cliente. Según Siddique (2019), compañías líderes como General Electric y Kaiser Permanente han logrado exitosamente mejorar la eficiencia de sus operaciones haciendo uso de Machine Learning, utilizando algoritmos para monitorear flujos de trabajo y optimizar recursos. Estas empresas son solo algunos ejemplos de los múltiples beneficios que tiene la implementación de Machine Learning en las empresas: • Automatización de Procesos: Según un estudio publicado por el Instituto Tecnológico de Massachussets en 2019, uno de los principales beneficios del Machine Learning es la automatización de tareas repetitivas y de alta demanda, como la gestión de inventarios, la planificación de recursos y la optimización de rutas logísticas; logrando un incremento considerable en la eficiencia operativa • Accionables basados en Datos: Una de las principales bondades del Machine Learning es que permite tomar decisiones basadas en el análisis predictivo de datos; logrando con esto una mejora en aspectos como la precisión de la demanda del mercado, la personalización de productos y la gestión de riesgos. En base a lo explicado por Siddique (2019), las empresas que hicieron uso de Machine Learning, mejoraron significativamente su capacidad para tomar mejores decisiones. • Reducción de Costos: Siendo casi un beneficio colateral ya que al automatizar procesos y optimizar recursos, las empresas logran reducir considerablemente sus costos operativos. Siendo un ejemplo de esto la empresa Amgen, la cual haciendo uso de deep learning consiguió aumentar la detección de defectos en el proceso de fabricación, lo que no solo disminuyó los costos de producción, sino que también redujo la necesidad de inspecciones manuales. • Mejora de la Experiencia del Cliente: Mediante el análisis de grandes volúmenes de datos sobre el comportamiento del cliente, las empresas pueden personalizar la experiencia de este, logrando no solo incrementar la satisfacción del cliente sino también retenerlo. Industrias como el comercio electrónico se han visto ampliamente beneficiadas de esto ya que las recomendaciones personalizadas impulsadas por Machine Learning fueron un factor clave de sus estrategias para captar y retener clientes. 2.2.3.2 Ventajas de Machine Learning en Logística 36 La integración de Machine Learning en la logística ha resultado sumamente beneficiosa ya que ha permitido una transformación significativa en la optimización de los recursos. Acorde a la investigación realizada por Shahid (2020), el uso de modelos de Machine Learning, como Random Forest y Gradient Boosting, permite predecir retrasos en la entrega de envíos aéreos, con una precisión superior al 75%; con lo cual concluye que estas técnicas ayudan a identificar los envíos que presentan riesgo de sufrir demoras y con esta información las empresas pueden tomar acciones preventivas para que así sus operaciones no se vean afectadas. Predicción de retrasos y cancelaciones Un estudio de Purdue University, realizado en 2020, expuso que modelos predictivos como Random Forest y Gradient Boosting entrenados con datos históricos sobre tiempos de entrega, condiciones del tráfico y el clima, entre otros factores, pueden ser utilizados para predecir, con alta precisión, los envíos que presentan mayor posibilidad de sufrir un retraso en la entrega. Con esta información, las empresas pueden mejorar su planificación para minimizar las pérdidas financieras asociadas con retrasos o cancelaciones. Por otro lado, Turkmen y Tseng (2024) resaltan que la capacidad de predecir si un pedido será cancelado es de importancia para un negocio, ya que le permitirá evitar pérdidas financieras significativas. Explica que los modelos de Machine Learning entrenados para analizar patrones de comportamiento de los clientes, son capaces de identificar patrones o características que pueden predecir si el cliente cancelará o no el pedido; con lo cual las empresas pueden afinar la planificación de su inventario, optimizar la gestión de recursos y desarrollar planes de contingencia para mitigar el impacto en sus operaciones. Automatización y personalización en la Logística El impacto del Machine Learning no solo se limita a la predicción, sino que también ha impulsado la automatización de muchos procesos logísticos clave que conlleva a la reducción de tiempo y costos asociados a operaciones manuales. Además, el uso de Machine Learning permite la personalización de los procesos logísticos como las entregas para los clientes, basándose en sus comportamientos pasados y preferencias. Por otro lado, Shahid (2020) también menciona que utilizando Machine Learning, las empresas pueden automatizar la gestión de rutas para los transportistas y con esto 37 garantizar que las entregas se ajusten a factores como el tráfico en tiempo real, mejorando la puntualidad de las entregas y la satisfacción del cliente 2.2.3.3 Desafíos en la implementación de ML A pesar de las múltiples ventajas que el Machine Learning ofrece a las empresas, su implementación no se encuentra libre de desafíos importantes. Estos obstáculos pueden retrasar la adopción de tecnologías avanzadas y limitar los beneficios que las empresas podrían obtener al aplicarlas en sus operaciones: Uno de los principales desafíos en la implementación de Machine Learning es la necesidad de contar con una infraestructura tecnológica adecuada. Según Siddique (2019), muchas empresas no cuentan con los recursos técnicos necesarios para procesar grandes volúmenes de datos y ejecutar modelos en tiempo real. Lo cual implica inversiones significativas en servidores, almacenamiento en la nube y tecnología de procesamiento de datos, lo que puede representar una barrera para empresas pequeñas o aquellas que aún no tienen mucha experiencia en el mercado. Otro desafío importante es la falta de talento humano especializado en ciencia de datos y Machine Learning. Acorde a lo expuesto por Baskin (2022), si bien las empresas cada vez invierten más en la adopción de estas tecnologías, a menudo carecen de personal capacitado que pueda gestionar y desarrollar los modelos. La calidad y cantidad de los datos disponible representa un gran porcentaje del éxito de los modelos de Machine Learning; sin embargo, muchas empresas enfrentan dificultades para recopilar, limpiar y estructurar sus datos de manera eficiente. Según Siddique (2019), los datos desorganizados o incompletos generan resultados inexactos, lo que disminuye el valor de los modelos predictivos Acorde a lo indicado por Baskin (2022), las empresas que han implementado Machine Learning a sus operaciones de manera exitosa, invirtieron hasta un 60% más en estas tecnologías en comparación con sus competidores. Estos debido a que los costos no solo abarcan la infraestructura, sino también la capacitación del personal, la contratación de expertos, y el desarrollo de algoritmos personalizados. Otro desafío importante es la integración de Machine Learning en los procesos ya existentes. La gran mayoría de empresas operan con sistemas complejos que pueden no ser compatibles con nuevas tecnologías. Según Siddique (2019), la implementación de 38 Machine Learning a menudo requiere reestructurar o ajustar los flujos de trabajo, lo que puede causar resistencia dentro de las organizaciones y aumentar el riesgo de fallos en la integración. 2.2.4 Minería de datos La minería de datos es el proceso mediante el cual se identifican patrones y se obtiene conocimiento valioso a partir de grandes conjuntos de información. Las fuentes de los datos pueden ser diversas incluyendo bases de datos, almacenes de información, la web, otros repositorios de contenidos o datos que llegan continua y dinámicamente al sistema. Han, Kamber & Pei (2000) Para Han, Kamber & Pei (2000), puede ser aplicada a cualquier tipo, mientras sea sustancialmente importante para el objetivo. 2.2.4.1 Metodologías para la Minería de datos Dada la complejidad proveniente de los intereses empresariales, limitaciones de carácter económicas y tecnológicas, y las tareas de diversas disciplinas, para Gironés, et al (2017), es recomendable diseñar una hoja de rota que permita la situación actual, la situación objetivo y las medidas necesarias para corregir cualquier desvío que podría surgir durante el transcurso. 2.2.4.1.1 CRISP-DM CRISP-DM, o Cross Industry Standard Process for Data Mining según sus siglas en inglés, es la metodología estándar de facto para proyectos en minería de datos. De acuerdo con Martínez, F. et al (2017), es una guía de trabajo disponible gratuitamente, independiente a la industria y neutral en cuanto a tecnología, que provee fases con sus respectivas tareas y entregables. La metodología cuenta con seis fases y una secuencia no rígida; es decir, permite avanzar o retroceder en las fases según los resultados de cada una Martínez, F. et al (2017). Para Gironés, et al (2017), revisar e iterar son actividades clave para un proyecto de calidad bajo este estándar. La Figura 4 muestra el flujo y las relaciones entre estas. Figura 4: Ciclo de vida de CRISP-DM 39 Nota: De Descubrimiento de patrones de desempeño académico con árboles de decisión en las competencias genéricas de la formación profesional (párr. 3), por Timarán, S., 2016. (https://hdl.handle.net/20.500.12494/1039) Gironés, et al (2017) explica que las fases iniciales son las más importantes y que el propósito de este proceso es transformar los datos en conocimiento. 2.2.4.1.1 Comprensión del negocio Para Gironés, et al (2017), se parte desde la perspectiva empresarial y se usa el entendimiento de los objetivos del negocio, los recursos, los requerimientos y las limitaciones para definir los objetivos del proyecto de minería y alinearnos a los primeros. Según Timarán, S. et al (2016), comprende las siguientes actividades: • Determinar los objetivos: Definir el problema a resolver, por qué se usa minería y cuáles son los criterios de éxito. • Evaluar la situación actual: Se valoran los antecedentes y requerimientos del problema. • Alinear los objetivos del negocio con los del proyecto de minería. • Producir un plan de proyecto: Se definen los pasos y los métodos a seguir en un plan. 40 2.2.4.1.2. Comprensión de los datos De acuerdo con Gironés, et al (2017), se tratan los datos con la intención de conocer a profundidad su naturaleza, origen, estado o condición, estructura, características y potenciales problemas. Para Timarán, S. et al (2016), esta fase abarca desde la recolección de los datos hasta la exploración y verificación de la calidad de estos. Así, para Timarán, S. et al (2016), las tareas a realizar durante esta fase son las siguientes. • Recolectar datos iniciales: Luego de la recolección y modificación de los datos para el procesamiento, se formulan informes con el detalle del origen, localización y técnicas usadas para recolectar estos. • Describir los datos: Se desarrolla un diccionario de datos, donde se describe el tamaño del conjunto de datos, los campos, sus significados y descripciones. • Explorar los datos: Se utilizan pruebas estadísticas, tablas de frecuencias y gráficos para descubrir los atributos y cualidades de los datos. • Verificar la calidad de los datos: Asegurar la consistencia de los datos, como la verificación de los valores nulos, fuera de rango o de contexto. 2.2.4.1.3. Preparación de los datos El propósito de esta fase es obtener el conjunto final de datos que se usa posteriormente para la aplicación de modelos. Gironés, et al (2017) De acuerdo con Gironés, et al (2017) y Timarán, S. et al (2016), dado que son fases que interactúan de forma permanente, se utiliza la experiencia obtenida por la exploración de los datos mediante la visualización y la búsqueda de relaciones entre variables en la fase actual, y la adquirida al procesar los datos de diferentes maneras en la fase del Modelado, para replantear los criterios que sirven para seleccionar los datos. Timarán, S. et al (2016) enlista los pasos para preparar los datos de la siguiente forma. • Seleccionar los datos: Se escoge un subgrupo de los datos bajo los criterios de calidad, limitación y tipos de datos según los procedimientos a desarrollar. • Limpiar los datos: Se optimiza la calidad aplicando técnicas tales como normalización, discretización y reducción. 41 • Estructurar los datos: Se generan nuevas variables a partir de las ya existentes. • Integrar los datos: Se crean nuevas variables bajo la integración de nuevos datos de otros conjuntos. • Formatear los datos: Tratar los datos para simplificar o permitir su análisis mediante la eliminación de comas, espacios, entre otros. 2.2.4.1.4. Modelado El objetivo principal de esta fase es proporcionar el modelo que satisfaga tanto los objetivos del negocio como los del proyecto. En esta fase, se aplican técnicas a un determinado conjunto de datos con el propósito de predecir un resultado o hallar patrones Gironés, et al (2017). Para Timarán, S. et al (2016), los pasos para llevar a cabo esta fase se detallan a continuación. • Generar plan de prueba: Se prueba la calidad y la validez de modelo. Los datos se particionan en dos grupos: uno para entrenar el modelo y otro para evaluarlo. • Construir el modelo: La o las técnicas se emplean sobre el conjunto de datos usando los parámetros anteriormente seleccionados en un proceso iterativo y justificados para generar el o los modelos. • Evaluar el modelo: Los modelos son interpretados bajo el entendimiento de los criterios previamente establecidos. Se realiza con el fin de determinar de manera inicial que el modelo funciona de manera correcta, ajustar hiperparámetros y verificar su rendimiento. 2.2.4.1.5. Evaluación Para Gironés, et al (2017), esta fase se centra en evaluar qué tan cerca se encuentra modelo de los objetivos de negocio y justificar si es eficiente para los mismos. Tanto los modelos generados, así como los descubrimientos que parten del proceso, son los propósitos principales por la cual esta fase se determina. Gironés, et al (2017) establece que, en esta fase, se debe: • Evaluar el modelo. Se analizan métricas específicas para asegurar que el modelo cumple con los objetivos del proyecto. 42 • Revisar el proceso. Se revisa todo el proceso de modelado para identificar posibles mejoras. • Evaluar si se debe de iterar fases anteriores. Se pondera si es necesario regresar a fases anteriores. 2.2.4.1.6. Implementación Timarán, S. et al (2016) comenta que en esta fase el conocimiento producido en las fases previas se debe de transformar en acciones tangibles en el proceso empresarial. Se llevan a cabo diversas actividades tales como: • Planear la implementación: Se debe de establecer una estrategia basándose en los resultados obtenidos en la fase de evaluación. • Monitorizar y mantener: La aplicación de los modelos es supervisada y soportada de forma continua. • Informe final: Se describe los resultados de la estrategia implementada. • Revisar el proyecto. 2.3 Marco Conceptual Algoritmo: Es un conjunto definido de reglas o pasos lógicos que, seguidos de manera ordenada, permiten resolver un problema o realizar una tarea específica. Cormen et al. (2009). Algoritmo de clasificación: Es un algoritmo utilizado en Machine Learning que se encarga de asignar una categoría a cada dato de entrada basándose en las características observadas. Hastie, Tibshirani & Friedman (2009) Aprendizaje Automático: También llamado Machine Learning, se refiere a un conjunto de técnicas que permiten a las máquinas mejorar su rendimiento con experiencia, ajustando sus procesos de acuerdo con los datos que reciben. Mitchell (1997). Aprendizaje Supervisado: Es un tipo de aprendizaje automático en el cual un algoritmo aprende a partir de un conjunto de datos etiquetados, lo que le permite predecir resultados o clasificar nuevos datos con base en ejemplos anteriores. Goodfellow, Benfio & Courville (2016). Inteligencia Artificial (IA): Es un campo de la computación dedicado al diseño de sistemas capaces de llevar a cabo tareas que demandan habilidades propias de la inteligencia humana, como aprender de datos y tomar decisiones complejas. Rusell & Norvig (2021) 43 Métricas de evaluación en Machine Learning: Son medidas que determinan la efectividad de un modelo predictivo. Sokolova & Lapalme (2009) Redes Neuronales Artificiales (RNA): Estructuras computacionales inspiradas en el funcionamiento del cerebro humano, que se organizan en capas de nodos interconectados para procesar datos y aprender patrones. Haykin (2009). Librerías y módulos de Python: Category Encoders: Paquete de Python que ofrece varias técnicas de codificación para variables categóricas, optimizando el rendimiento de los modelos al transformar las categorías en valores numéricos. (Micci-Barreca, 2001) GridSearchCV: Utilidad para buscar los mejores hiperparámetros en modelos de machine learning. (Pedregrosa et al., 2011) Joblib: Biblioteca utilizada para serializar y deserializar modelos u otros objetos de Python de manera eficiente. (Joblib Development Team, 2017) Numpy: Biblioteca que permite realizar cálculos numéricos y manejar arreglos multidimensionales. (Harris et al., 2020). Pandas: Herramienta que facilita el análisis y manipulación de datos mediante estructuras como DataFrame y Series. (McKineey, 2010) Scikit-learn (Sklearn): Biblioteca de Python diseñada para facilitar la implementación de algoritmos de maching learning, proporcionando herramientas para tareas como clasificación, regresión y preprocesamiento de datos. (Pedregrosa et al., 2011) Sklearn.metrics: Módulo de Sklearn que proporciona funciona para evaluar el rendimiento de modelos de machine learning. Incluye métricas como precisión, recall, F1 score, ROC AUC, entre otros. (Pedregrosa et al., 2011) Train_test_split: Utilidad para dividir los datos en conjuntos de entrenamiento y prueba. (Pedregrosa et al., 2011) Modelo predictivo de Machine Learning: Herramienta que utiliza algoritmos de aprendizaje automático para el analisis de patrones en grandes volúmenes de datos y realizar predicciones o clasificaciones basadas en esos patrones. (Domingos, 2015). Estado de una entrega de pedido: Etapa en la que se encuentra el pedido dentro del proceso de entrega, proporcionando información crucial tanto para la empresa como para el cliente sobre el progreso de la logística. (Bowersox, Closs, & Cooper, 2013). 44 Capítulo III: Entorno Empresarial 3.1 Descripción de la empresa La empresa con el que se está haciendo la investigación es una comercializadora y distribuidora que ofrece productos de consumo masivo como: - Alimentos (Harinas, arroz, azúcar, pastas, galletas, chocolates, conservas) - Bebidas (Jugos, refrescos, lácteos) - Cuidado personal (Jabones, Shampoo, acondicionadores, crema dental) - Limpieza para el hogar (Detergentes, suavizantes, desinfectantes) Esta empresa, en mención, permite que los clientes o consumidores finales puedan acceder a sus productos. Para lograrlo, la empresa cuenta con flotas de distribución adaptadas para que los productos lleguen sin daño alguno, respetando los tiempos de entrega establecidos y con un sistema de gestión para mantener el inventario con stock disponible para entregas diarias. Adicionalmente, esta empresa no solo se enfoca en distribuir productos, sino que también construye relaciones sólidas con sus proveedores, clientes y colaboradores. 3.1.1 Reseña histórica y actividad económica Esta empresa lleva operando desde 1954 en el distrito de la Victoria, hasta llegar a convertirse en uno de los mayores distribuidores de consumo masivo en el Perú. Sus inicios fueron en una bodega en el distrito de La Victoria. Esta bodega rápidamente fue uno de los puntos de referencia para muchos clientes del distrito y aledaños. Esta bodega era la favorita para muchos clientes porque ofrecían productos de calidad a un precio competitivo. Su fundador se caracterizaba por que su enfoque se basaba en la atención idónea al cliente sin descuidar la calidad de los productos. En 1954, gracias al crecimiento exitoso de esta bodega y preferencia por los clientes de incluso otros distritos, la empresa comenzó a diversificar sus productos y a satisfacer la demanda. En ese entonces, ya no solo vendía productos de alimentos y bebidas, sino que también productos de higiene y limpieza para el hogar. Con el objetivo de seguir expandiendo su red de mercado, la empresa buscó y logró tener relaciones con proveedores locales y regionales. Esto permitió que la empresa pudiera ofrecer mayor variedad de productos. 45 Al finalizar el año 1954 comenzó a pedir préstamos con la intención de invertir en dos flotas para poder distribuir a distritos más alejados como: Los Olivos, Breña, Jesús María, Miraflores y Callao. En 1957, al percatarse de una mayor demanda, la empresa comenzó a alquilar espacios para almacenar mercadería y tener suficiente stock para cumplir con la demanda del mercado. Entre 1975 y 1990, la empresa decidió adaptarse a las nuevas tecnologías, implementando sistemas de gestión para optimizar su logística y reducir costos. Entre 1990 y 2010, la empresa continuó mejorando sus relaciones con más proveedores internacionales. Por lo tanto, esto permitió aumentar también su portafolio de productos. En este periodo, la empresa logró tener un convenio con 3 supermercados lo que a su vez obligó a esta empresa a seguir expandiendo sus centros de almacenamiento y tener más flotas para enviar los productos de manera eficiente y cuidadosa para evitar devoluciones por daño en los productos. Entre 2010 a 2024, la empresa cuenta con más de 25 flotas que distribuyen sus productos a más de 15 distritos de Lima Metropolitana y Callao. 3.1.2 Descripción de la organización Esta empresa distribuidora y comercializadora se dedica a vender productos de consumo masivo como bebidas, alimentos, productos de limpieza para el hogar y cuidado personal. Ofrecer productos de calidad con el mejor trato tanto a los clientes como proveedores es su principal filosofía que los motivan a diferenciarse. Para mantenerse en la vanguardia contra sus competidores, tienen almacenes y flotas modernas. La empresa cuenta con instalaciones debidamente equipadas con tecnología de refrigeración y gestión totalmente eficiente para mantener disponibilidad o un mínimo stock de todos sus productos en el inventario. Por otro lado, con respecto a sus flotas de distribución, la empresa cuenta con protocolos estrictos que garantizan que los productos sean entregados en óptimas condiciones y en el tiempo acordado (dos días hábiles luego de haber realizado el pedido) ya sea para tiendas minoristas o mayoristas. Con respecto a su sistema de gestión, esta empresa tiene controlado en tiempo real cuánto de mercadería existe por cada tipo de producto. Esto le permite a la empresa responder de manera inmediata ante pedidos de alta demanda de los clientes mayoristas. 46 La empresa promueve prácticas sostenibles y responsables socialmente como, por ejemplo: - La reutilización de materiales renovables como bolsas y cajas hechas con derivados del almidón de maíz, fécula de papa y caña de azúcar. - El reciclaje de plástico, papel y vidrio con el objetivo de reducir de la huella de carbono. 3.1.2.1 Organigrama El organigrama de la empresa se encuentra estructurado de manera jerárquica, con la finalidad de lograr una coordinación eficiente en sus operaciones. Esta estructura organizacional asegura que se cuente con los recursos necesarios para cumplir con sus objetivos, los cuales están alineados con los objetivos de la empresa. A continuación, se describe la estructura del organigrama: • Gerencia General: Es el nivel más alto en la estructura y está a cargo de la dirección de la empresa. La principal responsabilidad es coordinar y supervisar las actividades de las distintas gerencias, asegurando que los objetivos y acciones de estas se encuentren alineados con los de la compañía. • Gerencia de Operaciones: Dado que la empresa distribuye productos de consumo masivo y estos requieren un manejo cuidadoso, es fundamental para garantizar que las actividades operativas se realicen de manera eficiente. La gerencia de operaciones se encuentra dividida en tres departamentos: o Departamento de Logística: Encargado de la planificación y ejecución de la distribución de productos. Tiene como objetivo principal garantizar que los tiempos de entrega sean los establecidos y que los productos lleguen sin daños a los clientes. Entre sus responsabilidades se encuentran administrar las flotas de transporte, optimizar rutas y el mantenimiento de los vehículos. o Departamento de Almacenes: Es el departamento encargado de la gestión del inventario y el almacenamiento de los productos. Este departamento no solo juega un papel importante en el mantenimiento de la eficiencia operativa sino también en la reducción de costos ya que debe evitar tanto excesos como faltantes en los inventarios. o Departamento de Compras y Proveedores: Es el departamento encargado de la adquisición de productos y la gestión de las relaciones con los proveedores. 47 Tiene como objetivo principal garantizar que se cuente constantemente con productos que cumplan sus estándares de calidad. Entre sus responsabilidades se encuentran la negociando de precios, el establecimiento de contratos favorables con los proveedores y la diversificación de estos para evitar riesgos de desabastecimiento. • Gerencia Comercial: Entre sus principales actividades están identificar oportunidades de crecimiento en el mercado y fortalecer la relación con los clientes actuales. La Gerencia Comercial se encuentra conformada por dos departamentos: o Departamento de Ventas: Es el departamento responsable de gestionar las ventas al por mayor y al por menor, manteniendo la relación directa con los clientes. Su principal objetivo es asegurarse de que los clientes reciban los productos a tiempo conforme a lo establecido en los contratos, así mismo, sus funciones abarcan tanto los pedidos de clientes minoristas como los de grandes distribuidores. o Departamento de Marketing: Entre sus responsabilidades se encuentran el diseño de campañas publicitarias y promociones, el análisis de mercado para identificar nuevas oportunidades comerciales; así mismo, debe trabajar de la mano con el departamento de ventas para aumentar la penetración de los productos en el mercado y fortalecer la marca. • Gerencia de Finanzas: Responsable de la gestión financiera de la empresa; por lo cual, su objetivo principal es garantizar la sostenibilidad económica y el cumplimiento de las metas financieras de la empresa. La Gerencia de Finanzas se encuentra conformada por dos departamentos: o Departamento de Contabilidad: Es el departamento encargado de llevar los registros financieros de la empresa. Su principal objetivo es garantizar que los informes financieros se realicen de acuerdo con las normativas contables y fiscales vigentes. o Departamento de Control de Gestión: Este departamento se dedica al análisis financiero y a la evaluación de la eficiencia operativa. Su función es monitorear el rendimiento financiero de la empresa, detectar desviaciones y proponer medidas correctivas cuando sea necesario. • Gerencia de Recursos Humanos: Responsable de gestionar el capital humano de la empresa; por lo cual está encargada de todos los procesos relacionados con el personal, empezando en la selección y contratación, la gestión de salarios, beneficios 48 e incentivos, hasta el desarrollo profesional del mismo, no obstante, velar por el bienestar de los empleados dentro de un entorno laboral positivo, también es parte de sus funciones. • Departamento de Tecnología y Sistemas de Información (TI): Entre sus responsabilidades esta la administración de los sistemas de gestión de inventarios, las plataformas de monitoreo en tiempo real y los sistemas de control de operaciones; también, la implementación de soluciones tecnológicas con la finalidad de mejorar la eficiencia y competitividad de la empresa. • Departamento de Sostenibilidad y Responsabilidad Social: Este departamento es el encargado de supervisar e implementar políticas que promueven prácticas empresariales sostenibles. Entre sus responsabilidades se encuentran reducir la huella de carbono de la empresa mediante el reciclaje, la reutilización de materiales renovables y el uso de tecnologías más limpias en las operaciones; además, diseña y desarrolla las iniciativas de responsabilidad social con el fin de que la empresa tenga un impacto positivo en la comunidad. Figura 5: Organigrama de la empresa Fuente: Elaboración propia. 3.1.2.2 Cadena de suministros Se caracteriza por ser un proceso estructura, que abarca desde la adquisición internacional hasta la distribución en el mercado peruano. 49 3.1.2.2.1. Abastecimiento y adquisiciones internacionales. La empresa establece acuerdos con proveedores internacionales, particularmente en países como Brasil y Turquía, para adquirir productos de consumo masivo, electrónicos y artículos de ferretería. Estos acuerdos comerciales están enfocados en la calidad del producto, tiempos de entrega adecuados y costos competitivos. La empresa selecciona a sus proveedores y garantiza la confiabilidad del suministro y la capacidad de cumplir con la demanda local de manera constante. 3.1.2.2.2. Transporte internacional. La empresa utiliza transporte marítimo según la necesidad y disposición del tipo de producto y su urgencia. Productos voluminosos, como los de ferretería o consumo masivo no perecederos, son transportados vía marítima con el objetivo de optimizar los costos. Por otra parte, los productos de características sensibles al tiempo o de mayor valor son transportados vía aérea. Durante este proceso, los envíos en tiempo real son monitoreados para gestionar imprevistos en la logística internacional y cumplir con los plazos de entrega establecidos. 3.1.2.2.3. Procesos de desaduanaje y recepción de productos. Al llegar a Perú, los productos pasan por un proceso de desaduanaje en los puertos marítimos o aéreos. Siendo un proceso crítico, se asegura que se cumplan todas las normativas locales de importación para permitir que los productos sean liberados. Posteriormente, los productos se trasladan a los almacenes de la empresa, los cuales están ubicados en un punto estratégico de Lima. 3.1.2.2.4. Almacenamiento La empresa implementa un sistema de gestión de inventarios avanzado que monitorear los niveles de stock en tiempo real, rastrear la ubicación exacta de los productos y asegurar que, aquellos con fechas de caducidad como alimentos y bebidas, sean manejados correctamente. Además, el almacén cuenta con control de temperatura, para garantizar la conservación de productos perecederos. Este nivel de control y visibilidad optimiza las decisiones de reabastecimiento y reduce costos asociados con el exceso o la falta de inventario. 3.1.2.2.5. Distribución nacional La empresa utiliza una serie de medios de transporte y operadores logísticos, encargados de movilizar los productos hacia el punto de entrega. La planificación de rutas y el uso de tecnologías de optimización de entregas garantizan la disponibilidad constante de productos en los puntos de venta. 50 3.1.2.2.6. Comercialización y ventas Al operar como mayorista, la empresa vende grandes volúmenes a cadenas de supermercados, tiendas de electrónica y ferretería. La empresa mantiene relaciones comerciales a largo plazo con sus clientes y ofrece productos de calidad y un servicio confiable. Mediante un continuo análisis de mercado, la empresa ajusta su oferta en función de las tendencias de consumo y de sus clientes comerciales. 3.1.2.2.7. Servicio postventa y atención al cliente. Con el objetivo de mantener la satisfacción de sus clientes y fortalecer la relación comercial, la empresa brinda un servicio postventa especializado. Se incluyen la gestión de devoluciones o productos defectuosos y resolución de problemas relacionados con la entrega. Este enfoque ayuda a mantener una imagen sólida en el mercado y contribuye en la fidelización de sus clientes. 3.1.3 Datos generales estratégicos de la empresa La empresa tiene más de 70 años de experiencia en el ámbito de la importación y distribución de productos de consumo masivo. Se dirige principalmente a supermercados, tiendas de conveniencia y minoristas. Su propuesta de valor reside en proporcionar una extensa variedad de productos de alta calidad, centrada en la atención al cliente y la eficiencia en la distribución. De esa forma, satisfacer las expectativas de mercado y garantizar la lealtad del cliente. Además, la empresa busca implementar una estrategia de diversificación de productos, aumentando su oferta en diversas categorías. Asimismo, fortalecerá su presencia en línea y optimizará su logística para mejorar la eficiencia operativa. Para evaluar el éxito de su estrategia de crecimiento, la empresa monitoriza métricas como la cuota de mercado, la satisfacción del cliente, y el crecimiento de ventas por categoría. Estos indicadores son cruciales para ajustar la estrategia y asegurar un crecimiento sostenible. 3.1.3.1 Visión, misión y valores o principios 3.1.3.1.1 Misión Brindar productos de consumo masivo que alcancen los máximos niveles de calidad, asegurando una entrega ágil y confiable para cumplir con las expectativas de sus clientes. Mediante una gestión eficiente de la logística, alianzas estratégicas con proveedores y un servicio al cliente de primer nivel, la compañía se compromete a 51 contribuir al bienestar de sus consumidores, garantizando el acceso oportuno y seguro a sus productos. 3.1.3.1.2 Visión La visión de la empresa es “Convertirse en el principal distribuidor de productos de consumo masivo en el Perú, ampliando su presencia a nivel nacional y ser reconocida por su excelencia en la distribución, innovación tecnológica y compromiso con la sostenibilidad.” La empresa aspira a ser un referente en el sector, destacándose por su capacidad de adaptación a las demandas del mercado y su contribución al desarrollo de soluciones sostenibles. 3.1.3.1.3 Valores y Principios La empresa se encuentra comprometida con los siguientes valores: • Calidad: La empresa busca garantizar que los productos ofrecidos cumplan con los más altos estándares de calidad, desde la selección de proveedores hasta la entrega al cliente final. • Compromiso con el Cliente: Está enfocada en brindar un servicio excepcional, manteniendo relaciones basadas en la confianza y el cumplimiento de los compromisos adquiridos.