UNIVERSIDAD ESAN FACULTAD DE INGENIERÍA INGENIERÍA EN GESTIÓN AMBIENTAL Metodología de Valoración Contingente de ruido vehicular mediante Machine Learning: caso del bypass del Óvalo Monitor Huáscar ubicado en Santiago de Surco y La Molina Trabajo de Suficiencia Profesional presentado en satisfacción parcial de los requerimientos para obtener el título profesional de Ingeniero(a) en Ingeniería en Gestión Ambiental AUTORES Cama Montesinos, Andrea Alessandra Rivera Bueno, Jose Pablo Salazar Sanchez, Leslie Alexandra Sandoval Alcala, Jean Pierre Andre Soria Asin, Alejandra Marcela ASESOR Calderón Niquin, Marks Arturo ORCID N°0000-0002-5440-3978 Abril, 2024 1 2 RESUMEN El estudio de investigación examina los efectos nocivos del tráfico en la calidad de vida de las personas de los distritos de Santiago de Surco y La Molina, del departamento de Lima, específicamente la relación con la contaminación sonora provocada por el bypass Óvalo Monitor Huáscar. Se propone el uso de la inteligencia artificial, es decir, el aprendizaje automático (Machine Learning), como una herramienta novedosa para predecir la disposición a pagar (DAP) de las personas para disminuir el ruido del tráfico. El objetivo principal del proyecto de investigación es desarrollar un modelo de valoración contingente que pueda combinarse con un algoritmo de aprendizaje automático para predecir la densidad de población en riesgo en diversas circunstancias. En el esfuerzo de reducir los efectos negativos del ruido del tránsito en las zonas urbanas, las conclusiones de este estudio de investigación podrían sería beneficio para la planificación urbana y la gestión del tránsito. Palabras clave: Valoración contingente, disposición a pagar, contaminación acústica, Machine Learning. 3 ABSTRACT The study examines the harmful effects of traffic on the quality of life of people in the districts of Santiago de Surco and La Molina, specifically the relationship with noise pollution caused by the Monitor Huáscar Oval bypass. The use of artificial intelligence, i.e., machine learning, is proposed as a novel tool to predict people's willingness to pay (WTP) to reduce traffic noise. The main objective of the research project is to develop a contingent valuation model that can be combined with a machine learning algorithm to predict WTP under various circumstances. In the effort to reduce the negative effects of traffic noise in urban areas, the findings of this research study could be beneficial for urban planning and traffic management. Keywords: contingent valuation, willingness to pay, noise pollution. 4 ÍNDICE RESUMEN ........................................................................................................................... 2 ABSTRACT ......................................................................................................................... 3 INTRODUCCIÓN ............................................................................................................. 13 CAPÍTULO I: PLANTEAMIENTO DEL PROBLEMA .............................................. 14 1.1. Descripción de la Realidad Problemática .......................................................... 14 1.2. Formulación del Problema: ................................................................................ 18 1.2.1. Problema General: ....................................................................................... 19 1.2.2. Problemas Específicos .................................................................................. 19 1.3. Objetivos de la Investigación .............................................................................. 20 1.3.1. Objetivo General........................................................................................... 20 1.3.2. Objetivos Específicos .................................................................................... 20 1.4. Justificación de la Investigación ......................................................................... 21 1.4.1. Teórica ........................................................................................................... 21 1.4.2. Práctica .......................................................................................................... 21 1.4.3. Metodológica ................................................................................................. 21 1.5. Delimitación del Estudio ...................................................................................... 22 CAPÍTULO II: MARCO TEÓRICO .............................................................................. 23 2.1 Antecedentes de la Investigación ........................................................................ 23 2.1.1 Artículos relacionados .................................................................................. 23 2.1.2 Tesis relacionadas ......................................................................................... 29 5 2.2 Bases Teóricas ...................................................................................................... 32 2.2.1 Contaminación acústica ............................................................................... 32 2.2.2 Sonido ............................................................................................................ 32 2.2.3 Ruido .............................................................................................................. 33 2.2.4 Valoración económica .................................................................................. 33 2.2.5 Método de valoración contingente .............................................................. 34 2.2.6 Machine Learning......................................................................................... 35 2.3 Marco Conceptual ................................................................................................ 36 2.3.1 Estándares de calidad ambiental para ruido ............................................. 36 2.3.2 Ordenanza N°2419 para la Prevención y Control de la Contaminación Sonora .............................................................................................................. 39 2.3.3 Ordenanza N° 2256 Actualiza el Sistema Metropolitano de Gestión Ambiental (SMGA) de la Provincia de Lima ............................................... 40 2.3.4 Decreto Supremo N° 023-2021-MINAM Política Nacional del Ambiente al 2030 .................................................................................................................. 40 2.3.5 Decreto Supremo N° 008-2005-PCM Reglamento de la Ley Marco del Sistema Nacional de Gestión Ambiental ...................................................... 41 2.3.6 Monitoreo de calidad del ruido ambiental ................................................. 42 2.3.7 Técnicas de Aprendizaje Supervisado ........................................................ 44 2.3.8 Orange Data Mining Toolbox ...................................................................... 51 2.3.9 Técnicas de validación: ................................................................................ 51 2.3.10 Metodología KDD ..................................................................................... 52 6 2.3.11 Support Vector Machine (SVM) .............................................................. 53 2.3.12 Matriz de Confusión ................................................................................. 54 CAPÍTULO III: METODOLOGÍA DE LA INVESTIGACIÓN ................................. 61 3.1 Diseño de Investigación ....................................................................................... 61 3.1.1 Enfoque ......................................................................................................... 61 3.1.2 Alcance de la Investigación .......................................................................... 61 3.1.3 Diseño de la investigación ............................................................................. 62 3.1.4 Población y Muestra ..................................................................................... 63 3.2 Métodos de recolección de data .......................................................................... 64 3.2.1 Monitoreo de la calidad acústica ................................................................. 64 3.2.2 Cuestionario de valoración contingente ..................................................... 73 3.3 Metodología .............................................................................................................. 79 3.3.1 Selección de la base de datos ....................................................................... 79 3.3.2 Procesamiento de datos ................................................................................ 79 3.3.3 Transformación ............................................................................................. 80 3.3.4 Minería de datos ............................................................................................ 81 3.3.5 Evaluación e implementación ....................................................................... 81 3.4 Orange data Mining ............................................................................................. 81 3.5 Cronograma de actividades y presupuesto ........................................................ 82 CAPÍTULO IV: PRESENTACIÓN DE RESULTADOS .............................................. 85 4.1. Desarrollo de la encuesta de valoración económica .......................................... 85 4.2. Resultados de nivel de ruido ............................................................................... 87 7 4.3. Resultados del modelo de Clasificación ............................................................. 93 4.3.1. Selección de la variable dependiente ........................................................... 93 4.3.2. Verificación del modelo de clasificación ..................................................... 93 CAPÍTULO V: ANÁLISIS Y DISCUSIÓN DE RESULTADOS ............................... 119 CAPÍTULO VI: CONCLUSIONES Y RECOMENDACIONES ............................... 123 6.1. Conclusiones ....................................................................................................... 123 6.2. Recomendaciones ............................................................................................... 125 REFERENCIAS BIBLIOGRÁFICAS .......................................................................... 127 ANEXOS .......................................................................................................................... 133 8 ÍNDICE DE FIGURAS Figura N° 1:Machine Learning .......................................................................................... 35 Figura N° 2: Aprendizajes de Machine Learning .............................................................. 36 Figura N° 3: Explicación del Algoritmo KNN .................................................................. 45 Figura N° 4: Estructura de un árbol de decisión ................................................................ 46 Figura N° 5: Red Neuronal ................................................................................................ 47 Figura N° 6: Funciones de Activación ............................................................................... 48 Figura N° 7: Red neuronal de propagación hacia adelante ................................................ 50 Figura N° 8: Identificación de las instancias o ejemplos ................................................... 51 Figura N° 9: Diagrama del proceso de KDD ..................................................................... 53 Figura N° 10: KDD Diagrama de Support Vector Machine (SVM) .................................. 54 Figura N° 11: Matriz de Confusión .................................................................................... 55 Figura N° 12: AUC = 1 ...................................................................................................... 56 Figura N° 13: AUC = 0.7 ................................................................................................... 57 Figura N° 14: AUC = 0.5 ................................................................................................... 57 Figura N° 15: Ubicación de los puntos de medición de ruido en el Bypass del Óvalo Monitor Huáscar ..................................................................................................................................... 68 Figura N° 16: Zonificación del distrito de La Molina ........................................................ 68 Figura N° 17: Zonificación del distrito de Santiago de Surco ........................................... 69 Figura N° 18: Sub tramo 1 - Tramo Olguín ....................................................................... 71 Figura N° 19: Sub tramo 2 - Tramo Óvalo Monitor .......................................................... 72 Figura N° 20: Sub tramo 3 - Tramo Camacho ................................................................... 73 Figura N° 21: Etapas de la metodología KDD ................................................................... 79 Figura N° 22: Problemas ambientales de la zona ............................................................... 86 Figura N° 23: Modelo predictivo de ruido de tráfico rodado (nivel diurno) ..................... 92 9 Figura N° 24: Análisis de Fiabilidad - Alfa de Cronbach .................................................. 96 Figura N° 25: Técnicas de Orange Data Mining ................................................................ 98 Figura N° 26: Dataset - Orange Data Mining .................................................................... 99 Figura N° 27: Fichero de Datos ....................................................................................... 100 Figura N° 28: Widget Data Table .................................................................................... 100 Figura N° 29: Target - Orange Data Mining .................................................................... 101 Figura N° 30: Naives Bayes ............................................................................................. 102 Figura N° 31: Matriz de Confusión - Naive Bayes .......................................................... 103 Figura N° 32: K-nearest Neighbors .................................................................................. 104 Figura N° 33: KNN – Euclidean ...................................................................................... 105 Figura N° 34: Matriz de Confusión – KNN ..................................................................... 106 Figura N° 35: Matriz de Confusión (%) – KNN .............................................................. 106 Figura N° 36: SVM .......................................................................................................... 107 Figura N° 37: SVM - Orange Data Mining ...................................................................... 108 Figura N° 38: SVM - Validación cruzada ........................................................................ 109 Figura N° 39: SVM - Validación cruzada (%) ................................................................. 110 Figura N° 40: Tree ........................................................................................................... 111 Figura N° 41: Tree - Orange Data Mining ....................................................................... 111 Figura N° 42: Niveles de Profundidad – Tree .................................................................. 112 Figura N° 43: Tree - Validación cruzada ......................................................................... 113 Figura N° 44: Tree - Validación cruzada (%) .................................................................. 113 Figura N° 45: Neuronal Network ..................................................................................... 114 Figura N° 46: Neural Network - Orange Data Mining .................................................... 115 Figura N° 47: Neural Network - Validación cruzada ....................................................... 116 Figura N° 48: Neural Network - Validación cruzada (%) ................................................ 116 10 ÍNDICE DE TABLAS Tabla N° 1: Estándares Nacionales de Calidad Ambiental para Ruido ............................. 39 Tabla N° 2: Población y muestra del estudio ..................................................................... 63 Tabla N° 3: Unidad de análisis y delimitación temporal del estudio ................................. 64 Tabla N° 4: Puntos de medición de ruido en el By-pass del Óvalo Monitor Huáscar ....... 66 Tabla N° 5: Puntos de medición de ruido en el By-pass del Óvalo Monitor Huáscar ....... 69 Tabla N° 6: Variables independientes del estudio .............................................................. 75 Tabla N° 7: Rango económico de la Variable dependiente ................................................ 78 Tabla N° 8: Diccionario de datos ....................................................................................... 80 Tabla N° 9: Cronograma de actividades de la investigación .............................................. 83 Tabla N° 10: Inversión de la investigación realizada ......................................................... 84 Tabla N° 11: Distribución de las variables de entrada al modelo ...................................... 87 Tabla N° 12: Niveles de tráfico rodado a lo largo del By-pass del Óvalo Monitor Huáscar en horario diurno ................................................................................................................. 88 Tabla N° 13: Niveles de tráfico rodado a lo largo del By-pass del Óvalo Monitor Huáscar en horario nocturno .............................................................................................................. 90 Tabla N° 14: Rango DAP ................................................................................................... 93 Tabla N° 15: Descripción de las variables ......................................................................... 94 Tabla N° 16: Resumen del modelo de la variable dependiente .......................................... 97 Tabla N° 17: ANOVA ........................................................................................................ 97 Tabla N° 18: Muestreo - Naives Bayes ............................................................................ 102 Tabla N° 19: Muestreo - K-NN ........................................................................................ 105 Tabla N° 20: Muestreo – SVM ......................................................................................... 109 Tabla N° 21: Muestreo – Tree .......................................................................................... 112 11 Tabla N° 22: Muestreo - Neural Network ........................................................................ 115 Tabla N° 23: Resumen de los resultados de los Test de Prueba ....................................... 117 12 INDICE DE FÓRMULAS Fórmula N° 1: Teorema de Bayes ...................................................................................... 50 Fórmula N° 2: Expresión Accuracy ................................................................................... 58 Fórmula N° 3: Expresión de Precision (PREC) ................................................................. 58 Fórmula N° 4: Expresión de F1 Score (F1) ....................................................................... 59 Fórmula N° 5: Sensitivity (Recall) .................................................................................... 59 Fórmula N° 6: Matthews Correlation Coefficient (MCC) ................................................. 59 Fórmula N° 7: Regla de Sturges ........................................................................................ 77 Fórmula N° 8: Amplitud (W) ............................................................................................. 77 ANEXOS Anexo N° 1: Certificado de calibración del sonómetro utilizado ..................................... 133 Anexo N° 2: Encuesta de valoración Económica Contingente del ruido de Tráfico Rodado ................................................................................................................................................ 136 Anexo N° 3: Registro fotográfico de mediciones de ruido acústico en el Bypass Óvalo Monitor Huáscar ................................................................................................................ 143 Anexo N° 4: Acta de validación de expertos .................................................................... 146 13 INTRODUCCIÓN La calidad del entorno urbano es un tema muy importante en las ciudades actuales porque tiene un impacto directo en la calidad de vida de las personas que viven en la zona (Ma et al., 2021). La contaminación por ruido, que ha aumentado con el aumento de la urbanización y el tránsito de vehículos, es un importante aspecto para esta calidad ambiental (Masum et al., 2021). Este fenómeno tiene un impacto no solo en la tranquilidad de los espacios urbanos, sino también afecta en la salud mental y física de las personas. El estudio actual se centra en abordar el problema de la contaminación debido al ruido causado por el tránsito de vehículos en los distritos de Santiago de Surco y La Molina, ubicados en Perú. Estos distritos, al igual que muchas áreas urbanas en países en desarrollo, enfrentan desafíos significativos relacionados con el ruido del tráfico, lo que representa una preocupación importante para sus habitantes y autoridades locales. (Ramírez, G. & Domínguez, C., 2011). Con el objetivo de comprender mejor el impacto por el ruido del tráfico vehicular en la calidad de vida de las personas que viven en la zona y proponer soluciones efectivas, se propone utilizar herramientas avanzadas como el Machine Learning y métodos de valoración contingente. Estas herramientas nos permitirán predecir la disposición a pagar de la población por la reducción del ruido del tráfico. Por lo tanto, nuestro estudio tiene un principal objetivo de desarrollar una metodología para evaluar el ruido contingente causado por el tránsito mediante el uso de la inteligencia artificial, con el fin de predecir con una mayor precisión la disposición de los ciudadanos a pagar para minimizar el ruido causado por el tránsito en el Bypass Óvalo Monitor Huáscar, ubicado en los distritos de Santiago de Surco y La Molina. 14 CAPÍTULO I: PLANTEAMIENTO DEL PROBLEMA 1.1. Descripción de la Realidad Problemática Los espacios urbanos, que abarcan calles, plazas y parques, son elementos fundamentales en las ciudades de todo el mundo. Funcionan como puntos de encuentro donde las personas se congregan para participar en interacciones sociales y económicas. Estos lugares no solo sirven como áreas para disfrutar de comidas y bebidas, sino también como escenarios culturales y sitios para una amplia gama de actividades, como ejercicio, recreación, juegos y momentos de descanso (Jiang & Nellthorp, 2020). El ambiente acústico, por su parte, constituye un componente ambiental crucial que incide de forma directa sobre la salud mental y física de las personas. Por consiguiente, se plasma como un factor fundamental para monitorear y evaluar el nivel de calidad de vida. (Ma et al., 2021). El sonido, en conjunto con otras características físicas y biológicas, desempeña un rol significativo en la calidad del espacio urbano y moldea la experiencia de las personas dentro de estos entornos. (Southworth, 1969). Por otro lado, el sonido estridente generado como consecuencia del tráfico rodado deteriora las características de calidad de los espacios urbanos, lo que disminuye los beneficios sociales, económicos y de salud que las personas podrían disfrutar en entornos más tranquilos y confortables. (Jiang et al., 2018). La contaminación del suelo, agua y aire es muy común en entornos urbanos, especialmente en países en desarrollo y en áreas menos desarrolladas en todo el mundo. Sin embargo, la contaminación acústica suele recibir menos atención, a pesar de que el ruido se origina por variedad de actividades, que pueden ir desde tareas domésticas hasta actividades del sector comercial, industrial, el tráfico vehicular, las 15 obras de construcción, las actividades recreativas, entre otras. Entre estas fuentes, el ruido generado por el tráfico vehicular surge como la principal categoría de contaminación en entornos urbanos (Masum et al., 2021). En el contexto internacional, el tráfico vehicular ha experimentado un notable incremento debido al desarrollo económico registrado en los últimos años. Este fenómeno ha estado asociado al crecimiento urbano y a la expansión de la clase media en numerosas regiones, generando una mayor demanda de vehículos particulares y un aumento en la congestión vial. Si bien en Europa se ha comenzado a implementar políticas para reducir el uso del automóvil y promover alternativas como el transporte público y modos de desplazamiento no motorizados, en América Latina esta transición es aún incipiente (Capron & Pérez López, 2016). La población ruidosa en el Perú no se considera ajena, ya que, basado en los resultados de las mediciones del Organismo de Evaluación y Fiscalización Ambiental (OEFA) en 2013 y 2015, más del 90% de las localidades evaluadas presentan estándares de calidad ambiental superiores a lo establecido. Los distritos de Agustino y Santiago de Surco son las zonas que presentan alta presión acústica, mientras que solo 19 de los 224 puntos evaluados cumplieron con los Estándares de Calidad Ambiental (ECA) para el ruido (El Comercial, 2016). Agregando que, según el Reporte Urbano de Percepción Ciudadana del año 2022, el nivel de ruido implica uno de los problemas ambientales con mayor relevancia que son percibidos por la población de Lima Metropolitana. Según el informe, el 70.4% de los habitantes de Lima Sur expresaron su insatisfacción en relación con la regulación de los niveles de ruido en la vía pública (Alegre Escorza et al., 2022). 16 Frente a ello, las municipalidades utilizan la planificación urbana como una herramienta crucial para prevenir los riesgos socio-ambientales, debido a que en países en proceso de crecimiento esta suele estar rezagada respecto a las necesidades actuales, lo que resulta en medidas correctivas tardías en lugar de medidas preventivas eficientes (Ramírez, G. & Domínguez, C., 2011). Un ejemplo claro de esta situación es la inauguración del "By-pass" del Óvalo Monitor Huáscar, presentado como una medida para facilitar la circulación vehicular en el límite de dos distritos. No obstante, tanto expertos como conductores señalan que este proyecto no ha logrado resolver la congestión vehicular en dicha zona. (El comercio, 2022) En respuesta a esta problemática, la formulación de políticas se ha erigido como una medida crucial adoptada por los gobiernos para abordar los problemas asociados al ruido. Dichas políticas suelen fundamentarse en una curva de exposición-respuesta, que ilustra la reacción del público ante la exposición al ruido (Ma et al., 2021). En este contexto, los métodos de evaluación económica se aplican para analizar las modificaciones en las infraestructuras de transporte desde una perspectiva de economía del bienestar. Esto implica la medición y valoración del impacto de las mejoras en el entorno urbano, contribuyendo así al rediseño de calles, plazas, intersecciones, centros de transporte y otras áreas de la urbe. (Jiang & Nellthorp, 2020). A lo largo de diversas investigaciones, se han empleado diferentes métodos de valoración para estimar los costos externos asociados al tráfico rodado, los cuales se basan en métodos de preferencia revelada y declarada. Para los métodos de preferencia revelada, se relacionan con el método de precios hedónicos (MPH). Sin embargo, presentan desventajas en cuanto a la valoración de la reducción del ruido del tráfico, ya que tienden a sobreestimar su valor. Por lo tanto, no se recomienda su uso para 17 generar valoraciones monetarias del beneficio derivado de la disminución del ruido (Bue Bjørner, 2004). Por otro lado, en el caso de la preferencia declarada, asociada al método de valoración contingente (MVC), a pesar de su naturaleza hipotética, ya que implica escenarios ficticios en las encuestas y preguntas sobre la disposición a pagar, puede ofrecer estimaciones razonables del valor de la reducción del ruido si las respuestas del MVC se interpretan correctamente por parte del encuestado (Ma et al., 2021). El MVC es aplicado con la finalidad de calcular los valores de diversos bienes y servicios, como el aire limpio, el agua pura, la biodiversidad y el patrimonio cultural. (Venkatachalam, 2004). Además, ha sido utilizado para evaluar los costos asociados con los impactos ambientales, como la contaminación por residuos y el cambio climático. (Champ et al., 2017) El desarrollo del MVC se ha orientado hacia cinco áreas clave: primero, la mejora de las representaciones de bienes y servicios para los encuestados; segundo, el perfeccionamiento de los métodos para recolectar la DAP de los individuos encuestados; tercero, el estudio del comportamiento estratégico de los individuos; cuarto, la exploración de la insensibilidad al alcance; y finalmente, el desarrollo de modelos de VC para una mejor estimación de los valores de la DAP. (Quy, V & Trung, D., 2023) En los últimos 20 años, se registraron múltiples avances considerados significativos para poder aplicar los modelos de regresión de intervalo para estimar la Disposición a Pagar (DAP) en estudios que contemplan Valoración Contingente. Entre estos avances, destaca el empleo del aprendizaje automático (ML), que se integra estrechamente con la tecnología y los métodos estadísticos. Por lo general, los 18 algoritmos de ML son entrenados mediante conjuntos de datos para realizar predicciones sobre nuevos conjuntos de datos, aprendiendo de estos al identificar patrones y relaciones (Mahesh, B., 2020). Este proceso de entrenamiento es iterativo: inicialmente se entrena el algoritmo con los datos disponibles, se evalúan los resultados obtenidos y, en base a esta evaluación, se ajusta y se vuelve a entrenar el algoritmo con datos actualizados. Se ha comprobado la eficacia de los algoritmos de aprendizaje conjunto en una variedad de tareas, incluyendo la clasificación. El progreso notable en el ámbito del aprendizaje automático en las últimas décadas lo ha consolidado como una herramienta poderosa capaz de abordar diversos problemas con eficacia. (Quy, V & Trung, D., 2023) En relación a lo planteado, el principal objetivo dispuesto es poder desarrollar e implementar un enfoque innovador que combine la valoración contingente con el aprendizaje automático para predecir con mayor precisión la DAP por la minimización del ruido provocado por el tráfico en el Bypass del Óvalo Monitor Huáscar, ubicado en los distritos de Santiago de Surco y La Molina. 1.2. Formulación del Problema: Dado el impacto negativo del tráfico rodado en la calidad de vida de la población peruana, especialmente en los distritos contiguos de Santiago de Surco y La Molina, debido a la contaminación acústica generada por el Bypass del Óvalo Monitor Huáscar, se plantea como finalidad lograr una correcta metodología para la percepción de la Valoración Contingente y el impacto real del ruido, vinculados al uso novedoso de Machine Learning, siendo este un método que permite predecir la DAP de los participantes, obteniendo así la percepción monetaria de las molestias percibidas por 19 la problemática, con la necesidad de lograr la minimización del ruido causado por el tráfico rodado. Una vez entrenado el modelo, se podrían realizar predicciones sobre el DAP de la población en general o de subgrupos específicos en función de diferentes escenarios de reducción del ruido. Estas predicciones podrían proporcionar información valiosa para la ejecución de la toma de decisiones de las autoridades competentes y los planificadores urbanos en relación con la implementación de medidas para minimizar el impacto del tráfico rodado que afecta la calidad de residencia. 1.2.1. Problema General: ¿Cómo se puede desarrollar una metodología de valoración contingente de ruido generado por el tráfico rodado en el Bypass del Óvalo Monitor Huáscar, utilizando Machine Learning, para predecir la disposición a pagar por parte de la ciudadanía en los distritos de Santiago de Surco y La Molina, con el fin de reducir la molestia provocada por este agente de contaminación? 1.2.2. Problemas Específicos ⮚ ¿Cómo podemos establecer una herramienta eficaz para recolectar información sobre la situación y la percepción de los ciudadanos frente a la problemática del ruido causado por el tráfico rodado en el Bypass del Óvalo Monitor Huáscar? ⮚ ¿Se podrá estimar el valor económico que la ciudadanía está dispuesta a pagar por la implementación de medidas para reducir el ruido del tráfico en el Bypass del Óvalo Monitor Huáscar? (identificar el algoritmo que tiene una mayor precisión) 20 ⮚ ¿Qué métrica se puede emplear para la predicción de la disposición a pagar de la ciudadanía? ⮚ ¿Qué algoritmo de Machine Learning es el más adecuado para la valorización económica? 1.3. Objetivos de la Investigación 1.3.1. Objetivo General Desarrollar una metodología de valoración contingente de ruido generado por el tráfico rodado, utilizando Machine Learning, que permita predecir la disposición a pagar por parte de los ciudadanos para minimizar la molestia provocada por este agente de contaminación en el Bypass del Óvalo Monitor Huáscar, ubicado en los distritos de Santiago de Surco y La Molina. 1.3.2. Objetivos Específicos ⮚ Establecer una herramienta para recolectar información de la situación y la percepción de los ciudadanos frente a la problemática de ruido por el tráfico rodado del Bypass del Óvalo Monitor Huáscar ⮚ Determinar el rango de monto económico que la ciudadanía está dispuesta a pagar para la implementación de medidas con la finalidad de reducir el impacto del ruido de tráfico rodado en el Bypass del Óvalo Monitor Huáscar. ⮚ Identificar y seleccionar una métrica apropiada para la predicción de la disposición a pagar de la ciudadanía. ⮚ Evaluar y determinar el algoritmo de Machine Learning más adecuado para la valorización económica del impacto de la reducción del ruido causado por el tráfico rodado del Bypass del Óvalo Monitor Huáscar en los distritos de Santiago de Surco y La Molina. 21 1.4. Justificación de la Investigación 1.4.1. Teórica Los algoritmos de aprendizaje automático pueden predecir la disposición a pagar. Son capaces de captar patrones intrincados que ayudan a prever cómo se comportaría una población en diversas circunstancias futuras. Cuando se aplica a una valoración económica contingente, puede utilizarse para medir con precisión la disposición a pagar por la minimización del ruido del tráfico. 1.4.2. Práctica Una vez concluido el estudio, se recopilarán datos sobre la calidad de vida de los habitantes de los distritos de Santiago de Surco y La Molina afectados por el tráfico y la contaminación acústica provocados por la Variante Oval del Monitor Huáscar. Predecir la DAP de las personas por la reducción del ruido permitirá juzgar mejor la distribución de los recursos y la aplicación de políticas para abordar diversos problemas en el entorno urbano. 1.4.3. Metodológica Debido a la situación que involucra a la problemática evaluada en el presente estudio, la finalidad de generar una metodología enfocada en brindar la percepción de la ciudadanía en términos económicos (DAP), valiéndose del soporte de los algoritmos de Machine Learning, ya que no es una herramienta tradicional de análisis para la predicción involucrando datos recopilados de encuesta a las personas (valoración contingente) y los monitoreos de ruido para puntos determinados en toda el área de estudio. Toda la metodología desarrollada busca 22 generar una apreciación para la toma de decisiones y el análisis de las situaciones problemáticas, buscando una salida para la ejecución de proyectos. 1.5. Delimitación del Estudio El presente estudio refleja las tres características porque toda investigación debe tener una delimitación centrada en la evaluación de los aspectos espacial, temporal y conceptual. El aspecto espacial (I): ubicado entre La Molina y Santiago de Surco, el Bypass Oval Monitor Huáscar ocupa toda la región durante la fase de pruebas. Debido a su relación directa con el problema del proyecto de contaminación acústica relacionada con el tráfico rodado, la investigación se limitará a esta zona geográfica. Además, en la elección de los lugares de muestreo se tuvieron en cuenta las características óptimas para la seguridad y la fuente de emisión, que es el flujo vehicular. El aspecto temporal (II): con el fin de llevar a cabo con precisión la recopilación de datos y análisis posterior (cuestionarios) de los puntos de muestreo, la investigación se desarrollará a lo largo de unos dos meses. Esto se hará teniendo en cuenta los criterios metodológicos que ya se han revisado y también teniendo en cuenta los numerosos precedentes de investigación que se han revisado. El aspecto conceptual (III): la relación entre la DAP y la contaminación acústica provocada por los vehículos en el Bypass del Óvalo Monitor Huáscar para minimizar su impacto. Para modelar la DAP de la población se tienen en cuenta variables que afectan a la calidad de vida, la percepción del ruido, la demografía y otros elementos pertinentes. Para resolver esta cuestión y proporcionar información útil para la toma de decisiones, el estudio se centrará en la aplicación de algoritmos de ML. 23 CAPÍTULO II: MARCO TEÓRICO 2.1 Antecedentes de la Investigación En esta sección se presentan investigaciones anteriores, incluidas tesis artículos académicos publicados tanto en el país como en el extranjero. La presente investigación se desarrolló y justificó a partir de los fundamentos teóricos, experimentales y metodológicos aportados por estos estudios. 2.1.1 Artículos relacionados Contingent valuation Machine Learning (CVML): a novel method to estimate citizens' willingness to pay for a safer and cleaner environment. (Van, Quy. et al., 2023) El estudio aborda principalmente la estimación de la demanda de los residentes para mitigar la contaminación ambiental y el cambio climático. La medición de la contribución financiera de los contribuyentes a las actividades ambientales puede ser crucial para los formuladores de políticas y planificadores en el desarrollo de estrategias más sólidas. Entre los enfoques utilizados, la Valoración Contingente (CV) destaca como uno de los métodos más comúnmente empleados, basado en encuestas para estimar el valor económico de productos y servicios no comercializables. CVML, un modelo híbrido de aprendizaje automático, consta de dos módulos interconectados: un algoritmo de aprendizaje no supervisado y otro supervisado. Este modelo puede utilizar una cantidad limitada de datos de encuestas para predecir con alta precisión la disposición de los hogares a pagar por mitigar la contaminación ambiental, lo que sugiere su aplicabilidad en economía ambiental y ciencia de la sostenibilidad. El objetivo es demostrar la eficacia y practicidad de 24 CVML para predecir con precisión la disposición de los hogares a pagar por la mitigación del aire contaminado, utilizando una cantidad limitada de datos de encuestas, y resaltar sus potenciales aplicaciones en los campos mencionados. CVML representa una innovación al incorporar la valoración contingente y el aprendizaje automático para estimar la demanda residente de contaminación ambiental y mitigación del cambio climático. El Módulo I contiene un algoritmo de aprendizaje no supervisado (K-Means) y el Módulo II contiene un algoritmo de aprendizaje supervisado. El Módulo I organiza los datos según características comunes, mientras que el Módulo II utiliza estos datos para predecir los valores de las variables dependientes. El método se aplicó a una encuesta sobre la contaminación del aire en Hanoi en 2019, donde CVML predijo con precisión la disposición de los hogares a pagar por la mitigación del aire contaminado con más del 90% de precisión. Estos resultados sugieren que CVML es un método poderoso y práctico, con amplias aplicaciones en economía ambiental y ciencia de la sostenibilidad. Finalmente, el artículo demuestra la eficacia del aprendizaje automático de valoración contingente (CVML) para estimar la disposición de los residentes a pagar por la mitigación de la contaminación ambiental y el cambio climático, con hallazgos que respaldan su utilidad y precisión. El modelo CVML tiene el potencial de volverse más confiable cuando se aplica a conjuntos de datos más grandes y da soporte al método de estimación de la DAP debido a su bajo costo y alto rendimiento lo que puede ayudar a los tomadores de decisiones a mejorar los recursos financieros disponibles para mantener y/o apoyar aún más muchos programas ambientales en los próximos años. 25 Improving noise policies in South Korea: non-market valuation based on an impact pathway approach (Kang et al., 2020) El estudio describe cómo evaluar el valor no de mercado de la reducción del ruido en Corea del Sur. El módulo de vías de impacto físico y el módulo de análisis económico son los principales componentes de un módulo de análisis integrado propuesto. En el análisis de la vía de impacto físico se utilizó un modelo Probit ordenado para crear una función dosis-respuesta que ilustra la relación entre los niveles de ruido y los niveles de irritación humana. Se observó que la probabilidad de sentirse muy molesto o muy molesto aumentó con el nivel de ruido. En el análisis económico se utilizó el método de valoración contingente para determinar la DAP de los encuestados para reducir las molestias causadas por el ruido. Los autores proponen un módulo de análisis integrado que consta de tres partes: (1) una función de respuesta a la dosis que explica la relación entre la exposición al ruido y la molestia, (2) el cálculo de la disposición a pagar para reducir los niveles de ruido utilizando el modelo de pellizco en la evaluación del valor de mercado, y (3) la combinación de los pasos 1 y 2 para calcular los beneficios del valor de mercado. Esto se aplica para analizar el valor de la reducción del ruido en Corea del Sur, centrándose específicamente en el ruido generado en las obras de construcción. Se utilizó un modelo de elección dicotómica y se tuvo en cuenta la alta proporción de respuestas de DAP cero. Los resultados mostraron que el valor de una mejora de 1 dB en el ruido oscilaba entre 3,94 USD (4578 KRW) y 4,99 USD (5794 KRW), dependiendo del nivel inicial de ruido. Se concluyó que el enfoque propuesto puede mejorar la evaluación de proyectos de Investigación y Desarrollo al considerar tanto los valores de mercado como los no comerciales. En términos de contribuciones y aplicaciones potenciales, el estudio ofrece un marco sólido para 26 analizar los beneficios no comerciales, especialmente en el contexto de políticas ambientales. Este enfoque puede ser útil para futuras investigaciones y decisiones de políticas relacionadas con la reducción del ruido y otros aspectos ambientales, no solo en Corea del Sur, sino también en otros lugares. En resumen, el estudio proporciona una metodología integral para evaluar el valor no comercial asociado con la reducción del ruido, lo que puede ser fundamental para mejorar las políticas ambientales y de desarrollo. Contingent valuation of road traffic noise: A case study in China (Ma et al., 2021) El objetivo principal del desarrollo de este documento de estudio es evaluar económicamente de la gestión del ruido con el fin de respaldar los elevados costes potenciales asociados a la mitigación del ruido del tráfico rodado en China. El objetivo era determinar cuánto estarían dispuestos a pagar los residentes por la reducción del ruido del tráfico rodado, los factores socioeconómicos y las directrices para la gestión económica real de futuros proyectos de reducción del ruido en China. El principal problema del artículo es cómo cuantificar y valorar adecuadamente los efectos del ruido del tráfico en la calidad de vida y el bienestar de las personas. El planteamiento se basó en una encuesta social de valoración económica contingente que comprendía un escenario de valoración y un formulario de pago (una donación para apoyar la iniciativa financiada por el gobierno sirvió como representación de este último). Se estableció de esta forma, debido a que estudios previos a esta investigación que establecieron la forma de pago como un impuesto, causó muchas dudas o confusión en los encuestados, lo que da a lugar a respuestas de protesta. Los resultados mostraron que el 71.9% de las encuestas declaran un DAP positivo para la reducción de ruido y 28.1%, se declararon en cero 27 (14.7% son pagos de cero legítimos y 13.4% son pagos cero de protesta). Considerando el pago de cero legítimo, los hogares estaban dispuestos a gastar una media de 162,64 RMB en la reducción del ruido. El estudio concluye con la curva de relación exposición-respuesta que reveló lo siguiente: el número de personas muy enfadadas aumentando rápidamente con la exposición al ruido de tráfico rodado, especialmente con un nivel alto de ruido. Si bien el autor no menciona los proyectos que podrían ser financiados con el dinero calculado en esta investigación; sin embargo, detalla que este monto servirá como referencia en la ejecución de futuros proyectos vinculados al control de ruido público en China. Economic value of traffic noise reduction depending on residents’ annoyance level (Kim et al., 2019) Este estudio analizó la disposición de los residentes a pagar por la reducción del ruido del tráfico en relación con lo molesto que resulta. La técnica de valoración contingente (MVC) fue la metodología utilizada en esta investigación y mediante una encuesta para analizar cuánto estarían dispuestos a pagar, se aplicó a 1,022 personas entre 20 a 65 años en Seúl, Gyeonggi y otras seis ciudades metropolitanas en Corea. El autor mencionó que el MVC es una metodología utilizada para medir beneficios económicos y aunque se reconoce que presenta varias limitaciones, es muy utilizada por parte de economistas y los formuladores de políticas para evaluar los beneficios que no son de mercado. Por otro lado, utilizó el modelo de diferencia de utilidad de Hanemann para analizar la disposición a pagar para reducir los niveles de ruido. Los resultados de esta investigación mostraron que los encuestados estarían dispuestos a pagar un promedio de KRW 6,752.65 para no tener problemas de estrés 28 o molestias causadas por el ruido de tráfico de carreteras y vías férreas. Asimismo, se realizó un análisis adicional para examinar los efectos de varias variables en la disposición a pagar de los encuestados considerando características sociodemográficas de los encuestados, nivel de molestia y el nivel de ruido promedio de ubicación. En este análisis, se determinó que las personas que estaban extremadamente molestas por el ruido estaban dispuestas a pagar aproximadamente KRW 6,040 por la póliza. Finalmente, se concluyó que un cambio de molestia sigue una función polinomial en lugar de una función lineal. Esto se debe a que los ruidos de transporte de las carreteras y los ferrocarriles, el ruido de las turbinas eólicas, el ruido industrial y el ruido de los vehículos aéreos se producen de forma relativamente irregular, lo que provoca que la pendiente sea pronunciada. Del mismo modo, mencionó que el cambio de molestia sigue una función polinomial, la variación en los niveles de molestia sigue una función polinomial, las variaciones en los niveles de molestia del ruido del tráfico pueden ser grandes, dependiendo del área de vivienda de los encuestados. Valuing transport noise impacts in public urban spaces in the UK: Gaps, opportunities and challenges (Jiang & Nellthorp, 2020) En este artículo de investigación, estaba enfocado en discutir las brechas, oportunidades y los desafíos de una metodología nacional para evaluar el ruido del transporte urbano en espacios verdes de Reino Unido. La metodología a desarrollar consistió en una búsqueda bibliográfica de referencias a metodologías de evaluación económica, ampliamente utilizadas para analizar los cambios en las redes de transporte desde la perspectiva de la economía 29 del bienestar. Según este análisis, la mayoría de los estudios sobre la evaluación financiera de los impactos acústicos han utilizado el enfoque de preferencias del modelo hedónico de precios de la vivienda para investigar cómo los cambios en los precios de la vivienda reflejan la disposición de las personas a pagar por una menor exposición al ruido. En una línea similar, se están utilizando técnicas de preferencia expresada como el valor contingente y los experimentos de elección. Sin embargo, el autor señaló que utilizando el método de valoración contingente tiene un alcance y una aplicación efectiva en espacios urbanos para la reducción de ruido. En el caso de valoración contingente, las brechas críticas que deben incluir son las vías de impacto de ruido de transporte sobre las personas, las relaciones dosis-respuesta en los espacios urbanos y la DAP por parte de las personas por la calidad ambiental del sonido en estos lugares. Asimismo, el autor indica que el desarrollo de evaluaciones en entornos sonoros de fuentes múltiples que, a su vez, reconoce las interdependencias con otros atributos de la calidad lugar y diferentes usos del ámbito urbano, permitirá estructurar el valor de los cambios de ruido de tráfico en el entorno urbano. 2.1.2 Tesis relacionadas Valoración económica de la minimización de la contaminación sonora por el parque automotor en el distrito de Miraflores, Arequipa – 2019 (Castañeda, 2019) El propósito de esta tesis fue establecer una conexión entre la reducción de la contaminación sonora y el valor económico producido por el parque automotor en el barrio de Miraflores de Arequipa. 30 A través de una encuesta, se aplicó la metodología del enfoque de valoración contingente, con el fin de determinar si los pobladores del distrito de Miraflores están dispuestos o no a pagar por los problemas ocasionados por el parque automotor. Esto permitirá identificar las fuentes de ruido, el grado de molestia causado por los vehículos y las actividades cotidianas que se ven impactadas. Por último, los datos revelan que el 56,5% de los encuestados conocen la existencia de una iniciativa de reducción del ruido en todo el distrito. Entretanto, el 43,5% de las personas no pagaría para disminuir las molestias sonoras. Sin embargo, el 31,7% de los encuestados cree que el Estado o el municipio deberían encargarse de esta cuestión. También fue factible determinar los beneficios sociales estimados utilizando técnicas como experimentos de elección y valoración contingente, que dan como resultado un hipotético ingreso anual de S/ 392,984 soles por mejorar la calidad ambiental en relación al ruido. Valoración económica ambiental de la contaminación auditiva del transporte en la ciudad de Ayacucho (Acosta Espinoza, 2019) El objetivo de esta tesis fue cuantificar la valoración económica ambiental de la contaminación auditiva del transporte público a través del DAP. La metodología utilizada fue a partir de un enfoque de valoración contingente mediante la medición de puntos de ruido y aplicación de una encuesta. A partir de la información recogida, se realiza una estimación econométrica, donde la mejor opción es mediante un modelo de Probit ordenado. De igual forma, con la información recogida de mediciones sonoras, se elaboró el mapa de ruido mediante el software ArcGIS 10.5. 31 Finalmente, se determinó que la disposición a pagar por parte de las personas es un valor medio de 3.08 PEN, este valor expresado en una cifra anual equivale a un valor económico de la contaminación auditiva es de 11.52 USD por vivienda. Una solución que propone el autor es la colaboración de autoridades tanto la Policía Nacional y los gobiernos distritales y regionales para controlar el uso inadecuado de la bocina, donde se apliquen sanciones drásticas a los conductores. De i Valoración económica contingente del ruido de tráfico rodado mediante Redes Neuronales Artificiales (Bravo Moncayo, 2017) El objetivo principal del estudio era crear un sustituto viable de la valoración contingente del ruido del tráfico rodado mediante el empleo de Redes Neuronales Artificiales (RNA) para prever la disposición a pagar de los ciudadanos para disminuir el impacto que causa este agente contaminante. La metodología se basa en un comité de RNA extraídas de una muestra representativa de la población de Quito para valorar de forma contingente el ruido del tráfico rodado. Para ello, es necesario realizar mediciones para conocer el grado de exposición al ruido vehicular, diseñar y aplicar una encuesta para conocer la perspectiva social, definir los aspectos econométricos de la valoración y, por último, abordar la configuración y entrenamiento del comité de RNAs. Este proceso tiene por objeto comparar dos modelos de predicción, tanto el modelo econométrico ordenado Probit y el de las RNA. Para reducir el agravamiento del ruido del tráfico, la mediana del resultado de la DAP variaba entre 10,4 y 20,8 dólares anuales. Además, el estudio demostró que la variable de exposición al ruido y la DAP de los individuos tenían una conexión adversa. Comparativamente, la creación de un comité de RNA puede ser un 32 instrumento útil en la evaluación, formulación y ejecución de políticas públicas destinadas a minimizar la contaminación acústica en el medio ambiente. En resumen, el modelo propuesto basado en la Red Neuronal Artificial superó al modelo econométrico Probit ordenado en un 85,7% en términos de porcentaje de error medio ponderado a la hora de predecir los rangos de DAP. 2.2 Bases Teóricas 2.2.1 Contaminación acústica Según el DRAE, la contaminación es comprendida como la perturbación nociva de la normalidad de las condiciones de una cosa o medio como resultado de agentes químicos o físicos. Por otro lado, según la Real Academia Española define de la palabra acústica se define como elemento de la ciencia física enfocado en producir, controlar, transmitir, recepcionar los sonidos, siendo ultras o infra. Por lo que, la contaminación acústica sería la alteración nociva al medio ambiente en condiciones normales mediante un agente físico que es el ruido. Además, otros autores definen este concepto como los cambios en las determinadas características físicas del medio provocado por la conjugación de sonidos, ya sean deseables o no (a estos últimos se les llama ruido), considerados de forma directa o indirecta para perjudicar la salud, seguridad y bienestar de los humanos (D’Agosto, 2019). 2.2.2 Sonido El fenómeno físico que se produce cuando un elemento fuente comienza a vibrar de una forma determinada se conoce como sonido. Se trata de la fuente del sonido, donde la vibración se transmite al receptor, en este ejemplo, el oído y el cerebro humanos, a través de un medio de propagación, donde tiene lugar la percepción. 33 Todo sonido que se percibe, pero no se desea o no es deseable, es decir, todo sonido que se considera molesto o perjudicial para el receptor, se denomina ruido. (Avilés López & Perera Martín, 2017). 2.2.3 Ruido Del mismo modo, según Fairén (1987) citado por (Rodríguez Casals, 2015) nos indica que el ruido se considera como un ruido, que son fácilmente perceptibles, carecen de cualidades agradables o informativas para quien los escucha, y resultan molestos, perjudiciales o peligrosos debido a su grado de intensidad y durabilidad, así como a las reacciones psicofísicas que pueden provocar. 2.2.4 Valoración económica El propósito de la actividad económica radica en aumentar el bienestar de los individuos, quienes tienen preferencias claras por diferentes conjuntos de bienes (Vásquez Lavín et al., 2007). Por lo tanto, el valor viene determinado por las preferencias subjetivas de las personas, cuyo objetivo es maximizar el bienestar reduciendo los costes. Esto significa que los recursos naturales y los servicios medioambientales se les asigna un valor monetario (Bravo Moncayo, 2017). ● Valoración económica de ruido ambiental: De acuerdo con Ferrón- Vílchez et al. (2015) mencionado en Bravo Moncayo (2017), se indica que la valoración económica proporciona información relevante y útil para establecer los niveles de regulación ambiental mediante la implementación de estándares. Esto permite tener una base para establecer multas, impuestos o subsidios con el fin de alcanzar los objetivos de calidad ambiental establecidos. 34 2.2.5 Método de valoración contingente En la necesidad de encontrar una economía eficiente, se requiere contrastar las ventajas ganadas y los costos suscitados para intervenir en el espacio; pero, la presencia de factores externos y la situación creciente de aquellos recursos naturales con características de ser bienes semi o públicos desencadena que los mercados presenten dificultad de seguir la dirección correcta con la finalidad de aumentar el bienestar (Vásquez Lavín et al., 2007). Esto ha permitido debatir acerca de la naturaleza metodológica; por lo que, en el año 1993, NOAA, presidida por Arrow Solow, se mostró a favor de la valoración contingente como una herramienta de estimación de valores de aquello que no se usa, debido a que puede generar valores fiables que se consideran un punto inicial para estimar los perjuicios o beneficios al medio ambiente y sus recursos, concluyeron que la disposición a pagar es considerada un proceso apto para dicho tipo de investigación (Arrow et al., 1993). Una técnica para estimar el valor de las cosas (bienes o servicios), sin valor de mercado es el método de valoración contingente. Es bastante sencillo cuando se piensa en él intuitivamente: todo lo que implica es sondear a clientes potenciales para crear la ilusión de un mercado. Los clientes piden el precio más alto que podrían pagar por el bien, igual que con otros productos. Una de las cuestiones sobre las que los académicos no están de acuerdo es la técnica teórica ideal para combinar los datos. Una muestra de la población se pregunta sobre su DAP (o recibir pago) por un bien dado bajo el enfoque de valoración contingente. En consecuencia, se tiene un conjunto de valores de la encuesta a cada persona que responde. Se suele elegir la media o la mediana del valor adquirido en la muestra para gestionar el valor comparable para el conjunto de la población; a 35 continuación, el valor medio o mediano se multiplica por el número de individuos de la población en cuestión. (Riera, 1994). 2.2.6 Machine Learning En el paradigma simbólico de la IA conocido como programación clásica, las personas introducen reglas, o programas, y luego los datos se procesan de acuerdo con estas reglas para producir respuestas, este proceso se puede evidenciar en la Figura N°1. Según Chollet (2018) “el aprendizaje automático implica que las personas ingresen datos, lo que genera respuestas y reglas esperadas. Puede aplicarse estas reglas a datos nuevos para obtener respuestas originales”. Figura N° 1:Machine Learning Nota. Obtenido de Chollet (2018). Machine Learning implica desarrollar sistemas capaces de aprender de forma automática. En esencia, el dispositivo o programa informático utiliza un algoritmo determinado; analizando los datos, este sistema es capaz de pronosticar acciones específicas. Sin ayuda humana, el sistema mejora con el tiempo y se vuelve más preciso en sus previsiones. Por ejemplo, un modelo puede predecir si alguien comprará un producto en función de su historial de compras previas (Mathivet, 2017). 36 Se pueden utilizar tres categorías respecto algoritmo de aprendizaje automático, sin embargo, utilizaremos solo el siguiente: ● Aprendizaje supervisado Utilizada para tareas de estimación, previsión, regresión y clasificación. ● Aprendizaje no supervisado Se utiliza para hacer Clustering y no produce ningún resultado previsto. Todo lo descrito anteriormente, se ve en la siguiente Figura N°2: Figura N° 2: Aprendizajes de Machine Learning Nota. Obtenido de Khadka (2017). 2.3 Marco Conceptual 2.3.1 Estándares de calidad ambiental para ruido El "Reglamento de Normas Nacionales de Calidad de Ruido Ambiental" fue establecido en 2003 por el gobierno peruano bajo el DS N°085-2003-PM con el objetivo de salvaguardar la salud, el bienestar y la calidad de vida, así como 37 fomentar prácticas sostenibles. Además, es un requisito para formular y llevar a cabo la política nacional. Además, proporciona definiciones para una serie de terminología utilizada en esta investigación: a) Acústica: Liberación de energía mecánica en forma de ruido, vibración, vibración, infrasonido, sonido y ultrasonido. b) Barreras acústicas: Instrumentos ubicados entre la fuente de emisión y el receptor reducen la transmisión del sonido en el aire, evitando que este impacte directamente sobre el receptor. c) Contaminación acústica: Nivel de ruido en el entorno externo o dentro de los edificios, que puede representar riesgos para la salud y el bienestar humano. Decibelios (dB): Una medida adimensional empleada para indicar el logaritmo de la relación entre una cantidad medida y una cantidad de referencia. De este modo, los decibelios se emplean para describir la presión, la potencia o el sonido. d) Decibel A (dBA): Es una medida adimensional del nivel de presión sonora que puede registrarse de acuerdo con el comportamiento auditivo humano gracias al uso de un filtro ponderado A. e) Emisión: la cantidad de presión sonora en una zona específica provocada por una fuente de ruido cercana. f) Principales normas de calidad ambiental en materia de ruido: Son aquellas que consideran niveles de ruido en el ambiente exterior que no deben superarse para proteger la salud humana. Estos niveles corresponden a los correspondientes valores continuos de presión sonora ponderados A.Hora: Entre las 7:01 a.m. y 22:00 h.Horario nocturno: entre las 22:01 y las 7:00 a. m. del día siguiente. 38 g) Emisión: el correspondiente nivel de presión sonora constante percibido por un receptor en un lugar determinado con un peso diferente al de la ubicación de la fuente o fuentes de ruido. h) Instrumentos económicos: herramientas que emplean componentes del mercado para fomentar conductas ambientalmente responsables (como precios, impuestos, incentivos, entre otros). i) Monitoreo: Las mediciones y los datos sobre los parámetros que influyen o alteran la calidad del medio ambiente se obtienen mediante programación. j) Nivel de presión sonora equivalente continuo ponderado A (LAeqT): nivel de presión sonora equivalente con la misma energía total, medido a lo largo del mismo tiempo (T) y expresado en dB A. Se entiende por ruido cualquier sonido no deseado que ponga en peligro, perturbe o repercuta negativamente en la salud de las personas. k) Ruido exterior: Cualquier conmoción procedente de la estructura o ubicación de la fuente radioeléctrica. l) Sonido: energía que viaja a través del aire u otro material en forma de ondas de presión y que es detectada por el oído o por dispositivos de medición. m) Espacio comercial: área autorizada por la autoridad local responsable para la prestación comercial y de servicios. n) Áreas de contaminación acústica crítica: Son áreas que exceden un nivel de presión sonora continua igual a 80 dBA. o) Zona industrial: un área donde la administración local correspondiente ha otorgado permiso para actividades industriales. p) Áreas Mixtas: Regiones donde dos o más zonas de zonificación se encuentran contiguas o se combinan dentro de una misma área, como por ejemplo: 39 Residencial - Comercial, Residencial - Industrial, Comercial - Industrial o Residencial - Comercial - Industrial. q) Zona de protección objetivo: Es un área de alta sensibilidad acústica, que incluye partes del área que requieren especial protección contra el ruido, donde se ubican centros de salud, instituciones educativas, residencias de ancianos y orfanatos. r) Zona residencial: zona permitida de uso por la autoridad local correspondiente, identificada con viviendas o apartamentos que permiten concentraciones de población alta, media y baja. Finalmente, la norma define valores LAEQT para el día y la noche, que actúan como límite máximo de exposición acústica en diversas áreas de uso, estos se describen en la Tabla N°1 de los ECA para Ruido. Tabla N° 1: ECA para Ruido Valores declarados en LAQT Zona H. D. H. N. Especial 50 40 Residencial 60 50 Comercial 70 60 Industrial 80 70 Nota. Elaboración propia recuperado de D.S. 085-2003-PCM (2024). 2.3.2 Ordenanza N° 2419 -Prevención y Control de la Contaminación Sonora La ordenanza crea un marco regulatorio aplicado a controlar y prevenir la contaminación acústica que genera un daño en el ambiente y población, porque su propósito busca lograr un espacio sano, regulado y suficiente para el óptimo 40 desarrollo de la población. Esta norma aplica en toda la provincia de Lima y es de cumplimiento obligatorio en el área metropolitana y distritos de Lima. 2.3.3 Ordenanza N°2256 – Actualización del Sistema Metropolitano de Gestión Ambiental de la Provincia de Lima La ordenanza tiene por objeto actualizar el Sistema Ambiental Regional Capital, que tiene como objetivo integrar, coordinar, monitorear y garantizar la coordinación de actividades interinstitucionales encaminadas a proteger, preservar, mejorar el espacio ambiental y uso sustentable de los agentes naturales del lugar. Dentro de los límites de nuestro ordenamiento jurídico ambiental fronterizo y demás normativa aplicable. 2.3.4 Decreto Supremo N° 023 - 2021 MINAM Política Nacional del Ambiente al 2030 La "disminución de los bienes y servicios proporcionados por los ecosistemas" es un problema que afecta al desarrollo sostenible de los seres humanos y el medio ambiente, garantizando el bienestar de la población. Este reglamento aborda esta cuestión y apoya la política medioambiental nacional hasta 2030. La política incluye nueve objetivos prioritarios y refleja los nuevos planteamientos medioambientales. También tiene en cuenta la situación actual del mundo. Esta política se elaboró de forma participativa y descentralizada mediante comunicación bilateral y talleres a distancia con representantes del Ministerio competente, algunos organismos públicos, regionales e internacionales, la sociedad civil, organizaciones sociales, comunidades indígenas y representantes de los pueblos indígenas de la nación. 41 Los principales objetivos de la política ambiental nacional son: 1) Reforzar la salvaguarda de la variedad genética y de las especies. 2) Reducir la destrucción de los ecosistemas y la deforestación. 3) Disminuir la contaminación del suelo, el agua y el aire. 4) Impulsar la gestión adecuada de la eliminación de residuos sólidos. 5) Reforzar la respuesta de la nación a las consecuencias del cambio climático. 6) Reforzar las prácticas regionales de gestión medioambiental en los sectores público y privado. 7) Elevar el nivel de protección medioambiental en las cadenas de suministro y demanda de bienes y servicios poniendo en práctica la economía circular. 8) Reducir la producción nacional de gases de efecto invernadero. 9) Animar a los ciudadanos a comportarse de forma más sostenible. 2.3.5 Decreto Supremo N°008 2005 PCM Reglamento de la Ley Marco del Sistema Nacional de Gestión Ambiental La misión de la SNGA es supervisar, implementar y llevar a cabo planes, políticas, así como proyectos adicionales que promuevan la sostenibilidad y preservación del medio ambiente. El cumplimiento de la Constitución, la Ley de Descentralización, sus propias leyes orgánicas y leyes nacionales específicas rige el ejercicio del control ambiental por parte del gobierno nacional, los gobiernos regionales y los municipios. La forma de organización y 42 funcionamiento de los sectores primarios de la administración pública es congruente con la división de competencias.. La SNGA vela por que los distintos niveles de gobierno se relacionen adecuadamente entre sí y con las funciones y competencias ambientales. 2.3.6 Monitoreo de calidad del ruido ambiental La Resolución Ministerial Nº 227-2013 del Protocolo Nacional de Monitoreo de Ruido Ambiental 2011 del MINAM fue emitida por el gobierno peruano en 2013 con el objetivo de definir los protocolos, prácticas y métodos para poner en práctica el monitoreo de ruido ambiental. Adicionalmente, explica la intención de poner de relieve el creciente problema del ruido provocado por la circulación en el barrio de camiones ligeros, medianos y grandes. Se define el objetivo de la vigilancia, que incluye la fuente, la actividad que debe vigilarse y sus características acústicas. En consecuencia, las normas mínimas expuestas en este protocolo son las siguientes: ➢ Periodo de seguimiento: Aunque no se define el periodo de medición, se indica que debe realizarse durante un tiempo representativo de generación de ruido. En este documento es necesario examinar la contaminación acústica causada por los automóviles en movimiento. ⮚ Ubicación de los puntos de control: Se deben tener en cuenta los siguientes aspectos: Determinar el área de operación de acuerdo con la zonificación establecida en el plan de actividades. Evaluar los niveles de exposición al ruido ambiental equivalente (ECA). Considerar la dirección del viento, ya que puede influir en la dispersión del ruido. Identificar las áreas que señalan la ubicación 43 de la fuente de ruido. Seleccionar puntos de medición que indiquen las coordenadas de cada ubicación relevante en el área representativa, incluyendo la ubicación de la fuente emisora y el receptor. Describir detalladamente el área a ser monitoreada, incluyendo la posible presencia de superficies reflectantes y las condiciones climáticas pertinentes. ⮚ Descripción del entorno: la investigación preliminar del sitio se lleva a cabo con el objetivo: ⮚ Reconocer y caracterizar las fuentes de ruido. ⮚ Evaluar los posibles impactos del ruido en las inmediaciones y sus alrededores. Realice un trazado del emplazamiento que muestre los posibles puntos representativos regionales. ⮚ Medida: Los sonómetros deben tener las características descritas en las normas técnicas peruanas y deben estar calibrados por las autoridades ante INACAL. ⮚ Métodos de monitoreo: Para realizar el monitoreo de ruido ambiental se deben seguir los siguientes lineamientos generales: o El sonómetro debe mantenerse lo más alejado posible de la fuente de ruido así como del reflector. superficies (paredes, pisos, techos, otros objetos). o El técnico debe alejarse lo más posible del medidor para no protegerlo. o En caso de condiciones climáticas adversas, como lluvia, granizo, tormenta, medición. falla.Esto debe tenerse en cuenta al detectar un evento fuerte inesperado. o Determine o mida el ruido de fondo. o Ajustar el procedimiento de medición y las características del equipo según el tipo de ruido. 44 2.3.7 Técnicas de Aprendizaje Supervisado Simeone (2018) afirma que el objetivo del aprendizaje supervisado es predecir el valor de la etiqueta para una entrada x que no está presente en el conjunto de entrenamiento. Este método pretende ampliar las observaciones del conjunto de datos para incluir entradas nuevas. Un algoritmo que ha sido entrenado en una colección de correos electrónicos, por ejemplo, debería ser capaz de categorizar un nuevo correo electrónico que no estaba en el conjunto de datos inicial. ⮚ Algoritmo K-NN: El algoritmo K-NN (K-Nearest Neighbors) clasifica objetos basándose en las características de sus vecinos más cercanos, gráficamente se puede apreciar en la Figura N°3. Su objetivo es clasificar un punto de datos desconocido identificando la clase más prevalente entre sus vecinos más cercanos. El número de vecinos más cercanos que deben tenerse en cuenta para la categorización está representado por el parámetro K definido por el usuario. Aunque el algoritmo K-NN es bien conocido por ser sencillo y fácil de entender, el cálculo de la distancia entre un punto desconocido y todos los demás puntos del conjunto de entrenamiento puede dificultar su aplicación en conjuntos de datos enormes. Dependiendo del valor de K, el algoritmo K-NN puede funcionar de forma diferente. Un valor muy grande puede hacer que el clasificador no tenga en cuenta las diferencias locales, mientras que un valor muy pequeño puede hacerlo sensible a los valores atípicos. Es importante tener en cuenta que el valor de K debe ser un número impar para evitar vecinos iguales. 45 Figura N° 3: Explicación del Algoritmo KNN Nota. Elaborado por Maheshwari (2018). Para identificar la categoría de los nuevos datos se realizan las siguientes acciones: 1. Escoger Determinar el número de K (los más próximos). 2. Elegir el K más próximo al nuevo elemento en función de la distancia euclídea. 3. Determinar cuántos de los elementos vecinos de K pertenecen a cada categoría. 4. El nuevo elemento se añade a la categoría con mayor número de vecinos. La elección de k es importante, ya que establece el número de vecinos que hay que utilizar para evaluar lo bien que se puede aplicar el modelo a datos futuros. Los valores de k grandes disminuyen la varianza y el impacto de los datos ruidosos, pero también corren el riesgo de sesgar el conjunto de entrenamiento al descartar muestras pequeñas pero significativas. En consecuencia, independientemente de la clase vecina más cercana, el modelo predice sistemáticamente la clase mayoritaria. Tenga en cuenta que el uso de k=1 producirá valores atípicos y datos ruidosos que afectarán 46 injustificadamente a la clasificación de la muestra. KNN tiene sus ventajas que son: es simple y efectivo, no hace suposiciones sobre la distribución y tiene una fase de entrenamiento rápida. Sus desventajas incluyen: La falta de generación de modelos dificulta el análisis y la reutilización del modelo, lo que limita la comprensión de cómo las variables predichas (X) se relacionan con la clase predicha (Y). La elección de K es un punto diferenciador porque este parámetro debe elegirse correctamente, lo que puede ralentizar el paso de clasificación. ⮚ Árbol de decisión: Los modelos no paramétricos de aprendizaje supervisado, como los árboles de decisión, se utilizan para predecir a qué clase pertenecen valores o atributos conocidos (Arana, C., 2021). No se basa en parámetros fijos y sigue un enfoque no paramétrico. Su estructura representada en la figura N°4 se asemeja a un árbol jerárquico, compuesto por un nodo raíz, ramificaciones, nodos intermedios y nodos finales (o hojas). Figura N° 4: Estructura de un árbol de decisión Nota. Elaborado por Arana (2021). La participación binaria recursiva es el algoritmo empleado, debido a que se realizan particiones consecutivas de un subgrupo de datos, con el fin de aplicar 47 una decisión en base a una variable y generar subgrupos nuevos. El proceso de ramificación se realiza hasta un punto en el que se obtiene un clasificador; con cada nuevo dato se pasa a una nueva ramificación. Con este tipo de algoritmo se puede emplear para crear modelos de predicción con variables cuantitativas y cualitativas. En el árbol de decisiones se identifican los nodos de decisión, los cuales realizan las evaluaciones para la partición de los grupos de datos y de esa manera crear los nuevos subgrupos. Las posibles respuestas son representadas por los nodos terminales. Los árboles de decisión se pueden utilizar tanto en tareas de regresión como de clasificación. ⮚ Redes Neuronales Artificiales: Son un sistema de tratamiento de la información inspirado en el sistema nervioso y el cerebro de animales y humanos, formado por unidades simples llamadas neuronas que se comunican a través de conexiones controladas por señales de activación (Kruse, R. et al., 2022).Una red neuronal artificial (RNA) que utiliza un proceso de entrenamiento estadístico (procesamiento digital) capaz de predecir variables de salida o clasificar variables de entrada, Figura N°5; en el que se simulan los principios de funcionamiento del cerebro humano. Figura N° 5: Red Neuronal Nota. Elaborado por Parra (2019) 48 Según Bravo (2017), el principal atributo de las redes neuronales artificiales (RNA) es su capacidad de aprendizaje. Esta capacidad se consigue mediante una estructura neuronal en red que genera señales que alimentan a las neuronas aguas abajo, alterando así el comportamiento. Como elementos asociativos o de clasificación en las redes, estos nervios artificiales enlazan patrones de entrada y salida. Para ello, la red se "entrena" ajustando el peso de conexión en función de la potencia prevista (Sucar y Gómez, 2008). A. Funciones de activación: De acuerdo con Parra (2019), la función de activación de cada tarea se basa o determina por la neurona. Dentro de las funciones de activación más comunes del campo de las RNAs se pueden apreciar en la siguiente Figura N°6: Figura N° 6: Funciones de Activación Nota. Elaborado por Parra (2019) Las señales de activación en el cerebro determinan la fuerza y dirección de las conexiones entre neuronas, así como el nivel de activación que representa la información transmitida. Esta comunicación entre 49 neuronas facilita el procesamiento de la información, ya que la salida de una neurona se convierte en la entrada de otra. Las señales de activación influyen en las conexiones al generar conexiones más fuertes con señales de activación más intensas, lo que afecta el flujo de información. Estas señales permiten la transmisión de información entre neuronas y la actualización de conexiones durante el entrenamiento. Además, son fundamentales para reconocer patrones, clasificar datos y hacer predicciones basadas en las entradas recibidas. B. Arquitectura de las Redes Neuronales Artificiales: Una red neuronal artificial se compone de nodos o capas que funcionan de manera paralela, similar a las neuronas del cerebro humano. Consta de tres tipos básicos de nodos o capas: nodos de entrada, que reciben datos iniciales; nodos intermedios o capa oculta, presentes en la mayoría de las redes neuronales; y nodos de salida, que calculan y emiten respuestas. La arquitectura de las redes neuronales varía según el problema a resolver, destacando la Feedforward Neural Network, donde las conexiones entre capas son unidireccionales, permitiendo la transmisión de señales de entrada a salida sin retroalimentación (Parra, 2019). C. Feedforward Neural Network: En una red neuronal directa, cada neurona de una capa está conectada a todas las neuronas de la siguiente capa y las señales viajan en una dirección, de entrada, a salida. (Hassoun, 1995). La Figura N° 7 muestra una red neuronal directa con dos capas ocultas. El número de entradas está determinado por la información disponible para la clasificación, mientras que el número de neuronas de salida corresponde al número de clases a extraer. Cada 50 unidad de una capa está conectada unidireccionalmente a todas las unidades de la siguiente capa, normalmente con conexiones completas entre ellas. Esto significa que las salidas de cada unidad están ponderadas por el peso único de cada conexión. Figura N° 7: Red neuronal de propagación hacia adelante Nota. Elaborado por Villada (2011). ⮚ Clasificador Bayesiano: La técnica Naive Bayes es un clasificador que a menudo se crea o implementa debido a su simplicidad y velocidad, representado en la Fórmula N°1. Es una técnica de clasificación supervisada que crea modelos que realizan predicciones basadas en el teorema de Bayes (Parra, 2019). Fórmula N° 1: Teorema de Bayes 𝑃 (𝐴/𝐵) = 𝑃(𝐵/𝐴) ∗ 𝑃(𝐴) 𝑃(𝐵) Nota. Clasificador Bayesiano. Parra (2019). Cada instancia o cada valor tiene diferentes atributos que los caracteriza, para esto se debe conocer la clase de cada instancia. Teniendo como ejemplo, 51 debemos tener en cuenta las instancias o ejemplos de cada valor, los atributos y el tipo de clases, es decir en este ejemplo, si son positivos o negativos, como lo podemos evidenciar en la Figura N°8. Figura N° 8: Identificación de las instancias o ejemplos Nota. Clasificador Bayesiano elaborado por Parra (2019). 2.3.8 Orange Data Mining Toolbox Herramienta visual, aplicado para un aprendizaje automático y predictivo, en el cual nos permite trabajar con modelos sin contar en sí con conocimientos avanzados en programación y estadística. (Moriana Becerra, 2015). 2.3.9 Técnicas de validación: ⮚ Validación cruzada: un método evaluar los resultados de los exámenes estadísticos y asegurarse de que la distribución de los datos entre el entrenamiento y las pruebas no influye en ellos. Este procedimiento en la minería de datos de Orange implica doblar la recopilación de datos. A continuación, el algoritmo se pone a prueba clasificando los ejemplos de habilidades registrados, recurriendo a un modelo de otras habilidades y registrando los casos de cada habilidad de uno en uno. La repetición de este proceso para cada pliegue permite una estimación precisa del modelo. 52 ⮚ Random Sampling: Según Haro 2107, implica dividir aleatoriamente los datos en conjuntos de entrenamiento y prueba siguiendo una proporción especificada por el usuario. Este proceso se repite un determinado número de veces para obtener resultados más fiables y representativos. 2.3.10 Metodología KDD La metodología Knowledge Discovery and Data Mining (KDD) es un método asiático. Este proceso recupera datos basándose en una especificación métrica y consta de cinco pasos (Sánchez, M. y Pérez, J., 2023), de forma gráfica en la Figura N°16. ⮚ Elección: Especificar un conjunto de datos o verificar un subconjunto de los datos que se pueden encontrar ⮚ Procesamiento de datos: Se realiza una limpieza y preprocesamiento datos utilizables para obtener los datos de manera uniforme ⮚ Transformación: realizar los cambios necesarios en los datos utilizando métodos de normalización. ⮚ Minería de datos: explorar patrones basados principalmente en la predicción. ⮚ Evaluación e implementación: evaluación, interpretación y aplicación. Los datos extraídos se ejecutan. 53 Figura N° 9: Diagrama del proceso de KDD Nota. Elaborado por Flayyad (1996). El método KDD es multipaso, interactivo, iterativo e incorpora mucha toma de decisiones por parte del usuario (Fayyad, 1996). Este enfoque se modifica para adaptarse a las metodologías de proceso. 2.3.11 Support Vector Machine (SVM) Dado que la máquina de vectores de soporte (SVM), una técnica de aprendizaje supervisado, se basa en la detección de hiperplanos -que permite la mejor separación posible de puntos de datos de dos clases distintas-, se emplea con frecuencia en problemas de clasificación y regresión. Esta separación se conoce como "margen" porque se define como la distancia o ancho máximo de una región paralela al hiperplano que no representa información interna, esto se evidencia en la Figura N°10. La peculiaridad del algoritmo SVM es que el hiperplano sólo se encuentra en problemas que se benefician de la separación lineal, por consiguiente, en la mayoría de las aplicaciones prácticas para problemas tienden a maximizar el margen flexible y permiten un pequeño margen de error. 54 Figura N° 10: KDD Diagrama de Support Vector Machine (SVM) Nota. Elaborado por Mathworks (2020). Como se observa en la Figura N° 17, la existencia de vectores de soporte denota la existencia de un subconjunto de observaciones de entrenamiento que apuntan a la ubicación del hiperplano de separación. Por lo tanto, tiene sentido que la Máquina de Vectores de Soporte (SVM) tradicional esté optimizada para problemas que implican clasificación binaria; para problemas multi clase, sin embargo, se reduce a una serie de problemas binarios. Según IBM (2021), la SVM funciona correlacionando los datos en un espacio de características de enormes dimensiones, lo que permite clasificar los puntos de datos. Sin embargo, si algunos datos no pueden ser clasificados de esta manera, se genera un separador de algún tipo, permitiendo la extracción de un hiperplano y creando un nuevo registro para la categorización adecuada. 2.3.12 Matriz de Confusión Una matriz de confusión es una herramienta utilizada en el aprendizaje automático que facilita la visualización del rendimiento de un algoritmo de aprendizaje supervisado. Así, Barrios (2019) indica que cada columna de la matriz 55 corresponde a un conjunto específico de predicciones para una clase determinada, mientras que las filas representan las instancias reales de esa clase. Todo esto significa que esta herramienta le permite identificar y visualizar los tipos de éxitos y fracasos que exhibe un modelo al realizar y desarrollar el aprendizaje de datos. Como muestra la Figura N°11, la matriz de confusión determina 4 posibles variaciones o resultados, indicados de la siguiente manera: ⮚ Verdadero positivo: Tanto el valor real como la predicción de la prueba de tiempo de giro de un valor positivo son verdaderos. ⮚ Verdadero Negativo: La prueba de tiempo de giro predijo correctamente un resultado negativo, y el valor real es negativo. ⮚ Falso negativo: la prueba arrojó un resultado negativo a pesar de que el valor real es positivo. ⮚ Falso Positivo: La prueba predice un resultado positivo aunque el valor real sea negativo. Figura N° 11: Matriz de Confusión Nota. Elaborado por Barrios (2019). 56 Todas las opciones descritas anteriormente permiten desarrollar diferentes métricas basadas en la exactitud, precisión, sensibilidad y especificidad de la herramienta. Las métricas más importantes se describen a continuación: ⮚ Area Under Curve (AUC): Es una herramienta estadística que permite medir el acierto en la predicción de diferentes eventos binarios, en pocas palabras determinar el nivel en el cual ocurren o no, dichos eventos. En relación a lo descrito, la figura N°12 interpreta de la siguiente manera el valor de AUC: Figura N° 12: AUC = 1 Nota. Elaborado por Gonzalez (2019). Cuando el valor del AUC es 1 se comprende como una situación ideal debido a que las dos curvas no se sobreponen, lo cual permite distinguir de manera perfecta la clase positiva y clase negativa. 57 Figura N° 13: AUC = 0.7 Nota. Elaborado por Gonzalez (2019). Cuando el valor de AUC es 0.7, según la Figura N°13, se comprende que las distribuciones se superponen debido a la presencia de errores, y en función al umbral detectado estos últimos se pueden minimizar o maximizar. En otras palabras, se entiende que con un 70% de probabilidad el modelo puede distinguir entre clases positivas y negativas. Figura N° 14: AUC = 0.5 Nota. Elaborado por Gonzalez (2019). 58 Cuando el valor del AUC esa 0.5, según la Figura N°14, se considera como la peor situación ya que el modelo no presenta la capacidad de diferenciar entre las clases positivas y negativas, perjudicando el aprendizaje y alterando los posibles resultados. ⮚ Accuracy: Es una métrica que tiene como finalidad evidenciar y representar el porcentaje total de valores correctamente clasificados, ya sean los positivos o los negativos. Dicha métrica es recomendable su aplicación en los problemas donde sus datos se encuentran balanceados, es decir guardan una relación aproximada de 1:1 para cada etiqueta, y su cálculo se evidencia en la Fórmula N°2. Fórmula N° 2: Expresión Accuracy 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝐶𝑜𝑟𝑟𝑒𝑐𝑡 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑠 𝑇𝑜𝑡𝑎𝑙 𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑠 Nota. Elaborado por Gonzalez (2019). ⮚ Precision (PREC): Es una métrica utilizada para analizar qué porcentaje de valores que el modelo ha clasificado como positivo, presenta en realidad dicha clasificación. Dicho de otro modo, facilita la comprensión de la idoneidad de la construcción y aplicación del modelo a efectos de la formulación de juicios y modificaciones sobre los datos; se calcula utilizando la Fórmula nº 3. Fórmula N° 3: Expresión de Precision (PREC) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 Nota. Elaborado por Gonzalez (2019). ⮚ F1 SCORE (F1): Es una métrica que combina los valores obtenidos de Precisión y Recall, ya que el objetivo es comprender objetivamente la 59 evolución del modelo desarrollado. Esta suele ser utilizada en problemáticas en los que la cantidad de datos a analizar se encuentran desbalanceados, afectando y viéndose afectado de forma directa de las diferentes métricas presentes en su elaboración. La expresión para el cálculo se denota en la Fórmula N°4. Fórmula N° 4: Expresión de F1 Score (F1) 𝐹1 𝑆𝑐𝑜𝑟𝑒 = 2 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 Nota. Elaborado por Gonzalez (2019). ⮚ Sensitivity (Recall): Es una métrica conocida como la ratio de verdaderos positivos debido a que se utiliza para evidenciar y dar a conocer cuántos valores positivos han sido correctamente clasificados. Se expresa en la Fórmula N°5. Fórmula N° 5: Sensitivity (Recall) 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 Nota. Elaborado por Gonzalez (2019). ⮚ Matthews Correlation Coefficient (MCC): Es una herramienta diseñada para evaluar diferentes modelos porque se puede utilizar para evaluar la disparidad entre los valores observados y estimados Su valor es alto si la predicción realizada da buenos valores para las 04 clases de la matriz de confusión. La expresión que permite el valor MCC, se evidencia en la Fórmula N°6. Fórmula N° 6: Matthews Correlation Coefficient (MCC) TP: Verdadero positivo 60 TN: Verdadero Negativo FP: Falso positivo FN: Falso negativo Nota. Elaborado por Gonzalez (2019). 61 CAPÍTULO III: METODOLOGÍA DE LA INVESTIGACIÓN 3.1 Diseño de Investigación El planteamiento del problema, el alcance de la investigación y la formulación de hipótesis ayudan a construir la parte de diseño del proyecto de estudio actual. (Hernández & Mendoza, 2018), ya que teniendo en consideración lo mencionado por Hernández et al. (2014), este diseño permitirá definir qué estrategia emplear para la recolección de datos y el tratamiento de este con la finalidad de brindar una solución adecuada para el planteamiento inicial. 3.1.1 Enfoque Según Hernández & Mendoza (2018), el objetivo de la investigación cuantitativa es caracterizar, explicar y predecir las variables de estudio. Para ello, busca continuamente patrones y causas potenciales, es decir, desarrolla y pone en evidencia teorías. En relación con lo anterior, esta investigación emplea una metodología cuantitativa porque los pasos a seguir garantizan que los datos de las variables se obtengan de forma secuencial. La metodología se basa en determinar qué algoritmo de aprendizaje automático es el más adecuado para aprender la predicción de la Disposición a Pagar (DAP) utilizando datos numéricos y categóricos de la información recogida a través de encuestas. 3.1.2 Alcance de la Investigación De acuerdo con Hernández & Mendoza (2018), el alcance definido para una investigación puede consistir en ser exploratorio, descriptivo, correlacional o 62 explicativo, entendiendo por correlación a aquel proceso que pretende vincular fenómenos, hechos, conceptos o variables, de forma estadística. Basándonos en lo mencionado anteriormente, esta investigación se centrará en un alcance descriptivo, dado que Hernández et al. (2014) afirman que las investigaciones descriptivas pretenden identificar atributos y características significativos de cualquier evento objeto de estudio, incluidas las tendencias de la población o de los grupos. Para evaluar la problemática del ruido en la zona de nuestro estudio, hemos recopilado datos mediante encuestas y monitorización del ruido ambiental. El propósito de la encuesta utilizada es comprender la disposición a pagar de la población, considerando variables demográficas, molestias y el nivel de ruido. Esta información se procesa y se analiza mediante algoritmos de Machine Learning para ofrecer una estimación más precisa. 3.1.3 Diseño de la investigación Se utilizó un diseño de estudio transversal, no experimental. Dado que este estudio no cumple dos (02) de los tres (03) criterios necesarios para un diseño experimental: control o validez interna (no se han tomado medidas para aislar o controlar las variables independientes, lo que impide establecer con certeza una relación causal o directa) y manipulación deliberada de una o más variables independientes (no se han aumentado los niveles de ruido acústico de la zona de estudio), el estudio no tiene un diseño experimental. Dado que en estas investigaciones no es necesario alterar deliberadamente las variables independientes para ver su impacto en otras variables, el estudio tiene un diseño no experimental (Hernández & Mendoza, 2018). 63 Además, el tipo de diseño es transversal; puesto que, se ha recolectado datos en un momento y se busca analizar la influencia de la percepción social por el ruido ambiental del tráfico rodado en el Bypass del Óvalo Monitor Huáscar en la valoración económica contingente. 3.1.4 Población y Muestra En la Tabla N°2, se define a la población y la muestra relacionada a este trabajo de investigación. Tabla N° 2: Población y muestra del estudio Ítem Descripción Justificación Población Distritos de La Molina y Santiago de Surco. Ciudadanos de los distritos de La Molina y Santiago de Surco dentro del área de influencia del Bypass del Óvalo Monitor Huáscar. Muestra 1141 personas de los distritos de La Molina y Santiago de Surco. Las personas que viven cerca del bypass Óvalo del Monitor Huáscar, que pasa por las zonas de Santiago de Surco y La Molina, constituyen la población de mi tema de investigación. Se realizó un muestreo no probabilístico por conveniencia, el cual utiliza muestras derivadas de los casos que actualmente están a nuestro alcance, debido a que es difícil determinar el número exacto de individuos impactados por el ruido acústico en el área de influencia (Hernández & Mendoza, 2018). De acuerdo con la frase anterior, se entregaron encuestas a las personas que se encontraban en las inmediaciones del bypass Óvalo del Monitor Huáscar por una duración de dos (02) semanas, ya fueran trabajadores, estudiantes o residentes de la zona. Nota. Elaboración Propia (2024). 64 A continuación, en la Tabla N°3 se detalla la unidad de análisis y se describe la delimitación temporal de la investigación. Tabla N° 3: Unidad de análisis y delimitación temporal del estudio Ítem Descripción Justificación Unidad de análisis Cada persona que estudie, viva o resida en los distritos de La Molina y Santiago de Surco, cercanos al Bypass del Óvalo Monitor Huáscar. Se consideró a toda persona que estudie, viva o resida en los distritos de La Molina y Santiago de Surco dentro del área de influencia del Bypass del Óvalo Monitor Huáscar. Delimitación temporal 03 meses. La investigación abarcó un periodo de diciembre a febrero. Nota. Elaboración propia (2024). 3.2 Métodos de recolección de data Los instrumentos utilizados en este trabajo de investigación se detallan a continuación: 3.2.1 Monitoreo de la calidad acústica Se realizó una investigación bibliográfica de estudios relacionado con el ruido en espacios urbanos y la normatividad vigente peruana que proporciona los lineamientos requeridos para las mediciones de ruido ambiental, las cuales son mencionadas a continuación: ⮚ Protocolo Nacional de Monitoreo de ruido ambiental. ⮚ Estándares de Calidad Ambiental de Ruido N° 085-2003. ⮚ ISO 1996-1:2016 (E) Acoustic - Description, measurement and assessment of Environmental Noise – Part 1: Basic Quantities and assessment procedure. ⮚ ISO 1996-1:2017 (E) Acoustic – Description, measurement and assessment of Environmental Noise – Part 2: Determination of sound pressure levels. 65 ⮚ Ordenanza N°2419 para la Prevención y Control de la Contaminación Sonora ⮚ Ordenanza N° 2256 Actualiza el Sistem