UNIVERSIDAD ESAN Uso de Machine Learning para la predicción de precios de departamentos en Lima Trabajo de investigación presentado en satisfacción parcial de los requerimientos para obtener el grado de Maestro en Finanzas por: Código 2208740 Barrientos Villegas, Renzo David Código 2208767 Delgado Luque, Renzo Augusto Código 2208766 Escalante Carty, Laura Patricia Código 2201792 Febres Bustamante, Gonzalo Código 2207462 Hisbes Malca, Estefany Brizet Programa de la Maestría en Finanzas MAF/22-2 Lima, 21 de marzo de 2025 ii iii Este trabajo de investigación Uso de Machine Learning para la predicción de precios de departamentos en Lima ha sido aprobado. Universidad ESAN 2025 iv A mí familia por su apoyo incondicional y creer en mi desde siempre, a mi grupo de la maestría, que son ahora mis amigos, por su apoyo constante y consejos para sacar adelante cada uno de los procesos que vivimos juntos y a mi novia por impulsarme a seguir creciendo profesionalmente. Renzo Barrientos A mis padres, y a mi futura esposa a quienes me motivaron para emprender este camino de desafíos y retos. A mis compañeros de la maestría con quienes compartimos noches de estudios, risas y desafíos. Por el apoyo mutuo, la motivación constante y por demostrar que el camino es más llevadero cuando se recorre en equipo. Renzo Delgado A mi madre, a mi futuro esposo, a Sh. y Ql., por su amor y su constante ayuda. Pero, sobre todo, al grupo 8, unos grandes amigos. Laura Escalante A mi esposa, Diana, y a mis hijos, José Eduardo y Joaquín Ignacio. Gonzalo Febres A mis padres, Manuel y María, por ser mi mayor inspiración. A mis hermanos mayores, y a los más pequeños S y K por su amor incondicional. Y a mi novio, mi compañero de vida, por su apoyo constante. Estefany Hisbes v Renzo David Barrientos Villegas Candidato a Maestro en Finanzas de ESAN Graduate School of Business. Contador de la UNMSM. Experiencia de 4 años en preparación de estados financieros, análisis de cuentas y registros contables, Experiencia de 3 años en Finanzas con el control de gastos presupuestados, seguimiento de indicadores financieros, proyección de resultados, presupuesto anual de empresa y evaluación de nuevos proyectos. FORMACIÓN 2022 – 2024 ESAN Graduate School of Business Maestría en Finanzas, Finanzas Corporativas. 2023 - UPF Barcelona School of Management Maestría de Gerencia Bancaria y Financiera. 2014 – 2018 - Universidad Nacional Mayor de San Marcos Bachiller en Contabilidad EXPERIENCIA 2020 - Actualidad SANNA División Ambulatoria – Servicios médicos - Empresa con 30 años en el sector salud y venta de medicinas. Jefe de Planeamiento y Finanzas. •Responsable de mantener la confiabilidad de los resultados y cumplimiento de los objetivos de la empresa. •Manejo de proyección de ventas y resultados mensuales y anuales. •Control de indicadores financieros y control del presupuesto anual. •Evaluación de nuevos proyectos o negocios para el sector salud. vi •Cumplimiento de objetivos por tipo de negocio de salud dentro de la empresa, tanto en costos como en resultados y niveles de ventas. Analista de Finanzas •Responsable del seguimiento de indicadores financieros, proyecciones mensuales por negocio y apoyo en elaboración de presupuesto. •Elaboraciones de indicadores por negocio y el tipo de pacientes asegurados en centros clínicos. •Apoyo en la proyección y elaboración de presupuesto. Analista de Contabilidad •Análisis de cuentas contables, elaboración de estados financieros y control de provisiones por negocio. •Registro de provisiones mensuales por negocio •Elaboración de anexos para la explicación de cuentas contables •Control de las conciliaciones bancarias y flujos de caja. vii Renzo Augusto Delgado Luque Candidato a Maestro en Finanzas de ESAN Graduate School of Business. Administrador de Empresas en la Universidad Peruana de Ciencias Aplicadas (UPC) con más de 5 años de experiencia en el Área de Finanzas a nivel corporativo en puestos de jefatura, coordinador y analista de finanzas en empresas del sector construcción. FORMACIÓN ACADÉMICA 2022 – 2024 ESAN Graduate School of Business Maestría en Finanzas, Finanzas Corporativas. 2023 - UPF Barcelona School of Management Maestría de Gerencia Bancaria y Financiera. 2014 - 2019 Universidad Peruana de Ciencias Aplicadas (UPC) – Bachiller en Administración de Empresas. EXPERIENCIA PROFESIONAL 2018 - Actualidad FLESAN DEL PERU - Empresa constructora chilena con participación en Perú por más de 15 años teniendo en su cartera más de 1,000 obras a nivel nacional. Jefe de Finanzas • Gestión Financiera y Bancaria: Administración de líneas de financiamiento, emisión de garantías, gestión de deuda y optimización de costos financieros. • Análisis y Presentación de Estados Financieros: Evaluación de ratios financieros, cierre contable mensual y elaboración de informes de gestión. viii • Planificación y Estructuración de Proyectos: Proyección financiera, estructuración de proyectos inmobiliarios y energéticos, y adquisición de financiamiento. • Sustentación y Reportes Estratégicos: Presentación de estados financieros ante entidades de financiamiento y elaboración de reportes para la alta dirección. 2017 - 2018 BANCO INTERNACIONAL DEL PERU (INTERBANK) - Entidad financiera que pertenece al Grupo INTERCORP Analista de Prevención de Fraudes •Análisis de eventos de fraude, elaborando informes de prevención y control de diversas unidades. •Realizar seguimiento de las posibles modalidades de fraude en el ámbito local e internacional •Diseñar y proponer controles que reduzcan la probabilidad de ocurrencia de fraude interno y/o externo de los procesos y procedimientos del Banco. •Proponer actividades para fomentar una cultura de prevención contra riesgos de fraude, destinada a salvaguardar el patrimonio del Banco. •Proponer en coordinación con las unidades orgánicas responsables las modificaciones en los sistemas, procedimientos y controles para minimizar el riesgo de fraude. ix Jefe de Operaciones y Servicios •Administrador de una oficina bancaria supervisando las actividades operativas, de control y seguridad. Impulsar la venta de productos y servicios que ofrece la entidad financiera. •Definir los lineamientos generales del modelo operativo de la Banca Comercial. •Recabar la información que sustente los requerimientos canalizados al Área de Procesos. •Cumplir con las metas indicadas por parte del área comercial del banco (venta de tarjetas de crédito, cuentas de ahorro, depósitos a plazo, etc). x Laura Patricia Escalante Carty Candidata a Maestro en Finanzas de ESAN. Administradora de la UPC. Experiencia en el sector minero, especializada en administración y tesorería. Especialista en elaboración de flujos de caja. Alta capacidad de adaptación, actitud proactiva, excelentes relaciones interpersonales con influencia positiva y comunicación efectiva a todo nivel. FORMACIÓN 2022 – 2024 ESAN Graduate School of Business Maestría en Finanzas, Finanzas Corporativas. 2023 - UPF Barcelona School of Management Maestría de Gerencia Bancaria y Financiera. 2017 – 2021 Universidad Peruana de Ciencias Aplicadas UPC Bachiller en Administración de Empresas. Quinto superior. EXPERIENCIA 2016 - Actualidad Silver X Mining Corporation- Empresa minera canadiense con más de 10 años de experiencia en la exploración y producción de metales preciosos, especializada en la extracción de plata y oro en América Latina. Jefa de Administración • Gestión de las áreas Administrativa, Financiera y Tesorería. • Elaboración y supervisión de flujos de caja para la optimización de recursos. • Coordinación de estrategias financieras para la operación minera en el Perú. xi • Manejo de relaciones con entidades regulatorias y financieras. • Implementación de procesos para mejorar la eficiencia en la gestión administrativa. 2015 - 2016 Mines & Metals Trading Perú- Empresa minera peruana con proyectos polimetálicos. Adquirió la Unidad de Producción Minera "Recuperada" de la Compañía de Minas Buenaventura S.A.A. Administradora • Gestión de recursos humanos: Supervisar la contratación, capacitación y bienestar del personal, asegurando el cumplimiento de las normativas laborales y políticas internas. • Administración financiera: Controlar presupuestos, gestionar costos operativos y coordinar pagos a proveedores, garantizando una administración financiera eficiente. • Coordinación de actividades administrativas: Gestionar tareas administrativas relacionadas con la operación minera, incluyendo la supervisión de personal administrativo y la implementación de procedimientos internos. xii Gonzalo Febres Bustamante Candidato a Maestro en Finanzas de ESAN. Economista de la Universidad de Piura. Con experiencia en banca y finanzas. Con capacidad para trabajar en equipo, con visión y habilidad de plantear y emprender alternativas para dar soluciones ágiles y acertadas sobre los objetivos señalados. FORMACIÓN 2022 – 2024 ESAN Graduate School of Business Maestría en Finanzas, Finanzas Corporativas. 2023 - UPF Barcelona School of Management Maestría de Gerencia Bancaria y Financiera. 2017 – 2021 Universidad de Piura Bachiller en Economía EXPERIENCIA 2024 - Actualidad Centros de Salud Peruanos S.A.C. Clínica AVIVA -, es una empresa peruana del grupo Interbank dedicada a la prestación de servicios médicos integrales. Ofrece atención en diversas especialidades, incluyendo consultas ambulatorias, emergencias, laboratorio, imágenes y procedimientos quirúrgicos. Jefe de Planificación Financiera • Elaboración de planes financieros a corto, mediano y largo plazo para optimizar los recursos financieros de la clínica. • Coordinación de la gestión de presupuestos anuales, alineados con los objetivos estratégicos de la clínica. xiii • Control de costos operativos y evaluación de la rentabilidad de los servicios y proyectos. • Implementación de indicadores financieros (KPIs) para medir el desempeño económico de la clínica. • Presentación de informes financieros a la alta dirección para la toma de decisiones estratégicas. • Evaluación y proyección de la viabilidad financiera de proyectos e inversiones dentro de la clínica. 2021 - 2024 Clínica San Felipe - con más de 60 años de experiencia, ofrece servicios médicos integrales en más de 45 especialidades, contando con más de 350 profesionales. Controller Financiero •Contribuir con el planteamiento de la estrategia de las principales actividades propias de Finanzas, Costos, Presupuestos y su viabilidad hacia procesos transversales. •Implementar un adecuado modelo de costos y de rentabilidad, salvaguardando su ejecución. •Responsable de la elaboración de Presupuestos y Control Presupuestal. •Responsable de la evaluación de Proyectos de Inversión: Ampliación de clínica y equipos en específico. •Responsable del Control Logístico de Proyectos de Ampliación: Flujo de pagos, valorizaciones, control contable de capex y opex por centros de costos asociados al Proyecto. •Responsable de la Proyección de los EEFF. •Responsable de la presentación y explicación de EEFF al Directorio. •Responsable de la identificación e implementación de KPIs xiv •Controlar los días de cobro y anticuamiento, a través de indicadores de medición. Representante del Proyecto de BI Corporativo de Clínica San Felipe: Proyecto corporativo para la elaboración de visores y repositorios corporativos para análisis de actividad, resultados y costos. 2021 - 2022 Clínica SANNA – Clínica del Sur - en Arequipa, forma parte de la red SANNA y ofrece servicios médicos especializados con tecnología avanzada. Brinda atención ambulatoria, hospitalaria y de emergencia en diversas especialidades. Jefe de Finanzas •Estrategia y Control Financiero: Definir estrategias para Finanzas, Tesorería, Compras, Liquidación, Cobranzas y Facturación, optimizando el ciclo de efectivo. •Gestión de Facturación y Cobranza: Supervisar la correcta liquidación, emisión y cobranza de expedientes para pacientes particulares, asegurados y financiadores. •Indicadores y Seguimiento: Controlar los días de facturación, cobro y anticuamiento mediante indicadores de medición para servicios ambulatorios, hospitalarios y de urgencias. •Gestión de Seguros y Tarifas: Administrar seguros de salud particulares, tarificación, promoción corporativa y ajuste de tarifas. •Compras y Proveedores: Optimizar la gestión de compras, negociar con proveedores médicos y aseguradoras, y supervisar el control de activos. •Flujo de Caja y Cumplimiento: Mejorar la gestión del flujo de caja, rendimientos sobre excedentes y dar seguimiento a fiscalizaciones. 2020 - 2021 Clínica SANNA – El Golf - Clínica privada que forma parte de la red SANNA, ofreciendo servicios médicos de alta calidad en más de 30 especialidades. xv Analista de Finanzas Trabajo directo con la Gerencia de Finanzas sobre el planteamiento de objetivos y actividades de la Gerencia. •Garantizar y velar por la solidez financiera, gestionando ingresos, costos y gastos, generando los niveles de utilidad esperados alineado con la Gerencia General y el Corporativo. •Proyecto de ampliación de la Clínica: Coordinador principal sobre las adecuaciones administrativas y financieras. •Optimización de la estructura de capital, generando un correcto balance entre deuda y patrimonio. •Control de pagos y cobranza que permitan mantener el nivel de liquidez. xvi Estefany Brizet Hisbes Malca Candidata a Maestro en Finanzas de ESAN Graduate School of Business. Economista de la USMP. Experiencia en análisis financiero y control de gestión en Retail. Conocimientos de inglés y dominio de las herramientas informáticas de gerencia. Aspiración de desarrollo profesional en gerencia de negocios financieros. FORMACIÓN 2022 – 2024 ESAN Graduate School of Business Maestría en Finanzas, Finanzas Corporativas. 2023 - UPF Barcelona School of Management Maestría de Gerencia Bancaria y Financiera. 2019 - 2019 Universidad De San Martín de Porres - USMP Licenciada en Economía. 2013 - 2018 Universidad De San Martín de Porres - USMP Bachiller en Economía. EXPERIENCIA 2022 - actualidad Corporación Primax. Empresa con 20 años y líder en el sector hidrocarburos. Analista Senior de la Gerencia de Finanzas. • Responsable del control financiero de dos Negocios de la empresa (Dealers y White Pumpers). Ambos negocios tienen un valor de S/ 90 millones en el 2024. xvii • Coordinación con otros departamentos para el correcto seguimiento de gastos de la unidad de negocio. • Elaborar el informe y presentación de gestión Mensual para Gerente del negocio. • Responsable de gestión financiera de la Unidad de Negocio. • Liderar en la elaboración del presupuesto de la UN. Analista de la gerencia de Finanzas. • Responsable del control financiero del Negocios de Tiendas de Conveniencia de Primax con un valor estimado de S/ 46 millones en el 2024. 2020 -2022 VSI INDUSTRIAL SA. - Empresa fabricadora y diseñadora de griferías y sanitarios con más de 40 años en el mercado. Analista Junior de Planeamiento Financiero. • Elaboración de la presentación mensual para el Directorio. Dar seguimiento y cumplimento al presupuesto. Elaboración de reportes de activos y pasivos. Liderar la elaboración de presupuesto de todas las áreas de la empresa. 2018 -2019 Grupo CELIMA-TREBOL - Con más de 50 años de experiencia, el Grupo CELIMA TREBOL, fabricando y diseñando revestimientos cerámicos, aparatos sanitarios y griferías de la más alta calidad. Asistente de Planeamiento Financiero. • Análisis de EEFF (Estados de Resultados y Balance General). Elaboración del comité Ejecutivo. Control presupuestal en SAP (FM y CO). Manejo y control de inversiones CAPEX. Elaboración del presupuesto anual. xviii ÍNDICE GENERAL RESUMEN EJECUTIVO ......................................................................................................... 1 CAPÍTULO I: INTRODUCCIÓN .......................................................................................... 1 1.1 Problema Central y relevancia .......................................................................................................... 2 1.1.1 Limitaciones de los métodos clásicos de valoración .......................................................................... 4 1.2 Contribución financiera de la investigación ...................................................................................... 7 1.3 Objetivo de investigación................................................................................................................... 9 1.4. Hipótesis ......................................................................................................................................... 11 1.5. Alcances y limitaciones ................................................................................................................... 12 1.5.1 Alcances ........................................................................................................................................... 12 1.5.2 Limitaciones ..................................................................................................................................... 15 1.6. Contribución .................................................................................................................................. 18 CAPÍTULO II: APLICACIÓN DE LA METODOLOGÍA ........................................... 20 2.1. Descripción de datos ....................................................................................................................... 20 2.2. Regresión hedónica ........................................................................................................................ 22 2.2.1. Principios básicos y fundamento teórico ........................................................................................ 22 2.2.2. Aplicación del modelo ..................................................................................................................... 23 2.2.3. Resultado del modelo ...................................................................................................................... 25 2.3. Árbol de Decisión ........................................................................................................................... 27 2.3.1. Principios básicos y fundamento teórico ........................................................................................ 27 2.3.2. Aplicación del modelo ..................................................................................................................... 31 2.3.3. Resultado del modelo ...................................................................................................................... 33 2.4. XGBoost ......................................................................................................................................... 34 2.4.1. Principios básicos y fundamento teórico ........................................................................................ 34 2.4.2. Aplicación del modelo ..................................................................................................................... 38 2.4.3. Resultado del modelo ...................................................................................................................... 38 2.5. Ventajas y desventajas ................................................................................................................... 40 xix 2.6. Métricas de desempeño .................................................................................................................. 40 2.6.1. Definición de métricas .................................................................................................................... 40 2.6.2. Validación cruzada ......................................................................................................................... 41 2.6.3. Desarrollo metodológico financiero ............................................................................................... 42 CAPÍTULO III: RESULTADOS ......................................................................................... 44 3.1. Comparación de modelos ............................................................................................................... 44 3.1.1. Mean Absolute Percentage Error (MAPE) ..................................................................................... 44 3.1.2. Mean Absolute Error (MAE) ........................................................................................................... 45 3.1.3. Root Mean Squared Error (RMSE) ................................................................................................. 46 3.1.4. Coeficiente de determinación (𝑅2) ................................................................................................. 47 3.2. Comparativa por distritos .............................................................................................................. 50 3.3 Interpretación Variables Clave ....................................................................................................... 51 3.4 Conexión con el ámbito financiero .................................................................................................. 52 3.5 Justificación de modelos basados en arboles: XGBoost y árbol de decisión ................................... 55 CAPÍTULO IV: CONCLUSIONES .................................................................................... 58 4.1 Recomendaciones basadas en resultados ........................................................................................ 62 BIBLIOGRAFÍA ...................................................................................................................... 65 xx ÍNDICE DE TABLAS TABLA 2.1 REGRESIÓN LINEAL .......................................................................................................... 26 TABLA 2.2 CUADRO DE VENTAJAS Y DESVENTAJAS DE LOS MÉTODOS .............................. 40 TABLA 2.3 CUADRO DE DEFINICIÓN DE MPETRICAS .................................................................. 41 TABLA 3.1 RESULTADOS COMPARATIVOS DE LOS MODELOS ............................................... 49 TABLA 3.2 RESULTADOS DE MODELOS POR DISTRITO .............................................................. 50 TABLA 3.3 MÉTRICAS POR DISTRITO ............................................................................................... 51 TABLA 3.4 INTERPRETACIÓN DE RESULTADOS ........................................................................... 51 xxi ÍNDICE DE FIGURAS FIGURA 2.1 DIAGRAMAS DE DISPERSIÓN ....................................................................................... 21 FIGURA 2.2 DISTRIBUCIÓN DE HABITACIONES Y BAÑOS .......................................................... 22 FIGURA 2.3 PRECIOS ESTIMADOS DE MODELO HEDÓNICO DE REGRESION LINEAL ...... 27 FIGURA 2.4 EJEMPLO TRIDIMENSIONAL DE ÁRBOL DE DECISIÓN ....................................... 28 FIGURA 2.5 EJEMPLO DE ÁRBOL DE DECISIÓN ............................................................................ 29 FIGURA 2.6 IMPORTANCIA RELATIVA DE LAS CARACTERISTICAS DE ÁRBOL DE DECISIÓN ................................................................................................................................................... 33 FIGURA 2.7 PRECIOS ESTIMADOS DE MODELO DE ÁRBOL DE DECISIÓN ........................... 34 FIGURA 2.8 IMPORTANCIA RELATIVA DE LAS CARACTERÍSTICAS DE XGBOOST ............ 39 FIGURA 2.9 PRECIOS ESTIMADOS DE MODELO XGBOOST ......................................................... 39 FIGURA 3.1 COMPARATIVA DE MAPE .............................................................................................. 45 FIGURA 3.2 COMPARATIVA DE MAE ................................................................................................. 46 FIGURA 3.3 COMPARATIVA DE RMSE............................................................................................... 47 FIGURA 3.4 COMPARATIVA DE R2 ...................................................................................................... 48 FIGURA 3.5 COMPARATIVA DE ÍNDICE DE PRECIOS................................................................... 54 FIGURA 3.6 TENDENCIA DE PRECIOS EN SOLES CONSTANTES ............................................... 55 RESUMEN EJECUTIVO El presente estudio tiene como objetivo desarrollar un modelo de predicción de precios de departamentos en Lima mediante la aplicación de técnicas de Machine Learning (ML), comparando su desempeño con la tradicional regresión hedónica. La investigación surge como respuesta a la necesidad de contar con estimaciones más precisas en la valoración inmobiliaria, optimizando la toma de decisiones en el sector financiero e inmobiliario. Para ello, se emplean tres enfoques metodológicos: la regresión hedónica como referencia teórica, y dos modelos de Machine Learning: Árbol de Decisión y XGBoost. La base de datos utilizada proviene del Banco Central de Reserva del Perú (BCRP) y abarca más de 40,000 observaciones de inmuebles en los principales distritos de Lima entre 2014 y 2024. Los resultados muestran que XGBoost ofrece el mejor desempeño predictivo, con menores valores de error: MAPE (Mean Absolute Percentage Error), MAE (Mean Absolute Error), RMSE (Root Mean Squared Error) y un coeficiente de determinación (R²) más alto que los otros modelos. Asimismo, se identifica que el factor más influyente en el precio de los departamentos es el tamaño del inmueble, seguido del número de garajes y la ubicación. Este estudio evidencia el potencial de Machine Learning como una herramienta clave para mejorar la precisión en la estimación de precios inmobiliarios, aportando beneficios tanto para inversionistas como para instituciones financieras y reguladoras. Además, se plantea la posibilidad de futuras investigaciones incorporando variables adicionales, como la proximidad a servicios urbanos o la calidad de construcción, para seguir optimizando la predicción de precios en el mercado inmobiliario de Lima. ABSTRACT This study aims to develop a predictive model for apartment prices in Lima through the application of Machine Learning (ML) techniques, comparing their performance with traditional hedonic regression. The research emerges in response to the need for more accurate real estate valuation estimates, optimizing decision-making in the financial and real estate sectors. To achieve this, three methodological approaches are employed: hedonic regression as a theoretical benchmark, and two Machine Learning models: Decision Tree and XGBoost. The dataset used comes from the Central Reserve Bank of Peru (BCRP) and includes more than 40,000 property observations in key districts of Lima from 2014 to 2024. The results indicate that XGBoost provides the best predictive performance, yielding lower error values: MAPE (Mean Absolute Percentage Error), MAE (Mean Absolute Error), RMSE (Root Mean Squared Error) y and a higher coefficient of determination (R²) than the other models. Additionally, the study identifies that the most influential factor in apartment pricing is property size, followed by the number of garages and location. This research highlights the potential of Machine Learning as a key tool for improving the accuracy of real estate price estimation, benefiting investors as well as financial and regulatory institutions. Furthermore, future research could incorporate additional variables, such as proximity to urban services or construction quality, to further enhance price prediction in Lima’s real estate market. 1 CAPÍTULO I: INTRODUCCIÓN La teoría de precios hedónicos es un enfoque económico que explica el valor de un bien a partir de sus atributos y características. En el caso del mercado inmobiliario, esta teoría sostiene que el precio de una propiedad depende de factores como su superficie, calidad de construcción, diseño, ubicación, acceso a áreas verdes y características del vecindario, entre otros. A través de este enfoque, es posible estimar el valor individual de cada atributo y, en consecuencia, calcular la demanda implícita de las distintas características que componen el bien. El origen de esta teoría se remonta a los estudios de Court (1939), quien aplicó un modelo basado en características para analizar precios en la industria automotriz. Sin embargo, el desarrollo más reconocido de los precios hedónicos comenzó con Ridker y Henning (1967), quienes investigaron el impacto de la contaminación del aire en los precios de las viviendas en St. Louis, Estados Unidos. Posteriormente, Griliches (1971) aplicó esta metodología al mercado de vehículos, analizando el precio en función de atributos como el consumo de combustible y la potencia. La consolidación de esta teoría llegó con Rosen (1979), quien formalizó un modelo que justifica la existencia de un equilibrio de mercado donde los precios se determinan en función de las características del producto. Su trabajo es considerado un referente clave en la literatura sobre precios hedónicos. A lo largo de las últimas décadas, diversos estudios han aplicado esta metodología en el mercado inmobiliario. Lever (2009) destacó la importancia de los precios hedónicos en la modelación de mercados implícitos, proporcionando técnicas econométricas para estimar precios y demandas a partir de la combinación de atributos. García y Raya (2013) analizaron las elasticidades de la demanda de vivienda en Barcelona utilizando modelos hedónicos tradicionales, mientras que Mundaca y Sánchez (2018) estimaron índices de precios inmobiliarios en Lima, concluyendo que factores como la zonificación y la infraestructura urbana influyen significativamente en los valores de las viviendas. 2 En la práctica, la estimación de precios mediante la teoría de precios hedónicos se ha basado tradicionalmente en modelos de regresión lineal, especialmente mediante el método de mínimos cuadrados ordinarios. Este enfoque ofrece ventajas en términos de interpretación y robustez estadística, permitiendo obtener coeficientes que cuantifican el impacto de cada atributo en el precio del bien. Sin embargo, en los últimos años han surgido alternativas basadas en técnicas de ML, las cuales permiten mejorar la precisión de las predicciones mediante modelos más sofisticados. El presente estudio busca comparar la efectividad de los modelos tradicionales de regresión lineal con técnicas de ML en la predicción de precios de departamentos en Lima. A pesar de que los modelos de ML pueden ser menos interpretables que los métodos estadísticos convencionales, su capacidad de ajuste y optimización computacional podría generar estimaciones más precisas y realistas. En este sentido, esta investigación busca evaluar si el uso de algoritmos de árboles de decisión y XGBoost puede mejorar la capacidad predictiva del modelo, proporcionando una herramienta más eficiente para la valoración de bienes raíces en Lima. 1.1 Problema Central y relevancia En el contexto actual del mercado inmobiliario de Lima, la valoración precisa de propiedades representa un desafío significativo tanto para compradores, vendedores, inversionistas y entidades financieras. La falta de estimaciones confiables sobre el precio real de los inmuebles genera incertidumbre en la toma de decisiones y puede dar lugar a distorsiones en el mercado, tales como la sobrevaloración de activos, dificultades en la concesión de créditos hipotecarios o incluso la formación de burbujas inmobiliarias. El problema central que esta investigación aborda es la necesidad de contar con un modelo predictivo basado en técnicas de ML que permita estimar con mayor precisión los precios de los departamentos en Lima. Los métodos tradicionales, como las tasaciones basadas en comparables o los modelos econométricos clásicos, presentan limitaciones al no capturar adecuadamente las dinámicas 3 no lineales del mercado ni la interacción de múltiples características de los inmuebles que influyen en la determinación de la estimación de precios. Esta ausencia de precisión puede afectar tanto a individuos como a instituciones, generando riesgos financieros y distorsiones en la asignación de recursos. Al proporcionar estimaciones precisas y detectar discrepancias entre precios proyectados y precios de mercado, este modelo puede servir como una herramienta de monitoreo para instituciones como el Banco Central de Reserva del Perú (BCRP). La detección temprana de sobrevaloraciones en el mercado inmobiliario permitiría la implementación de medidas preventivas para mitigar riesgos macroeconómicos y evitar crisis financieras. Para entidades bancarias y financieras, una predicción precisa del valor de los inmuebles mejora la gestión de riesgos en préstamos hipotecarios. Un modelo robusto permitiría realizar valoraciones más objetivas de las garantías hipotecarias, reduciendo la exposición a pérdidas en caso de incumplimiento y optimizando la asignación de crédito en función de valores más reales de mercado. En el ámbito financiero, la valoración de activos inmobiliarios desempeña un rol crucial en la gestión del riesgo, tanto a nivel individual como sistémico. Una incorrecta estimación del valor de un inmueble puede conllevar distorsiones significativas en múltiples decisiones financieras, incluyendo la evaluación de garantías hipotecarias, la estructuración de portafolios inmobiliarios, y la gestión del riesgo crediticio por parte de las instituciones bancarias. En este sentido, los métodos tradicionales de valoración, como las tasaciones comparativas o los modelos de regresión hedónica simples, presentan limitaciones que pueden incrementar la exposición de los agentes financieros al riesgo de subvaloración o sobrevaloración. Este desfase entre el precio observado y el valor fundamental del activo puede provocar un deterioro en la calidad de las carteras crediticias, afectar la rentabilidad 4 esperada de los fondos de inversión inmobiliarios y generar señales falsas en los sistemas de alerta temprana diseñados para prevenir burbujas especulativas. Desde una perspectiva macroeconómica, esta situación representa un riesgo sistémico, especialmente en economías como la peruana, donde el crecimiento del crédito hipotecario ha sido sostenido durante la última década. En consecuencia, la necesidad de contar con herramientas de predicción más precisas y robustas no solo obedece a fines de eficiencia de mercado, sino que responde a una urgencia por fortalecer los mecanismos de supervisión y control del sistema financiero en su conjunto. En este contexto, el desarrollo de modelos de predicción de precios inmobiliarios mediante técnicas de Machine Learning (ML) emerge como una solución potencialmente más eficiente y adaptativa. Estos modelos no solo ofrecen una mayor capacidad para capturar relaciones no lineales entre variables, sino que también se alinean con la creciente necesidad del sector financiero por incorporar herramientas tecnológicas que mejoren la calidad de las decisiones estratégicas. Por tanto, esta investigación no solo busca mejorar la precisión de las estimaciones de precios inmobiliarios, sino también contribuir a la mitigación de riesgos financieros derivados de valoraciones inadecuadas, lo cual es especialmente relevante para entidades financieras, reguladores, aseguradoras y fondos de inversión. 1.1.1 Limitaciones de los métodos clásicos de valoración En los estudios de valoración inmobiliaria, los métodos tradicionales más utilizados han sido las tasaciones comparativas y los modelos de regresión hedónica lineal. Si bien estos enfoques han sido herramientas fundamentales en la historia del análisis económico y urbano, su aplicabilidad presenta limitaciones importantes cuando se enfrentan a realidades complejas como el mercado inmobiliario de Lima Metropolitana, caracterizado por su heterogeneidad estructural, informalidad parcial y amplia dispersión de precios. 5 En el caso de la regresión hedónica lineal, uno de los principales inconvenientes radica en su supuesto de relación lineal y constante entre las características del bien (como área, número de baños, estacionamientos, ubicación, antigüedad, etc.) y su precio. Este enfoque presupone que el efecto de cada variable explicativa sobre el precio es independiente y uniforme en toda la muestra, lo cual rara vez se cumple en mercados reales. En la práctica, las interacciones entre variables son comunes (por ejemplo, el impacto del área puede ser distinto en un departamento con o sin cochera), y los efectos marginales pueden variar dependiendo del distrito, el segmento socioeconómico o la dinámica local del mercado. Otro problema estructural es que los modelos lineales no capturan bien relaciones no lineales o de saturación, como por ejemplo cuando un aumento adicional de metros cuadrados no incrementa el valor en la misma proporción. Además, son sensibles a problemas de multicolinealidad, lo que puede distorsionar los coeficientes estimados, y requieren que los errores cumplan supuestos de normalidad, homocedasticidad y no autocorrelación, condiciones que no siempre se verifican con datos inmobiliarios reales. Esto afecta la validez de los resultados y puede generar estimaciones inestables o poco fiables. En cuanto a las tasaciones comparativas, su principal debilidad es la alta dependencia del juicio subjetivo del perito. Si bien los tasadores tienen conocimiento del mercado y acceso a información privilegiada, su criterio puede verse afectado por sesgos personales, disponibilidad limitada de comparables válidos o incentivos externos. Esto conlleva una variabilidad en los resultados que limita la reproducibilidad de los informes de tasación y genera riesgos al momento de tomar decisiones financieras basadas en ellos, como la aprobación de créditos hipotecarios o la valorización de activos en fondos inmobiliarios. En ambos casos, estas limitaciones representan un riesgo financiero real. Una valoración incorrecta —por subvaloración o sobrevaloración— puede llevar a decisiones de préstamo mal estructuradas, exposición al incumplimiento de pagos, mal cálculo del valor de garantías, o incluso sobreasignación de recursos de inversión. En contextos donde 6 el sistema financiero depende de forma considerable del crédito garantizado por bienes inmuebles, como en el Perú, esta situación puede afectar la estabilidad institucional, la eficiencia en la asignación de capital y la salud del sistema en su conjunto. Frente a estas limitaciones, el modelo propuesto en esta investigación —XGBoost (Extreme Gradient Boosting)— representa una alternativa metodológica más robusta y adaptada a la complejidad del problema. A diferencia de los modelos lineales, XGBoost no impone una forma funcional rígida a la relación entre variables. Al estar basado en un conjunto de árboles de decisión optimizados secuencialmente, puede capturar relaciones no lineales, interacciones entre variables, y patrones específicos dentro del conjunto de datos, sin que estos deban ser definidos explícitamente por el investigador. Otra ventaja importante es que XGBoost realiza una segmentación automática del espacio de variables, dividiendo los datos en regiones más homogéneas mediante decisiones sucesivas, lo que permite que el modelo se adapte a diferencias estructurales entre distritos o zonas urbanas. Esta capacidad es particularmente valiosa en ciudades como Lima, donde los determinantes del precio inmobiliario varían significativamente entre Miraflores, Jesús María, Comas o San Miguel. Además, el algoritmo incluye mecanismos para reducir el sobreajuste, es decir, para evitar que el modelo se adapte en exceso a los datos de entrenamiento y pierda capacidad de generalización. También es menos sensible a valores extremos (outliers) y no requiere supuestos estrictos sobre la distribución de los errores. Esto lo convierte en una herramienta más robusta para la predicción de precios, con mayor precisión y menor dispersión en los resultados. Por tanto, el uso de XGBoost no solo es una mejora técnica en términos de precisión, sino una respuesta directa a las limitaciones estructurales de los modelos clásicos. Esta justificación metodológica —que se acompaña de evidencia empírica en el capítulo de resultados— sustenta la necesidad de aplicar modelos de Machine Learning cuando se busca una estimación más confiable del valor de activos inmobiliarios, especialmente en 7 contextos donde una mala valoración puede traducirse en pérdidas financieras o exposición a riesgo crediticio. 1.2 Contribución financiera de la investigación En la actualidad, la correcta valorización de los activos inmobiliarios es un elemento central para la estabilidad del sistema financiero. La subvaloración o sobrevaloración de inmuebles puede generar una serie de distorsiones en la colocación de créditos, en la evaluación de garantías, en la valoración de portafolios de inversión, e incluso en la política económica. Estas distorsiones afectan directamente a bancos, inversionistas institucionales, reguladores, y al funcionamiento eficiente del mercado. En el caso del mercado inmobiliario limeño, el uso predominante de métodos tradicionales como las tasaciones subjetivas o los modelos hedónicos lineales limita la precisión de las valoraciones, lo que genera un riesgo latente en las decisiones financieras. Esta situación constituye un problema financiero estructural: si el precio observado de un inmueble no representa adecuadamente su valor fundamental, los agentes financieros operan sobre información imperfecta, lo que puede llevar a una mala asignación del crédito, desequilibrios en las carteras de inversión y una mayor exposición al riesgo sistémico. La presente tesis plantea como solución el uso de modelos de predicción basados en aprendizaje automático, específicamente el algoritmo XGBoost, cuyo diseño permite captar relaciones complejas y no lineales entre múltiples variables que afectan el precio de un inmueble. La evidencia empírica generada en esta investigación demuestra que este modelo mejora significativamente la precisión de las predicciones en comparación con modelos tradicionales. Esta mejora, sin embargo, no es solo técnica o estadística; tiene implicancias directas en la gestión financiera. Desde el punto de vista de las entidades financieras, una mejor predicción del valor de los inmuebles mejora la estimación del valor de las garantías hipotecarias, permitiendo una asignación más eficiente de los montos de crédito. Esto reduce el riesgo de sobreendeudamiento y protege a las entidades frente a escenarios de incumplimiento, ya 8 que los créditos se respaldan con activos cuyo valor ha sido estimado de forma más fiable. De este modo, se mejora la calidad de los activos en el balance y se refuerza la solvencia bancaria. Para el riesgo de crédito, la precisión del modelo permite establecer ratios más realistas como el Loan-to-Value (LTV), fundamentales para evaluar la exposición al riesgo. Un modelo como XGBoost puede integrarse directamente en los procesos internos de análisis de crédito, reduciendo la subjetividad en la evaluación y permitiendo decisiones más objetivas, basadas en datos. Esto es particularmente importante en contextos de alta volatilidad económica, donde la incertidumbre en la valuación de activos puede generar un efecto multiplicador de riesgos. En cuanto a los inversionistas institucionales, como fondos de inversión inmobiliaria, compañías de seguros o bancos de inversión, un modelo predictivo de alta precisión permite valorar activos con mayor exactitud y tomar decisiones más informadas en relación con la compra, venta o mantenimiento de propiedades en sus portafolios. Esto impacta directamente en la rentabilidad esperada, el nivel de riesgo asumido y la alineación con objetivos de retorno ajustado por riesgo. Desde el punto de vista de la regulación y supervisión financiera, el modelo propuesto puede ser utilizado como un instrumento de vigilancia macro prudencial. Las autoridades como la SBS o el BCRP pueden emplear modelos predictivos como indicadores adelantados de posibles desalineaciones entre precios de mercado y valores fundamentales. Esto permite detectar burbujas inmobiliarias incipientes, evaluar la concentración de riesgo en ciertos segmentos del mercado y diseñar políticas regulatorias más preventivas y menos reactivas. Asimismo, al mejorar la transparencia y objetividad en las valoraciones, se fortalece la confianza en el sistema financiero y se reducen los incentivos para prácticas especulativas. Además, en el contexto actual de transformación digital del sistema financiero, la implementación de modelos como XGBoost se alinea con las tendencias de digitalización 9 del crédito, análisis de big data y automatización de procesos de originación. Su integración en plataformas tecnológicas permitiría a bancos, fintechs y entidades de financiamiento desarrollar sistemas de evaluación más rápidos, precisos y escalables. En resumen, el problema financiero identificado en esta investigación –la imprecisión en la valoración de activos inmobiliarios residenciales en Lima– genera efectos negativos en múltiples niveles del ecosistema financiero. La solución propuesta, basada en la aplicación de un modelo avanzado de aprendizaje automático, no solo mejora la precisión de la estimación, sino que contribuye a resolver riesgos estructurales en el sistema: mejora la asignación de crédito, fortalece la solvencia bancaria, reduce la exposición al riesgo de crédito, mejora la toma de decisiones de inversión y proporciona herramientas útiles para la supervisión regulatoria. Por tanto, esta tesis no solo aporta valor desde la perspectiva metodológica, sino que responde de manera concreta a un problema financiero de relevancia nacional, con alto potencial de aplicación práctica en el sistema financiero peruano. 1.3 Objetivo de investigación El objetivo general se centra en evaluar la efectividad de los modelos de ML (Árbol de Decisión y XGBoost) en la predicción de precios de departamentos en Lima, comparando su desempeño con la regresión hedónica tradicional a través de métricas de precisión como MAPE, MAE, RMSE y R², los cuales se definen en el apartado 2.6.1. Cabe precisar que el objetivo de esta investigación no se limita a una mejora técnica incremental respecto a los modelos tradicionales de predicción de precios inmobiliarios. Por el contrario, surge de la identificación de una deficiencia metodológica de fondo: los modelos convencionales, como la regresión hedónica lineal, no logran captar adecuadamente la complejidad y heterogeneidad estructural del mercado inmobiliario de Lima Metropolitana, lo cual genera errores sistemáticos en las estimaciones de precios. 10 Estas deficiencias técnicas, lejos de ser un problema aislado, tienen consecuencias financieras concretas. Una valoración incorrecta puede llevar a que una entidad financiera apruebe un crédito hipotecario sobre una propiedad sobrevalorada, o que un fondo inmobiliario tome decisiones de inversión basadas en información imprecisa, lo que incrementa el riesgo crediticio, reduce la eficiencia en la asignación de recursos y deteriora la calidad de los balances financieros. En ese sentido, el propósito de este estudio no es únicamente mostrar que el modelo XGBoost predice “mejor”, sino demostrar que es una herramienta metodológicamente más apropiada para abordar un problema que los modelos tradicionales no resuelven bien. Su capacidad para modelar relaciones no lineales, adaptarse a distintas estructuras de datos y segmentar automáticamente patrones de comportamiento le permite responder de manera más precisa a los desafíos del entorno urbano e inmobiliario de Lima. Por tanto, la tesis propone una solución metodológica que mejora la precisión predictiva con un objetivo mayor: reducir el riesgo financiero asociado a valoraciones inadecuadas. Esto tiene impacto directo en decisiones críticas como la colocación de créditos, la fijación de precios de garantías hipotecarias, la evaluación de riesgos por parte de los reguladores, y la planificación de inversiones en activos inmobiliarios. En este marco, el objetivo general no debe entenderse como una optimización estadística, sino como una contribución práctica y aplicable al análisis financiero moderno. Además, se lista los siguientes objetivos específicos: • Aplicar modelos de ML para la estimación de precios de departamentos en Lima, considerando atributos como tamaño, número de garajes y ubicación. • Comparar la precisión predictiva de los modelos de ML frente a la regresión hedónica, utilizando métricas de error y coeficiente de determinación. • Determinar la importancia relativa de las características de los departamentos en la predicción de precios según el modelo aplicado. 11 • Analizar el desempeño de los modelos en diferentes distritos de Lima para identificar variaciones en la precisión de las estimaciones. • Proponer mejoras en la metodología de estimación de precios inmobiliarios mediante la integración de técnicas avanzadas de ML. 1.4. Hipótesis La implementación de modelos de ML, en particular el algoritmo XGBoost, permite mejorar significativamente la precisión en la estimación del valor de departamentos en Lima, en comparación con los métodos tradicionales como la regresión hedónica. Esta mejora predictiva no solo representa un avance metodológico, sino que tiene implicancias directas en la gestión de riesgos financieros y la toma de decisiones estratégicas por parte de entidades financieras, inversionistas y reguladores. Una predicción más precisa del precio inmobiliario permite una mayor alineación con el valor fundamental del activo, lo cual es esencial para evitar distorsiones en la valorización de garantías, reducir la exposición al riesgo crediticio, y fortalecer los mecanismos de supervisión macro prudencial. En particular, al minimizar los errores de sobrevaloración o subvaloración, se mejora la eficiencia en la colocación de créditos hipotecarios, se optimiza la construcción de portafolios inmobiliarios y se fortalece el análisis de riesgo en instituciones financieras. Además, esta hipótesis se sustenta en la teoría financiera moderna, que sostiene que los precios de los activos deben reflejar sus fundamentales para garantizar la eficiencia de los mercados (Fama, 1970). La existencia de errores sistemáticos en la valoración de activos puede generar burbujas especulativas, pérdidas financieras por colaterales mal estimados y deterioro en la calidad de los balances de las entidades financieras. En este sentido, el uso de modelos avanzados de ML permite mitigar estas ineficiencias mediante una mejor modelación del comportamiento del mercado, adaptándose a no linealidades y complejidades inherentes al mercado inmobiliario urbano. 12 Por tanto, se plantea que un modelo de ML con alta capacidad explicativa y predictiva, como XGBoost, constituye una herramienta superior para estimar precios de inmuebles y al mismo tiempo para mejorar la gestión del riesgo financiero asociado a dichos activos. 1.5. Alcances y limitaciones 1.5.1 Alcances El desarrollo del presente trabajo comprende el uso de datos públicos para el análisis estadístico tradicional mediante regresión lineal y de ML necesario para lograr los objetivos propuestos. Se utiliza información del Banco Central de Reserva del Perú (BCRP) como base de datos para el análisis. El BCRP recopila información de precios de inmuebles y sus características de manera trimestral desde 1998, sin embargo, esta investigación se basará solo en la información publicada desde 2014 en adelante, donde empieza una etapa de moderación en el crecimiento de precios inmobiliarios según indica Mundaca y Sánchez (2018); teniendo como distritos observables a San Isidro, Miraflores, La Molina, Surco, San Borja, Jesús María, Magdalena, Lince, San Miguel, Pueblo Libre. La base de datos utilizada en este estudio contiene información de 22 distritos de Lima Metropolitana. Sin embargo, para el análisis se seleccionaron 10 distritos específicos: La Molina, Miraflores, San Borja, Surco, San Isidro, Jesús María, Magdalena, Pueblo Libre, Lince y San Miguel. Esta selección responde a dos criterios fundamentales. Primero, la mayor disponibilidad de datos, ya que estos distritos concentran una alta cantidad de registros desde 2014 en adelante, representando una porción significativa de la base de datos. Por ejemplo, Miraflores (8,094 registros), Surco (8,083) y San Miguel (5,325) cuentan con un volumen considerable de datos, lo que permite una mejor calibración y validación del modelo de predicción. 13 En segundo lugar, se consideró la homogeneidad del mercado inmobiliario. Estos distritos presentan una dinámica de precios más estable y una oferta inmobiliaria más consolidada en comparación con otros distritos con menor cantidad de transacciones registradas. Al centrarse en zonas con una mayor actividad inmobiliaria, se minimiza la variabilidad estructural que podría sesgar los resultados del modelo. Asegurando así un estudio más representativo y confiable en términos de predicción de precios inmobiliarios. El tamaño de la muestra es un aspecto fundamental en la aplicación de modelos de regresión, ya que influye directamente en la precisión, estabilidad y generalización de los resultados obtenidos. En esta investigación, se ha trabajado con una base de datos compuesta por aproximadamente 40,000 observaciones de departamentos ubicados en 10 distritos de Lima, lo cual constituye una muestra robusta y adecuada para el tipo de modelo hedónico utilizado. De acuerdo con la teoría estadística y econométrica, existe una "Rule of Thumb" (regla práctica) que sugiere que los modelos de regresión pueden funcionar razonablemente bien con apenas 50 observaciones, siempre que el número de variables explicativas no sea excesivo. Esta regla se basa en la relación entre el número de observaciones y el número de parámetros a estimar, lo que resulta crucial para evitar problemas como la multicolinealidad, el sobreajuste y la inestabilidad de los coeficientes. El hecho de que este estudio utilice aproximadamente 40,000 observaciones implica un nivel muy superior al mínimo recomendado, lo que fortalece considerablemente la calidad y robustez del modelo. A continuación, se explican las principales ventajas de contar con un tamaño de muestra amplio: - Robustez y Estabilidad de los Coeficientes Estimados Un tamaño de muestra considerable contribuye a que las estimaciones de los coeficientes de las variables explicativas sean más estables y precisas. Al aumentar la 14 cantidad de datos, se reducen los errores estándar asociados a las estimaciones, lo que mejora la significancia estadística de los coeficientes y aumenta la confiabilidad del modelo. En un contexto inmobiliario, esto es especialmente importante, ya que se busca captar de manera precisa el impacto de cada característica del inmueble (como área, antigüedad, ubicación, entre otras) sobre su precio. - Representatividad de la Muestra y Generalización de Resultados El uso de 40,000 observaciones permite que la muestra capture una amplia heterogeneidad en las características de los departamentos analizados y en las condiciones de mercado de los distintos distritos. Esta diversidad contribuye a que el modelo pueda ser más representativo de la realidad del mercado inmobiliario en Lima y, por tanto, que los resultados obtenidos puedan generalizarse con mayor precisión a otros contextos similares. - Reducción de Problemas Estadísticos Los modelos de regresión aplicados a muestras pequeñas suelen enfrentar problemas estadísticos que pueden comprometer la validez de las estimaciones. Entre los problemas más comunes se encuentran: • Multicolinealidad: Relación lineal entre las variables explicativas que puede inflar los errores estándar y reducir la precisión de las estimaciones. • Heterocedasticidad: Variabilidad desigual de los errores del modelo, que puede afectar la eficiencia de los estimadores. • Sobreajuste (Overfitting): Situación en la que el modelo ajusta perfectamente los datos de la muestra, pero pierde capacidad de generalización a nuevas observaciones. El uso de un tamaño de muestra grande contribuye a mitigar estos problemas, ya que mejora la potencia estadística del modelo y reduce la variabilidad inherente en los datos. Esto permite que las relaciones identificadas entre las variables explicativas y el precio de los departamentos sean más robustas y fiables. 15 - Análisis Comparativos y Desagregados Una muestra amplia también ofrece la posibilidad de realizar análisis más desagregados o comparativos, lo que puede enriquecer las interpretaciones y aplicaciones del modelo. Por ejemplo, el tamaño de muestra utilizado en esta investigación podría permitir analizar diferencias en el impacto de las variables explicativas según el distrito, el rango de precios o la antigüedad de los inmuebles, lo que aporta un nivel adicional de detalle y utilidad a los resultados obtenidos. - Cumplimiento de Criterios Estadísticos y Econométricos Además de la "Rule of Thumb" mencionada, existen otros criterios estadísticos que sugieren que el tamaño de la muestra debe ser al menos 10 veces mayor que el número de parámetros a estimar en un modelo de regresión lineal. Este criterio garantiza que el modelo tenga suficientes grados de libertad para realizar estimaciones precisas y minimizar el riesgo de problemas estadísticos. En este estudio, dado que el número de observaciones es aproximadamente 40,000 y el número de variables explicativas es significativamente menor, se cumple ampliamente este criterio, lo que refuerza la solidez del modelo aplicado. 1.5.2 Limitaciones • La base de datos disponible del BCRP no cuenta con la ubicación exacta de los inmuebles, lo que impide mejorar la precisión de la característica de zonificación. • No es posible medir la variable de ubicación en función de la distancia a puntos estratégicos de la ciudad, como centros comerciales, colegios, centros de salud o espacios de esparcimiento. • El muestreo realizado por el BCRP no posee la rigurosidad metodológica de un instituto de estadística, ya que la información proviene de fuentes como Urbania y Adondevivir. Esto puede generar que, en algunos casos, las características de los inmuebles no estén completamente detalladas. No obstante, el muestreo del BCRP 16 cuenta con una cuota fija de observaciones por distrito en cada periodo, lo que permite disponer de información suficiente para el análisis. • No se dispone de información de la Cámara Peruana de la Construcción (CAPECO) para replicar las ponderaciones realizadas por el BCRP en el índice de precios de inmuebles para Lima Metropolitana y analizar si los precios se encuentran fuera del rango de sus fundamentos. Sin embargo, esto no representa un problema, ya que el enfoque del presente estudio se centra en la construcción de un método alternativo de predicción y no en la replicación de un índice. • Los datos recopilados en diferentes períodos no necesariamente corresponden al mismo inmueble, dado que la probabilidad de que un mismo inmueble sea negociado varias veces es baja, lo que podría reducir el tamaño de la muestra. No obstante, el uso de datos de distintos inmuebles en diferentes periodos aporta mayores beneficios para el análisis. En el desarrollo de este modelo de precios hedónicos para la estimación de valores inmobiliarios en 10 distritos de Lima, se ha puesto énfasis en la inclusión de variables endógenas relacionadas con las características estructurales de los departamentos (como área construida, número de habitaciones y antigüedad), su ubicación geográfica y aspectos ambientales. Este enfoque busca explicar las diferencias en los precios a partir de atributos observables y medibles, alineándose con la teoría económica de los precios hedónicos. Sin embargo, es importante destacar que ciertos factores externos, también conocidos como variables exógenas, pueden influir en el mercado inmobiliario y, por ende, en los precios de los inmuebles. Estas variables, al no formar parte del núcleo del modelo, no han sido incorporadas explícitamente en el análisis. A continuación, se listan algunas de estas variables exógenas, junto con una breve explicación de su relevancia y de los motivos que justifican su ausencia en esta investigación: 17 - Inflación: La inflación es un factor macroeconómico que afecta el poder adquisitivo de la población y, por tanto, tiene un impacto indirecto en el mercado inmobiliario. Cuando la inflación aumenta, el valor real del dinero disminuye, lo que puede llevar a un incremento en los precios nominales de los bienes raíces. Sin embargo, dado que el modelo desarrollado se enfoca en un análisis transversal basado en datos de un período específico, el efecto de la inflación ha sido considerado constante en el corto plazo y no se ha incorporado de manera explícita. Esto permite aislar mejor el impacto de las características intrínsecas de los inmuebles. - Tasas de interés: Las tasas de interés, especialmente las asociadas a créditos hipotecarios son determinantes clave en la accesibilidad de la vivienda. Un aumento en las tasas de interés encarece el financiamiento hipotecario, lo que puede reducir la demanda de viviendas y, en consecuencia, ejercer presión a la baja sobre los precios. La ausencia de esta variable en el modelo se debe a la dificultad de medir su impacto diferencial en cada distrito y a la necesidad de mantener un enfoque centrado en las características específicas de los inmuebles. - Condiciones regulatorias y políticas públicas: El mercado inmobiliario también está influido por factores regulatorios, como las normas de zonificación, los permisos de construcción y las políticas de subsidio a la vivienda. Por ejemplo, restricciones de zonificación que limitan la densidad poblacional pueden aumentar el valor del suelo urbano, mientras que políticas de subsidios pueden incentivar la construcción de viviendas sociales en determinadas zonas. La complejidad de capturar estos efectos de manera uniforme en los diferentes distritos analizados ha llevado a su exclusión del modelo. - Factores macroeconómicos y socioeconómicos: 18 Además de la inflación y las tasas de interés, otros factores macroeconómicos, como el crecimiento económico, el empleo y la confianza del consumidor, pueden influir en la dinámica del mercado inmobiliario. A nivel microeconómico, el perfil socioeconómico de los residentes de cada distrito (ingresos, nivel educativo, etc.) también es relevante. Si bien algunos de estos factores podrían aportar valor adicional al modelo, su incorporación requeriría información detallada que no siempre está disponible a nivel distrital. - Factores exógenos imprevistos: Fenómenos externos como desastres naturales (terremotos, inundaciones) o crisis sanitarias (como la pandemia de COVID-19) pueden generar impactos significativos en el mercado inmobiliario al alterar la oferta y demanda de viviendas. Este tipo de eventos, debido a su carácter imprevisible y su impacto altamente variable, no han sido considerados en el presente análisis. 1.6. Contribución El presente trabajo de investigación se centra en la aplicación de la metodología de precios hedónicos en el mercado inmobiliario de Lima. Nuestra contribución radica en dos aspectos principales: primero, mejorar la estimación de precios de departamentos mediante la transición de métodos estadísticos tradicionales a enfoques basados en ML. Segundo, garantizar la interpretabilidad de los modelos de ML, proporcionando una comparación de la importancia de las variables en la estimación de precios para cada uno de los distritos analizados, incluyendo San Isidro, La Molina, Miraflores, Surco, San Borja, Magdalena, Pueblo Libre, Lince y Jesús María. Desde el punto de vista académico y financiero, esta investigación representa un aporte significativo al desarrollo de modelos de valoración de activos inmobiliarios aplicados al sistema financiero peruano. En la literatura financiera, la estimación del valor fundamental de un activo es clave para evitar sobrevaloraciones que puedan dar lugar a burbujas especulativas. Esta tesis se alinea con esta corriente al proponer una metodología que, 19 mediante el uso de algoritmos de aprendizaje automático, permite obtener estimaciones más precisas y ajustadas a las características intrínsecas del inmueble. En primer lugar, el trabajo se enmarca en el enfoque de estabilidad financiera, ya que una estimación adecuada de precios inmobiliarios reduce la posibilidad de deterioro en las carteras hipotecarias de las instituciones financieras, mejorando la gestión del riesgo de crédito. Una valoración más precisa de los activos inmobiliarios permite a los bancos establecer márgenes de garantía adecuados y tomar decisiones de colocación más seguras. Además, este modelo puede ser utilizado como un insumo en la supervisión macro prudencial por parte de entidades regulatorias como la Superintendencia de Banca, Seguros y AFP (SBS) o el Banco Central de Reserva del Perú (BCRP). La detección temprana de desviaciones significativas entre los precios de mercado y los valores estimados por el modelo puede servir como una señal de alerta ante potenciales desequilibrios financieros o burbujas inmobiliarias. Por otro lado, esta investigación también se conecta con el análisis de portafolios de inversión. Fondos de inversión inmobiliarios, compañías de seguros y bancos de inversión requieren valorar adecuadamente sus activos subyacentes para garantizar una adecuada asignación de recursos, una correcta medición del rendimiento ajustado por riesgo y una valorización realista de su patrimonio. Al proveer un modelo de alta precisión para la valoración de activos residenciales, este trabajo contribuye directamente a mejorar la toma de decisiones en estos contextos. Finalmente, este trabajo también dialoga con la literatura internacional sobre la aplicación de inteligencia artificial en finanzas. Estudios como el de Daníelsson et al. (2020) han demostrado cómo los modelos de ML pueden contribuir a la estabilidad financiera mediante una mejor estimación de riesgos. En esa línea, esta investigación amplía el campo de aplicación de dichos modelos al caso peruano, aportando evidencia empírica relevante que puede ser replicada o extendida a otras economías emergentes. 20 CAPÍTULO II: APLICACIÓN DE LA METODOLOGÍA 2.1. Descripción de datos El BCRP recopila y publica información sobre el precio de departamentos en Lima Metropolitana de los distritos que tienen un mercado más dinámico. En años anteriores se hacía a través de anuncios publicitarios en los periódicos, pero actualmente la digitalización de la información permite la recopilación de información a través de portales web como “Urbania”, “Nexo Inmobiliario” o “Adondevivir”; esta información es más rápida de obtener y mantener actualizada además de recopilar más información con detalles adicionales como metros cuadrados, número de habitaciones, vista interna o externa, cantidad baños, entre otras características de interés. La base de datos a utilizar cuenta con 43,457 observaciones de departamentos de los distritos San Isidro, Miraflores, La Molina, Surco, San Borja, Jesús María, Magdalena, Lince, San Miguel y Pueblo Libre desde 2014 hasta 2024 con frecuencia trimestral considerando las variables precio en soles constantes 2009 (precio), tipo de cambio (tc), índice de precios del consumidor (ipc), metros cuadrados (m2), cantidad de habitaciones (habitaciones), cantidad de baños (baños), cantidad de garajes (garajes), número de piso (piso), si tiene vista interna o externa (vista), años de antigüedad (antigüedad) y distrito en el que se encuentra (distrito). A continuación, la Figura 2.1. muestra las relaciones entre el precio y las características principales mediante diagramas de dispersión mostrando una tendencia positiva entre el precio y los metros cuadrados sugiriendo que el precio incrementa conforme aumenta el tamaño, al igual que con el número de garajes. Por otro lado, el piso en el que se encuentra el departamento parece no tener relevancia mientras que la antigüedad parece mostrar una ligera relación negativa con el precio. Y finalmente, la relación con el número de habitaciones parece ser ligeramente creciente, pero con alta dispersión al igual que los baños. 21 Figura 2.1. Diagramas de dispersión. Fuente: Elaboración propia. Es importante notar que existen observaciones con cantidad de baños y habitaciones por encima de 6 unidades, pero con precios relativamente bajos, generando preocupación en que la ligera tendencia positiva entre el precio y habitaciones y baños puede estarse viendo afectada por la posibilidad de existencia de un alto número de observaciones de estas características; que podría ser consecuencia de la falta de rigurosidad en la 22 recopilación de datos descrita en las limitaciones. Para poder confirmar que no se genera esta situación mostramos la Figura 2.2. donde se aprecia que la distribución de estas características se encuentra concentrada por debajo de 6 unidades; confirmando que la baja relación positiva entre el precio y dichas características es generada por observaciones que parecen no tener problemas en la recopilación de datos. Figura 2.2. Distribución de habitaciones y baños. Fuente: Elaboración propia. 2.2. Regresión hedónica 2.2.1. Principios básicos y fundamento teórico La regresión hedónica es una técnica econométrica utilizada para descomponer el precio de un bien en el valor de sus características permitiendo cuantificar el valor marginal de cada una de las características, proporcionando una visión detallada de cómo afectan al precio final del departamento. Esta regresión se suele realizar mediante regresión lineal entre el precio y las características. Desde un punto de vista matemático, la función de precios hedónicos se puede expresar de la siguiente manera lineal: 𝑦𝑖 = 𝛽0 + ∑ 𝛽𝑖𝑥𝑖 𝑛 𝑖=1 + 𝜀𝑖 , (1) 23 donde 𝑦𝑖 representa el precio del inmueble, y 𝑥𝑖 son las características que influyen en el precio. Reemplazando las características en la función (1) obtenemos: 𝑝𝑟𝑒𝑐𝑖𝑜 = 𝛽0 + 𝛽1tc + 𝛽2ipc + 𝛽3m2 + 𝛽4ℎ𝑎𝑏 + 𝛽5baño + 𝛽6garaje + 𝛽7piso + 𝛽8vista + 𝛽9antigüedad + 𝛽10distrito2 + ⋯ + 𝛽18distrito10 + 𝜀, (2) donde 𝛽1, 𝛽2,…, 𝛽𝑛 son los coeficientes que indican la contribución marginal de cada característica al precio total, y d𝑖 es cada uno de los distritos. Para poder calcular el set de coeficientes estimados se aplica se debe realizar un proceso de optimización en el que se busca minimizar los errores al cuadrado siendo la función objetivo a minimizar: ∑ 𝜀𝑖 𝑛 𝑖=1 = ∑ (𝑦𝑖 − �̂�𝑖)2𝑛 𝑖=1 , (3) obteniendo como resultado la siguiente forma general (4) de cómo se calcula el �̂�: �̂� = (𝑋′𝑋)−1(𝑋′𝑌), (4) 2.2.2. Aplicación del modelo Para la aplicación de una regresión lineal partiendo de la base de datos obtenida del BCRP se necesita realizar una transformación de los datos, ya que el modelo lineal no admite variables de texto como el distrito. En ese sentido, se aplica One-Hot Encoding en la data para transformar la variable de texto distrito en 10 nuevas variables, una para cada distrito con valores de 1 en caso la observación se encuentre en ese distrito o 0 en caso contrario. Además, para evitar problemas de colinealidad es necesario omitir alguno de los distritos, y de esa manera se podrá realizar con éxito la estimación de coeficientes. Dado que el objetivo es poder comparar posteriormente contra los modelos de ML, y como se explicará más a detalle en los puntos 2.3. y 2.4., se decidió separar la base de datos en 80% para entrenamiento y 20% para testeo del modelo de manera aleatoria; de tal 24 manera que la regresión lineal y cálculo de coeficientes se realiza con solo el 80% de la información generando los resultados de la Tabla 2.1. Finalmente utilizando los coeficientes obtenidos en la regresión lineal de la data de entrenamiento procedemos a estimar precios en base a las características del 20% restante de información reservada para testeo del modelo y poder evaluar qué tan acertado es el modelo hedónico de regresión lineal en datos que no ha observado con anterioridad. La regresión hedónica es una metodología ampliamente utilizada para estimar el valor de bienes inmuebles en función de sus características intrínsecas y extrínsecas. Este modelo se fundamenta en la teoría del precio hedónico, propuesta por Rosen (1974), que establece que el precio de un bien complejo, como una vivienda, puede descomponerse en los valores marginales de sus atributos (Rosen, 1974). En el contexto del mercado inmobiliario de Lima, la regresión hedónica permite analizar el impacto de variables como la ubicación, el tamaño, el número de habitaciones y la antigüedad sobre el precio de los departamentos. A través de este análisis, es posible comprender cuáles son los factores que más influyen en la formación de precios y cómo estos pueden predecirse mediante técnicas de Machine Learning. La matriz de correlación es una herramienta estadística utilizada para medir la relación entre las variables continuas de un modelo. Se construye calculando el coeficiente de correlación de Pearson entre pares de variables, proporcionando valores en un rango de -1 a 1: Valores cercanos a 1 indican una fuerte correlación positiva. Valores cercanos a -1 indican una fuerte correlación negativa. Valores cercanos a 0 sugieren una correlación débil o inexistente. Para el presente estudio, se excluyen variables discretas como los distritos, ya que estas se codifican de manera diferente (por ejemplo, mediante One-Hot Encoding). La matriz de 25 correlación permite identificar relaciones entre variables clave, como el área total, el número de habitaciones y el precio del inmueble. En los modelos de regresión lineal tradicional, una alta correlación entre variables explicativas puede generar un problema conocido como multicolinealidad. Este fenómeno dificulta la interpretación de los coeficientes del modelo y puede afectar su estabilidad (Gujarati & Porter, 2009). Para detectar multicolinealidad, se suele calcular el Factor de Inflación de la Varianza (VIF), donde valores mayores a 10 indican problemas significativos. 2.2.3. Resultado del modelo La Tabla 2.1. muestra los resultados de la regresión lineal del modelo hedónico obteniendo un 𝑅2, que se define en el apartado 2.6.1., de 0.787 en la data de entrenamiento con coeficientes en su mayoría significativos al 95%, excepto la cantidad de baños; siendo las características más importantes la cantidad de garajes y metros cuadrados. Y como es de esperar, los distritos tienen un impacto negativo en comparación a estar ubicado en el distrito de San Isidro (variable omitida para tomar de referencia). 26 Tabla 2.1. Regresión lineal. Fuente: Salida de la regresión en Python con resultados. La Figura 2.3. muestra de manera gráfica la relación entre el precio estimado y el precio real en el 20% de data de testeo, pretendiendo dar señales de que el 𝑅2 en la data de testeo puede ser bastante alto. Posteriormente, en el apartado 2.6. se definirá de manera cuantitativa como evaluar a profundidad y confirmar esta hipótesis. 27 Figura 2.3. Precios estimados de modelo hedónico de regresión lineal. Fuente: Elaboración propia. 2.3. Árbol de Decisión 2.3.1. Principios básicos y fundamento teórico El Árbol de Decisión es un modelo predictivo que organiza la toma de decisiones mediante una estructura jerárquica similar a un árbol. Su funcionamiento se basa en dividir un conjunto de datos en subconjuntos más pequeños a través de una serie de preguntas o condiciones basadas en las características de los datos. El árbol comienza en un nodo raíz, que representa el punto de partida donde se realiza la primera división del conjunto de datos. A partir de ahí, los nodos internos generan nuevas divisiones en función de distintos criterios, como el valor de una característica específica. Las ramas conectan estos nodos y representan los posibles caminos o resultados de las decisiones anteriores. Finalmente, los nodos hoja contienen la predicción final del modelo, que puede ser una clasificación o un valor numérico (como nuestro caso), dependiendo del tipo de problema. 28 En problemas de regresión, como la predicción de precios de departamentos, el valor de cada nodo hoja corresponde a una estimación del precio, calculada en función de las características del inmueble. El proceso de construcción del árbol busca minimizar el error de predicción dividiendo los datos de manera óptima en cada paso. Para terminar de aterrizar el funcionamiento del árbol de decisión, la Figura 2.4. muestra un ejemplo de gráfico tridimensional de un Árbol de Decisión de solo 2 características. En este caso, cuando el tamaño es menor a 100, el precio promedio de los departamentos es 250; cuando el tamaño es mayor a 100 pero con menos de 3 habitaciones, el precio promedio es 450; y cuando es mayor de 100 y con más de 3 habitaciones el precio promedio es 850. Figura 2.4. Ejemplo Tridimensional de árbol de decisión. Fuente: Elaboración propia. La Figura 2.5. grafica un ejemplo de árbol de decisión calculado con la data de entrenamiento limitando los outputs del modelo (u hojas de salida) a solo 10 posibilidades para poder mostrarlo a manera de ejemplo en el presente documento. 29 Figura 2.5. Ejemplo de árbol de decisión. Fuente: Elaboración propia. 30 Formalizando la estructuración del árbol de decisión, el primer paso en la construcción de un árbol de decisión es subdividir el espacio de las variables explicativas 𝑋1, 𝑋2, 𝑋3, . . . , 𝑋𝑝 en posibles combinaciones que definan las distintas 𝐽 regiones 𝑅1, 𝑅2, 𝑅3, … , 𝑅𝑗, dentro de las cuales se estimará la variable dependiente. El objetivo de esta partición es minimizar la suma de los errores al cuadrado dentro de cada región 𝑅𝑗: ∑ ∑ (𝑦𝑖 − �̂�𝑅𝑗 )2 𝑖∈𝑅𝑗 𝐽 𝑗=1 , (5) donde 𝑦𝑖 es el valor real de la variable dependiente en la observación 𝑖, e �̂�𝑅𝑗 es la predicción promedio dentro de la región 𝑅𝑗. Explorar todas las posibles particiones del espacio de características sería computacionalmente inviable, por lo que se adopta un enfoque top-down o de división recursiva binaria. Este método comienza con todo el conjunto de datos en una sola región y, de manera sucesiva, divide el espacio de predictores en dos ramas. Para poder aplicar este criterio se elige un predictor 𝑋𝑗 con un punto de corte 𝑠 dividiendo el espacio en 2 regiones; 𝑅1(𝑗, 𝑠) = {𝑋𝑗 < 𝑠} , 𝑅2(𝑗, 𝑠) = {𝑋𝑗 ≥ 𝑠} (6) El criterio de división busca minimizar la suma de residuos al cuadrado total, definida como: ∑ (𝑦𝑖 − �̂�𝑅1)2 𝑖:𝑥𝑖 ∈𝑅1(𝑗.𝑠) + ∑ (𝑦𝑖 − �̂�𝑅2)2 𝑖:𝑥𝑖 ∈𝑅2(𝑗.𝑠) (7) Se evalúan todos los predictores 𝑋𝑗 y todos los posibles puntos de corte 𝑠 para encontrar la combinación que minimice la RSS. Este proceso se repite de forma recursiva, dividiendo sucesivamente una de las regiones previamente definidas, creando así tres regiones, luego cuatro, y así sucesivamente hasta cumplir un criterio de parada. Finalmente, una vez que el 31 árbol ha sido construido, la predicción para una nueva observación se obtiene calculando el promedio de las observaciones de entrenamiento dentro de la región correspondiente. 2.3.2. Aplicación del modelo En el caso del árbol de decisión, al igual que en la regresión lineal, es necesario transformar los datos mediante One-Hot Encoding pero sin la necesidad de omitir un distrito porque la colinealidad que no permite calcular la inversa de (𝑋′𝑋) en la ecuación (4) no existe en el árbol de decisión ya que la forma funcional de optimización es distinta. Este modelo aplicado desde Python necesita utilizar la librería sklearn de donde se obtiene: • sklearn.tree.DecisionTreeRegressor: Implementa un árbol de decisión para regresión. • sklearn.tree.plot_tree: Permite visualizar el árbol de decisión. • sklearn.model_selection.train_test_split: Divide los datos en conjuntos de entrenamiento y prueba. • sklearn.metrics: Contiene funciones para evaluar el rendimiento del modelo. La creación del modelo se realiza mediante dt=DecisionTreeRegressor() para luego entrenarlo con dt.fit(x_dt_train, y_dt_train), donde dt es el nombre que le damos al árbol de decisión que estamos creando; x_dt_train es la matriz de características utilizadas para entrenar el modelo, así como y_dt_train es el vector de precios del mismo bloque de datos. Después de entrenar el modelo, podemos realizar estimaciones sobre el 20% de los datos restantes, correspondientes al conjunto de prueba. Esto nos permitirá evaluar la capacidad del modelo de árbol de decisión para estimar los precios en datos que no ha visto previamente. Para hacer las estimaciones, utilizamos: dt_pred=dt.predict(x_dt_test). Adicionalmente, con el árbol de decisión entrenado, se puede calcular la importancia relativa de las características, pero, como el One-Hot Encoding generó inicialmente una variable para cada distrito, las importancias de este grupo de variables se deben sumar para 32 entender la importancia del distrito de manera agrupada en comparación al resto de variables. La importancia relativa de las características en un árbol de decisión se determina a partir de la reducción del criterio de división, que en este caso es el error cuadrático medio (MSE). En cada nodo, se elige la característica que genera la mayor disminución del error. 𝑀𝑆𝐸(𝑅) = 1 𝑛 ∑ (𝑦𝑖 − �̂�𝑅) 2𝑖𝜖𝑅 , (8) donde, 𝑛 es el número total de observaciones en el nodo 𝑅; 𝑦𝑖 es el valor real de la variable objetivo para la observación 𝑖; e �̂�𝑅 = 1 𝑛 ∑ 𝑦𝑖𝑖𝜖𝑅 . La relevancia de una característica se calcula sumando la reducción del MSE en todos los nodos donde ha sido utilizada como criterio de división. Finalmente, estos valores se normalizan para expresar la importancia en términos de un porcentaje relativo. Para cada característica 𝑗, su importancia relativa se calcula como: 𝐼𝐽 = 1 𝑁 ∑ ∆𝑀𝑆𝐸𝑡 𝑁 𝑡=1 , (9) donde 𝐼𝑗 es la importancia de la característica 𝑗; 𝑁 es el número total de nodos en los que la característica 𝑗 ha sido utilizada para dividir; ∆𝑀𝑆𝐸𝑡 es la reducción del error cuadrático medio en el nodo 𝑡 cuando se usa la característica 𝑗. Finalmente, se normaliza dividiendo cada 𝐼𝑗 entre la suma total de importancias de todas las características para obtener un valor relativo entre 0 y 1. La variación del MSE se calcula como la diferencia entre el error antes y después de realizar una división en dicho nodo; esta métrica mide cuánto mejora el modelo al realizar una partición basada en una característica específica. ∆𝑀𝑆𝐸 = 𝑀𝑆𝐸𝑝𝑎𝑑𝑟𝑒 − ( 𝑁𝑖𝑧𝑞 𝑁𝑡𝑜𝑡𝑎𝑙 𝑀𝑆𝐸𝑖𝑧𝑞 + 𝑁𝑑𝑒𝑟 𝑁𝑡𝑜𝑡𝑎𝑙 𝑀𝑆𝐸𝑑𝑒𝑟), (10) 33 donde 𝑀𝑆𝐸𝑝𝑎𝑑𝑟𝑒 es el error cuadrático medio antes de la división; 𝑀𝑆𝐸𝑖𝑧𝑞 es el error en el nodo hijo izquierdo; 𝑀𝑆𝐸𝑑𝑒𝑟 es el error en el nodo hijo derecho; 𝑁𝑖𝑧𝑞 y 𝑁𝑑𝑒𝑟 son el número de muestras en los nodos izquierdo y derecho, respectivamente; y 𝑁𝑡𝑜𝑡𝑎𝑙 = 𝑁𝑖𝑧𝑞 + 𝑁𝑑𝑒𝑟 es el número total de muestras en el nodo padre. 2.3.3. Resultado del modelo La Figura 2.6. muestra el resultado de las importancias relativas de las características utilizadas para estimar los precios de los departamentos, siendo el tamaño la característica con mayor importancia, contribuyendo en un 74% a la toma de decisiones dentro del árbol; seguido por 8% en los distritos y 6% en la cantidad de garajes. Figura 2.6. Importancia relativa de las características de Árbol de Decisión. Fuente: Elaboración propia a partir de los resultados del Árbol de Decisión en python. La Figura 2.7. muestra de manera gráfica la relación entre el precio estimado y el precio real en el 20% de data de testeo en el modelo de árbol de decisión, pareciendo tener un 𝑅2 no tan alto como la regresión lineal. Esta gráfica es comparable con la Figura 2.3. del modelo hedónico. 34 Figura 2.7. Precios estimados de modelo de árbol de decisión. Fuente: Elaboración propia. 2.4. XGBoost 2.4.1. Principios básicos y fundamento teórico XGBoost es un algoritmo de ML basado en el método de gradient boosting, el cual construye múltiples árboles de decisión en secuencia con el objetivo de minimizar el error de predicción. Cada nuevo árbol se entrena para corregir los errores cometidos por los árboles anteriores, logrando una mejora progresiva en la capacidad predictiva del modelo, permitiendo modelar de manera más precisa dichas relaciones al generar árboles de decisión optimizados. En relación con la eficiencia del manejo de conjuntos de datos voluminosos, el sistema XGBoost se caracteriza por su capacidad para gestionar grandes cantidades de datos de manera eficiente, permitiendo un procesamiento más rápido de los datos y una utilización más efectiva de los recursos computacionales disponibles, lo que resulta en un sistema escalable capaz de manejar grandes volúmenes de data con menos recursos en comparación con otros sistemas. XGBoost no solo se destaca por su rendimiento y eficiencia, sino también por la facilidad de uso, capacidad de adaptación a una amplia variedad de datos, de problemas y 35 de tipos de datos en el campo del aprendizaje automático. La combinación de velocidad, escalabilidad y precisión hace que sea una herramienta invaluable para cualquier profesional que busca desarrollar modelos predictivos de alto rendimiento en diversos dominios y aplicaciones. (Chen, T. y C. Guestrin, 2016). El modelo se expresa como: �̂�𝑖 = ∑ 𝑓𝑘 𝐾 𝑘=1 (𝑥𝑖), 𝑓𝑘 ∈ 𝐹, (11) donde �̂�𝑖 es la predicción del precio del inmueble 𝑖; 𝑥𝑖 es el vector de características del i- ésimo departamento; 𝑓𝑘(𝑥𝑖) representa el k-ésimo árbol de decisión en el modelo; F es el espacio de todos los árboles de decisión; y K es el número total de árboles en el modelo. El modelo minimiza la siguiente función de pérdida objetivo en la iteración 𝑡: ℒ (𝑡) = ∑ 𝑙(𝑝𝑖, 𝑛 𝑖=1 �̂�𝑖 (𝑡−1) + 𝑓𝑡(𝑥𝑖)) + 𝛺(𝑓𝑡), (12) donde 𝑙(𝑝𝑖, �̂�𝑖) es la función de pérdida: 𝑙(𝑝𝑖, �̂�𝑖) = 1 2 (𝑝𝑖 − �̂�𝑖) 2, (13) y 𝛺(𝑓𝑡) es el término de regularización para evitar sobreajuste: 𝛺(𝑓𝑡) = 𝛾𝑇 + 1 2 𝜆 ∑ 𝜔𝑗 2 𝑗 , (14) donde T es el número de nodos en el árbol y ωj son los pesos de las hojas. Para encontrar la mejor función 𝑓𝑡, se usa una expansión de segundo orden de Taylor de la función de pérdida; y aplicando (13) en (11) obtenemos: ℒ (𝑡) ≈ ∑ [𝑔𝑖𝑓𝑡(𝑥𝑖) + 1 2 ℎ𝑖𝑓𝑡 2(𝑥𝑖)] + 𝛾𝑇 + 1 2 𝜆 ∑ 𝜔𝑗 2 𝑗 𝑛 𝑖=1 , (15) donde 𝑔𝑖 es la gradiente de pérdida: 𝑔𝑖 = 𝜕𝑙(𝑦𝑖,�̂�𝑖) 𝜕�̂�𝑖 , (16) 36 ℎ𝑖 la segunda derivada de la pérdida: ℎ𝑖 = 𝜕2𝑙(𝑦𝑖,�̂�𝑖) 𝜕�̂�𝑖 2 , (17) y el peso 𝜔𝑗 de cada nodo del árbol: 𝜔𝑗 ∗ = − ∑ 𝑔𝑖𝑖𝜖 𝐼𝑗 ∑ ℎ𝑖+𝜆𝑖𝜖 𝐼𝑗 , (18) donde 𝐼𝐽 es el conjunto de muestras en la hoja 𝑗. La ganancia de dividir en nodo en dos (𝐿 𝑦 𝑅) se mide como: 𝐺𝑎𝑖𝑛 = 1 2 [ (∑ 𝑔𝑖)𝑖𝜖𝐿 2 ∑ ℎ𝑖+ 𝜆 𝑖𝜖𝐿 + (∑ 𝑔𝑖)𝑖𝜖𝑅 2 ∑ ℎ𝑖+ 𝜆 𝑖𝜖𝑅 − ∑ 𝑔𝑖𝑖𝜖𝐿∪𝑅 2 ∑ ℎ𝑖+ 𝜆 𝑖𝜖𝐿∪𝑅 − 𝛾 (19) Si la ganancia es menor que un umbral, la división no se realiza. Posteriormente se inicia un el proceso iterativo de entrenamiento partiendo de �̂�𝑖 = 0; para cada iteración se calcula 𝑔𝑖 y ℎ𝑖; se construye un nuevo árbol 𝑓𝑡 minimizando ℒ (𝑡) y se actualiza la predicción �̂�𝑖 (𝑡) = �̂�𝑖 (𝑡−1) + 𝑓𝑡(𝑥𝑖), (20) y se detiene cuando el modelo converge o se alcanza el número máximo de iteraciones. La multicolinealidad, entendida como la existencia de una alta correlación entre dos o más variables explicativas, representa una limitación metodológica importante en los modelos lineales clásicos, como la regresión lineal múltiple. En dichos modelos, la presencia de multicolinealidad puede distorsionar las estimaciones de los coeficientes, dificultar la interpretación de los efectos individuales de las variables y generar inestabilidad en la predicción, especialmente cuando se trabaja con bases de datos complejas y de alta dimensionalidad como las que caracterizan al mercado inmobiliario. No obstante, en el contexto de modelos basados en árboles, como XGBoost (Extreme Gradient Boosting), la multicolinealidad no representa una limitación significativa, gracias 37 al mecanismo con el que este algoritmo selecciona variables durante el entrenamiento. XGBoost construye árboles de decisión secuenciales mediante un enfoque de boosting, donde en cada iteración se seleccionan las variables que maximizan una función de ganancia (gain), en función de su capacidad para reducir el error de predicción. Si dos o más variables están altamente correlacionadas, el algoritmo identificará cuál de ellas ofrece una mayor ganancia de información en el conjunto de entrenamiento, y asignará menor importancia a las variables redundantes. Esto implica que XGBoost realiza una selección implícita de variables durante el proceso de construcción del modelo, priorizando aquellas que aportan mayor valor predictivo y relegando las que presentan redundancia o bajo aporte marginal, aun cuando estén altamente correlacionadas con las variables seleccionadas. En efecto, la importancia de cada característica se evalúa en términos de su contribución a la mejora del modelo a lo largo de múltiples árboles, lo cual permite manejar automáticamente el problema de la multicolinealidad sin necesidad de preprocesamiento adicional. Adicionalmente, el algoritmo incorpora técnicas de regularización L1 (Lasso) y L2 (Ridge), que penalizan la complejidad del modelo y atenúan el impacto de variables poco relevantes, reforzando su robustez ante relaciones espurias entre predictores. Esta propiedad ha sido reconocida en investigaciones previas, como la de Chen y Guestrin (2016), quienes destacaron que XGBoost no solo supera a modelos lineales en precisión, sino que también presenta una mayor estabilidad ante problemas clásicos como la multicolinealidad. Por lo tanto, en el presente trabajo, se considera que la utilización de XGBoost es metodológicamente adecuada incluso en presencia de correlaciones elevadas entre predictores, ya que el modelo está diseñado para aprender de manera eficiente a partir de datos estructurados con características interrelacionadas, como ocurre en el análisis de precios inmobiliarios. 38 2.4.2. Aplicación del modelo A diferencia de los modelos anteriores, el XGBoost permite manejar la variable distrito sin necesidad de transformar el dato con One-Hot Encoding; este algoritmo de ML es capaz de identificar la variable como categórica con solo una especificación para que lo entienda el software mediante df_xgb['distrito'] = df_xgb['distrito'].astype('category'), donde df_xgb es el nombre de la base de datos y astype('category') da la indicación de considerar los distritos como categóricos. La librería a utilizar es la del mismo nombre del modelo y se instala mediante pip install xgboost. La creación del modelo se realiza mediante model_xgb=XGBRegressor() para luego entrenarlo con model_xgb.fit(x_xgb_train, y_xgb_train), donde model_xgb es el nombre que le damos al modelo que estamos creando; x_xgb_train es la matriz de características utilizadas para entrenar el modelo, así como y_xgb_train es el vector de precios del mismo bloque de datos. Y las predicciones se obtienen mediante xgb_pred=model_xgb.predict(x_xgb_test). En este modelo se calcula la importancia relativa de la ubicación directamente sin necesidad de posteriormente sumar cada distrito, gracias a la definición previa de la variable como categórica. 2.4.3. Resultado del modelo La Figura 2.8. muestra el resultado de las importancias relativas de las características utilizadas para estimar los precios de los departamentos, siendo también el tamaño la característica con mayor importancia, contribuyendo en un 65%, 11% en los garajes y 10% en distrito. La Figura 2.9. muestra la relación entre precio estimado y real en la data de testeo para el XGBoost, pareciendo tener un 𝑅2 mayor que los modelos previos. Esta gráfica es comparable con las Figura 2.3. y Figura 2.7. de Árbol de Decisión y XGBoost respectivamente. 39 Figura 2.8. Importancia relativa de las características XGBoost. Fuente: Elaboración propia a partir de los resultados del XGBoost en python. Figura 2.9. Precios estimados de modelo XGBoost. Fuente: Elaboración propia. 40 2.5. Ventajas y desventajas La Tabla 2.2. muestra las ventajas y desventajas comparadas para los modelos en evaluación en cuanto a facilidad de interpretación de resultados, funcionamiento con relaciones no lineales y rendimiento del modelo. Tabla 2.2. Cuadro de ventajas y desventajas de los métodos. Método Ventajas Desventajas Regresión Hedónica Fácil de interpretar. Riesgo de multicolinealidad y omisión de variables. Impacto de cada variable en el precio. Variables ficticias para predictores cualitativos. Funciona bien en relaciones lineales. Dificultad en relaciones no lineales. Árbol de Decisión Fácil de interpretar. Alto riesgo de sobreajuste. Fácil de visualizar. Sensible a pequeñas variaciones en los datos. Funciona bien en relaciones no lineales. Riesgo de sesgo hacia características dominantes. XGBoost Alto rendimiento en predicciones. Difícil de interpretar. Funciona bien en relaciones complejas. Mayor costo computacional. Fuente: Elaboración propia. 2.6. Métricas de desempeño 2.6.1. Definición de métricas Para evaluar el desempeño y precisión de los modelos utilizados, hemos seleccionado cuatro métricas estadísticas: Mean Absolute Porcentaje Error (MAPE), Mean Absolute Error (MAE), Root Mean Squared Error (RMSE) y Coeficiente de Determinación (R2), las cuales se definen en la Tabla 2.3. 41 Tabla 2.3. Cuadro de definición de métricas. Fuente: Elaboración propia. 2.6.2. Validación cruzada La validación cruzada es una técnica fundamental en ML y estadística utilizada para evaluar el rendimiento de un modelo y reducir el riesgo de sobreajuste. Su objetivo es obtener una estimación más confiable de la capacidad de generalización de un modelo, especialmente cuando se dispone de un conjunto de datos limitado. Para lograr esto, el conjunto de datos se divide en varios subconjuntos, permitiendo que el modelo se entrene y evalúe en diferentes partes de este, lo que proporciona una evaluación más robusta. Métricas Fórmula Descripción Mean Absolute Percentage Error (MAPE) 𝑀𝐴𝑃𝐸 = 1 𝑛 ∑ | 𝑃 − �̂� 𝑃 | 𝑥 100 Calcula la variación porcentual absoluta promedio entre los precios reales y estimados. Mean Absolute Error (MAE) 𝑀𝐴𝐸 = 1 𝑛 ∑|𝑃 − �̂�| Calcula la variación absoluta promedio entre los precios reales y estimados. Root Mean Squared Error (RMSE) 𝑅𝑀𝑆𝐸 = √ 1 𝑛 ∑(𝑃 − �̂�) 2 Calcula la raíz cuadrada del promedio de los errores al cuadrado. Coeficiente de Determinación (R²) 𝑅2 = 1 − ∑(𝑃 − �̂�) 2 ∑(𝑃 − �̅�)2 Cal