UNIVERSIDAD ESAN 

 
Uso de Machine Learning para la predicción de precios de departamentos en 

Lima 

 Trabajo de investigación presentado en satisfacción parcial de los requerimientos 

para obtener el grado de Maestro en Finanzas por: 

 
Código 2208740  Barrientos Villegas, Renzo David 

 
Código 2208767 Delgado Luque, Renzo Augusto 

 
Código 2208766 Escalante Carty, Laura Patricia 

 
Código 2201792 Febres Bustamante, Gonzalo 

 
Código 2207462 Hisbes Malca, Estefany Brizet 

 
Programa de la Maestría en Finanzas 

MAF/22-2 

Lima, 21 de marzo de 2025 

 
ii 
 

iii 
 

Este trabajo de investigación 

Uso de Machine Learning para la predicción de precios de departamentos en Lima ha 

sido aprobado.  

 
Universidad ESAN 

2025 


iv 
 

A mí familia por su apoyo incondicional y creer en mi desde siempre, a mi grupo de la 

maestría, que son ahora mis amigos, por su apoyo constante y consejos para sacar 

adelante cada uno de los procesos que vivimos juntos y a mi novia por impulsarme a 

seguir creciendo profesionalmente. 

Renzo Barrientos 

 
A mis padres, y a mi futura esposa a quienes me motivaron para emprender este camino 

de desafíos y retos. A mis compañeros de la maestría con quienes compartimos noches de 

estudios, risas y desafíos. Por el apoyo mutuo, la motivación constante y por demostrar 

que el camino es más llevadero cuando se recorre en equipo. 

Renzo Delgado 

 
A mi madre, a mi futuro esposo, a Sh. y Ql., por su amor y su constante ayuda. Pero, 

sobre todo, al grupo 8, unos grandes amigos. 

Laura Escalante 

 
A mi esposa, Diana, y a mis hijos, José Eduardo y Joaquín Ignacio. 

Gonzalo Febres 

 
A mis padres, Manuel y María, por ser mi mayor inspiración. A mis hermanos mayores, y 

a los más pequeños S y K por su amor incondicional. Y a mi novio, mi compañero de 

vida, por su apoyo constante.  

Estefany Hisbes 

 
v 
 

Renzo David Barrientos Villegas 

 
Candidato a Maestro en Finanzas de ESAN Graduate School of Business. Contador de la 

UNMSM. Experiencia de 4 años en preparación de estados financieros, análisis de cuentas 

y registros contables, Experiencia de 3 años en Finanzas con el control de gastos 

presupuestados, seguimiento de indicadores financieros, proyección de resultados, 

presupuesto anual de empresa y evaluación de nuevos proyectos. 

 
FORMACIÓN 

2022 – 2024 ESAN Graduate School of Business 

Maestría en Finanzas, Finanzas Corporativas. 

 
2023 -  UPF Barcelona School of Management 

Maestría de Gerencia Bancaria y Financiera. 

 
2014 – 2018 - Universidad Nacional Mayor de San Marcos 

Bachiller en Contabilidad 

 
EXPERIENCIA 

2020 - 

Actualidad 

SANNA División Ambulatoria – Servicios médicos - Empresa con 30 

años en el sector salud y venta de medicinas. 

 Jefe de Planeamiento y Finanzas. 

•Responsable de mantener la confiabilidad de los resultados y 

cumplimiento de los objetivos de la empresa. 

•Manejo de proyección de ventas y resultados mensuales y anuales. 

•Control de indicadores financieros y control del presupuesto anual. 

•Evaluación de nuevos proyectos o negocios para el sector salud. 


vi 
 

•Cumplimiento de objetivos por tipo de negocio de salud dentro de la 

empresa, tanto en costos como en resultados y niveles de ventas. 

 Analista de Finanzas 

•Responsable del seguimiento de indicadores financieros, proyecciones 

mensuales por negocio y apoyo en elaboración de presupuesto. 

•Elaboraciones de indicadores por negocio y el tipo de pacientes 

asegurados en centros clínicos. 

•Apoyo en la proyección y elaboración de presupuesto. 

 Analista de Contabilidad  

•Análisis de cuentas contables, elaboración de estados financieros y 

control de provisiones por negocio. 

•Registro de provisiones mensuales por negocio 

•Elaboración de anexos para la explicación de cuentas contables 

•Control de las conciliaciones bancarias y flujos de caja. 

 
vii 
 

Renzo Augusto Delgado Luque  

 
Candidato a Maestro en Finanzas de ESAN Graduate School of Business. Administrador 

de Empresas en la Universidad Peruana de Ciencias Aplicadas (UPC) con más de 5 años 

de experiencia en el Área de Finanzas a nivel corporativo en puestos de jefatura, 

coordinador y analista de finanzas en empresas del sector construcción.  

 
FORMACIÓN ACADÉMICA 

2022 – 2024 ESAN Graduate School of Business 

Maestría en Finanzas, Finanzas Corporativas. 

 
2023 - UPF Barcelona School of Management 

Maestría de Gerencia Bancaria y Financiera. 

          
2014 - 2019 Universidad Peruana de Ciencias Aplicadas (UPC) – Bachiller en 

Administración de Empresas. 

 
EXPERIENCIA PROFESIONAL 

2018 - 

Actualidad 

FLESAN DEL PERU - Empresa constructora chilena con participación en 

Perú por más de 15 años teniendo en su cartera más de 1,000 obras a nivel 

nacional. 
 

Jefe de Finanzas  

• Gestión Financiera y Bancaria: Administración de líneas de financiamiento, 

emisión de garantías, gestión de deuda y optimización de costos financieros. 

• Análisis y Presentación de Estados Financieros: Evaluación de ratios 

financieros, cierre contable mensual y elaboración de informes de gestión. 


viii 
 

• Planificación y Estructuración de Proyectos: Proyección financiera, 

estructuración de proyectos inmobiliarios y energéticos, y adquisición de 

financiamiento. 

• Sustentación y Reportes Estratégicos: Presentación de estados financieros 

ante entidades de financiamiento y elaboración de reportes para la alta 

dirección. 

2017 - 

2018 

BANCO INTERNACIONAL DEL PERU (INTERBANK) - Entidad 

financiera que pertenece al Grupo INTERCORP 
 

Analista de Prevención de Fraudes                                                                  

•Análisis de eventos de fraude, elaborando informes de prevención y control 

de diversas unidades. 

•Realizar seguimiento de las posibles modalidades de fraude en el ámbito 

local e internacional 

•Diseñar y proponer controles que reduzcan la probabilidad de ocurrencia de 

fraude interno y/o externo de los procesos y procedimientos del Banco. 

•Proponer actividades para fomentar una cultura de prevención contra riesgos 

de fraude, destinada a salvaguardar el patrimonio del Banco. 

•Proponer en coordinación con las unidades orgánicas responsables las 

modificaciones en los sistemas, procedimientos y controles para minimizar el 

riesgo de fraude. 


ix 
 

Jefe de Operaciones y Servicios                                                                  

•Administrador de una oficina bancaria supervisando las actividades 

operativas, de control y seguridad. Impulsar la venta de productos y servicios 

que ofrece la entidad financiera. 

•Definir los lineamientos generales del modelo operativo de la Banca 

Comercial. 

•Recabar la información que sustente los requerimientos canalizados al Área 

de Procesos. 

•Cumplir con las metas indicadas por parte del área comercial del banco 

(venta de tarjetas de crédito, cuentas de ahorro, depósitos a plazo, etc). 

 
x 
 

Laura Patricia Escalante Carty 

 
Candidata a Maestro en Finanzas de ESAN. Administradora de la UPC. Experiencia en el 

sector minero, especializada en administración y tesorería. Especialista en elaboración de 

flujos de caja. Alta capacidad de adaptación, actitud proactiva, excelentes relaciones 

interpersonales con influencia positiva y comunicación efectiva a todo nivel. 

 
FORMACIÓN 

2022 – 2024 ESAN Graduate School of Business 

Maestría en Finanzas, Finanzas Corporativas. 

 
2023 - UPF Barcelona School of Management 

Maestría de Gerencia Bancaria y Financiera. 

 
2017 – 2021 Universidad Peruana de Ciencias Aplicadas UPC 

Bachiller en Administración de Empresas. Quinto superior. 

 
EXPERIENCIA 

2016 - 

Actualidad 

Silver X Mining Corporation- Empresa minera canadiense con más de 

10 años de experiencia en la exploración y producción de metales 

preciosos, especializada en la extracción de plata y oro en América 

Latina. 

 Jefa de Administración 

• Gestión de las áreas Administrativa, Financiera y Tesorería. 

• Elaboración y supervisión de flujos de caja para la optimización de 

recursos. 

• Coordinación de estrategias financieras para la operación minera en 

el Perú. 


xi 
 

• Manejo de relaciones con entidades regulatorias y financieras. 

• Implementación de procesos para mejorar la eficiencia en la gestión 

administrativa. 

2015 - 2016 Mines & Metals Trading Perú- Empresa minera peruana con 

proyectos polimetálicos. Adquirió la Unidad de Producción Minera 

"Recuperada" de la Compañía de Minas Buenaventura S.A.A. 

 Administradora 

• Gestión de recursos humanos: Supervisar la contratación, 

capacitación y bienestar del personal, asegurando el cumplimiento de 

las normativas laborales y políticas internas. 

• Administración financiera: Controlar presupuestos, gestionar costos 

operativos y coordinar pagos a proveedores, garantizando una 

administración financiera eficiente. 

• Coordinación de actividades administrativas: Gestionar tareas 

administrativas relacionadas con la operación minera, incluyendo la 

supervisión de personal administrativo y la implementación de 

procedimientos internos. 

 
xii 
 

Gonzalo Febres Bustamante 

 
Candidato a Maestro en Finanzas de ESAN. Economista de la Universidad de Piura. Con 

experiencia en banca y finanzas. Con capacidad para trabajar en equipo, con visión y 

habilidad de plantear y emprender alternativas para dar soluciones ágiles y acertadas sobre 

los objetivos señalados. 

 
FORMACIÓN 

2022 – 2024 ESAN Graduate School of Business 

Maestría en Finanzas, Finanzas Corporativas. 

 
2023 - UPF Barcelona School of Management 

Maestría de Gerencia Bancaria y Financiera. 

 
2017 – 2021 Universidad de Piura 

Bachiller en Economía 

 
EXPERIENCIA 

2024 - 

Actualidad 

Centros de Salud Peruanos S.A.C. Clínica AVIVA -, es una empresa 

peruana del grupo Interbank dedicada a la prestación de servicios 

médicos integrales. Ofrece atención en diversas especialidades, 

incluyendo consultas ambulatorias, emergencias, laboratorio, imágenes 

y procedimientos quirúrgicos. 

 Jefe de Planificación Financiera 

• Elaboración de planes financieros a corto, mediano y largo plazo para 

optimizar los recursos financieros de la clínica. 

• Coordinación de la gestión de presupuestos anuales, alineados con los 

objetivos estratégicos de la clínica. 


xiii 
 

• Control de costos operativos y evaluación de la rentabilidad de los 

servicios y proyectos. 

• Implementación de indicadores financieros (KPIs) para medir el 

desempeño económico de la clínica. 

• Presentación de informes financieros a la alta dirección para la toma 

de decisiones estratégicas. 

• Evaluación y proyección de la viabilidad financiera de proyectos e 

inversiones dentro de la clínica. 

2021 - 2024 Clínica San Felipe - con más de 60 años de experiencia, ofrece servicios 

médicos integrales en más de 45 especialidades, contando con más de 

350 profesionales.  

 Controller Financiero 

•Contribuir con el planteamiento de la estrategia de las principales 

actividades propias de Finanzas, Costos, Presupuestos y su viabilidad 

hacia procesos transversales.  

•Implementar un adecuado modelo de costos y de rentabilidad, 

salvaguardando su ejecución. 

•Responsable de la elaboración de Presupuestos y Control Presupuestal. 

•Responsable de la evaluación de Proyectos de Inversión: Ampliación 

de clínica y equipos en específico. 

•Responsable del Control Logístico de Proyectos de Ampliación: Flujo 

de pagos, valorizaciones, control contable de capex y opex por centros 

de costos asociados al Proyecto. 

•Responsable de la Proyección de los EEFF. 

•Responsable de la presentación y explicación de EEFF al Directorio. 

•Responsable de la identificación e implementación de KPIs 


xiv 
 

•Controlar los días de cobro y anticuamiento, a través de indicadores de 

medición. Representante del Proyecto de BI Corporativo de Clínica San 

Felipe: Proyecto corporativo para la elaboración de visores y 

repositorios corporativos para análisis de actividad, resultados y costos. 

2021 - 2022 Clínica SANNA – Clínica del Sur - en Arequipa, forma parte de la red 

SANNA y ofrece servicios médicos especializados con tecnología 

avanzada. Brinda atención ambulatoria, hospitalaria y de emergencia en 

diversas especialidades. 

 Jefe de Finanzas 

•Estrategia y Control Financiero: Definir estrategias para Finanzas, 

Tesorería, Compras, Liquidación, Cobranzas y Facturación, 

optimizando el ciclo de efectivo. 

•Gestión de Facturación y Cobranza: Supervisar la correcta liquidación, 

emisión y cobranza de expedientes para pacientes particulares, 

asegurados y financiadores. 

•Indicadores y Seguimiento: Controlar los días de facturación, cobro y 

anticuamiento mediante indicadores de medición para servicios 

ambulatorios, hospitalarios y de urgencias. 

•Gestión de Seguros y Tarifas: Administrar seguros de salud 

particulares, tarificación, promoción corporativa y ajuste de tarifas. 

•Compras y Proveedores: Optimizar la gestión de compras, negociar 

con proveedores médicos y aseguradoras, y supervisar el control de 

activos. 

•Flujo de Caja y Cumplimiento: Mejorar la gestión del flujo de caja, 

rendimientos sobre excedentes y dar seguimiento a fiscalizaciones. 

2020 - 2021 Clínica SANNA – El Golf - Clínica privada que forma parte de la red 

SANNA, ofreciendo servicios médicos de alta calidad en más de 30 

especialidades. 


xv 
 

 Analista de Finanzas 

Trabajo directo con la Gerencia de Finanzas sobre el planteamiento de 

objetivos y actividades de la Gerencia. 

•Garantizar y velar por la solidez financiera, gestionando ingresos, 

costos y gastos, generando los niveles de utilidad esperados alineado con 

la Gerencia General y el Corporativo. 

•Proyecto de ampliación de la Clínica: Coordinador principal sobre las 

adecuaciones administrativas y financieras. 

•Optimización de la estructura de capital, generando un correcto balance 

entre deuda y patrimonio. 

•Control de pagos y cobranza que permitan mantener el nivel de 

liquidez. 

 
xvi 
 

Estefany Brizet Hisbes Malca 

 
Candidata a Maestro en Finanzas de ESAN Graduate School of Business. Economista de 

la USMP. Experiencia en análisis financiero y control de gestión en Retail. Conocimientos 

de inglés y dominio de las herramientas informáticas de gerencia. Aspiración de desarrollo 

profesional en gerencia de negocios financieros. 

 
FORMACIÓN 

2022 – 2024 ESAN Graduate School of Business 

Maestría en Finanzas, Finanzas Corporativas. 

 
2023 - UPF Barcelona School of Management 

Maestría de Gerencia Bancaria y Financiera. 

 
2019 - 2019 Universidad De San Martín de Porres - USMP 

Licenciada en Economía. 

 
2013 - 2018 Universidad De San Martín de Porres - USMP 

Bachiller en Economía. 

 
EXPERIENCIA 

2022 - 

actualidad 

Corporación Primax. Empresa con 20 años y líder en el sector 

hidrocarburos. 

 Analista Senior de la Gerencia de Finanzas.  

• Responsable del control financiero de dos Negocios de la empresa 

(Dealers y White Pumpers). Ambos negocios tienen un valor de S/ 

90 millones en el 2024. 


xvii 
 

• Coordinación con otros departamentos para el correcto seguimiento 

de gastos de la unidad de negocio. 

• Elaborar el informe y presentación de gestión Mensual para Gerente 

del negocio. 

• Responsable de gestión financiera de la Unidad de Negocio. 

• Liderar en la elaboración del presupuesto de la UN. 

 Analista de la gerencia de Finanzas.  

• Responsable del control financiero del Negocios de Tiendas de 

Conveniencia de Primax con un valor estimado de S/ 46 millones en 

el 2024. 

2020 -2022 VSI INDUSTRIAL SA. - Empresa fabricadora y diseñadora de 

griferías y sanitarios con más de 40 años en el mercado. 

 Analista Junior de Planeamiento Financiero. 

• Elaboración de la presentación mensual para el Directorio. Dar 

seguimiento y cumplimento al presupuesto. Elaboración de reportes 

de activos y pasivos. Liderar la elaboración de presupuesto de todas 

las áreas de la empresa.  

2018 -2019 Grupo CELIMA-TREBOL - Con más de 50 años de experiencia, 

el Grupo CELIMA TREBOL, fabricando y diseñando revestimientos 

cerámicos, aparatos sanitarios y griferías de la más alta calidad. 

 Asistente de Planeamiento Financiero. 

• Análisis de EEFF (Estados de Resultados y Balance General). 

Elaboración del comité Ejecutivo. Control presupuestal en SAP (FM 

y CO). Manejo y control de inversiones CAPEX. Elaboración del 

presupuesto anual. 

 
xviii 
 

ÍNDICE GENERAL 

RESUMEN EJECUTIVO ......................................................................................................... 1 

CAPÍTULO I: INTRODUCCIÓN .......................................................................................... 1 

1.1 Problema Central y relevancia .......................................................................................................... 2 
1.1.1 Limitaciones de los métodos clásicos de valoración .......................................................................... 4 

1.2 Contribución financiera de la investigación ...................................................................................... 7 

1.3 Objetivo de investigación................................................................................................................... 9 

1.4. Hipótesis ......................................................................................................................................... 11 

1.5. Alcances y limitaciones ................................................................................................................... 12 
1.5.1 Alcances ........................................................................................................................................... 12 
1.5.2 Limitaciones ..................................................................................................................................... 15 

1.6. Contribución .................................................................................................................................. 18 

CAPÍTULO II: APLICACIÓN DE LA METODOLOGÍA ........................................... 20 

2.1. Descripción de datos ....................................................................................................................... 20 

2.2. Regresión hedónica ........................................................................................................................ 22 
2.2.1. Principios básicos y fundamento teórico ........................................................................................ 22 
2.2.2. Aplicación del modelo ..................................................................................................................... 23 
2.2.3. Resultado del modelo ...................................................................................................................... 25 

2.3. Árbol de Decisión ........................................................................................................................... 27 
2.3.1. Principios básicos y fundamento teórico ........................................................................................ 27 
2.3.2. Aplicación del modelo ..................................................................................................................... 31 
2.3.3. Resultado del modelo ...................................................................................................................... 33 

2.4. XGBoost ......................................................................................................................................... 34 
2.4.1. Principios básicos y fundamento teórico ........................................................................................ 34 
2.4.2. Aplicación del modelo ..................................................................................................................... 38 
2.4.3. Resultado del modelo ...................................................................................................................... 38 

2.5. Ventajas y desventajas ................................................................................................................... 40 


xix 
 

2.6. Métricas de desempeño .................................................................................................................. 40 
2.6.1. Definición de métricas .................................................................................................................... 40 
2.6.2. Validación cruzada ......................................................................................................................... 41 
2.6.3. Desarrollo metodológico financiero ............................................................................................... 42 

CAPÍTULO III: RESULTADOS ......................................................................................... 44 

3.1. Comparación de modelos ............................................................................................................... 44 
3.1.1. Mean Absolute Percentage Error (MAPE) ..................................................................................... 44 
3.1.2. Mean Absolute Error (MAE) ........................................................................................................... 45 
3.1.3. Root Mean Squared Error (RMSE) ................................................................................................. 46 
3.1.4. Coeficiente de determinación (𝑅2) ................................................................................................. 47 

3.2. Comparativa por distritos .............................................................................................................. 50 

3.3 Interpretación Variables Clave ....................................................................................................... 51 

3.4 Conexión con el ámbito financiero .................................................................................................. 52 

3.5 Justificación de modelos basados en arboles: XGBoost y árbol de decisión ................................... 55 

CAPÍTULO IV: CONCLUSIONES .................................................................................... 58 

4.1 Recomendaciones basadas en resultados ........................................................................................ 62 

BIBLIOGRAFÍA ...................................................................................................................... 65 

 
xx 
 

ÍNDICE DE TABLAS 

TABLA 2.1 REGRESIÓN LINEAL .......................................................................................................... 26 

TABLA 2.2 CUADRO DE VENTAJAS Y DESVENTAJAS DE LOS MÉTODOS .............................. 40 

TABLA 2.3 CUADRO DE DEFINICIÓN DE MPETRICAS .................................................................. 41 

TABLA 3.1 RESULTADOS COMPARATIVOS DE LOS MODELOS  ............................................... 49 

TABLA 3.2 RESULTADOS DE MODELOS POR DISTRITO .............................................................. 50 

TABLA 3.3 MÉTRICAS POR DISTRITO ............................................................................................... 51 

TABLA 3.4 INTERPRETACIÓN DE RESULTADOS ........................................................................... 51 

  
xxi 
 

ÍNDICE DE FIGURAS 

FIGURA 2.1 DIAGRAMAS DE DISPERSIÓN ....................................................................................... 21 

FIGURA 2.2 DISTRIBUCIÓN DE HABITACIONES Y BAÑOS .......................................................... 22 

FIGURA 2.3 PRECIOS ESTIMADOS DE MODELO HEDÓNICO DE REGRESION LINEAL ...... 27 

FIGURA 2.4 EJEMPLO TRIDIMENSIONAL DE ÁRBOL DE DECISIÓN ....................................... 28 

FIGURA 2.5 EJEMPLO DE ÁRBOL DE DECISIÓN ............................................................................ 29 

FIGURA 2.6 IMPORTANCIA RELATIVA DE LAS CARACTERISTICAS DE ÁRBOL DE 

DECISIÓN ................................................................................................................................................... 33 

FIGURA 2.7 PRECIOS ESTIMADOS DE MODELO DE ÁRBOL DE DECISIÓN ........................... 34 

FIGURA 2.8 IMPORTANCIA RELATIVA DE LAS CARACTERÍSTICAS DE XGBOOST ............ 39 

FIGURA 2.9 PRECIOS ESTIMADOS DE MODELO XGBOOST ......................................................... 39 

FIGURA 3.1 COMPARATIVA DE MAPE .............................................................................................. 45 

FIGURA 3.2 COMPARATIVA DE MAE ................................................................................................. 46 

FIGURA 3.3 COMPARATIVA DE RMSE............................................................................................... 47 

FIGURA 3.4 COMPARATIVA DE R2 ...................................................................................................... 48 

FIGURA 3.5 COMPARATIVA DE ÍNDICE DE PRECIOS................................................................... 54 

FIGURA 3.6 TENDENCIA DE PRECIOS EN SOLES CONSTANTES ............................................... 55 

 
RESUMEN EJECUTIVO 

 
El presente estudio tiene como objetivo desarrollar un modelo de predicción de precios 

de departamentos en Lima mediante la aplicación de técnicas de Machine Learning (ML), 

comparando su desempeño con la tradicional regresión hedónica. La investigación surge 

como respuesta a la necesidad de contar con estimaciones más precisas en la valoración 

inmobiliaria, optimizando la toma de decisiones en el sector financiero e inmobiliario. 

Para ello, se emplean tres enfoques metodológicos: la regresión hedónica como 

referencia teórica, y dos modelos de Machine Learning: Árbol de Decisión y XGBoost. La 

base de datos utilizada proviene del Banco Central de Reserva del Perú (BCRP) y abarca 

más de 40,000 observaciones de inmuebles en los principales distritos de Lima entre 2014 

y 2024. 

Los resultados muestran que XGBoost ofrece el mejor desempeño predictivo, con 

menores valores de error: MAPE (Mean Absolute Percentage Error), MAE (Mean 

Absolute Error), RMSE (Root Mean Squared Error) y un coeficiente de determinación (R²) 

más alto que los otros modelos. Asimismo, se identifica que el factor más influyente en el 

precio de los departamentos es el tamaño del inmueble, seguido del número de garajes y la 

ubicación. 

Este estudio evidencia el potencial de Machine Learning como una herramienta clave 

para mejorar la precisión en la estimación de precios inmobiliarios, aportando beneficios 

tanto para inversionistas como para instituciones financieras y reguladoras. Además, se 

plantea la posibilidad de futuras investigaciones incorporando variables adicionales, como 

la proximidad a servicios urbanos o la calidad de construcción, para seguir optimizando la 

predicción de precios en el mercado inmobiliario de Lima. 

 
ABSTRACT 

This study aims to develop a predictive model for apartment prices in Lima through 

the application of Machine Learning (ML) techniques, comparing their performance with 

traditional hedonic regression. The research emerges in response to the need for more 

accurate real estate valuation estimates, optimizing decision-making in the financial and 

real estate sectors. 

To achieve this, three methodological approaches are employed: hedonic regression as 

a theoretical benchmark, and two Machine Learning models: Decision Tree and XGBoost. 

The dataset used comes from the Central Reserve Bank of Peru (BCRP) and includes more 

than 40,000 property observations in key districts of Lima from 2014 to 2024. 

The results indicate that XGBoost provides the best predictive performance, yielding 

lower error values: MAPE (Mean Absolute Percentage Error), MAE (Mean Absolute 

Error), RMSE (Root Mean Squared Error) y and a higher coefficient of determination (R²) 

than the other models. Additionally, the study identifies that the most influential factor in 

apartment pricing is property size, followed by the number of garages and location. 

This research highlights the potential of Machine Learning as a key tool for improving 

the accuracy of real estate price estimation, benefiting investors as well as financial and 

regulatory institutions. Furthermore, future research could incorporate additional variables, 

such as proximity to urban services or construction quality, to further enhance price 

prediction in Lima’s real estate market. 

  
1 
 

CAPÍTULO I: INTRODUCCIÓN 

La teoría de precios hedónicos es un enfoque económico que explica el valor de un 

bien a partir de sus atributos y características. En el caso del mercado inmobiliario, esta 

teoría sostiene que el precio de una propiedad depende de factores como su superficie, 

calidad de construcción, diseño, ubicación, acceso a áreas verdes y características del 

vecindario, entre otros. A través de este enfoque, es posible estimar el valor individual de 

cada atributo y, en consecuencia, calcular la demanda implícita de las distintas 

características que componen el bien. 

El origen de esta teoría se remonta a los estudios de Court (1939), quien aplicó un 

modelo basado en características para analizar precios en la industria automotriz. Sin 

embargo, el desarrollo más reconocido de los precios hedónicos comenzó con Ridker y 

Henning (1967), quienes investigaron el impacto de la contaminación del aire en los precios 

de las viviendas en St. Louis, Estados Unidos. Posteriormente, Griliches (1971) aplicó esta 

metodología al mercado de vehículos, analizando el precio en función de atributos como el 

consumo de combustible y la potencia. La consolidación de esta teoría llegó con Rosen 

(1979), quien formalizó un modelo que justifica la existencia de un equilibrio de mercado 

donde los precios se determinan en función de las características del producto. Su trabajo 

es considerado un referente clave en la literatura sobre precios hedónicos. 

A lo largo de las últimas décadas, diversos estudios han aplicado esta metodología en 

el mercado inmobiliario. Lever (2009) destacó la importancia de los precios hedónicos en 

la modelación de mercados implícitos, proporcionando técnicas econométricas para estimar 

precios y demandas a partir de la combinación de atributos. García y Raya (2013) 

analizaron las elasticidades de la demanda de vivienda en Barcelona utilizando modelos 

hedónicos tradicionales, mientras que Mundaca y Sánchez (2018) estimaron índices de 

precios inmobiliarios en Lima, concluyendo que factores como la zonificación y la 

infraestructura urbana influyen significativamente en los valores de las viviendas. 


2 
 

En la práctica, la estimación de precios mediante la teoría de precios hedónicos se ha 

basado tradicionalmente en modelos de regresión lineal, especialmente mediante el método 

de mínimos cuadrados ordinarios. Este enfoque ofrece ventajas en términos de 

interpretación y robustez estadística, permitiendo obtener coeficientes que cuantifican el 

impacto de cada atributo en el precio del bien. Sin embargo, en los últimos años han surgido 

alternativas basadas en técnicas de ML, las cuales permiten mejorar la precisión de las 

predicciones mediante modelos más sofisticados. 

El presente estudio busca comparar la efectividad de los modelos tradicionales de 

regresión lineal con técnicas de ML en la predicción de precios de departamentos en Lima. 

A pesar de que los modelos de ML pueden ser menos interpretables que los métodos 

estadísticos convencionales, su capacidad de ajuste y optimización computacional podría 

generar estimaciones más precisas y realistas. En este sentido, esta investigación busca 

evaluar si el uso de algoritmos de árboles de decisión y XGBoost puede mejorar la 

capacidad predictiva del modelo, proporcionando una herramienta más eficiente para la 

valoración de bienes raíces en Lima. 

1.1 Problema Central y relevancia 

En el contexto actual del mercado inmobiliario de Lima, la valoración precisa de 

propiedades representa un desafío significativo tanto para compradores, vendedores, 

inversionistas y entidades financieras. La falta de estimaciones confiables sobre el precio 

real de los inmuebles genera incertidumbre en la toma de decisiones y puede dar lugar a 

distorsiones en el mercado, tales como la sobrevaloración de activos, dificultades en la 

concesión de créditos hipotecarios o incluso la formación de burbujas inmobiliarias. 

El problema central que esta investigación aborda es la necesidad de contar con un 

modelo predictivo basado en técnicas de ML que permita estimar con mayor precisión los 

precios de los departamentos en Lima. 

Los métodos tradicionales, como las tasaciones basadas en comparables o los modelos 

econométricos clásicos, presentan limitaciones al no capturar adecuadamente las dinámicas 


3 
 

no lineales del mercado ni la interacción de múltiples características de los inmuebles que 

influyen en la determinación de la estimación de precios. Esta ausencia de precisión puede 

afectar tanto a individuos como a instituciones, generando riesgos financieros y 

distorsiones en la asignación de recursos. 

Al proporcionar estimaciones precisas y detectar discrepancias entre precios 

proyectados y precios de mercado, este modelo puede servir como una herramienta de 

monitoreo para instituciones como el Banco Central de Reserva del Perú (BCRP). La 

detección temprana de sobrevaloraciones en el mercado inmobiliario permitiría la 

implementación de medidas preventivas para mitigar riesgos macroeconómicos y evitar 

crisis financieras. 

Para entidades bancarias y financieras, una predicción precisa del valor de los 

inmuebles mejora la gestión de riesgos en préstamos hipotecarios. Un modelo robusto 

permitiría realizar valoraciones más objetivas de las garantías hipotecarias, reduciendo la 

exposición a pérdidas en caso de incumplimiento y optimizando la asignación de crédito 

en función de valores más reales de mercado. 

En el ámbito financiero, la valoración de activos inmobiliarios desempeña un rol 

crucial en la gestión del riesgo, tanto a nivel individual como sistémico. Una incorrecta 

estimación del valor de un inmueble puede conllevar distorsiones significativas en 

múltiples decisiones financieras, incluyendo la evaluación de garantías hipotecarias, la 

estructuración de portafolios inmobiliarios, y la gestión del riesgo crediticio por parte de 

las instituciones bancarias. 

En este sentido, los métodos tradicionales de valoración, como las tasaciones 

comparativas o los modelos de regresión hedónica simples, presentan limitaciones que 

pueden incrementar la exposición de los agentes financieros al riesgo de subvaloración o 

sobrevaloración. Este desfase entre el precio observado y el valor fundamental del activo 

puede provocar un deterioro en la calidad de las carteras crediticias, afectar la rentabilidad 


4 
 

esperada de los fondos de inversión inmobiliarios y generar señales falsas en los sistemas 

de alerta temprana diseñados para prevenir burbujas especulativas. 

Desde una perspectiva macroeconómica, esta situación representa un riesgo sistémico, 

especialmente en economías como la peruana, donde el crecimiento del crédito hipotecario 

ha sido sostenido durante la última década. En consecuencia, la necesidad de contar con 

herramientas de predicción más precisas y robustas no solo obedece a fines de eficiencia 

de mercado, sino que responde a una urgencia por fortalecer los mecanismos de supervisión 

y control del sistema financiero en su conjunto. 

En este contexto, el desarrollo de modelos de predicción de precios inmobiliarios 

mediante técnicas de Machine Learning (ML) emerge como una solución potencialmente 

más eficiente y adaptativa. Estos modelos no solo ofrecen una mayor capacidad para 

capturar relaciones no lineales entre variables, sino que también se alinean con la creciente 

necesidad del sector financiero por incorporar herramientas tecnológicas que mejoren la 

calidad de las decisiones estratégicas. 

Por tanto, esta investigación no solo busca mejorar la precisión de las estimaciones de 

precios inmobiliarios, sino también contribuir a la mitigación de riesgos financieros 

derivados de valoraciones inadecuadas, lo cual es especialmente relevante para entidades 

financieras, reguladores, aseguradoras y fondos de inversión. 

1.1.1 Limitaciones de los métodos clásicos de valoración 

En los estudios de valoración inmobiliaria, los métodos tradicionales más utilizados 

han sido las tasaciones comparativas y los modelos de regresión hedónica lineal. Si bien 

estos enfoques han sido herramientas fundamentales en la historia del análisis económico 

y urbano, su aplicabilidad presenta limitaciones importantes cuando se enfrentan a 

realidades complejas como el mercado inmobiliario de Lima Metropolitana, caracterizado 

por su heterogeneidad estructural, informalidad parcial y amplia dispersión de precios. 


5 
 

En el caso de la regresión hedónica lineal, uno de los principales inconvenientes radica 

en su supuesto de relación lineal y constante entre las características del bien (como área, 

número de baños, estacionamientos, ubicación, antigüedad, etc.) y su precio. Este enfoque 

presupone que el efecto de cada variable explicativa sobre el precio es independiente y 

uniforme en toda la muestra, lo cual rara vez se cumple en mercados reales. En la práctica, 

las interacciones entre variables son comunes (por ejemplo, el impacto del área puede ser 

distinto en un departamento con o sin cochera), y los efectos marginales pueden variar 

dependiendo del distrito, el segmento socioeconómico o la dinámica local del mercado. 

Otro problema estructural es que los modelos lineales no capturan bien relaciones no 

lineales o de saturación, como por ejemplo cuando un aumento adicional de metros 

cuadrados no incrementa el valor en la misma proporción. Además, son sensibles a 

problemas de multicolinealidad, lo que puede distorsionar los coeficientes estimados, y 

requieren que los errores cumplan supuestos de normalidad, homocedasticidad y no 

autocorrelación, condiciones que no siempre se verifican con datos inmobiliarios reales. 

Esto afecta la validez de los resultados y puede generar estimaciones inestables o poco 

fiables. 

En cuanto a las tasaciones comparativas, su principal debilidad es la alta dependencia 

del juicio subjetivo del perito. Si bien los tasadores tienen conocimiento del mercado y 

acceso a información privilegiada, su criterio puede verse afectado por sesgos personales, 

disponibilidad limitada de comparables válidos o incentivos externos. Esto conlleva una 

variabilidad en los resultados que limita la reproducibilidad de los informes de tasación y 

genera riesgos al momento de tomar decisiones financieras basadas en ellos, como la 

aprobación de créditos hipotecarios o la valorización de activos en fondos inmobiliarios. 

En ambos casos, estas limitaciones representan un riesgo financiero real. Una 

valoración incorrecta —por subvaloración o sobrevaloración— puede llevar a decisiones 

de préstamo mal estructuradas, exposición al incumplimiento de pagos, mal cálculo del 

valor de garantías, o incluso sobreasignación de recursos de inversión. En contextos donde 


6 
 

el sistema financiero depende de forma considerable del crédito garantizado por bienes 

inmuebles, como en el Perú, esta situación puede afectar la estabilidad institucional, la 

eficiencia en la asignación de capital y la salud del sistema en su conjunto. 

Frente a estas limitaciones, el modelo propuesto en esta investigación —XGBoost 

(Extreme Gradient Boosting)— representa una alternativa metodológica más robusta y 

adaptada a la complejidad del problema. A diferencia de los modelos lineales, XGBoost no 

impone una forma funcional rígida a la relación entre variables. Al estar basado en un 

conjunto de árboles de decisión optimizados secuencialmente, puede capturar relaciones 

no lineales, interacciones entre variables, y patrones específicos dentro del conjunto de 

datos, sin que estos deban ser definidos explícitamente por el investigador. 

Otra ventaja importante es que XGBoost realiza una segmentación automática del 

espacio de variables, dividiendo los datos en regiones más homogéneas mediante 

decisiones sucesivas, lo que permite que el modelo se adapte a diferencias estructurales 

entre distritos o zonas urbanas. Esta capacidad es particularmente valiosa en ciudades como 

Lima, donde los determinantes del precio inmobiliario varían significativamente entre 

Miraflores, Jesús María, Comas o San Miguel. 

Además, el algoritmo incluye mecanismos para reducir el sobreajuste, es decir, para 

evitar que el modelo se adapte en exceso a los datos de entrenamiento y pierda capacidad 

de generalización. También es menos sensible a valores extremos (outliers) y no requiere 

supuestos estrictos sobre la distribución de los errores. Esto lo convierte en una herramienta 

más robusta para la predicción de precios, con mayor precisión y menor dispersión en los 

resultados. 

Por tanto, el uso de XGBoost no solo es una mejora técnica en términos de precisión, 

sino una respuesta directa a las limitaciones estructurales de los modelos clásicos. Esta 

justificación metodológica —que se acompaña de evidencia empírica en el capítulo de 

resultados— sustenta la necesidad de aplicar modelos de Machine Learning cuando se 

busca una estimación más confiable del valor de activos inmobiliarios, especialmente en 


7 
 

contextos donde una mala valoración puede traducirse en pérdidas financieras o exposición 

a riesgo crediticio. 

1.2 Contribución financiera de la investigación 

En la actualidad, la correcta valorización de los activos inmobiliarios es un elemento 

central para la estabilidad del sistema financiero. La subvaloración o sobrevaloración de 

inmuebles puede generar una serie de distorsiones en la colocación de créditos, en la 

evaluación de garantías, en la valoración de portafolios de inversión, e incluso en la política 

económica. Estas distorsiones afectan directamente a bancos, inversionistas institucionales, 

reguladores, y al funcionamiento eficiente del mercado. 

En el caso del mercado inmobiliario limeño, el uso predominante de métodos 

tradicionales como las tasaciones subjetivas o los modelos hedónicos lineales limita la 

precisión de las valoraciones, lo que genera un riesgo latente en las decisiones financieras. 

Esta situación constituye un problema financiero estructural: si el precio observado de un 

inmueble no representa adecuadamente su valor fundamental, los agentes financieros 

operan sobre información imperfecta, lo que puede llevar a una mala asignación del crédito, 

desequilibrios en las carteras de inversión y una mayor exposición al riesgo sistémico. 

La presente tesis plantea como solución el uso de modelos de predicción basados en 

aprendizaje automático, específicamente el algoritmo XGBoost, cuyo diseño permite 

captar relaciones complejas y no lineales entre múltiples variables que afectan el precio de 

un inmueble. La evidencia empírica generada en esta investigación demuestra que este 

modelo mejora significativamente la precisión de las predicciones en comparación con 

modelos tradicionales. Esta mejora, sin embargo, no es solo técnica o estadística; tiene 

implicancias directas en la gestión financiera. 

Desde el punto de vista de las entidades financieras, una mejor predicción del valor de 

los inmuebles mejora la estimación del valor de las garantías hipotecarias, permitiendo una 

asignación más eficiente de los montos de crédito. Esto reduce el riesgo de 

sobreendeudamiento y protege a las entidades frente a escenarios de incumplimiento, ya 


8 
 

que los créditos se respaldan con activos cuyo valor ha sido estimado de forma más fiable. 

De este modo, se mejora la calidad de los activos en el balance y se refuerza la solvencia 

bancaria. 

Para el riesgo de crédito, la precisión del modelo permite establecer ratios más realistas 

como el Loan-to-Value (LTV), fundamentales para evaluar la exposición al riesgo. Un 

modelo como XGBoost puede integrarse directamente en los procesos internos de análisis 

de crédito, reduciendo la subjetividad en la evaluación y permitiendo decisiones más 

objetivas, basadas en datos. Esto es particularmente importante en contextos de alta 

volatilidad económica, donde la incertidumbre en la valuación de activos puede generar un 

efecto multiplicador de riesgos. 

En cuanto a los inversionistas institucionales, como fondos de inversión inmobiliaria, 

compañías de seguros o bancos de inversión, un modelo predictivo de alta precisión permite 

valorar activos con mayor exactitud y tomar decisiones más informadas en relación con la 

compra, venta o mantenimiento de propiedades en sus portafolios. Esto impacta 

directamente en la rentabilidad esperada, el nivel de riesgo asumido y la alineación con 

objetivos de retorno ajustado por riesgo. 

Desde el punto de vista de la regulación y supervisión financiera, el modelo propuesto 

puede ser utilizado como un instrumento de vigilancia macro prudencial. Las autoridades 

como la SBS o el BCRP pueden emplear modelos predictivos como indicadores 

adelantados de posibles desalineaciones entre precios de mercado y valores fundamentales. 

Esto permite detectar burbujas inmobiliarias incipientes, evaluar la concentración de riesgo 

en ciertos segmentos del mercado y diseñar políticas regulatorias más preventivas y menos 

reactivas. Asimismo, al mejorar la transparencia y objetividad en las valoraciones, se 

fortalece la confianza en el sistema financiero y se reducen los incentivos para prácticas 

especulativas. 

Además, en el contexto actual de transformación digital del sistema financiero, la 

implementación de modelos como XGBoost se alinea con las tendencias de digitalización 


9 
 

del crédito, análisis de big data y automatización de procesos de originación. Su integración 

en plataformas tecnológicas permitiría a bancos, fintechs y entidades de financiamiento 

desarrollar sistemas de evaluación más rápidos, precisos y escalables. 

En resumen, el problema financiero identificado en esta investigación –la imprecisión 

en la valoración de activos inmobiliarios residenciales en Lima– genera efectos negativos 

en múltiples niveles del ecosistema financiero. La solución propuesta, basada en la 

aplicación de un modelo avanzado de aprendizaje automático, no solo mejora la precisión 

de la estimación, sino que contribuye a resolver riesgos estructurales en el sistema: mejora 

la asignación de crédito, fortalece la solvencia bancaria, reduce la exposición al riesgo de 

crédito, mejora la toma de decisiones de inversión y proporciona herramientas útiles para 

la supervisión regulatoria. 

Por tanto, esta tesis no solo aporta valor desde la perspectiva metodológica, sino que 

responde de manera concreta a un problema financiero de relevancia nacional, con alto 

potencial de aplicación práctica en el sistema financiero peruano. 

1.3 Objetivo de investigación 

El objetivo general se centra en evaluar la efectividad de los modelos de ML (Árbol de 

Decisión y XGBoost) en la predicción de precios de departamentos en Lima, comparando 

su desempeño con la regresión hedónica tradicional a través de métricas de precisión como 

MAPE, MAE, RMSE y R², los cuales se definen en el apartado 2.6.1. 

Cabe precisar que el objetivo de esta investigación no se limita a una mejora técnica 

incremental respecto a los modelos tradicionales de predicción de precios inmobiliarios. 

Por el contrario, surge de la identificación de una deficiencia metodológica de fondo: los 

modelos convencionales, como la regresión hedónica lineal, no logran captar 

adecuadamente la complejidad y heterogeneidad estructural del mercado inmobiliario de 

Lima Metropolitana, lo cual genera errores sistemáticos en las estimaciones de precios. 


10 
 

Estas deficiencias técnicas, lejos de ser un problema aislado, tienen consecuencias 

financieras concretas. Una valoración incorrecta puede llevar a que una entidad financiera 

apruebe un crédito hipotecario sobre una propiedad sobrevalorada, o que un fondo 

inmobiliario tome decisiones de inversión basadas en información imprecisa, lo que 

incrementa el riesgo crediticio, reduce la eficiencia en la asignación de recursos y deteriora 

la calidad de los balances financieros. 

En ese sentido, el propósito de este estudio no es únicamente mostrar que el modelo 

XGBoost predice “mejor”, sino demostrar que es una herramienta metodológicamente más 

apropiada para abordar un problema que los modelos tradicionales no resuelven bien. Su 

capacidad para modelar relaciones no lineales, adaptarse a distintas estructuras de datos y 

segmentar automáticamente patrones de comportamiento le permite responder de manera 

más precisa a los desafíos del entorno urbano e inmobiliario de Lima. 

Por tanto, la tesis propone una solución metodológica que mejora la precisión 

predictiva con un objetivo mayor: reducir el riesgo financiero asociado a valoraciones 

inadecuadas. Esto tiene impacto directo en decisiones críticas como la colocación de 

créditos, la fijación de precios de garantías hipotecarias, la evaluación de riesgos por parte 

de los reguladores, y la planificación de inversiones en activos inmobiliarios. En este 

marco, el objetivo general no debe entenderse como una optimización estadística, sino 

como una contribución práctica y aplicable al análisis financiero moderno. 

Además, se lista los siguientes objetivos específicos: 

• Aplicar modelos de ML para la estimación de precios de departamentos en 

Lima, considerando atributos como tamaño, número de garajes y ubicación.  

• Comparar la precisión predictiva de los modelos de ML frente a la regresión 

hedónica, utilizando métricas de error y coeficiente de determinación. 

• Determinar la importancia relativa de las características de los departamentos 

en la predicción de precios según el modelo aplicado. 


11 
 

• Analizar el desempeño de los modelos en diferentes distritos de Lima para 

identificar variaciones en la precisión de las estimaciones. 

• Proponer mejoras en la metodología de estimación de precios inmobiliarios 

mediante la integración de técnicas avanzadas de ML. 

1.4. Hipótesis  

La implementación de modelos de ML, en particular el algoritmo XGBoost, permite 

mejorar significativamente la precisión en la estimación del valor de departamentos en 

Lima, en comparación con los métodos tradicionales como la regresión hedónica. Esta 

mejora predictiva no solo representa un avance metodológico, sino que tiene implicancias 

directas en la gestión de riesgos financieros y la toma de decisiones estratégicas por parte 

de entidades financieras, inversionistas y reguladores. 

Una predicción más precisa del precio inmobiliario permite una mayor alineación con 

el valor fundamental del activo, lo cual es esencial para evitar distorsiones en la 

valorización de garantías, reducir la exposición al riesgo crediticio, y fortalecer los 

mecanismos de supervisión macro prudencial. En particular, al minimizar los errores de 

sobrevaloración o subvaloración, se mejora la eficiencia en la colocación de créditos 

hipotecarios, se optimiza la construcción de portafolios inmobiliarios y se fortalece el 

análisis de riesgo en instituciones financieras. 

Además, esta hipótesis se sustenta en la teoría financiera moderna, que sostiene que 

los precios de los activos deben reflejar sus fundamentales para garantizar la eficiencia de 

los mercados (Fama, 1970). La existencia de errores sistemáticos en la valoración de 

activos puede generar burbujas especulativas, pérdidas financieras por colaterales mal 

estimados y deterioro en la calidad de los balances de las entidades financieras. En este 

sentido, el uso de modelos avanzados de ML permite mitigar estas ineficiencias mediante 

una mejor modelación del comportamiento del mercado, adaptándose a no linealidades y 

complejidades inherentes al mercado inmobiliario urbano. 


12 
 

Por tanto, se plantea que un modelo de ML con alta capacidad explicativa y predictiva, 

como XGBoost, constituye una herramienta superior para estimar precios de inmuebles y 

al mismo tiempo para mejorar la gestión del riesgo financiero asociado a dichos activos. 

1.5. Alcances y limitaciones 

1.5.1 Alcances 

El desarrollo del presente trabajo comprende el uso de datos públicos para el análisis 

estadístico tradicional mediante regresión lineal y de ML necesario para lograr los objetivos 

propuestos. 

Se utiliza información del Banco Central de Reserva del Perú (BCRP) como base de 

datos para el análisis. El BCRP recopila información de precios de inmuebles y sus 

características de manera trimestral desde 1998, sin embargo, esta investigación se basará 

solo en la información publicada desde 2014 en adelante, donde empieza una etapa de 

moderación en el crecimiento de precios inmobiliarios según indica Mundaca y Sánchez 

(2018); teniendo como distritos observables a San Isidro, Miraflores, La Molina, Surco, 

San Borja, Jesús María, Magdalena, Lince, San Miguel, Pueblo Libre. 

La base de datos utilizada en este estudio contiene información de 22 distritos de Lima 

Metropolitana. Sin embargo, para el análisis se seleccionaron 10 distritos específicos: La 

Molina, Miraflores, San Borja, Surco, San Isidro, Jesús María, Magdalena, Pueblo Libre, 

Lince y San Miguel. 

Esta selección responde a dos criterios fundamentales. Primero, la mayor 

disponibilidad de datos, ya que estos distritos concentran una alta cantidad de registros 

desde 2014 en adelante, representando una porción significativa de la base de datos. Por 

ejemplo, Miraflores (8,094 registros), Surco (8,083) y San Miguel (5,325) cuentan con un 

volumen considerable de datos, lo que permite una mejor calibración y validación del 

modelo de predicción. 


13 
 

En segundo lugar, se consideró la homogeneidad del mercado inmobiliario. Estos 

distritos presentan una dinámica de precios más estable y una oferta inmobiliaria más 

consolidada en comparación con otros distritos con menor cantidad de transacciones 

registradas. Al centrarse en zonas con una mayor actividad inmobiliaria, se minimiza la 

variabilidad estructural que podría sesgar los resultados del modelo. 

Asegurando así un estudio más representativo y confiable en términos de predicción 

de precios inmobiliarios. 

El tamaño de la muestra es un aspecto fundamental en la aplicación de modelos de 

regresión, ya que influye directamente en la precisión, estabilidad y generalización de los 

resultados obtenidos. En esta investigación, se ha trabajado con una base de datos 

compuesta por aproximadamente 40,000 observaciones de departamentos ubicados en 10 

distritos de Lima, lo cual constituye una muestra robusta y adecuada para el tipo de modelo 

hedónico utilizado. 

De acuerdo con la teoría estadística y econométrica, existe una "Rule of Thumb" (regla 

práctica) que sugiere que los modelos de regresión pueden funcionar razonablemente bien 

con apenas 50 observaciones, siempre que el número de variables explicativas no sea 

excesivo. Esta regla se basa en la relación entre el número de observaciones y el número 

de parámetros a estimar, lo que resulta crucial para evitar problemas como la 

multicolinealidad, el sobreajuste y la inestabilidad de los coeficientes. 

El hecho de que este estudio utilice aproximadamente 40,000 observaciones implica 

un nivel muy superior al mínimo recomendado, lo que fortalece considerablemente la 

calidad y robustez del modelo. A continuación, se explican las principales ventajas de 

contar con un tamaño de muestra amplio: 

-  Robustez y Estabilidad de los Coeficientes Estimados 

Un tamaño de muestra considerable contribuye a que las estimaciones de los 

coeficientes de las variables explicativas sean más estables y precisas. Al aumentar la 


14 
 

cantidad de datos, se reducen los errores estándar asociados a las estimaciones, lo que 

mejora la significancia estadística de los coeficientes y aumenta la confiabilidad del 

modelo. En un contexto inmobiliario, esto es especialmente importante, ya que se busca 

captar de manera precisa el impacto de cada característica del inmueble (como área, 

antigüedad, ubicación, entre otras) sobre su precio. 

- Representatividad de la Muestra y Generalización de Resultados 

El uso de 40,000 observaciones permite que la muestra capture una amplia 

heterogeneidad en las características de los departamentos analizados y en las condiciones 

de mercado de los distintos distritos. Esta diversidad contribuye a que el modelo pueda ser 

más representativo de la realidad del mercado inmobiliario en Lima y, por tanto, que los 

resultados obtenidos puedan generalizarse con mayor precisión a otros contextos similares. 

- Reducción de Problemas Estadísticos 

Los modelos de regresión aplicados a muestras pequeñas suelen enfrentar problemas 

estadísticos que pueden comprometer la validez de las estimaciones. Entre los problemas 

más comunes se encuentran: 

• Multicolinealidad: Relación lineal entre las variables explicativas que puede inflar 

los errores estándar y reducir la precisión de las estimaciones. 

• Heterocedasticidad: Variabilidad desigual de los errores del modelo, que puede 

afectar la eficiencia de los estimadores. 

• Sobreajuste (Overfitting): Situación en la que el modelo ajusta perfectamente los 

datos de la muestra, pero pierde capacidad de generalización a nuevas observaciones. 

El uso de un tamaño de muestra grande contribuye a mitigar estos problemas, ya que 

mejora la potencia estadística del modelo y reduce la variabilidad inherente en los datos. 

Esto permite que las relaciones identificadas entre las variables explicativas y el precio de 

los departamentos sean más robustas y fiables. 


15 
 

- Análisis Comparativos y Desagregados 

Una muestra amplia también ofrece la posibilidad de realizar análisis más 

desagregados o comparativos, lo que puede enriquecer las interpretaciones y aplicaciones 

del modelo. Por ejemplo, el tamaño de muestra utilizado en esta investigación podría 

permitir analizar diferencias en el impacto de las variables explicativas según el distrito, el 

rango de precios o la antigüedad de los inmuebles, lo que aporta un nivel adicional de 

detalle y utilidad a los resultados obtenidos. 

- Cumplimiento de Criterios Estadísticos y Econométricos 

Además de la "Rule of Thumb" mencionada, existen otros criterios estadísticos que 

sugieren que el tamaño de la muestra debe ser al menos 10 veces mayor que el número de 

parámetros a estimar en un modelo de regresión lineal. Este criterio garantiza que el modelo 

tenga suficientes grados de libertad para realizar estimaciones precisas y minimizar el 

riesgo de problemas estadísticos. 

En este estudio, dado que el número de observaciones es aproximadamente 40,000 y 

el número de variables explicativas es significativamente menor, se cumple ampliamente 

este criterio, lo que refuerza la solidez del modelo aplicado. 

1.5.2 Limitaciones 

• La base de datos disponible del BCRP no cuenta con la ubicación exacta de los 

inmuebles, lo que impide mejorar la precisión de la característica de zonificación.  

• No es posible medir la variable de ubicación en función de la distancia a puntos 

estratégicos de la ciudad, como centros comerciales, colegios, centros de salud o 

espacios de esparcimiento. 

• El muestreo realizado por el BCRP no posee la rigurosidad metodológica de un 

instituto de estadística, ya que la información proviene de fuentes como Urbania y 

Adondevivir. Esto puede generar que, en algunos casos, las características de los 

inmuebles no estén completamente detalladas. No obstante, el muestreo del BCRP 


16 
 

cuenta con una cuota fija de observaciones por distrito en cada periodo, lo que 

permite disponer de información suficiente para el análisis. 

• No se dispone de información de la Cámara Peruana de la Construcción (CAPECO) 

para replicar las ponderaciones realizadas por el BCRP en el índice de precios de 

inmuebles para Lima Metropolitana y analizar si los precios se encuentran fuera del 

rango de sus fundamentos. Sin embargo, esto no representa un problema, ya que el 

enfoque del presente estudio se centra en la construcción de un método alternativo 

de predicción y no en la replicación de un índice. 

• Los datos recopilados en diferentes períodos no necesariamente corresponden al 

mismo inmueble, dado que la probabilidad de que un mismo inmueble sea 

negociado varias veces es baja, lo que podría reducir el tamaño de la muestra. No 

obstante, el uso de datos de distintos inmuebles en diferentes periodos aporta 

mayores beneficios para el análisis. 

En el desarrollo de este modelo de precios hedónicos para la estimación de valores 

inmobiliarios en 10 distritos de Lima, se ha puesto énfasis en la inclusión de variables 

endógenas relacionadas con las características estructurales de los departamentos (como 

área construida, número de habitaciones y antigüedad), su ubicación geográfica y aspectos 

ambientales. Este enfoque busca explicar las diferencias en los precios a partir de atributos 

observables y medibles, alineándose con la teoría económica de los precios hedónicos. 

Sin embargo, es importante destacar que ciertos factores externos, también conocidos 

como variables exógenas, pueden influir en el mercado inmobiliario y, por ende, en los 

precios de los inmuebles. Estas variables, al no formar parte del núcleo del modelo, no han 

sido incorporadas explícitamente en el análisis. A continuación, se listan algunas de estas 

variables exógenas, junto con una breve explicación de su relevancia y de los motivos que 

justifican su ausencia en esta investigación: 

 
17 
 

- Inflación: 

La inflación es un factor macroeconómico que afecta el poder adquisitivo de la 

población y, por tanto, tiene un impacto indirecto en el mercado inmobiliario. Cuando la 

inflación aumenta, el valor real del dinero disminuye, lo que puede llevar a un incremento 

en los precios nominales de los bienes raíces. Sin embargo, dado que el modelo 

desarrollado se enfoca en un análisis transversal basado en datos de un período específico, 

el efecto de la inflación ha sido considerado constante en el corto plazo y no se ha 

incorporado de manera explícita. Esto permite aislar mejor el impacto de las características 

intrínsecas de los inmuebles. 

- Tasas de interés: 

Las tasas de interés, especialmente las asociadas a créditos hipotecarios son 

determinantes clave en la accesibilidad de la vivienda. Un aumento en las tasas de interés 

encarece el financiamiento hipotecario, lo que puede reducir la demanda de viviendas y, en 

consecuencia, ejercer presión a la baja sobre los precios. La ausencia de esta variable en el 

modelo se debe a la dificultad de medir su impacto diferencial en cada distrito y a la 

necesidad de mantener un enfoque centrado en las características específicas de los 

inmuebles. 

- Condiciones regulatorias y políticas públicas: 

El mercado inmobiliario también está influido por factores regulatorios, como las 

normas de zonificación, los permisos de construcción y las políticas de subsidio a la 

vivienda. Por ejemplo, restricciones de zonificación que limitan la densidad poblacional 

pueden aumentar el valor del suelo urbano, mientras que políticas de subsidios pueden 

incentivar la construcción de viviendas sociales en determinadas zonas. La complejidad de 

capturar estos efectos de manera uniforme en los diferentes distritos analizados ha llevado 

a su exclusión del modelo. 

- Factores macroeconómicos y socioeconómicos: 


18 
 

Además de la inflación y las tasas de interés, otros factores macroeconómicos, como 

el crecimiento económico, el empleo y la confianza del consumidor, pueden influir en la 

dinámica del mercado inmobiliario. A nivel microeconómico, el perfil socioeconómico de 

los residentes de cada distrito (ingresos, nivel educativo, etc.) también es relevante. Si bien 

algunos de estos factores podrían aportar valor adicional al modelo, su incorporación 

requeriría información detallada que no siempre está disponible a nivel distrital. 

- Factores exógenos imprevistos: 

Fenómenos externos como desastres naturales (terremotos, inundaciones) o crisis 

sanitarias (como la pandemia de COVID-19) pueden generar impactos significativos en el 

mercado inmobiliario al alterar la oferta y demanda de viviendas. Este tipo de eventos, 

debido a su carácter imprevisible y su impacto altamente variable, no han sido considerados 

en el presente análisis. 

1.6. Contribución 

El presente trabajo de investigación se centra en la aplicación de la metodología de 

precios hedónicos en el mercado inmobiliario de Lima. Nuestra contribución radica en dos 

aspectos principales: primero, mejorar la estimación de precios de departamentos mediante 

la transición de métodos estadísticos tradicionales a enfoques basados en ML. Segundo, 

garantizar la interpretabilidad de los modelos de ML, proporcionando una comparación de 

la importancia de las variables en la estimación de precios para cada uno de los distritos 

analizados, incluyendo San Isidro, La Molina, Miraflores, Surco, San Borja, Magdalena, 

Pueblo Libre, Lince y Jesús María. 

Desde el punto de vista académico y financiero, esta investigación representa un aporte 

significativo al desarrollo de modelos de valoración de activos inmobiliarios aplicados al 

sistema financiero peruano. En la literatura financiera, la estimación del valor fundamental 

de un activo es clave para evitar sobrevaloraciones que puedan dar lugar a burbujas 

especulativas. Esta tesis se alinea con esta corriente al proponer una metodología que, 


19 
 

mediante el uso de algoritmos de aprendizaje automático, permite obtener estimaciones 

más precisas y ajustadas a las características intrínsecas del inmueble. 

En primer lugar, el trabajo se enmarca en el enfoque de estabilidad financiera, ya que 

una estimación adecuada de precios inmobiliarios reduce la posibilidad de deterioro en las 

carteras hipotecarias de las instituciones financieras, mejorando la gestión del riesgo de 

crédito. Una valoración más precisa de los activos inmobiliarios permite a los bancos 

establecer márgenes de garantía adecuados y tomar decisiones de colocación más seguras. 

Además, este modelo puede ser utilizado como un insumo en la supervisión macro 

prudencial por parte de entidades regulatorias como la Superintendencia de Banca, Seguros 

y AFP (SBS) o el Banco Central de Reserva del Perú (BCRP). La detección temprana de 

desviaciones significativas entre los precios de mercado y los valores estimados por el 

modelo puede servir como una señal de alerta ante potenciales desequilibrios financieros o 

burbujas inmobiliarias. 

Por otro lado, esta investigación también se conecta con el análisis de portafolios de 

inversión. Fondos de inversión inmobiliarios, compañías de seguros y bancos de inversión 

requieren valorar adecuadamente sus activos subyacentes para garantizar una adecuada 

asignación de recursos, una correcta medición del rendimiento ajustado por riesgo y una 

valorización realista de su patrimonio. Al proveer un modelo de alta precisión para la 

valoración de activos residenciales, este trabajo contribuye directamente a mejorar la toma 

de decisiones en estos contextos. 

Finalmente, este trabajo también dialoga con la literatura internacional sobre la 

aplicación de inteligencia artificial en finanzas. Estudios como el de Daníelsson et al. 

(2020) han demostrado cómo los modelos de ML pueden contribuir a la estabilidad 

financiera mediante una mejor estimación de riesgos. En esa línea, esta investigación 

amplía el campo de aplicación de dichos modelos al caso peruano, aportando evidencia 

empírica relevante que puede ser replicada o extendida a otras economías emergentes. 


20 
 

CAPÍTULO II: APLICACIÓN DE LA METODOLOGÍA 

2.1. Descripción de datos 

El BCRP recopila y publica información sobre el precio de departamentos en Lima 

Metropolitana de los distritos que tienen un mercado más dinámico. En años anteriores se 

hacía a través de anuncios publicitarios en los periódicos, pero actualmente la digitalización 

de la información permite la recopilación de información a través de portales web como 

“Urbania”, “Nexo Inmobiliario” o “Adondevivir”; esta información es más rápida de 

obtener y mantener actualizada además de recopilar más información con detalles 

adicionales como metros cuadrados, número de habitaciones, vista interna o externa, 

cantidad baños, entre otras características de interés. 

La base de datos a utilizar cuenta con 43,457 observaciones de departamentos de los 

distritos San Isidro, Miraflores, La Molina, Surco, San Borja, Jesús María, Magdalena, 

Lince, San Miguel y Pueblo Libre desde 2014 hasta 2024 con frecuencia trimestral 

considerando las variables precio en soles constantes 2009 (precio), tipo de cambio (tc), 

índice de precios del consumidor (ipc), metros cuadrados (m2), cantidad de habitaciones 

(habitaciones), cantidad de baños (baños), cantidad de garajes (garajes), número de piso 

(piso), si tiene vista interna o externa (vista), años de antigüedad (antigüedad) y distrito en 

el que se encuentra (distrito). 

A continuación, la Figura 2.1. muestra las relaciones entre el precio y las características 

principales mediante diagramas de dispersión mostrando una tendencia positiva entre el 

precio y los metros cuadrados sugiriendo que el precio incrementa conforme aumenta el 

tamaño, al igual que con el número de garajes. Por otro lado, el piso en el que se encuentra 

el departamento parece no tener relevancia mientras que la antigüedad parece mostrar una 

ligera relación negativa con el precio. Y finalmente, la relación con el número de 

habitaciones parece ser ligeramente creciente, pero con alta dispersión al igual que los 

baños. 


21 
 

Figura 2.1. Diagramas de dispersión.

Fuente: Elaboración propia. 

Es importante notar que existen observaciones con cantidad de baños y habitaciones 

por encima de 6 unidades, pero con precios relativamente bajos, generando preocupación 

en que la ligera tendencia positiva entre el precio y habitaciones y baños puede estarse 

viendo afectada por la posibilidad de existencia de un alto número de observaciones de 

estas características; que podría ser consecuencia de la falta de rigurosidad en la 


22 
 

recopilación de datos descrita en las limitaciones. Para poder confirmar que no se genera 

esta situación mostramos la Figura 2.2. donde se aprecia que la distribución de estas 

características se encuentra concentrada por debajo de 6 unidades; confirmando que la baja 

relación positiva entre el precio y dichas características es generada por observaciones que 

parecen no tener problemas en la recopilación de datos. 

Figura 2.2. Distribución de habitaciones y baños.

 
Fuente: Elaboración propia. 

2.2. Regresión hedónica 

2.2.1. Principios básicos y fundamento teórico 

La regresión hedónica es una técnica econométrica utilizada para descomponer el 

precio de un bien en el valor de sus características permitiendo cuantificar el valor marginal 

de cada una de las características, proporcionando una visión detallada de cómo afectan al 

precio final del departamento. Esta regresión se suele realizar mediante regresión lineal 

entre el precio y las características. 

Desde un punto de vista matemático, la función de precios hedónicos se puede expresar 

de la siguiente manera lineal: 

                                                𝑦𝑖 = 𝛽0 + ∑ 𝛽𝑖𝑥𝑖
𝑛
𝑖=1 + 𝜀𝑖 ,         (1) 


23 
 

donde 𝑦𝑖 representa el precio del inmueble, y 𝑥𝑖 son las características que influyen en el 

precio. Reemplazando las características en la función (1) obtenemos: 

𝑝𝑟𝑒𝑐𝑖𝑜 = 𝛽0 + 𝛽1tc + 𝛽2ipc + 𝛽3m2 + 𝛽4ℎ𝑎𝑏 + 𝛽5baño + 𝛽6garaje + 𝛽7piso +

                    𝛽8vista + 𝛽9antigüedad + 𝛽10distrito2 + ⋯ + 𝛽18distrito10 + 𝜀,               (2) 

donde 𝛽1, 𝛽2,…, 𝛽𝑛 son los coeficientes que indican la contribución marginal de cada 

característica al precio total, y d𝑖 es cada uno de los distritos. 

Para poder calcular el set de coeficientes estimados se aplica se debe realizar un 

proceso de optimización en el que se busca minimizar los errores al cuadrado siendo la 

función objetivo a minimizar: 

                      ∑ 𝜀𝑖
𝑛
𝑖=1 = ∑ (𝑦𝑖 − �̂�𝑖)2𝑛

𝑖=1 ,                   (3) 

obteniendo como resultado la siguiente forma general (4) de cómo se calcula el �̂�: 

�̂� = (𝑋′𝑋)−1(𝑋′𝑌),                                      (4) 

2.2.2. Aplicación del modelo 

Para la aplicación de una regresión lineal partiendo de la base de datos obtenida del 

BCRP se necesita realizar una transformación de los datos, ya que el modelo lineal no 

admite variables de texto como el distrito. En ese sentido, se aplica One-Hot Encoding en 

la data para transformar la variable de texto distrito en 10 nuevas variables, una para cada 

distrito con valores de 1 en caso la observación se encuentre en ese distrito o 0 en caso 

contrario. Además, para evitar problemas de colinealidad es necesario omitir alguno de los 

distritos, y de esa manera se podrá realizar con éxito la estimación de coeficientes. 

Dado que el objetivo es poder comparar posteriormente contra los modelos de ML, y 

como se explicará más a detalle en los puntos 2.3. y 2.4., se decidió separar la base de datos 

en 80% para entrenamiento y 20% para testeo del modelo de manera aleatoria; de tal 


24 
 

manera que la regresión lineal y cálculo de coeficientes se realiza con solo el 80% de la 

información generando los resultados de la Tabla 2.1. 

Finalmente utilizando los coeficientes obtenidos en la regresión lineal de la data de 

entrenamiento procedemos a estimar precios en base a las características del 20% restante 

de información reservada para testeo del modelo y poder evaluar qué tan acertado es el 

modelo hedónico de regresión lineal en datos que no ha observado con anterioridad. 

La regresión hedónica es una metodología ampliamente utilizada para estimar el valor 

de bienes inmuebles en función de sus características intrínsecas y extrínsecas. Este modelo 

se fundamenta en la teoría del precio hedónico, propuesta por Rosen (1974), que establece 

que el precio de un bien complejo, como una vivienda, puede descomponerse en los valores 

marginales de sus atributos (Rosen, 1974). 

En el contexto del mercado inmobiliario de Lima, la regresión hedónica permite 

analizar el impacto de variables como la ubicación, el tamaño, el número de habitaciones y 

la antigüedad sobre el precio de los departamentos. A través de este análisis, es posible 

comprender cuáles son los factores que más influyen en la formación de precios y cómo 

estos pueden predecirse mediante técnicas de Machine Learning. 

La matriz de correlación es una herramienta estadística utilizada para medir la relación 

entre las variables continuas de un modelo. Se construye calculando el coeficiente de 

correlación de Pearson entre pares de variables, proporcionando valores en un rango de -1 

a 1: 

Valores cercanos a 1 indican una fuerte correlación positiva. 

Valores cercanos a -1 indican una fuerte correlación negativa. 

Valores cercanos a 0 sugieren una correlación débil o inexistente. 

Para el presente estudio, se excluyen variables discretas como los distritos, ya que estas 

se codifican de manera diferente (por ejemplo, mediante One-Hot Encoding). La matriz de 


25 
 

correlación permite identificar relaciones entre variables clave, como el área total, el 

número de habitaciones y el precio del inmueble. 

En los modelos de regresión lineal tradicional, una alta correlación entre variables 

explicativas puede generar un problema conocido como multicolinealidad. Este fenómeno 

dificulta la interpretación de los coeficientes del modelo y puede afectar su estabilidad 

(Gujarati & Porter, 2009). Para detectar multicolinealidad, se suele calcular el Factor de 

Inflación de la Varianza (VIF), donde valores mayores a 10 indican problemas 

significativos. 

2.2.3. Resultado del modelo 

La Tabla 2.1. muestra los resultados de la regresión lineal del modelo hedónico 

obteniendo un 𝑅2, que se define en el apartado 2.6.1., de 0.787 en la data de entrenamiento 

con coeficientes en su mayoría significativos al 95%, excepto la cantidad de baños; siendo 

las características más importantes la cantidad de garajes y metros cuadrados. Y como es 

de esperar, los distritos tienen un impacto negativo en comparación a estar ubicado en el 

distrito de San Isidro (variable omitida para tomar de referencia). 


26 
 

Tabla 2.1. Regresión lineal. 

                  Fuente: Salida de la regresión en Python con resultados. 

La Figura 2.3. muestra de manera gráfica la relación entre el precio estimado y el precio 

real en el 20% de data de testeo, pretendiendo dar señales de que el 𝑅2 en la data de testeo 

puede ser bastante alto. Posteriormente, en el apartado 2.6. se definirá de manera 

cuantitativa como evaluar a profundidad y confirmar esta hipótesis. 


27 
 

Figura 2.3. Precios estimados de modelo hedónico de regresión lineal.  

Fuente: Elaboración propia. 

2.3. Árbol de Decisión 

2.3.1. Principios básicos y fundamento teórico 

El Árbol de Decisión es un modelo predictivo que organiza la toma de decisiones 

mediante una estructura jerárquica similar a un árbol. Su funcionamiento se basa en dividir 

un conjunto de datos en subconjuntos más pequeños a través de una serie de preguntas o 

condiciones basadas en las características de los datos. 

El árbol comienza en un nodo raíz, que representa el punto de partida donde se realiza 

la primera división del conjunto de datos. A partir de ahí, los nodos internos generan nuevas 

divisiones en función de distintos criterios, como el valor de una característica específica. 

Las ramas conectan estos nodos y representan los posibles caminos o resultados de las 

decisiones anteriores. Finalmente, los nodos hoja contienen la predicción final del modelo, 

que puede ser una clasificación o un valor numérico (como nuestro caso), dependiendo del 

tipo de problema. 


28 
 

En problemas de regresión, como la predicción de precios de departamentos, el valor 

de cada nodo hoja corresponde a una estimación del precio, calculada en función de las 

características del inmueble. El proceso de construcción del árbol busca minimizar el error 

de predicción dividiendo los datos de manera óptima en cada paso. 

Para terminar de aterrizar el funcionamiento del árbol de decisión, la Figura 2.4. 

muestra un ejemplo de gráfico tridimensional de un Árbol de Decisión de solo 2 

características. En este caso, cuando el tamaño es menor a 100, el precio promedio de los 

departamentos es 250; cuando el tamaño es mayor a 100 pero con menos de 3 habitaciones, 

el precio promedio es 450; y cuando es mayor de 100 y con más de 3 habitaciones el precio 

promedio es 850. 

Figura 2.4. Ejemplo Tridimensional de árbol de decisión. 

 
Fuente: Elaboración propia. 

La Figura 2.5. grafica un ejemplo de árbol de decisión calculado con la data de 

entrenamiento limitando los outputs del modelo (u hojas de salida) a solo 10 posibilidades 

para poder mostrarlo a manera de ejemplo en el presente documento. 

 
29 
 

Figura 2.5. Ejemplo de árbol de decisión. 

 
Fuente: Elaboración propia. 


30 
 

Formalizando la estructuración del árbol de decisión, el primer paso en la construcción 

de un árbol de decisión es subdividir el espacio de las variables explicativas 

𝑋1, 𝑋2, 𝑋3, . . . , 𝑋𝑝  en posibles combinaciones que definan las distintas 𝐽 regiones 

𝑅1, 𝑅2, 𝑅3, … , 𝑅𝑗, dentro de las cuales se estimará la variable dependiente. 

El objetivo de esta partición es minimizar la suma de los errores al cuadrado dentro 

de cada región 𝑅𝑗: 

                                               ∑ ∑ (𝑦𝑖 − �̂�𝑅𝑗
)2

𝑖∈𝑅𝑗

𝐽
𝑗=1 ,           (5) 

donde 𝑦𝑖  es el valor real de la variable dependiente en la observación 𝑖, e �̂�𝑅𝑗
es la 

predicción promedio dentro de la región 𝑅𝑗. 

Explorar todas las posibles particiones del espacio de características sería 

computacionalmente inviable, por lo que se adopta un enfoque top-down o de división 

recursiva binaria. Este método comienza con todo el conjunto de datos en una sola región 

y, de manera sucesiva, divide el espacio de predictores en dos ramas. Para poder aplicar 

este criterio se elige un predictor 𝑋𝑗 con un punto de corte 𝑠 dividiendo el espacio en 2 

regiones;  

                                𝑅1(𝑗, 𝑠) = {𝑋𝑗 < 𝑠} , 𝑅2(𝑗, 𝑠) = {𝑋𝑗 ≥ 𝑠}                                 (6) 

El criterio de división busca minimizar la suma de residuos al cuadrado total, definida 

como: 

∑ (𝑦𝑖 −  �̂�𝑅1)2
𝑖:𝑥𝑖 ∈𝑅1(𝑗.𝑠) + ∑ (𝑦𝑖 −  �̂�𝑅2)2

𝑖:𝑥𝑖 ∈𝑅2(𝑗.𝑠)                     (7) 

Se evalúan todos los predictores 𝑋𝑗 y todos los posibles puntos de corte 𝑠 para encontrar 

la combinación que minimice la RSS. Este proceso se repite de forma recursiva, dividiendo 

sucesivamente una de las regiones previamente definidas, creando así tres regiones, luego 

cuatro, y así sucesivamente hasta cumplir un criterio de parada. Finalmente, una vez que el 


31 
 

árbol ha sido construido, la predicción para una nueva observación se obtiene calculando 

el promedio de las observaciones de entrenamiento dentro de la región correspondiente. 

2.3.2. Aplicación del modelo 

En el caso del árbol de decisión, al igual que en la regresión lineal, es necesario 

transformar los datos mediante One-Hot Encoding pero sin la necesidad de omitir un 

distrito porque la colinealidad que no permite calcular la inversa de (𝑋′𝑋) en la ecuación 

(4) no existe en el árbol de decisión ya que la forma funcional de optimización es distinta. 

Este modelo aplicado desde Python necesita utilizar la librería sklearn de donde se 

obtiene: 

• sklearn.tree.DecisionTreeRegressor: Implementa un árbol de decisión para 

regresión. 

• sklearn.tree.plot_tree: Permite visualizar el árbol de decisión. 

• sklearn.model_selection.train_test_split: Divide los datos en conjuntos de 

entrenamiento y prueba. 

• sklearn.metrics: Contiene funciones para evaluar el rendimiento del modelo. 

La creación del modelo se realiza mediante dt=DecisionTreeRegressor() para luego 

entrenarlo con dt.fit(x_dt_train, y_dt_train), donde dt es el nombre que le damos al árbol 

de decisión que estamos creando; x_dt_train es la matriz de características utilizadas para 

entrenar el modelo, así como y_dt_train es el vector de precios del mismo bloque de datos. 

Después de entrenar el modelo, podemos realizar estimaciones sobre el 20% de los 

datos restantes, correspondientes al conjunto de prueba. Esto nos permitirá evaluar la 

capacidad del modelo de árbol de decisión para estimar los precios en datos que no ha visto 

previamente. Para hacer las estimaciones, utilizamos: dt_pred=dt.predict(x_dt_test). 

Adicionalmente, con el árbol de decisión entrenado, se puede calcular la importancia 

relativa de las características, pero, como el One-Hot Encoding generó inicialmente una 

variable para cada distrito, las importancias de este grupo de variables se deben sumar para 


32 
 

entender la importancia del distrito de manera agrupada en comparación al resto de 

variables.  

La importancia relativa de las características en un árbol de decisión se determina a 

partir de la reducción del criterio de división, que en este caso es el error cuadrático medio 

(MSE). En cada nodo, se elige la característica que genera la mayor disminución del error.  

                                  𝑀𝑆𝐸(𝑅) =  
1

𝑛
∑ (𝑦𝑖 − �̂�𝑅) 2𝑖𝜖𝑅 ,                                                (8) 

donde, 𝑛 es el número total de observaciones en el nodo 𝑅; 𝑦𝑖 es el valor real de la 

variable objetivo para la observación 𝑖; e �̂�𝑅 =
1

𝑛
∑ 𝑦𝑖𝑖𝜖𝑅 . 

La relevancia de una característica se calcula sumando la reducción del MSE en todos 

los nodos donde ha sido utilizada como criterio de división. Finalmente, estos valores se 

normalizan para expresar la importancia en términos de un porcentaje relativo. 

Para cada característica 𝑗, su importancia relativa se calcula como: 

𝐼𝐽 =  
1

𝑁
∑ ∆𝑀𝑆𝐸𝑡

𝑁
𝑡=1  ,                              (9) 

donde 𝐼𝑗 es la importancia de la característica 𝑗; 𝑁 es el número total de nodos en los que 

la característica 𝑗 ha sido utilizada para dividir; ∆𝑀𝑆𝐸𝑡 es la reducción del error cuadrático 

medio en el nodo 𝑡 cuando se usa la característica 𝑗. Finalmente, se normaliza dividiendo 

cada 𝐼𝑗 entre la suma total de importancias de todas las características para obtener un valor 

relativo entre 0 y 1. 

 La variación del MSE se calcula como la diferencia entre el error antes y después 

de realizar una división en dicho nodo; esta métrica mide cuánto mejora el modelo al 

realizar una partición basada en una característica específica. 

∆𝑀𝑆𝐸 =  𝑀𝑆𝐸𝑝𝑎𝑑𝑟𝑒 − (
𝑁𝑖𝑧𝑞

𝑁𝑡𝑜𝑡𝑎𝑙
𝑀𝑆𝐸𝑖𝑧𝑞 +

𝑁𝑑𝑒𝑟

𝑁𝑡𝑜𝑡𝑎𝑙
𝑀𝑆𝐸𝑑𝑒𝑟),                  (10) 


33 
 

donde 𝑀𝑆𝐸𝑝𝑎𝑑𝑟𝑒 es el error cuadrático medio antes de la división; 𝑀𝑆𝐸𝑖𝑧𝑞 es el error en el 

nodo hijo izquierdo; 𝑀𝑆𝐸𝑑𝑒𝑟 es el error en el nodo hijo derecho; 𝑁𝑖𝑧𝑞 y 𝑁𝑑𝑒𝑟 son el número 

de muestras en los nodos izquierdo y derecho, respectivamente; y 𝑁𝑡𝑜𝑡𝑎𝑙 = 𝑁𝑖𝑧𝑞 + 𝑁𝑑𝑒𝑟 es 

el número total de muestras en el nodo padre. 

2.3.3. Resultado del modelo 

La Figura 2.6. muestra el resultado de las importancias relativas de las características 

utilizadas para estimar los precios de los departamentos, siendo el tamaño la característica 

con mayor importancia, contribuyendo en un 74% a la toma de decisiones dentro del árbol; 

seguido por 8% en los distritos y 6% en la cantidad de garajes. 

Figura 2.6. Importancia relativa de las características de Árbol de Decisión.

 
Fuente: Elaboración propia a partir de los resultados del Árbol de Decisión en python. 

La Figura 2.7. muestra de manera gráfica la relación entre el precio estimado y el precio 

real en el 20% de data de testeo en el modelo de árbol de decisión, pareciendo tener un 𝑅2 

no tan alto como la regresión lineal. Esta gráfica es comparable con la Figura 2.3. del 

modelo hedónico. 


34 
 

Figura 2.7. Precios estimados de modelo de árbol de decisión. 

Fuente: Elaboración propia. 

2.4. XGBoost  

2.4.1. Principios básicos y fundamento teórico 

XGBoost es un algoritmo de ML basado en el método de gradient boosting, el cual 

construye múltiples árboles de decisión en secuencia con el objetivo de minimizar el error 

de predicción. Cada nuevo árbol se entrena para corregir los errores cometidos por los 

árboles anteriores, logrando una mejora progresiva en la capacidad predictiva del modelo, 

permitiendo modelar de manera más precisa dichas relaciones al generar árboles de 

decisión optimizados. En relación con la eficiencia del manejo de conjuntos de datos 

voluminosos, el sistema XGBoost se caracteriza por su capacidad para gestionar grandes 

cantidades de datos de manera eficiente, permitiendo un procesamiento más rápido de los 

datos y una utilización más efectiva de los recursos computacionales disponibles, lo que 

resulta en un sistema escalable capaz de manejar grandes volúmenes de data con menos 

recursos en comparación con otros sistemas. 

XGBoost no solo se destaca por su rendimiento y eficiencia, sino también por la 

facilidad de uso, capacidad de adaptación a una amplia variedad de datos, de problemas y 


35 
 

de tipos de datos en el campo del aprendizaje automático. La combinación de velocidad, 

escalabilidad y precisión hace que sea una herramienta invaluable para cualquier 

profesional que busca desarrollar modelos predictivos de alto rendimiento en diversos 

dominios y aplicaciones.  (Chen, T. y C. Guestrin, 2016).  

El modelo se expresa como: 

                                          �̂�𝑖 =  ∑ 𝑓𝑘
𝐾
𝑘=1 (𝑥𝑖), 𝑓𝑘  ∈ 𝐹,                                                  (11) 

donde �̂�𝑖 es la predicción del precio del inmueble 𝑖; 𝑥𝑖 es el vector de características del i-

ésimo departamento; 𝑓𝑘(𝑥𝑖) representa el k-ésimo árbol de decisión en el modelo; F es el 

espacio de todos los árboles de decisión; y K es el número total de árboles en el modelo. 

El modelo minimiza la siguiente función de pérdida objetivo en la iteración 𝑡: 

                                 ℒ (𝑡) = ∑ 𝑙(𝑝𝑖,  𝑛
𝑖=1 �̂�𝑖

(𝑡−1) +  𝑓𝑡(𝑥𝑖)) + 𝛺(𝑓𝑡),                                  (12) 

donde 𝑙(𝑝𝑖, �̂�𝑖) es la función de pérdida: 

                                                     𝑙(𝑝𝑖, �̂�𝑖) =  
1

2
(𝑝𝑖 −  �̂�𝑖)

2,                                            (13) 

y 𝛺(𝑓𝑡) es el término de regularización para evitar sobreajuste:  

                                                   𝛺(𝑓𝑡) =  𝛾𝑇 +  
1

2
𝜆 ∑ 𝜔𝑗

2
𝑗 ,                                        (14) 

donde T es el número de nodos en el árbol y ωj son los pesos de las hojas. Para encontrar 

la mejor función 𝑓𝑡, se usa una expansión de segundo orden de Taylor de la función de 

pérdida; y aplicando (13) en (11) obtenemos: 

                         ℒ (𝑡) ≈  ∑ [𝑔𝑖𝑓𝑡(𝑥𝑖) +  
1

2
ℎ𝑖𝑓𝑡

2(𝑥𝑖)] + 𝛾𝑇 +  
1

2
𝜆 ∑ 𝜔𝑗

2
𝑗

𝑛
𝑖=1 ,                          (15) 

donde 𝑔𝑖 es la gradiente de pérdida: 

                                                                    𝑔𝑖 =  
𝜕𝑙(𝑦𝑖,�̂�𝑖)

𝜕�̂�𝑖
,                                                 (16) 


36 
 

ℎ𝑖 la segunda derivada de la pérdida: 

                                                                     ℎ𝑖 =  
𝜕2𝑙(𝑦𝑖,�̂�𝑖)

𝜕�̂�𝑖
2  ,                                              (17) 

y el peso  𝜔𝑗 de cada nodo del árbol: 

                                                                          𝜔𝑗
∗ = −

∑ 𝑔𝑖𝑖𝜖 𝐼𝑗

∑ ℎ𝑖+𝜆𝑖𝜖 𝐼𝑗

,                                               (18) 

donde 𝐼𝐽 es el conjunto de muestras en la hoja 𝑗. 

La ganancia de dividir en nodo en dos (𝐿 𝑦 𝑅) se mide como: 

                                  𝐺𝑎𝑖𝑛 =  
1

2
 [

(∑ 𝑔𝑖)𝑖𝜖𝐿
2

∑ ℎ𝑖+ 𝜆 𝑖𝜖𝐿
+  

(∑ 𝑔𝑖)𝑖𝜖𝑅
2

∑ ℎ𝑖+ 𝜆 𝑖𝜖𝑅
−

∑ 𝑔𝑖𝑖𝜖𝐿∪𝑅
2

∑ ℎ𝑖+ 𝜆 𝑖𝜖𝐿∪𝑅
− 𝛾                            (19) 

Si la ganancia es menor que un umbral, la división no se realiza. Posteriormente se inicia 

un el proceso iterativo de entrenamiento partiendo de �̂�𝑖 = 0; para cada iteración se calcula 

𝑔𝑖 y ℎ𝑖; se construye un nuevo árbol  𝑓𝑡 minimizando ℒ (𝑡) y se actualiza la predicción 

                                                  �̂�𝑖
(𝑡)

=  �̂�𝑖
(𝑡−1)

+  𝑓𝑡(𝑥𝑖),                                   (20) 

y se detiene cuando el modelo converge o se alcanza el número máximo de iteraciones. 

La multicolinealidad, entendida como la existencia de una alta correlación entre dos o más 

variables explicativas, representa una limitación metodológica importante en los modelos 

lineales clásicos, como la regresión lineal múltiple. En dichos modelos, la presencia de 

multicolinealidad puede distorsionar las estimaciones de los coeficientes, dificultar la 

interpretación de los efectos individuales de las variables y generar inestabilidad en la 

predicción, especialmente cuando se trabaja con bases de datos complejas y de alta 

dimensionalidad como las que caracterizan al mercado inmobiliario. 

No obstante, en el contexto de modelos basados en árboles, como XGBoost (Extreme 

Gradient Boosting), la multicolinealidad no representa una limitación significativa, gracias 


37 
 

al mecanismo con el que este algoritmo selecciona variables durante el entrenamiento. 

XGBoost construye árboles de decisión secuenciales mediante un enfoque de boosting, 

donde en cada iteración se seleccionan las variables que maximizan una función de 

ganancia (gain), en función de su capacidad para reducir el error de predicción. Si dos o 

más variables están altamente correlacionadas, el algoritmo identificará cuál de ellas ofrece 

una mayor ganancia de información en el conjunto de entrenamiento, y asignará menor 

importancia a las variables redundantes. 

Esto implica que XGBoost realiza una selección implícita de variables durante el proceso 

de construcción del modelo, priorizando aquellas que aportan mayor valor predictivo y 

relegando las que presentan redundancia o bajo aporte marginal, aun cuando estén 

altamente correlacionadas con las variables seleccionadas. En efecto, la importancia de 

cada característica se evalúa en términos de su contribución a la mejora del modelo a lo 

largo de múltiples árboles, lo cual permite manejar automáticamente el problema de la 

multicolinealidad sin necesidad de preprocesamiento adicional. 

Adicionalmente, el algoritmo incorpora técnicas de regularización L1 (Lasso) y L2 (Ridge), 

que penalizan la complejidad del modelo y atenúan el impacto de variables poco relevantes, 

reforzando su robustez ante relaciones espurias entre predictores. Esta propiedad ha sido 

reconocida en investigaciones previas, como la de Chen y Guestrin (2016), quienes 

destacaron que XGBoost no solo supera a modelos lineales en precisión, sino que también 

presenta una mayor estabilidad ante problemas clásicos como la multicolinealidad. 

Por lo tanto, en el presente trabajo, se considera que la utilización de XGBoost es 

metodológicamente adecuada incluso en presencia de correlaciones elevadas entre 

predictores, ya que el modelo está diseñado para aprender de manera eficiente a partir de 

datos estructurados con características interrelacionadas, como ocurre en el análisis de 

precios inmobiliarios. 


38 
 

2.4.2. Aplicación del modelo 

A diferencia de los modelos anteriores, el XGBoost permite manejar la variable distrito 

sin necesidad de transformar el dato con One-Hot Encoding; este algoritmo de ML es capaz 

de identificar la variable como categórica con solo una especificación para que lo entienda 

el software mediante df_xgb['distrito'] = df_xgb['distrito'].astype('category'), donde 

df_xgb es el nombre de la base de datos y astype('category') da la indicación de considerar 

los distritos como categóricos. La librería a utilizar es la del mismo nombre del modelo y 

se instala mediante pip install xgboost. 

La creación del modelo se realiza mediante model_xgb=XGBRegressor() para luego 

entrenarlo con model_xgb.fit(x_xgb_train, y_xgb_train), donde model_xgb es el nombre 

que le damos al modelo que estamos creando; x_xgb_train es la matriz de características 

utilizadas para entrenar el modelo, así como y_xgb_train es el vector de precios del mismo 

bloque de datos. Y las predicciones se obtienen mediante 

xgb_pred=model_xgb.predict(x_xgb_test). 

En este modelo se calcula la importancia relativa de la ubicación directamente sin 

necesidad de posteriormente sumar cada distrito, gracias a la definición previa de la 

variable como categórica. 

2.4.3. Resultado del modelo 

La Figura 2.8. muestra el resultado de las importancias relativas de las características 

utilizadas para estimar los precios de los departamentos, siendo también el tamaño la 

característica con mayor importancia, contribuyendo en un 65%, 11% en los garajes y 10% 

en distrito. 

La Figura 2.9. muestra la relación entre precio estimado y real en la data de testeo para 

el XGBoost, pareciendo tener un 𝑅2 mayor que los modelos previos. Esta gráfica es 

comparable con las Figura 2.3. y Figura 2.7. de Árbol de Decisión y XGBoost 

respectivamente. 


39 
 

Figura 2.8. Importancia relativa de las características XGBoost. 

Fuente: Elaboración propia a partir de los resultados del XGBoost en python. 

Figura 2.9. Precios estimados de modelo XGBoost.

 
Fuente: Elaboración propia. 


40 
 

2.5. Ventajas y desventajas 

La Tabla 2.2. muestra las ventajas y desventajas comparadas para los modelos en 

evaluación en cuanto a facilidad de interpretación de resultados, funcionamiento con 

relaciones no lineales y rendimiento del modelo. 

Tabla 2.2. Cuadro de ventajas y desventajas de los métodos. 

Método Ventajas Desventajas 

Regresión 

Hedónica 

Fácil de interpretar. 
Riesgo de multicolinealidad y omisión de 

variables. 

Impacto de cada variable en el precio. Variables ficticias para predictores cualitativos. 

Funciona bien en relaciones lineales. Dificultad en relaciones no lineales. 

Árbol de 

Decisión 

Fácil de interpretar. Alto riesgo de sobreajuste. 

Fácil de visualizar. Sensible a pequeñas variaciones en los datos. 

Funciona bien en relaciones no 

lineales. 
Riesgo de sesgo hacia características dominantes. 

XGBoost 
Alto rendimiento en predicciones. Difícil de interpretar. 

Funciona bien en relaciones complejas. Mayor costo computacional. 

 
Fuente: Elaboración propia. 

2.6. Métricas de desempeño 

2.6.1. Definición de métricas 

Para evaluar el desempeño y precisión de los modelos utilizados, hemos seleccionado 

cuatro métricas estadísticas: Mean Absolute Porcentaje Error (MAPE), Mean Absolute 

Error (MAE), Root Mean Squared Error (RMSE) y Coeficiente de Determinación (R2), las 

cuales se definen en la Tabla 2.3.  

 
41 
 

Tabla 2.3. Cuadro de definición de métricas. 

Fuente: Elaboración propia. 

2.6.2. Validación cruzada  

La validación cruzada es una técnica fundamental en ML y estadística utilizada para 

evaluar el rendimiento de un modelo y reducir el riesgo de sobreajuste. Su objetivo es 

obtener una estimación más confiable de la capacidad de generalización de un modelo, 

especialmente cuando se dispone de un conjunto de datos limitado. Para lograr esto, el 

conjunto de datos se divide en varios subconjuntos, permitiendo que el modelo se entrene 

y evalúe en diferentes partes de este, lo que proporciona una evaluación más robusta. 

Métricas Fórmula Descripción 

 
Mean Absolute 

Percentage Error 

(MAPE) 

 
𝑀𝐴𝑃𝐸

=  
1

𝑛
∑ |

𝑃 − �̂�

𝑃
| 𝑥 100 

Calcula la variación porcentual absoluta 

promedio entre los precios reales y estimados. 

 
Mean Absolute Error 

(MAE) 

 
𝑀𝐴𝐸 =  
1

𝑛
∑|𝑃 − �̂�| 

Calcula la variación absoluta promedio entre los 

precios reales y estimados. 

 
Root Mean Squared 

Error (RMSE) 

 
𝑅𝑀𝑆𝐸

=  √
1

𝑛
∑(𝑃 − �̂�)

2
 

Calcula la raíz cuadrada del promedio de los 

errores al cuadrado. 

 
Coeficiente de 

Determinación (R²) 

 
𝑅2 = 1 − 
∑(𝑃 − �̂�)

2

∑(𝑃 − �̅�)2
 

Cal