top of page
ChatGPT Image 12 abr 2025, 15_34_01.png

NovaRetail: Análisis de rentabilidad y valor del cliente

Sin título-1.jpg

Del dato a la acción: patrones y decisiones claves

NovaRetail es una cadena de tiendas especializada en productos del hogar y electrónica, con operaciones en España, México y Chile. La dirección ha detectado indicios de que una parte significativa de los ingresos proviene de un pequeño grupo de clientes, mientras que muchos otros apenas aportan valor.

A través del análisis de datos, se identificaron patrones clave en el comportamiento de los clientes que respaldan las siguientes acciones estratégicas que la empresa podría implementar.

Patrones detectados

1. Perfil de los clientes más activos y rentables

 

  • Los clientes más activos (mayor frecuencia de compra) son hombres de 26 a 40 años en España. La fidelización demuestra un impacto directo en la rentabilidad: los clientes fidelizados son más activos, gastan más y compran con mayor frecuencia. Destaca el perfil de mujeres de 26 a 60 años en Chile como un grupo clave para expandir el programa de fidelización.

 

2. Análisis por segmentos de cliente

 

  • El segmento Bronce registra el mayor gasto total, especialmente entre los clientes más activos, aunque con baja fidelización. El segmento Plata mantiene buen nivel de actividad y recurrencia, pero con un ticket medio más bajo. El segmento Oro, aunque es el más recurrente, presenta menor gasto y ha sido identificado como un grupo en riesgo de abandono.

 

3. Segmentación de clientes: 4 perfiles estratégicos

 

  • Grupo 0 – Clientes valiosos desatendidos: Alta frecuencia y gasto, pero inactivos recientemente. Sin estrategia actual.

 

  • Grupo 1 – Clientes sin estrategia asignada: Buen comportamiento pero no fidelizados ni segmentados. Potencial desaprovechado.

 

  • Grupo 2 – Clientes estables y fidelizados: Buen rendimiento, consistencia y fidelización. Segmento clave a conservar.

 

  • Grupo 3 – Clientes premium en riesgo: Alta rentabilidad y comportamiento VIP, pero con señales de abandono. Requiere acción inmediata.

 

4. Predicción de CLV: valor futuro del cliente

 

  • Se aplicó un modelo de regresión para predecir el CLV (valor de vida del cliente) y clasificar a los clientes en cuatro niveles: Bajo, Medio-Bajo, Medio-Alto y Alto. Esta clasificación fue incorporada al dataset, facilitando decisiones personalizadas en campañas y análisis estratégicos.

 

5. Análisis de cohortes: fidelización en el tiempo

 

  • Las cohortes de enero y febrero de 2021 muestran una retención destacada hasta 30 meses después de la captación. En cambio, otras cohortes evidencian una caída significativa entre los meses 5 y 6, indicando un momento clave de abandono que requiere intervención.

 

6. Análisis temporal: estacionalidad y caídas

 

  • Se observó una tendencia decreciente en las transacciones entre mayo y octubre, posiblemente relacionada con la estacionalidad, las vacaciones o la ausencia de campañas relevantes en ese periodo. Este hallazgo sugiere oportunidades para diseñar acciones estacionales específicas.

Acciones de negocio propuestas a partir del análisis realizado

1. Diseñar campañas de retención personalizadas dirigidas a:

 

  • Clientes con alto CLV.

 

  • Clientes del grupo 3 (VIP en riesgo de fuga, alta rentabilidad y comportamiento VIP pero con señales de abandono).

 

  • Clientes del grupo 0 (valiosos pero desatendidos, alta frecuencia y gasto pero inactivos recientemente).

 

Estas campañas deben centrarse en beneficios exclusivos, comunicaciones personalizadas y activación de clientes inactivos con alto valor.

 

2. Reforzar las acciones de fidelización durante los primeros 6 meses tras la captación, periodo en el que se detecta mayor abandono. Además, analizar y replicar las características de los clientes captados en enero y febrero de 2021, que muestran una retención sostenida hasta 30 meses.

 

3. Optimizar el presupuesto de marketing enfocándolo hacia segmentos con mejor retorno, alto CLV y perfiles afines a los clientes fidelizados y estables.

 

4. Expandir el programa de fidelización entre mujeres de 26 a 60 años en Chile, donde ya se observa una base sólida de clientes recurrentes y con buen nivel de gasto. Este grupo presenta un alto potencial de rentabilidad si se potencia adecuadamente.

 

5. Reevaluar el programa de fidelización del segmento Oro: si no está generando el nivel de compromiso esperado, se recomienda rediseñar sus beneficios o reasignar los recursos hacia otros segmentos con mayor potencial de retención y gasto.

 

6. Estudiar en profundidad la caída de transacciones entre mayo y octubre, e implementar campañas estacionales, promociones o lanzamientos específicos para contrarrestar esa bajada de ventas.

 

7. Incorporar variables como evolución del negocio, campañas activas y estacionalidad en futuros modelos predictivos y análisis avanzados. Esto aumentará la precisión y permitirá estrategias más específicas, personalizadas y alineadas con el ciclo comercial.

Resultados de negocio potenciales de las acciones propuestas 

Aplicar estrategias de fidelización sobre los clientes de alto valor desatendidos o en riesgo, permitiría aumentar el CLV total de estos grupos en +25.800 €, lo que representa un incremento del +9,65% respecto a su valor actual. 

 

Además, el proyecto ha permitido identificar con precisión qué clientes son más rentables y cuáles no, lo que abre la puerta a acciones diferenciadas de retención, reactivación o reducción de inversión según el valor real aportado por cada segmento.

Habilidades demostradas en este proyecto

Sin título-1.jpg
  • Conciencia del impacto en negocio: enfoque constante en la identificación de clientes rentables, mejora de la fidelización y aumento del valor a largo plazo, alineando cada análisis con decisiones que impulsan la rentabilidad comercial.

  • Pensamiento estratégico y comprensión del negocio: priorizo una comprensión profunda del contexto, las métricas clave y los objetivos empresariales antes de iniciar cualquier análisis, asegurando que los resultados sean relevantes y aporten valor real.

  • Buenas prácticas en calidad, validación y gobernanza del dato: validación de consistencia, tratamiento de nulos y outliers, normalización y limpieza con enfoque en la integridad de la información.

  • Automatización con inteligencia artificial: uso de IA para documentar procesos, asistir en tareas repetitivas y generar código, lo que permite centrar el esfuerzo en el análisis de valor.

  • Mentalidad orientada a la eficiencia y al rendimiento: optimizo procesos mediante funciones en Python y aplico buenas prácticas en Power BI y SQL para mejorar tiempos de carga, eficiencia de consultas y experiencia de uso.

  • Análisis exploratorio de datos (EDA).

  • Desarrollo de un modelo de regresión lineal con Scikit-learn para predecir el CLV (Customer Lifetime Value), con el objetivo de estimar el valor económico futuro de cada cliente y así priorizar acciones de marketing, retención y asignación eficiente de recursos.

  • Implementación de un modelo de clustering con K-Means para segmentar clientes según su comportamiento, con el fin de orientar campañas personalizadas y optimizar la inversión comercial en función del perfil de cada grupo.

  • Análisis de cohortes de retención para evaluar la evolución temporal de los clientes tras su captación e identificar puntos críticos de abandono que permitan mejorar las estrategias de fidelización.

Historia del proyecto: Análisis de rentabilidad y valor del cliente

Sin título-1.jpg

Contexto

NovaRetail es una cadena de tiendas de retail especializada en productos del hogar y electrónica, con presencia en España, México y Chile. A pesar de su crecimiento constante en volumen de ventas desde 2020, la empresa se enfrenta a un reto estratégico: su rentabilidad neta no crece al mismo ritmo. La dirección sospecha que gran parte de los ingresos proviene de una minoría de clientes, mientras otros apenas generan valor o incluso provocan fugas de ingresos. La pregunta clave: ¿quiénes son realmente los clientes rentables y cómo podemos retenerlos?

¿Cuál era el verdadero problema?

Detrás de los buenos números de facturación se ocultaban patrones poco saludables: muchos clientes compraban esporádicamente, otros desaparecían tras pocos meses, y las campañas de fidelización no estaban bien dirigidas. No existía una segmentación clara del valor de cada cliente, lo que dificultaba priorizar acciones comerciales, asignar presupuesto de forma eficiente y diseñar estrategias de retención efectivas.

¿Por qué ha sucedido esto?

A través de un análisis exploratorio detallado, la construcción de modelos predictivos y la segmentación con machine learning, se identificaron los factores que explicaban el comportamiento de los clientes:

 

  • El segmento "oro", asociado a clientes premium, presentaba un riesgo de fuga elevado y un nivel de gasto inferior al esperado.

 

  • Se detectaron grupos valiosos pero desatendidos, con alto gasto y frecuencia histórica, pero inactivos en el presente.

 

  •  El análisis de cohortes reveló un punto crítico de abandono entre los meses 5 y 6 tras la captación.

 

  • Gracias al modelo de predicción de CLV, se logró clasificar con precisión a los clientes en niveles de valor, lo que permitió distinguir quiénes realmente aportan rentabilidad y quiénes representan una posible fuga de recursos.

¿Qué soluciones proponemos?

Basado en los datos y en los patrones detectados, se propusieron acciones específicas orientadas a reducir el abandono, entre ellas:

  • Lanzar campañas personalizadas para retener a los clientes de mayor valor que están en riesgo de fuga o inactivos (grupos 3 y 0), ofreciendo beneficios exclusivos y comunicaciones directas para reconectar con ellos.

  • Reforzar los primeros seis meses tras la captación, replicando las estrategias aplicadas en cohortes exitosas como las de enero y febrero de 2021, que mostraron una retención más alta.

  • Optimizar el presupuesto de marketing, dirigiéndolo a perfiles que aportan mayor retorno y muestran mayor fidelidad.

  • Reevaluar el enfoque del segmento oro, que, pese a su consideración premium, no siempre refleja el valor esperado; se sugiere rediseñar sus beneficios o redirigir recursos a perfiles más rentables.

De todas las soluciones, la más prioritaria es activar campañas de retención personalizadas para los clientes de alto valor en riesgo (grupos 3 y 0).
Son perfiles que ya demostraron ser clave en los ingresos, pero que actualmente están inactivos o muestran señales de abandono. Recuperarlos no requiere nuevos esfuerzos de captación, sino una estrategia más inteligente basada en acciones diferenciadas.

Consecuencias de no actuar

Sin aplicar estas acciones, NovaRetail continuará invirtiendo recursos en segmentos poco rentables, mientras clientes de alto valor se pierden por falta de estrategia personalizada. Además, se mantendrán desequilibrios en el programa de fidelización y bajadas estacionales sin control.

Beneficios de implementar las soluciones

La aplicación de estrategias de fidelización sobre los clientes de alto valor que actualmente están desatendidos o en riesgo de fuga podría generar un aumento del CLV total estimado en más de +25.797 €, lo que representa un incremento del +9,65% respecto a su valor actual.

Además, el proyecto ha permitido identificar con claridad qué perfiles de cliente aportan mayor rentabilidad y cuáles no, lo que permite diseñar acciones personalizadas de retención, reactivación o incluso reducción de inversión, alineando cada esfuerzo con el valor real de cada segmento.

Del análisis a la decisión

Este proyecto demuestra cómo un enfoque basado en datos permite transformar incertidumbre en decisiones estratégicas. Al identificar quién aporta valor, cuándo se pierde un cliente y qué perfiles merecen prioridad, NovaRetail puede pasar de una estrategia genérica a una gestión inteligente del cliente.

 

Con acciones bien dirigidas y modelos predictivos sólidos, el análisis de datos se convierte en una palanca real para aumentar la rentabilidad y fidelidad en el sector retail.

Sin título-1.jpg

Desarrollo técnico del análisis

A continuación, se presentan las herramientas empleadas y el enfoque técnico que guiaron el desarrollo del análisis y la resolución del problema

Tecnologías utilizadas

  • Python (Pandas, Numpy, Scikit-learn, matplotlib, seaborn)

  • Inteligencia artificial (modelos de aprendizaje automático, ChatGPT)

  • GitHub (mantenimiento en la nube)

  • Visual Studio Code (código y documentación)

Fases del análisis

1. Comprensión del negocio y definición del objetivo

Antes de comenzar el análisis, dediqué un tiempo a estudiar el contexto de la empresa, comprender sus necesidades reales, identificar claramente el problema y formular múltiples preguntas de negocio orientadas a posibles soluciones.

 

También analicé los datos disponibles para asegurarme de que respondían a esos objetivos y ofrecían el potencial necesario para extraer valor.

 

Esta fase me permitió conectar los datos con los objetivos estratégicos de la empresa, y plantear el análisis desde una perspectiva orientada a impacto real.

2. Preparación, limpieza y validación de los datos (Python)

Comencé trabajando con Python para cargar y explorar los datos, asegurando su calidad desde el inicio mediante la normalización y estandarización de formatos.

 

Se detectaron outliers en algunas variables, cuya proporción era baja y coherente con el contexto del negocio, por lo que se mantuvieron para conservar posibles patrones de consumo valiosos

 

Además, gestioné los valores nulos de forma estratégica: ante la ausencia de una moda clara en varias columnas categóricas y con el fin de evitar sesgos, se imputaron como "desconocido", lo que permitió mantener la trazabilidad y facilitar su análisis independiente. En columnas numéricas o de fecha, se crearon versiones alternativas en formato texto con etiquetas como “desconocido” o “sin compra”, facilitando la interpretación en dashboards sin afectar la integridad del dato original.

 

Durante la validación de datos se detectaron inconsistencias, como devoluciones superiores a las transacciones o sumas mensuales que no coincidían con los totales por cliente. Se analizó cada caso: algunos se mantuvieron al comprobar que representaban comportamientos válidos; otros, como transacciones mensuales incoherentes, fueron corregidos. Para resolver duplicidades por cliente, año y mes, se eliminaron registros repetidos y se recalculó el gasto total como suma limpia del gasto mensual. Estas acciones aseguran el mantenimiento de la integridad de los datos.

 

Además, para optimizar el desarrollo, modularicé el código en funciones dentro de un archivo src, que importé en los notebooks correspondientes. Esta estructura permitió evitar duplicaciones, facilitar el mantenimiento y fomentar la reutilización eficiente del código.

3. Análisis exploratorio y generación de insights (Python)

Con el objetivo de comprender mejor el comportamiento de los clientes y detectar patrones útiles para la toma de decisiones, se llevó a cabo un análisis exploratorio completo de las variables categóricas, numéricas y temporales del dataset. Este proceso permitió extraer insights clave sobre retención, rentabilidad, fidelización y evolución del negocio.

Análisis de variables categóricas:

  • Se examinó la relación entre la actividad del cliente y otras dimensiones para detectar perfiles propensos al abandono. También se analizó el ticket medio por segmentos (género, país, edad, canal, etc.) para identificar grupos más o menos rentables. Se evaluó el impacto del programa de fidelización en la actividad, rentabilidad y recurrencia, observando qué perfiles están más fidelizados. Finalmente, se realizó un análisis integral por segmento de cliente para obtener una visión completa de su comportamiento y características.

 

Análisis de variables numéricas:

 

  • Se analizó el total de transacciones para identificar clientes con mayor o menor volumen de compras a lo largo del tiempo. También se estudió el número de devoluciones para detectar posibles comportamientos problemáticos o baja satisfacción en ciertos segmentos. Además, se examinó la frecuencia de compra para identificar grupos con mayor o menor recurrencia, destacando oportunidades para fomentar compras más frecuentes.

 

Análisis temporal:

 

  • Se evaluó el gasto agregado de forma mensual y anual, identificando tendencias estacionales y periodos con mayor o menor facturación. También se analizó la evolución de las transacciones mensuales para detectar variaciones en el comportamiento de compra. Además, se estudió la actividad mensual de los clientes, especialmente el número de clientes activos, para medir la capacidad del negocio de atraer y retener clientes de forma sostenida.

4. Análisis por cohortes (Python)

Se llevó a cabo un análisis por cohortes con el objetivo de agrupar a los clientes según el mes de su registro y seguir su comportamiento a lo largo del tiempo. Esta técnica permitió observar cómo evolucionan los distintos grupos de clientes desde el momento en que fueron captados, comparando su retención y recurrencia mes a mes.

 

Objetivos del análisis:

 

  • Medir la retención de clientes en el tiempo, identificando en qué momento tienden a abandonar.

  • Detectar cambios en la calidad de los nuevos clientes, comparando cohortes recientes con cohortes antiguas.

  • Optimizar campañas de captación, replicando las estrategias de cohortes que mostraron una mayor fidelización.

  • Analizar el valor a largo plazo (CLV) por cohorte, comprendiendo la rentabilidad de los clientes según su fecha de entrada.

  • Visualizar comportamientos cíclicos o patrones de abandono temprano, ayudando a detectar puntos críticos en el ciclo de vida del cliente.

 

Proceso seguido:

 

Para el análisis de cohortes, se creó una columna que agrupa a los clientes según el mes de su primera compra, junto con otra que indica el mes de cada actividad. A partir de ambas se calculó la edad de cohorte, es decir, cuántos meses han pasado desde la captación del cliente. Con estos datos, se construyó una tabla que muestra cuántos clientes de cada cohorte siguen activos en los meses posteriores, permitiendo visualizar su retención en el tiempo y extraer conclusiones sobre fidelización y calidad de captación.

5. Segmentación de clientes con K-Means para optimización del valor y retención (Python)

Con el objetivo de identificar grupos de clientes con comportamientos similares y orientar estrategias más específicas para cada uno de ellos, se aplicó un modelo de clustering no supervisado (K-Means). Esta segmentación permite mejorar la toma de decisiones comerciales, aumentar el Customer Lifetime Value (CLV) y detectar oportunidades de fidelización o riesgo de abandono que no serían evidentes en un análisis descriptivo tradicional.

 

Objetivos de la segmentación:

 

  • Aumentar el CLV mediante acciones específicas por perfil de cliente.

  • Identificar segmentos con alto valor económico o potencial de crecimiento.

  • Predecir riesgo de fuga o baja rentabilidad.

  • Diseñar estrategias personalizadas de activación, retención o fidelización.

 

Proceso seguido:

 

Primero se prepararon los datos, seleccionando variables representativas del comportamiento del cliente. Las variables categóricas fueron codificadas y los datos numéricos escalados para asegurar una adecuada interpretación por parte del modelo.

 

Posteriormente, se aplicó el método del codo y el silhouette score para determinar el número óptimo de clusters, estableciendo que la mejor opción eran 4 grupos.

 

Se entrenó el modelo de K-Means con estos parámetros y se asignó a cada cliente un número de cluster (0, 1, 2 o 3), que representa el grupo al que pertenece según sus características. Este resultado se incorporó al dataframe principal, permitiendo su análisis posterior junto con el resto de variables del negocio.

 

Cada cluster fue analizado para entender su comportamiento en términos de gasto, frecuencia de compra, fidelización, CLV y riesgo de abandono. Este análisis permitió definir perfiles claros y formular recomendaciones adaptadas a cada grupo.

 

Clusters detectados:

  • Grupo 0: Clientes que gastan mucho y compran con frecuencia, pero con alta tasa de inactividad reciente. No tienen asignación clara de segmento → podría ser un grupo con buen histórico pero sin gestión actual. Propuesta de nombre: "Clientes valiosos desatendidos".

  • Grupo 1: Clientes con buen comportamiento, pero no están segmentados ni fidelizados de forma clara. También tienen una alta tasa de inactividad. Propuesta de nombre: "Clientes sin estrategia asignada".

  • Grupo 2: Clientes consistentes, bien segmentados, mayoría activos, buena tasa de fidelización. Propuesta de nombre: "Clientes estables y fidelizados".

  • Grupo 3: Grupo de clientes VIP (“oro”) con comportamiento premium, pero con alto riesgo de fuga. Muy importante para el negocio. Propuesta de nombre: "Clientes premium en riesgo".

6. Predicción del Customer Lifetime Value (CLV) con modelo de regresión (Python)

Como parte del objetivo estratégico de NovaRetail de identificar a los clientes más rentables, se desarrolló un modelo de regresión supervisada para predecir el Customer Lifetime Value (CLV) de cada cliente, utilizando su comportamiento histórico y características específicas.

 

Objetivos del modelo:

 

  • Estimar el valor económico que cada cliente puede generar a lo largo de su ciclo de vida.

  • Clasificar a los clientes en cuatro niveles de valor: Bajo, Medio-Bajo, Medio-Alto y Alto.

  • Incorporar esta clasificación al dataset para su uso en análisis mensuales, dashboards o estrategias comerciales personalizadas.

 

Proceso seguido:

 

Se inició con la preparación de los datos para el entrenamiento, seleccionando las variables predictoras más relevantes. Posteriormente, se codificaron las variables categóricas y se definió la variable objetivo (CLV).

 

A continuación, se entrenó el modelo de regresión con los datos procesados y se generó la predicción del CLV individual por cliente. Finalmente, el CLV predicho fue clasificado en categorías ordinales para facilitar su análisis estratégico e integrado al DataFrame principal para su explotación en herramientas de visualización y toma de decisiones.

7. Cuantificación del impacto

Con el objetivo de estimar el beneficio económico potencial de aplicar estrategias de fidelización sobre clientes actualmente desatendidos o en riesgo de abandono, se desarrolló una simulación basada en la segmentación obtenida mediante el modelo K-Means.

 

El análisis identificó cuatro clusters de clientes según sus patrones de gasto, actividad y fidelización. Dos de ellos —Cluster 0 y Cluster 3— agrupan a clientes con alto valor histórico, pero que actualmente no están siendo gestionados de forma activa o presentan señales de abandono. Se evaluó el impacto de aplicar sobre ellos una estrategia que los lleve a comportarse como el grupo más estable y rentable (Cluster 2).

 

Los resultados muestran que, de lograrse esta mejora, el CLV total de los clientes desatendidos o en riesgo aumentaría en aproximadamente +25.797 €, lo que representa un incremento del +9,65% respecto a su valor actual. Esta proyección respalda firmemente la decisión de priorizar acciones de marketing y retención personalizadas sobre estos grupos, con un impacto directo en la rentabilidad a corto y medio plazo.

 

Además, el proyecto ha permitido identificar con precisión qué clientes son más rentables y cuáles no, lo que abre la puerta a acciones diferenciadas de retención, reactivación o reducción de inversión según el valor real aportado por cada segmento.

8. Automatización e inteligencia artificial

Durante el proceso, integré automatizaciones para tareas repetitivas, desde la generación asistida de funciones en Python hasta el uso de inteligencia artificial (GPT)  para documentar, generar código y explicar errores.
Esto permitió optimizar el tiempo y enfocar los esfuerzos en obtener insights relevantes y aplicables al negocio.

9. Documentación del proyecto y datos

Todo el desarrollo técnico del proyecto está documentado con más detalle en mi repositorio de GitHub, donde puede consultarse el código completo:
🔗 Acceder a GitHub

Los datos utilizados provienen de un dataset público de Kaggle, centrado en la predicción de abandono de clientes en servicios de suscripción.

Reflexiones finales y evolución futura

Este proyecto no solo permitió identificar qué clientes aportan mayor valor y cuáles representan un riesgo de pérdida, sino también demostrar cómo una estrategia basada en datos puede optimizar la fidelización, la rentabilidad y la toma de decisiones comerciales en el sector retail.

 

Entre las acciones propuestas, destacan tres con impacto inmediato:

 

  • Activar campañas personalizadas para clientes valiosos en riesgo de abandono o desatendidos, con beneficios exclusivos y enfoque en la reactivación.

 

  • Reforzar la fidelización durante los primeros seis meses tras la captación, momento clave donde se concentra la mayor pérdida de clientes.

 

  • Optimizar la inversión en marketing priorizando a los segmentos más rentables y con mayor probabilidad de permanencia.

 

Estas acciones forman parte de una estrategia global orientada a mejorar la retención, aumentar el Customer Lifetime Value y asignar recursos de forma más eficiente.

 

Además de generar resultados cuantificables, este proyecto sienta las bases para futuras líneas de evolución como:

 

  • Integrar el CLV y la segmentación en los sistemas de decisión comercial.

 

  • Incorporar nuevas variables contextuales y temporales para enriquecer los modelos predictivos y captar mejor la dinámica del negocio.

 

  • Diseñar campañas totalmente personalizadas basadas en segmentaciones avanzadas como K-Means, CLV o análisis RFM.

 

Este análisis demuestra cómo los datos, bien tratados y enfocados, pueden anticipar comportamientos clave y guiar decisiones que construyen una relación más sólida, rentable y sostenible entre empresa y cliente.

ChatGPT Image 12 abr 2025, 15_34_01.png

Envíame un mensaje y dime lo que piensas

¡Gracias por tu mensaje!

© 2035 Creado por Tren de ideas con Wix.com

bottom of page