ML Platform – Foris Suite

La Plataforma de Machine Learning de Foris es una infraestructura de aprendizaje automático diseñada para predecir cualquier fenómeno medible en la institución educativa: deserción estudiantil, riesgo de reprobación, probabilidad de pago, tendencias de matrícula, entre otros.

Visión General

A diferencia de los modelos genéricos de mercado, esta plataforma entrena con los datos reales de cada institución, optimiza automáticamente el modelo más adecuado para esos datos específicos, y despliega los resultados integrados con los flujos operativos del Foris Suite.

Componentes de la Plataforma

Motor de AutoML (Optuna)

El núcleo de la plataforma es un sistema de AutoML basado en Optuna con integración completa de MLflow. Su función es encontrar automáticamente el modelo y los hiperparámetros que mejor se ajustan a los datos de cada institución, sin requerir que el equipo universitario tenga conocimientos avanzados de machine learning.

Algoritmos Disponibles

Algoritmo	Código	Descripción
Random Forest	RF	Modelo de ensamble robusto, excelente para datos tabulares
Gradient Boosting Machine	GBM	Alto rendimiento en clasificación con datos estructurados
AdaBoost	ADA	Ensamble adaptativo, eficaz con clases desbalanceadas
Redes Neuronales	NNET	Captura patrones no lineales complejos
K-Nearest Neighbors	KNN	Clasificación basada en similitud entre estudiantes
LogitBoost	LB	Alternativa a GBM con control de sobreajuste
Regresión Logística Penalizada	PLR	Modelo interpretable con regularización L1/L2

El sistema también soporta modelos de clustering (K-Means, HDBSCAN, jerárquico, GMM, OPTICS) y regresión para predicción de variables continuas.

Proceso de Optimización

El motor ejecuta múltiples trials de entrenamiento, cada uno con una combinación diferente de hiperparámetros seleccionada mediante el TPE sampler de Optuna (Tree-structured Parzen Estimator). Para cada trial:

Se entrena el modelo con validación cruzada k-fold.
Se evalúa con la métrica objetivo (F1, AUC, precisión, recall, según el caso).
Se registra en MLflow: parámetros, métricas y artefactos.
Si el trial supera límites de tiempo o memoria, se cancela automáticamente (pruning).

Al finalizar, el sistema selecciona y entrega el modelo con el mejor score en validación.

Tracking con MLflow

Cada experimento queda completamente trazado: qué datos se usaron, qué modelos se probaron, con qué hiperparámetros, cuáles fueron las métricas y qué artefactos se generaron. Esto permite auditar y reproducir cualquier entrenamiento.

Pipeline de Preprocesamiento

Antes del entrenamiento, los datos pasan por un pipeline de preprocesamiento configurable:

Tipo de transformación	Operaciones disponibles
Normalización de entrada	Eliminación de espacios, normalización de mayúsculas, corrección de encoding, reemplazo de nulos, extracción de números
Formateo de tipos	Conversión a numérico, entero, categórico
Corrección de errores	Corrección ortográfica de valores categóricos
Restricciones de dominio	Valores mínimo-máximo, dominio finito, mapeo de dominios
Imputación de nulos	Por media, por moda

El pipeline documenta automáticamente qué columnas fueron transformadas y cómo, generando un registro de cambios que facilita la auditoría del proceso de limpieza.

Explicabilidad (XAI)

La plataforma incluye herramientas de explicabilidad para que los resultados de los modelos sean comprensibles por el equipo institucional, no solo por ingenieros de datos:

Herramienta	Descripción
SHAP	Explica la contribución de cada variable a la predicción individual de un estudiante
RuleFit	Extrae reglas interpretables en lenguaje natural que describen el comportamiento del modelo
Skoped Rules	Genera reglas de cobertura que explican subgrupos de alto riesgo
Isolation Forest	Detección de anomalías para identificar perfiles atípicos

Esta capa de explicabilidad es fundamental para que asesores y directivos confíen en las predicciones y puedan actuar sobre ellas.

Manejo de Desbalance de Clases

En fenómenos como deserción o reprobación, los casos positivos suelen ser minoritarios. La plataforma incluye técnicas automáticas de rebalanceo:

SMOTE, BorderlineSMOTE, SVN-SMOTE, SMOTE+ENN, SMOTE+Tomek
Random Over/Under Sampler, NearMiss, ADASYN, Edited Nearest Neighbours
KMeans-SMOTE

El motor selecciona automáticamente la estrategia de resampling que mejor funciona para los datos de la institución.

Modelo de Retención — Stella {#stella-retention}

La implementación más destacada de la Plataforma de ML es el modelo de retención estudiantil integrado en Stella. Es una instancia especializada del sistema general, optimizada para predecir la probabilidad de deserción y construir perfiles de riesgo explicables.

Pipeline del Modelo de Retención

El entrenamiento del modelo de Stella sigue un proceso estructurado en cuatro etapas:

1. Análisis Univariante

Para cada variable disponible (rendimiento académico, asistencia, situación financiera, perfil socioeconómico, interacciones con la institución, etc.), se evalúa su poder predictivo individual. Esta etapa identifica qué variables tienen relación estadísticamente significativa con la deserción.

2. Ranking de Variables

Se construye un ranking de importancia de variables usando múltiples criterios (correlación, information gain, SHAP values). Esto permite seleccionar el subconjunto más relevante para el entrenamiento, reduciendo ruido y mejorando la generalización del modelo.

3. Entrenamiento Multivariante (AutoML)

Con las variables seleccionadas, se entrena el modelo mediante el motor de AutoML: múltiples algoritmos, múltiples combinaciones de hiperparámetros, validación cruzada. El sistema selecciona el modelo con mejor desempeño predictivo para los datos específicos de la institución.

4. Construcción de Perfiles de Riesgo (CHAID)

La etapa más diferencial: los árboles de decisión CHAID segmentan a los estudiantes en grupos con combinaciones específicas de factores de riesgo. El resultado no es solo un score numérico, sino una descripción estructurada:

"Estudiantes con promedio < 3.5 en primer año, que reprobaron al menos una materia de ciencias básicas y tienen deuda pendiente mayor a 2 meses, presentan un 78% de probabilidad de desertar en el siguiente período."

Estos perfiles son legibles por asesores estudiantiles, directores académicos y equipos de bienestar, sin necesidad de interpretación técnica.

Resultados en Stella

Los outputs del modelo se integran directamente en el portal Stella:

Score de riesgo por estudiante — Probabilidad de deserción en el rango 0-100.
Factores de riesgo activos — Qué variables específicas están elevando el riesgo de un estudiante particular.
Perfil de caracterización — A qué segmento de riesgo pertenece el estudiante y cuáles son sus características comunes.
Alertas automáticas — Notificaciones a asesores cuando un estudiante cruza umbrales de riesgo configurados.

Casos de Uso de la Plataforma General

Más allá de retención, la Plataforma de ML puede entrenarse para predecir:

Fenómeno	Variable objetivo	Valor para la institución
Riesgo de reprobación	Probabilidad de reprobar una materia	Intervención temprana por materia y docente
Riesgo de pago	Probabilidad de impago de cuota	Anticipar mora y activar procesos de cobranza
Probabilidad de re-matrícula	Si el estudiante volverá el siguiente período	Planificación de capacidad y campañas de retención
Éxito en cursos remediales	Impacto de cursos de nivelación en avance	Optimizar oferta de programas de apoyo
Abandono del proceso de inscripción	Estudiantes que inician pero no completan la matrícula	Intervención en tiempo real durante el proceso

Integración con el Suite

Los datos de entrenamiento provienen del Data Lakehouse (Data Platform), que consolida toda la información histórica de la institución.
Los procesos de entrenamiento se ejecutan y monitoran desde la Plataforma de Procesos (módulo de Procesos).
Los modelos entrenados se despliegan como workers contenerizados, listos para generar predicciones en tiempo real.
Los resultados se publican en el portal correspondiente (Stella, dashboards de Data Platform, alertas en el sistema).

Usuarios Objetivo

Perfil	Cómo usa la Plataforma de ML
Equipo de bienestar / retención	Consume los scores y perfiles de riesgo en Stella para priorizar intervenciones
Dirección académica	Revisa dashboards de riesgo agregado por programa, cohorte o sede
Equipo de datos / analítica	Configura y entrena modelos, selecciona variables, evalúa calidad del modelo
Equipo Foris	Implementa el pipeline inicial, configura los parámetros de entrenamiento en el onboarding

Machine Learning Platform