La Plataforma de Machine Learning de Foris es una infraestructura de aprendizaje automático diseñada para predecir cualquier fenómeno medible en la institución educativa: deserción estudiantil, riesgo de reprobación, probabilidad de pago, tendencias de matrícula, entre otros.
Visión General
La Plataforma de Machine Learning de Foris es una infraestructura de aprendizaje automático diseñada para predecir cualquier fenómeno medible en la institución educativa: deserción estudiantil, riesgo de reprobación, probabilidad de pago, tendencias de matrícula, entre otros.
A diferencia de los modelos genéricos de mercado, esta plataforma entrena con los datos reales de cada institución, optimiza automáticamente el modelo más adecuado para esos datos específicos, y despliega los resultados integrados con los flujos operativos del Foris Suite.
Componentes de la Plataforma
Motor de AutoML (Optuna)
El núcleo de la plataforma es un sistema de AutoML basado en Optuna con integración completa de MLflow. Su función es encontrar automáticamente el modelo y los hiperparámetros que mejor se ajustan a los datos de cada institución, sin requerir que el equipo universitario tenga conocimientos avanzados de machine learning.
Algoritmos Disponibles
| Algoritmo | Código | Descripción |
|---|---|---|
| Random Forest | RF | Modelo de ensamble robusto, excelente para datos tabulares |
| Gradient Boosting Machine | GBM | Alto rendimiento en clasificación con datos estructurados |
| AdaBoost | ADA | Ensamble adaptativo, eficaz con clases desbalanceadas |
| Redes Neuronales | NNET | Captura patrones no lineales complejos |
| K-Nearest Neighbors | KNN | Clasificación basada en similitud entre estudiantes |
| LogitBoost | LB | Alternativa a GBM con control de sobreajuste |
| Regresión Logística Penalizada | PLR | Modelo interpretable con regularización L1/L2 |
El sistema también soporta modelos de clustering (K-Means, HDBSCAN, jerárquico, GMM, OPTICS) y regresión para predicción de variables continuas.
Proceso de Optimización
El motor ejecuta múltiples trials de entrenamiento, cada uno con una combinación diferente de hiperparámetros seleccionada mediante el TPE sampler de Optuna (Tree-structured Parzen Estimator). Para cada trial:
- Se entrena el modelo con validación cruzada k-fold.
- Se evalúa con la métrica objetivo (F1, AUC, precisión, recall, según el caso).
- Se registra en MLflow: parámetros, métricas y artefactos.
- Si el trial supera límites de tiempo o memoria, se cancela automáticamente (pruning).
Al finalizar, el sistema selecciona y entrega el modelo con el mejor score en validación.
Tracking con MLflow
Cada experimento queda completamente trazado: qué datos se usaron, qué modelos se probaron, con qué hiperparámetros, cuáles fueron las métricas y qué artefactos se generaron. Esto permite auditar y reproducir cualquier entrenamiento.
Pipeline de Preprocesamiento
Antes del entrenamiento, los datos pasan por un pipeline de preprocesamiento configurable:
| Tipo de transformación | Operaciones disponibles |
|---|---|
| Normalización de entrada | Eliminación de espacios, normalización de mayúsculas, corrección de encoding, reemplazo de nulos, extracción de números |
| Formateo de tipos | Conversión a numérico, entero, categórico |
| Corrección de errores | Corrección ortográfica de valores categóricos |
| Restricciones de dominio | Valores mínimo-máximo, dominio finito, mapeo de dominios |
| Imputación de nulos | Por media, por moda |
El pipeline documenta automáticamente qué columnas fueron transformadas y cómo, generando un registro de cambios que facilita la auditoría del proceso de limpieza.
Explicabilidad (XAI)
La plataforma incluye herramientas de explicabilidad para que los resultados de los modelos sean comprensibles por el equipo institucional, no solo por ingenieros de datos:
| Herramienta | Descripción |
|---|---|
| SHAP | Explica la contribución de cada variable a la predicción individual de un estudiante |
| RuleFit | Extrae reglas interpretables en lenguaje natural que describen el comportamiento del modelo |
| Skoped Rules | Genera reglas de cobertura que explican subgrupos de alto riesgo |
| Isolation Forest | Detección de anomalías para identificar perfiles atípicos |
Esta capa de explicabilidad es fundamental para que asesores y directivos confíen en las predicciones y puedan actuar sobre ellas.
Manejo de Desbalance de Clases
En fenómenos como deserción o reprobación, los casos positivos suelen ser minoritarios. La plataforma incluye técnicas automáticas de rebalanceo:
- SMOTE, BorderlineSMOTE, SVN-SMOTE, SMOTE+ENN, SMOTE+Tomek
- Random Over/Under Sampler, NearMiss, ADASYN, Edited Nearest Neighbours
- KMeans-SMOTE
El motor selecciona automáticamente la estrategia de resampling que mejor funciona para los datos de la institución.
Modelo de Retención — Stella {#stella-retention}
La implementación más destacada de la Plataforma de ML es el modelo de retención estudiantil integrado en Stella. Es una instancia especializada del sistema general, optimizada para predecir la probabilidad de deserción y construir perfiles de riesgo explicables.
Pipeline del Modelo de Retención
El entrenamiento del modelo de Stella sigue un proceso estructurado en cuatro etapas:
1. Análisis Univariante
Para cada variable disponible (rendimiento académico, asistencia, situación financiera, perfil socioeconómico, interacciones con la institución, etc.), se evalúa su poder predictivo individual. Esta etapa identifica qué variables tienen relación estadísticamente significativa con la deserción.
2. Ranking de Variables
Se construye un ranking de importancia de variables usando múltiples criterios (correlación, information gain, SHAP values). Esto permite seleccionar el subconjunto más relevante para el entrenamiento, reduciendo ruido y mejorando la generalización del modelo.
3. Entrenamiento Multivariante (AutoML)
Con las variables seleccionadas, se entrena el modelo mediante el motor de AutoML: múltiples algoritmos, múltiples combinaciones de hiperparámetros, validación cruzada. El sistema selecciona el modelo con mejor desempeño predictivo para los datos específicos de la institución.
4. Construcción de Perfiles de Riesgo (CHAID)
La etapa más diferencial: los árboles de decisión CHAID segmentan a los estudiantes en grupos con combinaciones específicas de factores de riesgo. El resultado no es solo un score numérico, sino una descripción estructurada:
"Estudiantes con promedio < 3.5 en primer año, que reprobaron al menos una materia de ciencias básicas y tienen deuda pendiente mayor a 2 meses, presentan un 78% de probabilidad de desertar en el siguiente período."
Estos perfiles son legibles por asesores estudiantiles, directores académicos y equipos de bienestar, sin necesidad de interpretación técnica.
Resultados en Stella
Los outputs del modelo se integran directamente en el portal Stella:
- Score de riesgo por estudiante — Probabilidad de deserción en el rango 0-100.
- Factores de riesgo activos — Qué variables específicas están elevando el riesgo de un estudiante particular.
- Perfil de caracterización — A qué segmento de riesgo pertenece el estudiante y cuáles son sus características comunes.
- Alertas automáticas — Notificaciones a asesores cuando un estudiante cruza umbrales de riesgo configurados.
Casos de Uso de la Plataforma General
Más allá de retención, la Plataforma de ML puede entrenarse para predecir:
| Fenómeno | Variable objetivo | Valor para la institución |
|---|---|---|
| Riesgo de reprobación | Probabilidad de reprobar una materia | Intervención temprana por materia y docente |
| Riesgo de pago | Probabilidad de impago de cuota | Anticipar mora y activar procesos de cobranza |
| Probabilidad de re-matrícula | Si el estudiante volverá el siguiente período | Planificación de capacidad y campañas de retención |
| Éxito en cursos remediales | Impacto de cursos de nivelación en avance | Optimizar oferta de programas de apoyo |
| Abandono del proceso de inscripción | Estudiantes que inician pero no completan la matrícula | Intervención en tiempo real durante el proceso |
Integración con el Suite
- Los datos de entrenamiento provienen del Data Lakehouse (Data Platform), que consolida toda la información histórica de la institución.
- Los procesos de entrenamiento se ejecutan y monitoran desde la Plataforma de Procesos (módulo de Procesos).
- Los modelos entrenados se despliegan como workers contenerizados, listos para generar predicciones en tiempo real.
- Los resultados se publican en el portal correspondiente (Stella, dashboards de Data Platform, alertas en el sistema).
Usuarios Objetivo
| Perfil | Cómo usa la Plataforma de ML |
|---|---|
| Equipo de bienestar / retención | Consume los scores y perfiles de riesgo en Stella para priorizar intervenciones |
| Dirección académica | Revisa dashboards de riesgo agregado por programa, cohorte o sede |
| Equipo de datos / analítica | Configura y entrena modelos, selecciona variables, evalúa calidad del modelo |
| Equipo Foris | Implementa el pipeline inicial, configura los parámetros de entrenamiento en el onboarding |