Data Platform – Foris Suite

La Data Platform de Foris Suite es el conjunto de herramientas que permite catalogar, almacenar, procesar, integrar, consultar y explotar los datos de toda la institución universitaria. Está construida con prácticas modernas de ingeniería de datos sobre infraestructura cloud nativa, maximizando el uso de tecnologías cloud para reducir el impacto sobre los sistemas transaccionales y facilitar la integración de servicios, la generación de reportes y el análisis de datos.

La plataforma está diseñada para operar integrada con el resto de la Foris Suite, pero también puede funcionar con fuentes externas de manera independiente, ofreciendo un caso de uso standalone para instituciones que buscan modernizar su gestión de datos sin necesariamente adoptar todos los productos de la Suite.

¿Por qué la Data Platform?

Las universidades acumulan grandes volúmenes de datos en sistemas dispersos: SIS, ERP financiero, LMS, plataformas de admisión, registros académicos. Esos datos rara vez están conectados entre sí, lo que dificulta el análisis integrado, la construcción de reportes consolidados y la automatización de procesos que dependen de múltiples fuentes.

La Data Platform resuelve ese problema con una capa de integración, transformación y explotación de datos que conecta cualquier fuente — base de datos, API REST, archivos en la nube — y los mueve, transforma y hace disponibles donde se necesiten, sin intervención manual y con trazabilidad completa.

Beneficios clave:

Integración de datos entre todos los sistemas de la institución sin desarrollo a medida por cada conexión
Pipelines automatizables y programables que eliminan la sincronización manual
Almacenamiento centralizado en un Data Lakehouse consultable desde cualquier herramienta analítica
Acceso unificado a todos los datos del ecosistema Foris a través de una sola API
Procesamiento de grandes volúmenes de datos sin impacto en los sistemas transaccionales
Reportería y dashboards alimentados en tiempo real o por lotes según el caso de uso

Catálogo de Conexiones

El catálogo de conexiones es el punto de partida de la Data Platform. Centraliza el registro, la configuración y las credenciales de todas las fuentes y destinos de datos de la institución, eliminando la duplicidad y garantizando que las credenciales se gestionen de forma segura.

Tipos de conexión soportados

Tipo	Subtipos disponibles
Base de datos relacional (JDBC)	MySQL, PostgreSQL
Almacenamiento en la nube (S3)	Archivo único (single-file), catálogo de datos (Glue Data Catalog)
API REST	Cualquier endpoint HTTP con autenticación configurable

Cada conexión se registra con su código de identificación, tipo, configuración técnica y credenciales. Las credenciales se almacenan de forma segura mediante AWS Secrets Manager y nunca quedan expuestas en las definiciones de los pipelines.

Organización por dominios

Las conexiones se organizan en dominios de datos (DataDomains), que agrupan fuentes relacionadas bajo un mismo contexto institucional (por ejemplo: dominio académico, dominio financiero, dominio de recursos humanos). Esta organización facilita la navegación del catálogo y el control de acceso por área.

Data Lakehouse

El Data Lakehouse es el repositorio central de almacenamiento de datos de la plataforma. Funciona como destino intermedio o final para los datos procesados por los pipelines, y como fuente para las herramientas de análisis, reportería y modelos de IA.

Capacidades

Almacenamiento en formato columnar (Parquet) sobre S3, optimizado para consultas analíticas de alto volumen
Soporte de particionamiento por múltiples dimensiones (por período, institución, entidad, etc.) para acelerar las consultas
Registro automático de particiones en el catálogo de datos de AWS Glue, manteniéndolas disponibles para consulta sin intervención manual
APIs de lectura y escritura para consumo desde cualquier servicio interno o externo
Compatible con herramientas de BI y análisis estándar (Athena, Redshift, Spark, etc.)

El Lakehouse actúa como la capa de desacoplamiento entre los sistemas transaccionales y las herramientas de explotación: los sistemas productivos escriben datos sin latencia, y las consultas analíticas se ejecutan sobre el Lakehouse sin afectar el rendimiento de los sistemas operativos.

Data Pipelines (Piper)

Piper es el motor de pipelines de datos de la plataforma. Permite diseñar, versionar, ejecutar y monitorear procesos de integración y transformación de datos complejos mediante un lenguaje de configuración declarativo (FDPL — Foris Data Pipeline Language), sin necesidad de escribir código de programación para la mayoría de los casos de uso.

Lenguaje de definición de pipelines (FDPL)

Los pipelines se definen en YAML, describiendo una secuencia de pasos (steps) que el motor ejecuta en orden. Cada paso tiene una acción (action) y sus parámetros de configuración.

Acciones disponibles:

Acción	Descripción
`read`	Lee datos desde una conexión registrada en el catálogo (JDBC, S3, API REST)
`write`	Escribe datos hacia una conexión de destino (JDBC, S3, API REST)
`query`	Ejecuta una consulta SQL o transformación sobre los datos en memoria
`assign`	Asigna o transforma valores en el contexto del pipeline
`for`	Itera sobre filas de un dataset para ejecutar lógica por registro
`delete`	Elimina datos del contexto del pipeline
`external_run`	Invoca otro pipeline como subrutina, permitiendo pipelines reutilizables y composición modular

Lectura desde múltiples fuentes

En un mismo pipeline, read puede leer desde:

Bases de datos JDBC (MySQL, PostgreSQL): con soporte de queries SQL personalizadas o lectura directa de tabla, con control de timeouts de conexión y consulta
S3 / Data Lakehouse: lectura de archivos CSV o Parquet, con soporte de particionamiento y schemas explícitos
APIs REST: lectura paginada con soporte de autenticación, JSONPath para extraer datos del response, y paginación automática

Escritura hacia múltiples destinos

write puede enviar datos a:

Bases de datos JDBC: escritura directa a tabla con Glue
S3 / Data Lakehouse: escritura en formato Parquet o CSV con particionamiento automático, y actualización del catálogo de Glue
APIs REST: llamadas secuenciales o por lote (ingestion) hacia endpoints externos, con formateo configurable del payload y logs de auditoría de cada llamada

Versionado y trazabilidad

Cada pipeline tiene un historial de versiones. Cada ejecución (PipelineRun) queda registrada con:

Usuario o scheduler que la disparó
Versión del pipeline ejecutada
Estado: en ejecución, completado, con error
Fecha y hora de inicio y fin
Logs paso a paso de cada step ejecutado

Pipelines programables

Los pipelines se pueden programar para ejecutarse automáticamente mediante expresiones de schedule (cron o rate) configuradas en AWS EventBridge. Esto permite automatizar integraciones periódicas —sincronización de datos entre sistemas, carga del Lakehouse, envío de datos a destinos externos— sin intervención manual.

Pipelines modulares y reutilizables

La acción external_run permite que un pipeline invoque otro pipeline como subrutina, pasando contexto y filtrando los resultados que necesita. Esto habilita la reutilización de lógica común entre distintos flujos de integración y la composición de pipelines complejos a partir de bloques más simples.

Ejemplos reales de integración

La plataforma está actualmente en uso en múltiples instituciones con integraciones como:

Darwin → Lakehouse: sesiones, secciones, grupos, instructores, salas, cursos, bloques horarios
Fuentes institucionales → Core (Entity Hub): programas, estudiantes, matrículas, docentes, campus, edificios
Lakehouse → destinos externos (ERP, SIS institucional): exportación de resultados de programación y matrícula
Sistemas institucionales → Darwin: campus, departamentos

Workflows

Los Workflows son la capa de orquestación de alto nivel sobre los pipelines. Permiten combinar múltiples pipelines, procesos de la Process Platform y otros servicios de Foris en flujos de trabajo complejos, con control de dependencias, ejecución condicional y seguimiento de cada paso.

Capacidades

Definición declarativa de flujos de trabajo que encadenan pipelines, algoritmos, procesos de ML y otras operaciones
Versionado de workflows con historial completo de ejecuciones
Seguimiento por paso: cada ejecución de workflow registra el estado de cada step individual
Composición: un workflow puede invocar pipelines, procesos del Process Platform (Piper) u otros workflows como subprocesos

Data Gateway

El Data Gateway es la capa de acceso unificado a todos los datos del ecosistema Foris. Expone una API REST centralizada que permite a cualquier sistema interno o externo consultar datos de todas las fuentes del ecosistema —APIs de los productos, bases de datos, Data Lakehouse— aplicando una capa de reglas de transformación, seguridad y control de acceso.

Capacidades

Punto de acceso único a todos los datos del ecosistema: no es necesario conocer el detalle de cada fuente subyacente
Reglas de transformación configurables: el Gateway puede transformar, filtrar o enriquecer los datos antes de exponerlos
Control de acceso y seguridad: cada endpoint del Gateway aplica las políticas de acceso configuradas, garantizando que cada consumidor solo vea lo que está autorizado a ver
Integración nativa con los Agentes de IA de Foris: el Gateway es la fuente de herramientas de datos para los agentes, permitiéndoles acceder a cualquier dato del ecosistema de forma segura y controlada

El Data Gateway es un componente estratégico para la arquitectura AI-native de Foris: los agentes de IA y los procesos de automatización acceden a todos los datos institucionales a través de una sola interfaz segura, sin requerir integraciones punto a punto.

Apollo – Reportería y Analytics

Apollo es la capa de reporting y analytics de la Data Platform. Permite construir dashboards, reportes y análisis sobre cualquier dato del ecosistema, tanto de los sistemas Foris como de fuentes externas cargadas en el Lakehouse.

Capacidades

Dashboards de control operativo e institucional alimentados en tiempo real o por lotes
Reportes configurables sobre cualquier conjunto de datos disponible en el Lakehouse o en las fuentes conectadas
Integración con herramientas de BI externas a través del catálogo de datos
Explotación analítica de los datos históricos para análisis de tendencias e indicadores institucionales

Sandbox – Entorno de Prueba

El Sandbox es el entorno de consulta y prueba de transformaciones de datos de la plataforma. Permite a los equipos de datos y TI probar queries, transformaciones y conexiones antes de incorporarlos en pipelines de producción, reduciendo el riesgo de errores en integraciones críticas.

Las consultas y transformaciones en el Sandbox se organizan por dominios, manteniendo la misma estructura de organización del catálogo de conexiones.

Casos de Uso

Sincronización periódica entre sistemas institucionales El equipo de TI configura un pipeline que extrae datos del ERP institucional vía JDBC, los transforma con queries SQL para adaptarlos al modelo de datos de Foris, y los carga en el Entity Hub a través de su API. El pipeline se programa para ejecutarse automáticamente al inicio de cada día.

Carga del Lakehouse desde Darwin Cada vez que se produce un proceso de programación en Darwin, un pipeline extrae los resultados de horarios, secciones, grupos e instructores y los carga en el Lakehouse en formato Parquet particionado por institución y período. Estos datos quedan disponibles para reportes de ocupación y análisis de demanda.

Integración con ERP financiero Un pipeline lee los cobros y pagos registrados en el Financial Hub vía API, los transforma al formato esperado por el ERP de la institución, y los envía en batch mediante llamadas secuenciales a la API del ERP. Los logs de cada llamada quedan registrados para auditoría.

Alimentación de modelos de retención en Stella Un pipeline extrae historial de notas, inscripciones, avance académico y datos financieros desde el Lakehouse, los consolida en el formato de entrada del modelo de Stella, y los deposita como fuente de entrenamiento o predicción para el siguiente período.

Exportación de horarios al SIS institucional Luego de la programación en Darwin, un pipeline genera el archivo de integración en el formato exacto requerido por el SIS de la institución (Banner, PeopleSoft, u otro sistema propio) y lo envía automáticamente al destino configurado.

Tecnología

AWS Glue + Apache Spark: los pipelines se ejecutan sobre Glue como motor distribuido de procesamiento, permitiendo manejar grandes volúmenes de datos sin impacto en los sistemas transaccionales
AWS S3 + Glue Data Catalog: almacenamiento del Lakehouse con gestión automática de particiones y metadatos
AWS EventBridge: programación y trigger de pipelines mediante reglas de scheduling configurables
AWS Secrets Manager: gestión segura de credenciales de todas las conexiones
100% cloud native: infraestructura elástica que escala automáticamente según el volumen de datos procesado
SaaS gestionado por Foris: operado y soportado por el equipo de Foris con alta disponibilidad

Usuarios de la Plataforma

Perfil	Uso principal
Equipo de TI / Ingeniería de datos	Configuración de conexiones, diseño y mantenimiento de pipelines, monitoreo de ejecuciones
Analista de datos / BI	Consulta del Lakehouse, construcción de reportes en Apollo, exploración en Sandbox
Equipo de operaciones académicas	Ejecución de pipelines de carga masiva, revisión de logs de integraciones
Administrador de plataforma	Gestión del catálogo de dominios y conexiones, control de acceso al Data Gateway