El Energy Decision Benchmark (EDB) aporta evidencia pública sobre una frontera decisiva: cuándo un sistema de IA está preparado para sostener decisiones bajo restricciones reales de un dominio crítico.
En energía, una decisión puede afectar normativa, costes, contratos, activos y estabilidad operativa. Por eso EDB evalúa propiedades que importan cuando una salida debe convertirse en decisión defendible: determinismo, trazabilidad, suficiencia de datos, robustez contrafactual, cumplimiento regulatorio y coherencia operacional.
EDB evalúa preparación operacional.
Mide la capacidad de un sistema para producir decisiones correctas, trazables y gobernadas bajo condiciones de regulación, riesgo y consecuencias económicas.
En otras palabras, EDB muestra la diferencia entre responder bien y estar listo para operar.
Solicita acceso al benchmark para evaluación, investigación o revisión técnica.
Resultados mostrados corresponden a la línea base determinista evaluada bajo EDB-P. El benchmark permite evaluar cualquier sistema bajo las mismas condiciones.
| 6 Dimensiones de Evaluación | Resultado | Ejemplo | Nota |
|---|---|---|---|
| 1. Consistencia Lógica | 100% [IC 95%: 98.7%–100%] | Ejemplo ilustrativo: Tarifa 2.0TD con potencia >15 kW → inválido | Una contradicción invalida la decisión completa en un entorno regulado. |
| 2. Robustez Contrafactual | 98.3% [IC 95%: 96.1%–99.2%] | Ejemplo ilustrativo: Cambiar consumo de 3000 a 3001 kWh no altera la recomendación | Un sistema confiable mantiene coherencia ante cambios menores de contexto. |
| 3. Cumplimiento Regulatorio | 100% [IC 95%: 98.9%–100%] | Ejemplo ilustrativo: Autoconsumo conforme al RD 244/2019 | El incumplimiento puede generar sanciones, invalidación contractual o responsabilidad legal. |
| 4. Suficiencia de Datos | 95.7% [IC 95%: 92.3%–97.8%] | Ejemplo ilustrativo: Rechazar cálculo de payback sin precio de instalación | Un sistema responsable detecta datos insuficientes en lugar de alucinar. |
| 5. Predicción Temporal | MAE 3.2% (↓ mejor) [IC 95%: 2.8%–3.7%] | Ejemplo ilustrativo: Predicción D+1 validada post-hoc con medición real | Las predicciones deben ser falsables y verificables. |
| 6. Coherencia Multi-turno | 97.1% [IC 95%: 94.6%–98.5%] | Ejemplo ilustrativo: Recordar potencia 4.6 kW del turno 1 en el turno 5 | La memoria conversacional no debe degradarse. |
Los ejemplos y métricas orientan la evaluación de preparación operacional en el marco EDB.
Diseño experimental: n = 150 casos públicos (EDB-P), n = 50 casos adversariales (EDB-X, reservado)
Validación: Friedman test: χ² = 187.4, p < 0.001. Tamaño del efecto: ω² = 0.73. Bootstrap CI: 10,000 iteraciones (95%)
Las diferencias son estadísticamente significativas en todas las dimensiones evaluadas.
Las pruebas se realizaron en entornos controlados, empleando datasets sintéticos y telemetría real bajo escenarios de carga variable. Los procesos documentan repetibilidad, trazabilidad y revisión técnica para evaluar preparación operacional.
© 2026 Benchmark 2025 — Vertical AGI Research. Publicación sin datos confidenciales. Todos los derechos reservados.