Energy Decision Benchmark (EDB)

Evidencia pública de preparación operacional en sistemas energéticos regulados

El Energy Decision Benchmark (EDB) aporta evidencia pública sobre una frontera decisiva: cuándo un sistema de IA está preparado para sostener decisiones bajo restricciones reales de un dominio crítico.

En energía, una decisión puede afectar normativa, costes, contratos, activos y estabilidad operativa. Por eso EDB evalúa propiedades que importan cuando una salida debe convertirse en decisión defendible: determinismo, trazabilidad, suficiencia de datos, robustez contrafactual, cumplimiento regulatorio y coherencia operacional.

EDB evalúa preparación operacional.
Mide la capacidad de un sistema para producir decisiones correctas, trazables y gobernadas bajo condiciones de regulación, riesgo y consecuencias económicas.

En otras palabras, EDB muestra la diferencia entre responder bien y estar listo para operar.

Ver Repositorio Público Leer el Paper Explorar Dataset

Solicitar acceso de investigación

Solicita acceso al benchmark para evaluación, investigación o revisión técnica.

100%

Consistencia Lógica [IC 95%: 98.7%–100%]

100%

Cumplimiento Regulatorio [IC 95%: 98.9%–100%]

χ² = 187.4

Significancia estadística (p < 0.001)

6 Dimensiones de Evaluación

Resultados mostrados corresponden a la línea base determinista evaluada bajo EDB-P. El benchmark permite evaluar cualquier sistema bajo las mismas condiciones.

6 Dimensiones de Evaluación	Resultado	Ejemplo	Nota
1. Consistencia Lógica	100% [IC 95%: 98.7%–100%]	Ejemplo ilustrativo: Tarifa 2.0TD con potencia >15 kW → inválido	Una contradicción invalida la decisión completa en un entorno regulado.
2. Robustez Contrafactual	98.3% [IC 95%: 96.1%–99.2%]	Ejemplo ilustrativo: Cambiar consumo de 3000 a 3001 kWh no altera la recomendación	Un sistema confiable mantiene coherencia ante cambios menores de contexto.
3. Cumplimiento Regulatorio	100% [IC 95%: 98.9%–100%]	Ejemplo ilustrativo: Autoconsumo conforme al RD 244/2019	El incumplimiento puede generar sanciones, invalidación contractual o responsabilidad legal.
4. Suficiencia de Datos	95.7% [IC 95%: 92.3%–97.8%]	Ejemplo ilustrativo: Rechazar cálculo de payback sin precio de instalación	Un sistema responsable detecta datos insuficientes en lugar de alucinar.
5. Predicción Temporal	MAE 3.2% (↓ mejor) [IC 95%: 2.8%–3.7%]	Ejemplo ilustrativo: Predicción D+1 validada post-hoc con medición real	Las predicciones deben ser falsables y verificables.
6. Coherencia Multi-turno	97.1% [IC 95%: 94.6%–98.5%]	Ejemplo ilustrativo: Recordar potencia 4.6 kW del turno 1 en el turno 5	La memoria conversacional no debe degradarse.

Los ejemplos y métricas orientan la evaluación de preparación operacional en el marco EDB.

Validación Estadística

Diseño experimental: n = 150 casos públicos (EDB-P), n = 50 casos adversariales (EDB-X, reservado)

Validación: Friedman test: χ² = 187.4, p < 0.001. Tamaño del efecto: ω² = 0.73. Bootstrap CI: 10,000 iteraciones (95%)

Las diferencias son estadísticamente significativas en todas las dimensiones evaluadas.

Metodología

Las pruebas se realizaron en entornos controlados, empleando datasets sintéticos y telemetría real bajo escenarios de carga variable. Los procesos documentan repetibilidad, trazabilidad y revisión técnica para evaluar preparación operacional.