Energy Decision Benchmark (EDB)

    Evidencia pública de preparación operacional en sistemas energéticos regulados

    El Energy Decision Benchmark (EDB) aporta evidencia pública sobre una frontera decisiva: cuándo un sistema de IA está preparado para sostener decisiones bajo restricciones reales de un dominio crítico.

    En energía, una decisión puede afectar normativa, costes, contratos, activos y estabilidad operativa. Por eso EDB evalúa propiedades que importan cuando una salida debe convertirse en decisión defendible: determinismo, trazabilidad, suficiencia de datos, robustez contrafactual, cumplimiento regulatorio y coherencia operacional.

    EDB evalúa preparación operacional.
    Mide la capacidad de un sistema para producir decisiones correctas, trazables y gobernadas bajo condiciones de regulación, riesgo y consecuencias económicas.

    En otras palabras, EDB muestra la diferencia entre responder bien y estar listo para operar.

    Solicitar acceso de investigación

    Solicita acceso al benchmark para evaluación, investigación o revisión técnica.

    100%
    Consistencia Lógica [IC 95%: 98.7%–100%]
    100%
    Cumplimiento Regulatorio [IC 95%: 98.9%–100%]
    χ² = 187.4
    Significancia estadística (p < 0.001)

    6 Dimensiones de Evaluación

    Resultados mostrados corresponden a la línea base determinista evaluada bajo EDB-P. El benchmark permite evaluar cualquier sistema bajo las mismas condiciones.

    6 Dimensiones de EvaluaciónResultadoEjemploNota
    1. Consistencia Lógica100% [IC 95%: 98.7%–100%]Ejemplo ilustrativo: Tarifa 2.0TD con potencia >15 kW → inválidoUna contradicción invalida la decisión completa en un entorno regulado.
    2. Robustez Contrafactual98.3% [IC 95%: 96.1%–99.2%]Ejemplo ilustrativo: Cambiar consumo de 3000 a 3001 kWh no altera la recomendaciónUn sistema confiable mantiene coherencia ante cambios menores de contexto.
    3. Cumplimiento Regulatorio100% [IC 95%: 98.9%–100%]Ejemplo ilustrativo: Autoconsumo conforme al RD 244/2019El incumplimiento puede generar sanciones, invalidación contractual o responsabilidad legal.
    4. Suficiencia de Datos95.7% [IC 95%: 92.3%–97.8%]Ejemplo ilustrativo: Rechazar cálculo de payback sin precio de instalaciónUn sistema responsable detecta datos insuficientes en lugar de alucinar.
    5. Predicción TemporalMAE 3.2% (↓ mejor) [IC 95%: 2.8%–3.7%]Ejemplo ilustrativo: Predicción D+1 validada post-hoc con medición realLas predicciones deben ser falsables y verificables.
    6. Coherencia Multi-turno97.1% [IC 95%: 94.6%–98.5%]Ejemplo ilustrativo: Recordar potencia 4.6 kW del turno 1 en el turno 5La memoria conversacional no debe degradarse.

    Los ejemplos y métricas orientan la evaluación de preparación operacional en el marco EDB.

    Validación Estadística

    Diseño experimental: n = 150 casos públicos (EDB-P), n = 50 casos adversariales (EDB-X, reservado)

    Validación: Friedman test: χ² = 187.4, p < 0.001. Tamaño del efecto: ω² = 0.73. Bootstrap CI: 10,000 iteraciones (95%)

    Las diferencias son estadísticamente significativas en todas las dimensiones evaluadas.

    Metodología

    Las pruebas se realizaron en entornos controlados, empleando datasets sintéticos y telemetría real bajo escenarios de carga variable. Los procesos documentan repetibilidad, trazabilidad y revisión técnica para evaluar preparación operacional.

    © 2026 Benchmark 2025 — Vertical AGI Research. Publicación sin datos confidenciales. Todos los derechos reservados.