[D] Real-time multi-dimensional LLM output scoring in production, what's actually feasible today?

I'm deep in research on whether a continuous, multi-dimensional scoring engine for LL outputs is production-viable, not as an offline eval pipeline, but as a real-time layer that grades every output before it reaches an end user. Think sub-200ms latency budget across multiple quality dimensions simultaneously.