Math Saturates at 95%, Agentic Learning Flatlines at 0.26%: The AI Evaluation Schism

GPT-5.4 scoring 95% on USAMO the same week every frontier model scores below 1% on ARC-AGI-3 reveals AI capability is not converging—it's diverging into two incompatible frontiers.

benchmarkevaluation-crisisarc-agigpt-5math-saturation1 min readMar 30, 2026