而很多当前的 GUI Agent 缺少的正是这一层。它能识别界面、能理解指令,却仍然主要依赖真实交互去排除错误路径。也就是在环境里不断试错,直到碰到正确步骤。换句话说,它更像是在反应,而不是在决策。