「 Measuring Agents in Production 」

2023年,Agent 是我的宗教。
2024年,在学术上,发了 Agent 的 paper,与朋友合作,在工业界场景第一次跑通第一个 Agent。
2025年,所有的公司都在做 Agent,导致我看到 Agent 就感到审美疲劳。

现实世界的应用里,除去 Coding Agent,其他领域的Agent 到底是autonomous Agent,还是只是一个写好的 workflow?

如果有一个明确目的Agent 就是一个种 workflow,那么没有明确目的的 Agent 形态是什么样的,是否有存在意义?

更重要的是,现实世界的 Agent 有没有做完备的评估?它的可靠性和安全性到底如何?

来读这篇, Measuring Agents in Production。