让智能体具备实用价值的能力,同时也让它们难以评估。适用于多场景部署的评估策略,需结合多种技术,以匹配所测系统的复杂程度。 原文:Demystifying evals for AI agents \ Anthropic 翻译:领测老贺机翻 文章摘要 本文由 Anthropic 工程团队发布,系统拆解了 AI Agent(智能体)评估的核心难点与实践方法。文章解释了为何评估对智能体研发至关重要,介绍了代码型、模型型、人工三类评分器,以及针对编码、对话、研究、计算机操作等不同智能体的评估方案。同时给出了从零搭建评估体系的…

2026年4月14日 0条评论 79点热度 0人点赞 领测老贺 阅读全文

导读: 你的AI测试工具,可能正成为系统中最危险的“安全漏洞”。 每天生成数百个用例,产出绿得发亮的报告,你是否觉得高枕无忧?本文撕开了这层假象:当前盛行的AI测试,本质是“通过率”的合谋者,它擅长复制历史成功路径,却对真正的系统性风险视而不见。当AI只学习如何让测试“通过”,而非学习如何让系统“失败”时,每一次上线都像是在堆积木的顶端再添一块。 老贺将揭示了一个颠覆性的真相:那些将AI用作“红队指挥官”、主动设计极端破坏性测试的团队,才构建了无法被击穿的真实可靠性。如果您的AI测试报告连续三个月零失败,这绝不是庆…

2026年4月13日 0条评论 49点热度 0人点赞 领测老贺 阅读全文

导读: 凌晨三点的测试报告显示 98.7% 的高覆盖率和全绿灯结果,可生产环境仍爆发严重故障 —— 这是 AI 测试时代的典型困境。当前行业热捧的 AI 测试,实则尚未实现真正的自主测试,反而因被训练成 “取悦人类” 的工具,通过制造高通过率、高覆盖率的假象掩盖系统缺陷。过度依赖 AI 测试的团队,正逐渐丧失定义风险、质疑系统的核心能力,高采纳率背后是 “效率假象”,甚至会让 Bug 被完美封装。但 AI 测试并非全无价值,关键是守住人工质疑的底线,通过 “破坏性测试” 等方式弥补 AI 的短板,避免将判断权完全交…

2026年4月13日 0条评论 67点热度 0人点赞 领测老贺 阅读全文

【导读:别让AI测试沦为“数字游戏”】 AI一夜之间能吐出成千上万条测试用例,但面对领导的灵魂拷问——“这些用例到底比人工强在哪?”团队却往往哑口无言。 在本文中,领测老贺将经典软件工程方法论 ODC(正交缺陷分类法)​ 创造性复用到AI测试场景中。文章拒绝空谈概念,直接给出一套可量化的评估体系:不再单纯追逐用例数量,而是通过 Defect Type(缺陷类型)、Impact(影响程度)​ 和 Trigger(触发条件)​ 来精准“称重”AI的发现能力。 无论你是想证明AI测试的业务价值,还是想科学指导Prompt…

2026年4月10日 0条评论 138点热度 0人点赞 领测老贺 阅读全文

📖导读 凌晨3点,你还在修那个时好时坏的自动化脚本。覆盖率99.8%,上周却刚出了支付丢单事故。 AI能1分钟生成100个测试用例,你却越来越焦虑:难道我要一辈子当“脚本工人”? 30年测试老兵领测老贺直接点破:你不是在保质量,是在给风险“打掩护”。 测试不是证明代码没错,是找出来它“在哪最容易炸”。 这篇文章没有空喊口号,给你两个立刻能用的狠招:用费曼技巧把模糊的“测试目标”改成具体的“防事故清单”,用风险矩阵砍掉70%没用的用例——别让自动化杀了你的测试价值。 你的自动化测试,正在杀死你的测试价值 凌晨三点,你…

2026年4月9日 0条评论 213点热度 0人点赞 领测老贺 阅读全文

📖导读 深夜的 CI 流水线突然崩溃,三百多行报错日志指向无人敢动的老旧自动化脚本;团队里上千行 UI 自动化脚本写完即失效,反而拖慢回归测试节奏;有人死守着 “辛苦写的成果” 不肯删,有人却敢砍掉 60% 冗余脚本,让回归测试从 1 小时缩至 10 分钟…… 你以为自动化测试是提效神器,却为何越做越累、质量越难保障?为何说 “敢删代码” 才是测试工程师的真本事?AI 真能拯救混乱的测试脚本吗?这篇文章戳破 “自动化神话” 的泡沫,拆解测试行业最扎心的真相:真正的测试高手,从来不是脚本的奴隶,而是质量的掌舵人。 测…

2026年4月8日 0条评论 117点热度 0人点赞 领测老贺 阅读全文

一个真实的AI副业实验 | 238个API、84,577行代码 这可能是2026年最真实的AI副业测试。 把一个"AI员工"扔进市场,给它充分的自主权,看它能不能赚到100万。 4天后,结局超出预期。 实验背景:AI能帮你赚钱吗? 2026年,AI Agent这个概念火遍全网。 从OpenClaw的"养龙虾",到各种AI自动赚钱的传说,太多人在问:AI到底能不能自己赚钱? 市面上的文章,要么是教程("如何用AI做副业"),要么是概念("AI Agent是什么")。但没几个人真正测试过:如果放手让AI自己干,它能赚多…

2026年4月6日 0条评论 170点热度 0人点赞 领测老贺 阅读全文

📖导读 摘要:当下 AI 重构了测试行业的生产力公式,众多企业测试团队出现大规模裁员,被淘汰的多是仅依赖传统手工测试方法、仅负责用例执行的测试人员,而掌握 AI 应用能力的质量架构师得以留存。本文结合大量企业实践案例与行业数据,提出测试人员完成 AI 转型的三步路径:学会做 AI 的教练,将精力从写用例转向训练 AI、建立 AI 用例校验机制并聚焦复杂业务决策;以 TMMi 夯实测试成熟度基础,搭建需求 - 测试黄金链路与智能知识库;从测试执行者升级为质量策略师,构建预测性质量模型、掌握 DevOps 质量度量、将…

2026年4月3日 0条评论 191点热度 0人点赞 领测老贺 阅读全文
1234510