快讯

METR 与 Epoch AI 推出 MirrorCode 基准测试评估 AI 长程编码能力

TECHUB NEWS2026-06-26 23:43:53

Techub News 消息，AI 评估组织 METR 与 Epoch AI 联合发布 MirrorCode 基准测试，用于评估 AI 智能体的长程编码能力。测试结果显示，Claude Opus 4.6 成功将约 16,000 行代码的生物信息学工具 gotree 从 Go 语言重构为 Rust 语言，并通过 99.95% 的测试。该基准测试要求 AI 在不查看源代码的情况下，仅通过输入输出行为重构完整的命令行程序。研究人员估计，人类工程师完成 gotree 重构任务需要 2 至 17 周，而 Claude 在 10 亿 token 预算内完成。测试还涵盖 Unix 工具、解释器、加密实现等领域的 20 多个目标程序。（CryptoBriefing）

本网站所提供的所有信息仅供参考之用。本网站不保证信息的准确性、有效性、及时性和完整性。任何依赖于本网站所提供信息的行为，均由用户自行承担风险。

Claude O...

Rust

政策

Epoch

今日快讯

2026-06-27

更多消息

喜欢

123