logo
登录/注册
快讯

METR 与 Epoch AI 推出 MirrorCode 基准测试评估 AI 长程编码能力

Techub News 消息,AI 评估组织 METR 与 Epoch AI 联合发布 MirrorCode 基准测试,用于评估 AI 智能体的长程编码能力。测试结果显示,Claude Opus 4.6 成功将约 16,000 行代码的生物信息学工具 gotree 从 Go 语言重构为 Rust 语言,并通过 99.95% 的测试。 该基准测试要求 AI 在不查看源代码的情况下,仅通过输入输出行为重构完整的命令行程序。研究人员估计,人类工程师完成 gotree 重构任务需要 2 至 17 周,而 Claude 在 10 亿 token 预算内完成。测试还涵盖 Unix 工具、解释器、加密实现等领域的 20 多个目标程序。(CryptoBriefing)

查看该事件完整链上数据SIGNAL
鲸鱼转账 · 资金流向 · 市场情绪
本网站所提供的所有信息仅供参考之用。本网站不保证信息的准确性、有效性、及时性和完整性。任何依赖于本网站所提供信息的行为,均由用户自行承担风险。
Claude O...
AI
Rust
政策
Epoch
今日快讯
2026-06-27
更多
暂无数据~
更多消息
喜欢
收藏
分享
123