logo
积分
登录/注册

华为发布 Claw-Anything 基准,揭示 AI 代理个人助理局限性

TECHUB NEWS2026-05-28 00:03:22

Techub News 消息,据 Crypto Briefing 报道,华为联合北京理工大学和北京大学研究人员发布 Claw-Anything 基准测试,旨在评估 AI 代理在真实数字环境中作为个人助理的能力。测试结果显示,GPT-5.5 和 Claude Opus 4.7 的通过率分别仅为 34.5% 和 31.8%,表明当前最先进的 AI 模型在处理复杂、多步骤的个人助理任务时仍存在显著局限。 该基准测试模拟完整的数字生活环境,要求 AI 同时监控邮箱、日历、通讯应用和文件系统,并在平均包含 10.1 个相互依赖服务的场景中进行决策。研究团队通过构建包含 2000 个训练环境的自动化流程对 Qwen3.5-27B 进行微调,实现了 23.7% 的性能提升。这一发现对加密 AI 项目具有重要启示,表明基于实际链上交互的高质量训练数据可能是提升 AI 代理性能的关键路径。

本网站所提供的所有信息仅供参考之用。本网站不保证信息的准确性、有效性、及时性和完整性。任何依赖于本网站所提供信息的行为,均由用户自行承担风险。
中国
Crypto B...
AI
Claw
Anything
今日快讯
2026-06-19
更多
00:56

Strategy 优先股 STRC 跌至纪录低位

00:26

沙特 Bahri 油轮在美伊协议后重返霍尔木兹海峡

23:25

加密财库公司股价暴跌 90%,SPAC 模式遇阻

23:22

Binance 将上线 RE 代币并支持理财与合约交易

更多消息
喜欢
收藏
分享
123