

Techub News 消息,据 Crypto Briefing 报道,华为联合北京理工大学和北京大学研究人员发布 Claw-Anything 基准测试,旨在评估 AI 代理在真实数字环境中作为个人助理的能力。测试结果显示,GPT-5.5 和 Claude Opus 4.7 的通过率分别仅为 34.5% 和 31.8%,表明当前最先进的 AI 模型在处理复杂、多步骤的个人助理任务时仍存在显著局限。 该基准测试模拟完整的数字生活环境,要求 AI 同时监控邮箱、日历、通讯应用和文件系统,并在平均包含 10.1 个相互依赖服务的场景中进行决策。研究团队通过构建包含 2000 个训练环境的自动化流程对 Qwen3.5-27B 进行微调,实现了 23.7% 的性能提升。这一发现对加密 AI 项目具有重要启示,表明基于实际链上交互的高质量训练数据可能是提升 AI 代理性能的关键路径。
Strategy 优先股 STRC 跌至纪录低位
沙特 Bahri 油轮在美伊协议后重返霍尔木兹海峡
加密财库公司股价暴跌 90%,SPAC 模式遇阻
Binance 将上线 RE 代币并支持理财与合约交易