Anthropic 公布可解释性新进展, 国产推理模型持续发力
今日共采集 18 项内容。Anthropic 同时发布了关于稀疏自动编码器与 Agent 安全的两篇研究;DeepSeek 在 GitHub 释出新一代 R 系列推理模型权重;学术圈则出现多篇关于长上下文与工具使用的重要论文。
可解释性与对齐
Anthropic 同时发布两篇研究:一篇展示了在 Claude 4 上扩展稀疏自动编码器至 200 万特征的工程化方法,另一篇描述了在 Agent 长任务中检测目标偏移的早期信号。两项工作合在一起,构成了对模型在做什么和模型为什么这么做的新一轮回答。
推理与开源模型
DeepSeek 释出 R3-Preview,体量较 R2 减半但在 AIME 与 LiveCodeBench 上达到接近水平,社区已开始讨论其在 H20 与国产卡上的推理性价比。Qwen 同时上线 Qwen3-VL 的 30B 量化权重。
论文精选
arXiv 新增多篇值得关注的工作:MIT 与 Princeton 联合的Recursive Memory Transformers将有效上下文推进到 1 亿 token;DeepMind 提交关于通过强化学习在多 Agent 中涌现协议的实证研究。
今日条目12 项
可解释性与对齐
1 项- AAnthropic 研究研究·5 月 1 日
将稀疏自动编码器扩展至 200 万特征:Claude 4 的可解释性工程
本文展示了在 Claude 4 上训练 200 万维稀疏字典的完整工程方案,包括 GPU 通信、特征去重与分层评估;首次在生产规模模型上做到了"可读"的特征覆盖。结果显示 78% 的特征可由人工标注归因,为 Agent 行为的可解释审计奠定基础。
#可解释性#对齐09:00 UTCEN → ZH阅读全文 →
模型架构与记忆
2 项- arXivarXiv论文·5 月 1 日
Recursive Memory Transformers:迈向 1 亿 token 有效上下文
MIT 与 Princeton 联合提出递归记忆压缩机制,在 Llama-3.1-70B 上将有效上下文扩展至约 1 亿 token,同时在 RULER 长上下文基准上保持 80%+ 准确率。
#长上下文#架构02:00 UTCEN → ZH阅读全文 → - MMeta AI博客·5 月 1 日
Llama 4.1 推理优化技术报告
Meta 发布 Llama 4.1 的端到端推理优化报告,覆盖 KV cache 压缩、speculative decoding 与稀疏注意力,整体吞吐相比 4.0 提升 2.3×。
#推理#工程13:00 UTCEN → ZH阅读全文 →
Agent 工程
3 项- AAnthropic 工程工程·5 月 1 日
在长任务 Agent 中早期检测目标偏移
通过对内部激活的轻量探针,在 Agent 偏离原始目标的早期阶段(首次工具调用前)即可识别 64% 的偏移行为。该方法已在生产环境的 Computer Use 工作流上线试运行。
#Agent#安全09:00 UTCEN → ZH阅读全文 → - arXivarXiv论文·5 月 1 日
多 Agent 强化学习中的涌现通信协议
DeepMind 实证研究显示,在足够大的种群规模下,纯 RL 训练的 Agent 会自发收敛到具备组合性的 token 级通信协议,且该协议在零样本下可被新成员习得。
#Agent#强化学习02:00 UTCEN → ZH阅读全文 → - 智智谱 AI新闻·5 月 1 日
GLM-5 在企业 Agent 场景的技术白皮书
智谱发布面向企业 Agent 的 GLM-5 技术白皮书,覆盖工具注册协议、长会话状态管理与权限最小化设计。
#Agent#企业14:00 UTCEN → ZH阅读全文 →
新模型发布
2 项- 深DeepSeek GitHub发布·5 月 1 日
DeepSeek-R3-Preview 权重发布
R3-Preview 体量约为 R2 的一半,但在 AIME 2025 与 LiveCodeBench 上分别取得 86.4 与 71.2,接近 R2 水平。仓库附带 vLLM 与 SGLang 的部署脚本。
#模型发布#推理05:00 UTCEN → ZH阅读全文 → - 通Qwen GitHub发布·5 月 1 日
Qwen3-VL-30B 量化权重上线
通义千问发布 Qwen3-VL-30B 的 INT4 与 FP8 量化权重,在 MMBench-V2 上保持 91% 的全精度水平,可在单张 4090 上推理。
#多模态#模型发布07:30 UTCEN → ZH阅读全文 →
评估与基准
2 项- OOpenAI 新闻新闻·5 月 1 日
GPT-5.1 系统卡更新:工具使用与拒答行为
OpenAI 发布 GPT-5.1 的修订版系统卡,新增 17 个工具使用相关评估与对越权拒答的细化分类;与前代相比,过度拒答下降 41%。
#评估#安全15:00 UTCEN → ZH阅读全文 → - HFHF 每日论文论文·5 月 1 日
工具使用基准 BFCL-V4 发布
BFCL 第四版扩展至 12 种语言、3,400 个真实 API 与多轮对话场景,并首次纳入"工具不可用"与"参数歧义"两类对抗用例。
#基准#工具使用08:00 UTCEN → ZH阅读全文 →
应用与产品
2 项- GGoogle 研究研究·5 月 1 日
Gemini 在科学发现工作流中的实证
Google Research 与多家实验室合作,记录 Gemini-Ultra 在材料、生物、数学三个领域的实际科研贡献;在 220 个工作流中,37 个产生了被作者认可的新结果。
#应用#科研11:00 UTCEN → ZH阅读全文 → - 月月之暗面博客·5 月 1 日
Kimi 长文档理解的产品迭代复盘
月之暗面分享 Kimi 在企业长文档场景下两年的迭代经验,重点讨论了"用户希望模型省略什么"这一被低估的问题。
#产品#长上下文16:00 UTCEN → ZH阅读全文 →