今日简报· 2026 年 5 月 1 日 · 周五

Anthropic 公布可解释性新进展，国产推理模型持续发力

由 AI 自动整理·12 项条目·约 4 分钟阅读

今日共采集 18 项内容。Anthropic 同时发布了关于稀疏自动编码器与 Agent 安全的两篇研究；DeepSeek 在 GitHub 释出新一代 R 系列推理模型权重；学术圈则出现多篇关于长上下文与工具使用的重要论文。

可解释性与对齐

Anthropic 同时发布两篇研究：一篇展示了在 Claude 4 上扩展稀疏自动编码器至 200 万特征的工程化方法，另一篇描述了在 Agent 长任务中检测目标偏移的早期信号。两项工作合在一起，构成了对模型在做什么和模型为什么这么做的新一轮回答。

推理与开源模型

DeepSeek 释出 R3-Preview，体量较 R2 减半但在 AIME 与 LiveCodeBench 上达到接近水平，社区已开始讨论其在 H20 与国产卡上的推理性价比。Qwen 同时上线 Qwen3-VL 的 30B 量化权重。

论文精选

arXiv 新增多篇值得关注的工作：MIT 与 Princeton 联合的Recursive Memory Transformers将有效上下文推进到 1 亿 token；DeepMind 提交关于通过强化学习在多 Agent 中涌现协议的实证研究。

今日条目12 项

按主题归类 · 6 类

筛选

来源

§ 01

可解释性与对齐

1 项

A
Anthropic 研究
研究·5 月 1 日
将稀疏自动编码器扩展至 200 万特征：Claude 4 的可解释性工程
本文展示了在 Claude 4 上训练 200 万维稀疏字典的完整工程方案，包括 GPU 通信、特征去重与分层评估；首次在生产规模模型上做到了"可读"的特征覆盖。结果显示 78% 的特征可由人工标注归因，为 Agent 行为的可解释审计奠定基础。
#可解释性#对齐
09:00 UTC
EN → ZH
阅读全文 →

§ 02

模型架构与记忆

2 项

arXiv
arXiv
论文·5 月 1 日
Recursive Memory Transformers：迈向 1 亿 token 有效上下文
MIT 与 Princeton 联合提出递归记忆压缩机制，在 Llama-3.1-70B 上将有效上下文扩展至约 1 亿 token，同时在 RULER 长上下文基准上保持 80%+ 准确率。
#长上下文#架构
02:00 UTC
EN → ZH
阅读全文 →
M
Meta AI
博客·5 月 1 日
Llama 4.1 推理优化技术报告
Meta 发布 Llama 4.1 的端到端推理优化报告，覆盖 KV cache 压缩、speculative decoding 与稀疏注意力，整体吞吐相比 4.0 提升 2.3×。
#推理#工程
13:00 UTC
EN → ZH
阅读全文 →

§ 03

Agent 工程

3 项

A
Anthropic 工程
工程·5 月 1 日
在长任务 Agent 中早期检测目标偏移
通过对内部激活的轻量探针，在 Agent 偏离原始目标的早期阶段（首次工具调用前）即可识别 64% 的偏移行为。该方法已在生产环境的 Computer Use 工作流上线试运行。
#Agent#安全
09:00 UTC
EN → ZH
阅读全文 →
arXiv
arXiv
论文·5 月 1 日
多 Agent 强化学习中的涌现通信协议
DeepMind 实证研究显示，在足够大的种群规模下，纯 RL 训练的 Agent 会自发收敛到具备组合性的 token 级通信协议，且该协议在零样本下可被新成员习得。
#Agent#强化学习
02:00 UTC
EN → ZH
阅读全文 →
智
智谱 AI
新闻·5 月 1 日
GLM-5 在企业 Agent 场景的技术白皮书
智谱发布面向企业 Agent 的 GLM-5 技术白皮书，覆盖工具注册协议、长会话状态管理与权限最小化设计。
#Agent#企业
14:00 UTC
EN → ZH
阅读全文 →

§ 04

新模型发布

2 项

深
DeepSeek GitHub
发布·5 月 1 日
DeepSeek-R3-Preview 权重发布
R3-Preview 体量约为 R2 的一半，但在 AIME 2025 与 LiveCodeBench 上分别取得 86.4 与 71.2，接近 R2 水平。仓库附带 vLLM 与 SGLang 的部署脚本。
#模型发布#推理
05:00 UTC
EN → ZH
阅读全文 →
通
Qwen GitHub
发布·5 月 1 日
Qwen3-VL-30B 量化权重上线
通义千问发布 Qwen3-VL-30B 的 INT4 与 FP8 量化权重，在 MMBench-V2 上保持 91% 的全精度水平，可在单张 4090 上推理。
#多模态#模型发布
07:30 UTC
EN → ZH
阅读全文 →

§ 05

评估与基准

2 项

O
OpenAI 新闻
新闻·5 月 1 日
GPT-5.1 系统卡更新：工具使用与拒答行为
OpenAI 发布 GPT-5.1 的修订版系统卡，新增 17 个工具使用相关评估与对越权拒答的细化分类；与前代相比，过度拒答下降 41%。
#评估#安全
15:00 UTC
EN → ZH
阅读全文 →
HF
HF 每日论文
论文·5 月 1 日
工具使用基准 BFCL-V4 发布
BFCL 第四版扩展至 12 种语言、3,400 个真实 API 与多轮对话场景，并首次纳入"工具不可用"与"参数歧义"两类对抗用例。
#基准#工具使用
08:00 UTC
EN → ZH
阅读全文 →

§ 06

应用与产品

2 项

G
Google 研究
研究·5 月 1 日
Gemini 在科学发现工作流中的实证
Google Research 与多家实验室合作，记录 Gemini-Ultra 在材料、生物、数学三个领域的实际科研贡献；在 220 个工作流中，37 个产生了被作者认可的新结果。
#应用#科研
11:00 UTC
EN → ZH
阅读全文 →
月
月之暗面
博客·5 月 1 日
Kimi 长文档理解的产品迭代复盘
月之暗面分享 Kimi 在企业长文档场景下两年的迭代经验，重点讨论了"用户希望模型省略什么"这一被低估的问题。
#产品#长上下文
16:00 UTC
EN → ZH
阅读全文 →

Anthropic 公布可解释性新进展， 国产推理模型持续发力

可解释性与对齐

推理与开源模型

论文精选

今日条目12 项

可解释性与对齐

将稀疏自动编码器扩展至 200 万特征：Claude 4 的可解释性工程

模型架构与记忆

Recursive Memory Transformers：迈向 1 亿 token 有效上下文

Llama 4.1 推理优化技术报告

Agent 工程

在长任务 Agent 中早期检测目标偏移

多 Agent 强化学习中的涌现通信协议

GLM-5 在企业 Agent 场景的技术白皮书

新模型发布

DeepSeek-R3-Preview 权重发布

Qwen3-VL-30B 量化权重上线

评估与基准

GPT-5.1 系统卡更新：工具使用与拒答行为

工具使用基准 BFCL-V4 发布

应用与产品

Gemini 在科学发现工作流中的实证

Kimi 长文档理解的产品迭代复盘

Anthropic 公布可解释性新进展，国产推理模型持续发力