Daily Nuts.
第 52 期/41 项已收录
今日简报· 2026 年 7 月 3 日 · 周五

今日共采集 41 项内容

由 AI 自动整理·41 项条目·约 4 分钟阅读

日共采集 41 项内容。

本期无分主题展开

请向下查看条目列表。

今日条目41 项

按主题归类 · 3
筛选
来源
§ 01

模型架构与记忆

5
  • A
    arXiv 计算语言学
    论文·7 月 2 日

    随着AI编程代理持续迭代代码,恶意攻击可跨多个拉取请求逐步植入,该论文引入了“迭代VibeCoding”场景来研究此威胁,并发现没有单一监控模型能同时防御集中与分散两种攻击策略,揭示了在持久化代码库中安全部署不可信AI的新挑战。

    #研究
    17:59 UTC
    ENZH
    阅读全文
  • A
    arXiv 计算语言学
    论文·7 月 2 日

    LACUNA 是首个提供参数级真实定位的遗忘测试平台,解决了现有基准仅评估输出效果、无法确认遗忘是否真正擦除模型参数中知识的问题。它通过掩码持续预训练将合成个人信息注入预定义的模型参数,能直接检验遗忘方法是否准确定位到存储知识的权重,这对验证遗忘的彻底性和抵御知识重浮现攻击至关重要。

    #研究
    17:59 UTC
    ENZH
    阅读全文
  • A
    arXiv 计算语言学
    论文·7 月 2 日

    传统编程难以用规则实现模糊任务,常依赖大语言模型但成本高、不可复现。本文提出程序即权重(PAW)范式,用训练好的编译器将自然语言描述编译为轻量级解释器的参数适配器,实现本地快速执行且性能媲美大模型。该工作将基础模型从每次输入求解器转变为一次定义、长期使用的工具构建器,大幅降低推理资源与开销。

    #研究
    17:59 UTC
    ENZH
    阅读全文
  • A
    arXiv 计算语言学
    论文·7 月 2 日

    这篇论文针对大语言模型在实际部署中仍可能生成不安全输出的问题,提出了一种基于外部验证器信号的简单实时监控方法,通过风险控制校准阈值来触发警报。实验表明,这种设计在数学推理和红队测试中,能与更复杂的顺序假设检验式监控相媲美,为在线安全监测提供了轻量有效的可行方案。

    #研究
    17:59 UTC
    ENZH
    阅读全文
  • A
    arXiv 计算语言学
    论文·7 月 2 日

    针对长上下文推理中,大语言模型虽能访问长窗口却常无法有效利用输入中的相关证据这一差距,本文提出了一种无需训练的推理方法ReContext。它利用模型内部的相关性信号递归构建查询条件证据池并在最终生成前重放,从而将证据组织与答案生成解耦。该方法不依赖外部记忆或上下文剪枝,并通过联想记忆理论分析,有效提升了长上下文的推理利用效率。

    #研究
    17:59 UTC
    ENZH
    阅读全文
§ 02

新模型发布

4
  • Q
    Qwen GitHub
    发布·7 月 3 日

    Qwen Code 夜间版 v0.19.5 主要修复了三类问题:通过缓存时间线签名和优先重放事件,解决了移动端切换会话时的卡顿;将 macOS 沙箱配置文件路径从 chunk 目录修正为 bundle 目录;还增加了命令行工具的启动快路径,提升引导效率。这些改进提升了移动端、桌面端和命令行环境下的流畅性和稳定性。

    #发布
    00:47 UTC
    ENZH
    阅读全文
  • Q
    Qwen GitHub
    发布·7 月 3 日

    该版本提供跨平台的预编译 cua-driver 二进制文件(macOS 已签名公证、Linux/Windows 未签名),并通过环境变量新增相对坐标模式支持,旨在解决不同系统下的部署一致性问题,并为需要更精细定位控制的自动化场景提供更灵活的坐标输入方式。

    #发布
    07:24 UTC
    ENZH
    阅读全文
  • Q
    Qwen GitHub
    发布·7 月 2 日

    此版本主要强化了 CLI 守护进程的通道工作者稳定性,通过延迟 web-shell 会话创建至首次交互来优化资源占用,并补充了模型认证与安全模式文档。这些改进提升了编码助手在长期运行中的可靠性、冷启动效率及用户配置的便捷性。

    #发布
    13:36 UTC
    ENZH
    阅读全文
  • M
    Moonshot AI GitHub
    发布·7 月 2 日

    此版本更新主要解决了在大图像压缩后模型无法获取完整细节的问题。它通过保留原始图像并支持裁剪或全分辨率读取,确保在压缩传达时同步告知模型原始与压缩后的图像信息。这使模型能更精准地理解图像中的细微元素,对需要视觉代码理解的场景至关重要。

    #发布
    13:58 UTC
    ENZH
    阅读全文
§ 03

应用与产品

32
  • A
    Anthropic 新闻
    博客·7 月 2 日

    该文聚焦于Fable 5系统的网络安全防护机制及其越狱框架,旨在应对AI系统面临的对抗性攻击与安全漏洞。其核心在于披露Fable 5的具体安全措施,并提供一套用于测试系统鲁棒性的越狱方法,这对提升人工智能可靠性及推进AI安全研究具有重要意义。

    #业界
    00:00 UTC
    ENZH
    阅读全文
  • C
    Claude 博客
    博客·7 月 3 日

    该更新针对企业使用Claude时面临的成本不透明与超支风险,通过为管理员提供更细致的支出监控与控制功能(如预算设置和实时警报)。这有助于组织精细化管理AI开支,避免意外费用,从而支撑大规模、财务可持续的AI部署。

    #业界
    10:28 UTC
    ENZH
    阅读全文
  • C
    Claude 博客
    博客·7 月 3 日

    该研究探讨如何构建高效的人机协作团队,核心在于解决代理智能体与人类在任务中的协同、信任与沟通问题。通过优化共享心智模型和动态任务分配机制,提升团队整体决策与执行效能。这对未来复杂场景中可信赖的人机协同工作模式具有重要指导意义。

    #业界
    10:28 UTC
    ENZH
    阅读全文
  • T
    The MAD 播客
    博客·7 月 2 日

    英伟达作为芯片公司,投入大量研究员开发并免费开放AI模型,旨在通过生态绑定推动其硬件需求,巩固市场主导地位。Bryan Catanzaro 领导的 Nemotron 等开源模型系列,正是这一战略的核心体现,其关键在于以软件促进硬件销售,形成技术壁垒。

    #业界
    11:30 UTC
    ENZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 3 日

    面向 Web 开发者的 Safari MCP 服务器

    Safari MCP 服务器专为解决开发者在网页调试与自动化分析中频繁切换工具的问题,通过 Model Context Protocol 让 AI 智能体直接连接浏览器,获取 DOM、网络请求、截图与控制台信息。关键方法在于内置浏览器自动化工具集,并允许与外部智能体远程交互,从而自主执行性能分析和可访问性检查等任务。这大幅降低了开发者手动介入的门槛,将 Web 测试与诊断流程智能化,提升了开发效率。

    #业界
    09:59 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 3 日

    国家网信办就《互联网信息服务管理办法》再次征求意见,首设"智能信息服务"专章规范AI服务

    该修订草案针对AI服务透明度与责任缺失的问题,提出AI服务提供者须公示技术原理、训练数据来源,并对生成合成内容标识,同时禁止利用算法操纵舆论。此举旨在通过强化智能信息服务规范与用户保护机制,应对深度伪造、舆论操纵等风险,为AI治理提供法律框架。

    #业界
    09:15 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 3 日

    面壁智能发布AI全自动预训练框架ForgeTrain,8小时追平Megatron-LM

    面壁智能推出首个全自动预训练框架 ForgeTrain,实现了由 AI 从零编写专用训练代码,无需人工干预。该框架在 8 小时内追平 Megatron-LM,1.5 至 2 天实现反超且 FLOPS 利用率提升 8%~10%,并成功迁移至不同模型与硬件。这标志着大模型训练过程向完全自动化迈出重要一步,其工程思想“Forge Engineering”有望大幅降低训练成本与开发门槛。

    #业界
    09:12 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 3 日

    Wan Video 推出"音乐伴舞"新功能

    Wan Video 推出“音乐伴舞”功能,解决传统舞蹈视频制作中角色与音乐节拍同步难度高的问题。用户只需上传角色图像并选择歌曲,即可自动生成街舞、K-Pop 等多舞种的节奏同步视频,大幅降低创作门槛,为内容创作者提供高效的 AI 视频生成工具。

    #业界
    08:55 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 3 日

    《Fable》通关指南:短绳AI编程法

    该指南提出“短绳AI编程法”,要求开发者全程密切控制AI编码代理,通过细粒度任务分解、差量审查、及时提交和双重PR审查,防范模型误操作。这种方法让非前沿模型也能稳定产出高质量代码,超越特定基准。

    #业界
    06:16 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 3 日

    claude-real-video ─ 让任何大语言模型(LLM)都能观看视频

    claude-real-video 解决了大语言模型无法直接观看视频画面的问题,它通过场景变化检测提取关键帧,并用滑动窗口去重、Whisper 转录音频,将视频转化为包含视觉和听觉信息的本地文件夹,让任意 LLM 都能基于画面内容进行理解。其完全在本地运行、不涉及云上传的特点,既保护了数据隐私,也极大降低了多模态视频理解的使用门槛。

    #业界
    04:56 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 3 日

    阿里达摩院发布超导材料发现AI智能体Elements Claw

    阿里达摩院等机构发布的AI智能体Elements Claw,旨在高效筛分超导材料,解决传统发现过程耗时耗力的问题。它通过“专通融合”架构和1B参数基础模型,快速从240万晶体结构中预测出6.8万个候选材料,并已实验验证4种新型超导体,其中最高临界温度达6.5K。这一突破展示了AI在加速超导材料发现中的巨大潜力,且开放的全量数据库将进一步推动领域研究。

    #业界
    03:27 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 3 日

    Claude Fable 5 自主优化 AIHOT 网站 SEO/GEO 全记录

    Claude Fable 5 自主调度智能体对 AIHOT 网站进行 SEO/GEO 优化,发现未被统计的豆包 App 流量异常,并主动否定存在国内直连与 AI 爬虫拦截风险的 Cloudflare 方案,转向火山引擎 CDN。模型自行提交专业工单、追问遗漏的回源 IP 网段、修补官方方案安全漏洞,最终在深夜成功切换流量并生成运维文档。这展示了 AI 自主完成复杂运维任务的能力,能高效弥补人工监控疏漏并提升海外访问性能,对站点可靠性与数据洞察有重要价值。

    #业界
    00:16 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    得州特斯拉致命车祸:司机嫌FSD太保守,加速踏板踩死致76岁居民死亡

    此事故凸显了驾驶员对自动驾驶系统“过于保守”的不满可能引发危险操作,关键发现是司机完全踩下加速踏板手动覆盖FSD,导致车辆超速撞入住宅致死。这揭示了人机交互中当驾驶员过度干预自动驾驶且缺乏有效监控时,会酿成致命风险,对自动驾驶安全设计及监管调查具有重要警示意义。

    #业界
    23:43 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    扎克伯格称AI智能体开发速度未如预期

    Meta CEO 扎克伯格承认,尽管公司大幅裁员并重组团队聚焦AI智能体开发,但进展并未如预期加速。这一问题突显了大型科技公司在激进转向AI时,组织转型的实际效果存在滞后,但他预计未来数月投资回报将开始显现。

    #业界
    23:38 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控

    阿里巴巴发布的开源库 Page Agent 解决了传统浏览器自动化工具依赖截图或多模态模型的高成本问题,它通过将实时 DOM 压缩为文本映射(FlatDomTree),使纯文本模型可直接用自然语言操控网页元素。这一方法无需独立后端、继承用户会话,降低了在自有应用中集成 AI 副驾、智能表单填充等场景的门槛,但限于单页操作,敏感动作仍需服务端校验。

    #业界
    20:51 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    关于Mythos和网络安全的讨论并非炒作

    该讨论强调围绕 Mythos 和网络安全的关注并非空洞的炒作,而是基于实际需求与挑战。核心发现是,使用 Fable 进行自主工作的实践者早已直观感受到这些问题的真实性,这证实了网络安全议题的务实价值,有助于引导业界从喧嚣转向切实风险应对。

    #业界
    20:24 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    Microsoft 成立"Frontier Company",斥资 25 亿美元派驻 6000 名 AI 工程师到企业客户现场

    Microsoft 通过新设“Frontier Company”并投入 25 亿美元、派驻 6000 名专家到客户现场,解决企业 AI 项目落地难、集成慢的问题。其核心方法是超越传统预部署工程,以“共同设计、共同创新、部署并持续改进”的深度现场协作模式,打造最大的结果导向型工程组织。这一举措让 Microsoft 以平台中立的身份直接对标 OpenAI 和 Anthropic 的部署服务,并通过与埃森哲等集成商合作,意图重新定义企业级 AI 部署与规模化服务标准。

    #业界
    19:18 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    Agent辅助的SGLang开发:初步探索

    SGLang团队将LLM服务、GPU内核优化等工作流编码为可执行的SKILL文件与审查循环,以自动化性能调优和开发集成,解决了复杂AI基础设施开发中的效率与标准化问题。关键发现是通过证据驱动的Profile分析和面向SOTA的Loop Engineering(含基准测试、差距决策、性能分析及补丁验证),实现了跨框架的持续性能提升,并强调了外部审查与流程定义对生产可靠性的重要性。该方法将AI研发流程从手动调参转向可复现、可协作的工程化实践,对提升大模型推理系统的迭代速度和产出质量具有重要参考价值。

    #业界
    18:37 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    Fable 5 仅 4.44 美元搭建 Rube Goldberg 机器

    该工作展示了如何利用 Fable 5 以仅 4.44 美元的成本搭建复杂的 Rube Goldberg 机器,解决了传统此类装置搭建成本高、设计复杂的问题。其关键发现是,通过向模型提供详细提示词,可以生成高效且低成本的连锁反应方案,这大幅降低了创意机械装置的准入门槛,让更多人能够轻松参与此类工程。

    #业界
    17:46 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    Anthropic与五角大楼控权之争:Claude军事用途护栏分歧

    Anthropic与五角大楼就Claude模型的军事用途限制产生核心分歧,前者要求禁止全自主武器和特定监控应用,后者坚持所有合法国家安全场景均可使用。僵局导致五角大楼将Anthropic列为供应链风险并限制其参与国防项目,而早期采用者已大规模转向其他AI工具。这一事件凸显了AI伦理护栏与国家防务需求之间的尖锐冲突,对AI国防供应链布局及行业伦理标准制定具有深远影响。

    #业界
    16:24 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    快手可灵AI获初始投资者20.28亿美元注资,投后估值180亿美元

    快手通过初始投资者向旗下可灵AI注资20.28亿美元,估值达180亿美元,并计划一年内赴港上市。此举旨在为其AI大模型业务提供算力、数据中心与人才储备,标志着快手在AI生成内容领域的战略加速,也反映出资本对通用人工智能落地应用的持续押注。

    #业界
    15:36 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    花旗、Adobe等企业限制员工使用AI旗舰模型以控制成本

    为应对AI工具支出激增导致的成本失控,花旗、Adobe等企业开始限制员工访问旗舰模型,转而要求使用能力较低的大模型。内部数据显示,部分企业月度AI开销已从500万美元飙升至1500万美元,促使GitHub等平台转向开源方案并测试按量计费。这一趋势凸显了高昂的AI采用成本正迫使企业重新评估模型部署策略,平衡能力与预算。

    #业界
    14:22 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍

    该研究通过远程劳动指数(RLI)基准,评估AI智能体完成付费自由职业项目的专业质量,发现最新模型Fable 5的自动化率达到16.1%,较八个月前提升六倍,但AI裁判会高估模型表现,仍需人类评估员核查细节。这一结果展示了AI在真实专业任务中能力的快速跃升,同时提示自动化率攀升背后,多数项目尚未达到专业水准,凸显当前智能体在复杂、长程任务中仍面临挑战。

    #业界
    12:37 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    browser-use 发布开源 AI 视频剪辑 Skill「video-use」

    browser-use 发布的 video-use 技能解决了大模型在视频编辑任务中上下文过载的问题,通过先将音频精准转写为带时间戳的轻量文本、仅在决策节点抽取帧图来大幅降低 token 消耗,并自动生成 EDL 与 ffmpeg 渲染管线,最终实现端到端可生产的视频剪辑。该方案结合最多三轮自评估与 12 条硬规则,显著提升了 AI 编码智能体处理复杂视频任务的可靠性与效率,为自动化视频制作开辟了实用路径。

    #业界
    11:33 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    谷歌AI建设导致2025年用电量增长37%

    谷歌AI基础设施建设导致2025年用电量同比激增37%,数据中心耗电超4200万兆瓦时,超过新西兰等国总和,凸显AI扩张对能源的巨大需求。尽管公司承诺扩大清洁电力,但AI基建速度远超电网脱碳进程,暴露出技术发展与环境可持续性之间的尖锐矛盾,迫切需要在算力增长与减排目标间寻找平衡。

    #业界
    11:15 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试

    Senior SWE-Bench 旨在评估 AI 智能体完成高级软件工程师级别任务的能力,涵盖功能开发与复杂 Bug 修复,要求模型理解自然语言指令、深入调查运行时信息并生成高质量代码。测评显示,当前最强前沿模型的通过率均低于 25%,在多数任务中未能达到资深工程师的严谨性和品味,且任务涉及多文件修改和数百步操作,揭示了现有 AI 在真实工程场景中的显著差距,对推动具备深度代码理解与执行能力的 AI 系统发展具有重要参考价值。

    #业界
    11:04 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    千问团队朱达:C端Agent Harness的"多快好省"工程哲学与主动服务探索

    千问团队提出面向C端的Agent工程方法论“多快好省”,通过搜索范式与上下文优化将复杂任务的执行时间降至初始1/3、Token消耗仅为海外产品的1/10,并构建兼具User Memory、环境感知与任务系统的主动服务框架,指出“情商”是打通被动响应到主动陪伴的关键难点。这一实践从Harness Engineering向AI Ware Engineering演进,强调以“低功耗、够用就行”的策略实现高性价比的通用Agent,对平衡模型能力与工程成本具有重要参考价值。

    #业界
    10:22 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    表示分布匹配(RDM)用于一步视觉生成

    RDM 针对一步视觉生成中分布匹配的局限性,通过在冻结的预训练编码器上匹配生成与参考特征分布来训练一步生成器,发现经典MMD在批量大于2048时可扩展为有效目标,但需匹配多个平衡编码器以避免表征被“欺骗”。基于此改进的 iRDM 在 ImageNet 上取得一步生成最优 SW_r14 得分,并将四步 FLUX.2 蒸馏为一步模型,以极少的 90 H200 GPU 小时在 GenEval 和 PickScore 上超越原版,表明高效的分布匹配后训练能显著提升一步扩散生成器的质量与效率。

    #业界
    00:00 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    Program-as-Weights:一种面向模糊函数的编程范式

    PAW 将自然语言描述的模糊函数编译为紧凑的神经制品,通过 4B 编译器为冻结的轻量解释器生成参数高效适配器,从而将基础模型从每次推理的求解器转变为一个一次性的工具构建器。关键发现是 0.6B 解释器执行该程序即可媲美直接提示 32B 模型的性能,而推理内存仅需约五十分

    #业界
    00:00 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    RL微调VLM的鲁棒性与思维链一致性研究

    该研究揭示了强化学习微调视觉语言模型时,简单的文本扰动会严重损害其鲁棒性和思维链的可信度,且开源模型衰退更为明显。关键发现是存在准确性与忠实性的权衡:微调提升了任务正确率,却破坏了推理过程的可靠性,即便使用对抗增强也无法阻止思维链的忠实性漂移。这强调了在追求性能时,必须联合优化正确性、抗干扰鲁棒性以及视觉推理的忠实性,避免模型学到不可靠的捷径。

    #业界
    00:00 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    VideoFlexTok:可变长度粗到细视频分词

    VideoFlexTok 针对传统 3D 网格分词方法 token 数量固定、长视频编码效率低的问题,提出了一种可变长度的粗到细视频表示方法,首 token 捕捉语义运动,后续 token 补充细节,并配以流式解码器。该方法可在相同预算下编码更长视频,仅用 1.1B 参数即取得与 5.2B 模型相当的生成质量,并在 10 秒视频重建中将 token 用量降低 8 倍,显著提升了视频生成和编码的灵活性与效率。

    #业界
    00:00 UTC
    ZHZH
    阅读全文
  • A
    AI HOT 精选
    博客·7 月 2 日

    多智能体团队阻碍专家发挥

    该研究揭示了自组织多智能体LLM系统中,团队无法有效发挥专家成员的作用,即便明确其身份,性能损失仍可达41.1%。失败的关键在于团队倾向于“整合性妥协”——平均化专家与非专家意见,而非有效采纳专家判断,且该行为随团队规模扩大而加剧。这一发现揭示了多智能体协同中“共识寻求”与“专家利用”之间的根本性权衡:虽然平均化增强了对抗恶意的鲁棒性,却严重损害了集体表现。

    #业界
    00:00 UTC
    ZHZH
    阅读全文