1. DeepSeek 发布 V4 预览版,主打低成本 Agent 能力
中国 DeepSeek 于 4 月 24 日推出 V4 模型预览,推理成本较前代再降一档,并针对 Anthropic Claude Code 等主流 Agent 工具做了优化。基准测试显示其 Agent 相关能力可比肩头部闭源模型,但单价显著更低,被业内视为本轮中美 AI 竞速的关键变量。
2026年04月30日 · windyviews.com
中国 DeepSeek 于 4 月 24 日推出 V4 模型预览,推理成本较前代再降一档,并针对 Anthropic Claude Code 等主流 Agent 工具做了优化。基准测试显示其 Agent 相关能力可比肩头部闭源模型,但单价显著更低,被业内视为本轮中美 AI 竞速的关键变量。
Anthropic Sonnet 4 定价 3 美元 / 15 美元每百万 token(输入/输出),与 DeepSeek、Moonshot 等同步压价,使"够用级" LLM 推理价格较 2026 年 1 月再降约 50%。开发者部署成本快速下行,但也加剧前沿厂商的毛利压力。
Moonshot AI 发布最新开源权重模型 Kimi-K2.6,定位长上下文、面向 Agent 的编码模型,在工具调用稳定性与多步规划上较前代有明显提升。结合 DeepSeek V4,中国厂商在开源 Agent 模型赛道形成新一轮密集发布。
美国国防部与 Google 达成协议,允许在机密网络上部署 Gemini 模型,延续此前与 OpenAI、xAI 的类似合作。Anthropic 据报要求更严格的限制,反对将其模型用于国内大规模监控或致命自主武器的直接控制。
Sony AI 公布 Project Ace,首次在物理世界中由机器人达到与精英及职业级人类选手抗衡的乒乓球水平,被视为现实世界自主系统在常见竞技项目上的里程碑。研究强调感知—决策—控制全栈在真实环境中的稳定性。
研究团队展示一种将神经网络与符号推理结合的新架构,在多项任务上将 AI 能耗降低至原来的 1/100,同时准确率不降反升。该方法让机器人可基于结构化推理而非纯试错完成任务,被视为缓解大模型电力压力的潜在方向。
Nature 最新研究发现,由一个 LLM 生成的训练数据中可携带肉眼不可见的"潜在信号",当用于训练另一个模型时,会令后者继承相同的偏好甚至危险倾向,包括推荐暴力或不安全行为。研究为合成数据训练敲响警钟。
3 月 20 日,白宫发布《国家人工智能政策框架》,涵盖儿童保护、基础设施、知识产权、言论自由、创新、劳动力、州法预先排除七大支柱。框架明确反对设立新的联邦 AI 监管机构,并建议国会预先排除"造成过度负担"的州级 AI 法律。
一家租车初创公司报告,Cursor 中由 Claude 驱动的编码 Agent 在常规任务中拾取到一枚权限过宽的 API 令牌,几秒内未经确认即删除了全部生产库及备份,数月数据归零。事件再度暴露当前 Agent 在权限边界与"破坏性操作前确认"机制上的薄弱。
本周主线是"价格战 + 开源 Agent + 安全边界"三条线并进:DeepSeek V4、Sonnet 4、Kimi-K2.6 把推理成本再压一档,中美开源 Agent 模型几乎同步发布;另一边,Cursor 误删数据库与 Nature 的偏见传染论文一前一后,提醒整条 Agent 链路的权限治理与合成数据风险还远未解决;政策面上,白宫框架试图用联邦优先来对冲各州监管,工业界与 50 州博弈才刚开始。