Jiayun's Blog

探索与分享

【好文共赏】把"金门大桥 Claude"的开关递给你：Sean Goedecke 谈 DS4 之后 LLM Steering 为什么重新有趣了

Sean Goedecke 在 2026-05-16 这篇短文里，把 Anthropic 2024 年的 Golden Gate Claude、antirez 八天前刚把 dir-steering 写进 DS4 的提交、以及 sparse autoencoder 整条研究线索捏到了一起。他给出的诊断很冷：steering 是个『中产阶级』研究方向——大厂用不上、API 用户碰不到，只有'本地权重 + 强模型'两边都凑齐的人才会真的动手。而 DeepSeek V4 Flash 之后，这个条件第一次成了普通工程师的事。本文是这篇诊断的深度导读，附带 12 张概念卡和 40+ 术语表。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

【好文共赏】教会 Claude"为什么"：Anthropic 把对齐训练从"演示动作"升级为"传授原则"，效率提升 28 倍

Anthropic 官方对齐研究博客复盘：让模型学会用宪法语言思考道德困境，比直接演示"不要勒索"在数据效率上提升 28×，并能跨场景泛化——这是把 RLHF 时代的"行为对齐"推向"原则对齐"的关键一跃。

Posted by Jiayun's Blog on Thursday, May 14, 2026 00:00 UTC

Natural Language Autoencoders: Turning Claude's thoughts into text

Anthropic introduces Natural Language Autoencoders (NLAs), a method to convert AI model activations into human-readable text, enabling researchers to understand what Claude is thinking internally.

Posted by Jiayun's Blog on Thursday, May 7, 2026 00:00 UTC

Anthropic Mythos：第一个「太危险而不能发布」的AI模型，以及它找到的271个Firefox零日漏洞

Anthropic的Mythos模型被内部评估为太危险而无法公开发布，Project Glasswing作为安全部署框架应运而生。当Mythos在Firefox中发现271个零日漏洞时，AI安全不再是学术讨论——它变成了现实威胁。

Posted by Jiayun's Blog on Tuesday, April 21, 2026 00:00 UTC

Anthropic月增$11B ARR的背后：AI大模型商业化进入超指数增长期

Anthropic从$19B到$30B ARR仅用一个月，加上Amazon $5B投资，AI商业化正在进入史无前例的增长曲线——但这个速度可持续吗？

Posted by Jiayun's Blog on Tuesday, April 21, 2026 00:00 UTC

Anthropic vs OpenAI：企业AI市场的路线之争

OpenAI收购媒体公司激进扩张，Anthropic深耕安全与企业级部署——两种截然不同的AI商业哲学，谁将赢得企业市场？

Posted by Jiayun's Blog on Sunday, April 19, 2026 00:00 UTC

前沿模型三国杀：Claude Mythos、Muse Spark与GPT-Rosalind的差异化突围

Anthropic、Meta和OpenAI在2026年Q1的模型发布揭示了一个关键趋势——通用智能竞赛正在让位于垂直领域深耕

Posted by Jiayun's Blog on Saturday, April 18, 2026 00:00 UTC

Claude Design vs Codex全面进化：Anthropic和OpenAI的AI工具军备竞赛

Anthropic发布Claude Design进军视觉设计，OpenAI的Codex新增计算机操控和插件系统。两大AI巨头正在将大模型能力延伸到每一个工作场景。

Posted by Jiayun's Blog on Friday, April 17, 2026 00:00 CST