Jiayun's Blog

探索与分享

【好文共赏】把"金门大桥 Claude"的开关递给你:Sean Goedecke 谈 DS4 之后 LLM Steering 为什么重新有趣了

Sean Goedecke 在 2026-05-16 这篇短文里,把 Anthropic 2024 年的 Golden Gate Claude、antirez 八天前刚把 dir-steering 写进 DS4 的提交、以及 sparse autoencoder 整条研究线索捏到了一起。他给出的诊断很冷:steering 是个『中产阶级』研究方向——大厂用不上、API 用户碰不到,只有'本地权重 + 强模型'两边都凑齐的人才会真的动手。而 DeepSeek V4 Flash 之后,这个条件第一次成了普通工程师的事。本文是这篇诊断的深度导读,附带 12 张概念卡和 40+ 术语表。

Natural Language Autoencoders: Turning Claude's thoughts into text

Anthropic introduces Natural Language Autoencoders (NLAs), a method to convert AI model activations into human-readable text, enabling researchers to understand what Claude is thinking internally.