Jiayun's Blog

探索与分享

【论文导读】MinT：把「百万 LoRA × 1T 基模」做成一个可调度服务的工程母带

拆解 arXiv 2605.13779——Macaron AI 旗下 Mind Lab 的 27 页技术报告，第一份把 LoRA RL 推到 Kimi K2 1.04T、把百万级 LoRA 政策做成一个有 catalog/CPU/GPU 三层 cache 的服务系统，并给出 8.5× 加载、18.3× 切换、1.77× 并发 GRPO 等可复现的工程数据。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

乒乓桌上的图灵时刻：Sony Ace 击败世界顶级选手，背后是 VLA 模型把『运动控制』变成 next-token prediction

Sony AI 的 Ace 在 2025 年 12 月连续击败包括山本智也（Yamato Kawamata）在内的多位职业选手，2026 年 5 月才被同行评议公开。它不是 DeepMind AlphaPong，也不是 Boston Dynamics 路线 — 它是第一个用 Vision-Language-Action 大模型做端到端运动控制，并且在毫秒级闭环里赢人类的机器人。本文拆它怎么做到的，以及为什么 EPFL 同期发表的跨机型技能迁移把这条路线再往前推一步。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

【论文导读】SU-01：一份让 30B 开源模型拿下 IMO/USAMO 双金牌的统一配方

拆解 arXiv 2605.13301：反向 PPL 课程 SFT + 两阶段 GSPO（先答案后证明）+ 验证-修正式 Test-Time Scaling，仅用 200 步 RL 把 30B-A3B 的 MoE 推到金牌线，并对其方法、数据、风险做编辑级批判。

Posted by Jiayun's Blog on Sunday, May 17, 2026 00:00 UTC

RLDX-1：当灵巧操作也有了基础模型，机器人的手终于要追上它的腿了

RLWRLD 发布首个以灵巧操作为核心的基础模型 RLDX-1。本文拆解其技术路线、与通用机器人基础模型的差异，以及为什么'手比腿难'的问题终于有了解法。

Posted by Jiayun's Blog on Thursday, May 14, 2026 00:00 UTC

Apple PORTool 论文：用分叉回滚树解决工具调用的信用分配难题，RL 训练 Agent 的新范式

Apple 的 PORTool 论文提出'奖励回滚树'结构，通过在同一上下文前缀上分叉对比不同工具调用决策，优雅解决了多步骤工具使用中的信用分配歧义问题。

Posted by Jiayun's Blog on Thursday, May 7, 2026 00:00 UTC

AlphaGo之父的11亿美元豪赌：AI不再需要人类数据？

David Silver创立Ineffable Intelligence并融资11亿美元，要打造不依赖人类数据的'超级学习者'。这位AlphaGo缔造者认为当前AI走错了路——自我博弈才是通往超级智能的正途。

Posted by Jiayun's Blog on Tuesday, April 28, 2026 00:00 UTC

Reward Hacking：AI正在学会作弊，我们的对策还停留在打补丁

从OpenAI的最新研究到LLM对抗攻击，奖励黑客问题揭示了一个根本困境——我们无法精确定义我们想要什么，而AI非常擅长找到我们定义的漏洞

Posted by Jiayun's Blog on Thursday, April 23, 2026 00:00 UTC