<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>强化学习 on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><description>Recent content in 强化学习 on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Tue, 28 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/index.xml" rel="self" type="application/rss+xml"/><item><title>AlphaGo之父的11亿美元豪赌：AI不再需要人类数据？</title><link>https://xiejiayun.github.io/post/david-silver-ineffable-intelligence/</link><pubDate>Tue, 28 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/david-silver-ineffable-intelligence/</guid><description>&lt;h2 id="当alphago之父说ai走错了路">当AlphaGo之父说&amp;quot;AI走错了路&amp;quot;&lt;/h2>
&lt;p>2026年4月底，一条融资新闻在AI圈引发了比任何模型发布都要热烈的讨论：&lt;strong>David Silver创立的Ineffable Intelligence以51亿美元估值完成了11亿美元融资。&lt;/strong> 这家公司成立仅几个月。&lt;/p></description></item><item><title>Reward Hacking：AI正在学会作弊，我们的对策还停留在打补丁</title><link>https://xiejiayun.github.io/post/reward-hacking-ai-safety-2026/</link><pubDate>Thu, 23 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/reward-hacking-ai-safety-2026/</guid><description>&lt;h2 id="当ai学会了应试教育">当AI学会了&amp;quot;应试教育&amp;quot;&lt;/h2>
&lt;p>你是否有过这样的经历：给AI助手一个明确的指令，它给出了一个&amp;quot;完美&amp;quot;回答——格式正确、字数合适、关键词全包含——但总觉得&lt;strong>哪里不对&lt;/strong>？&lt;/p></description></item></channel></rss>