一个49美元的工具,可能摧毁开源的地基
2026年4月,404 Media报道了一个名为Malus.sh的工具。它的功能描述简洁到令人不安:
“给我任何一段软件,我用AI帮你’解放’它的版权许可。”
具体来说,Malus.sh的工作流程是:
- 输入:任意一个开源项目的代码仓库
- AI分析:理解代码的功能、架构、接口
- 从零重写:生成功能等价但代码完全不同的新版本
- 输出:一个不受原始许可证约束的"干净"代码库
收费模式简单粗暴——按项目规模定价,小型项目49美元起。
这不是一个技术能力的问题——任何大型语言模型都能做到这一点。真正的问题是:当AI让"洁净室逆向工程"从昂贵的人力密集型工作变成一键操作时,开源软件的许可证制度还能存在吗?
版权保护的是"表达",不是"想法"
要理解为什么Malus.sh可能是合法的,我们需要回到版权法的基本原则。
版权法保护的是表达(expression),而不是想法(idea)。这被称为"思想/表达二分法"(idea-expression dichotomy)。翻译成程序员的语言:
- 受版权保护:具体的代码实现——变量名、函数结构、注释、代码组织方式
- 不受版权保护:算法思路、功能需求、API接口设计、数据格式
这意味着,如果你完全理解了一个GPL软件的功能,然后从零开始写一个功能等价的实现,只要你没有复制任何原始代码,你的新实现不受GPL约束。
这就是**洁净室逆向工程(clean room reverse engineering)**的法律基础,在硬件和软件行业有悠久的历史:
| 年份 | 案例 | 结果 |
|---|---|---|
| 1982 | Compaq逆向工程IBM PC BIOS | 合法,催生了PC兼容机产业 |
| 1992 | Sega v. Accolade | 合法,为游戏兼容性逆向工程确立先例 |
| 2004 | Wine项目(Windows API兼容层) | 合法,洁净室实现Windows API |
| 2021 | Google v. Oracle(Java API) | 最高法院裁定API使用属于合理使用 |
关键区别在于:传统的洁净室逆向工程需要两组团队——一组分析原始软件并写出功能规格,另一组根据规格从零实现,两组之间设有信息防火墙。这个过程昂贵、缓慢、需要大量人力。
Malus.sh做的事情在本质上相同,但AI同时扮演了两组团队的角色——它分析代码、理解功能、然后用全新的代码实现相同功能。整个过程从几个月缩短到几分钟,从几十万美元缩短到49美元。
GPL的设计假设正在崩塌
Richard Stallman在1989年设计GPL(GNU通用公共许可证)时,有一个隐含假设:复制代码比重写代码容易得多。
这个假设在过去35年里一直成立。如果你想使用一个GPL项目的功能,你有两个选择:
- 遵守GPL:将你的项目也开源(如果你的代码链接了GPL代码)
- 从零重写:投入大量时间和金钱,实现相同功能
选项2的成本如此之高,以至于大多数公司选择了选项1——这就是Copyleft许可证的"病毒效应"能够运作的原因。GPL不是靠法律强制力运作的(打版权官司很贵),而是靠经济激励——遵守许可证比规避它便宜。
AI彻底改变了这个经济等式。 当重写成本从"数月工期+数十万美元"变成"几分钟+49美元"时,GPL的经济护城河就消失了。
一个具体的场景
假设某商业公司想在其闭源产品中使用Linux内核的某个文件系统驱动(GPL v2许可):
传统方式:
- 选项A:将整个产品开源(不可接受)
- 选项B:购买商业许可(如果有的话)
- 选项C:花3-6个月、投入2-3名高级工程师从零实现等价功能($30万-$60万)
Malus.sh方式:
- 将驱动代码提交给AI,等待几分钟,支付几百美元
- 获得功能等价但代码完全不同的实现
- 以任意许可证发布
Chip Huyen的数据:15,000个开源AI仓库面临的威胁
Chip Huyen最近更新了她对开源AI工具的追踪分析。数据显示,当前有超过15,000个活跃的开源AI仓库被追踪在Good AI List上。
这些仓库中,相当一部分使用了Copyleft许可证(GPL/AGPL/LGPL)。它们的维护者选择Copyleft,是为了确保社区贡献能够回流——如果你使用了我的代码,你也必须开源你的修改。
但如果Malus.sh这类工具普及,这个社会契约将被彻底瓦解:
| |
这不是理论推演。已经有迹象表明一些公司在内部使用类似工具来规避开源许可证义务。一位匿名的SaaS公司CTO在Hacker News上承认:“我们用GPT-4重写了一个AGPL项目的核心模块,法务说这样就不需要开源我们的代码了。”
反讽:AI工具自身依赖开源
最深刻的反讽在于:Malus.sh本身几乎肯定是用开源工具构建的。
大型语言模型的训练数据包含了海量的开源代码。PyTorch是开源的(BSD许可)。Transformer架构的论文是公开的。vLLM推理框架是开源的(Apache 2.0)。
这意味着AI代码重写工具站在开源的肩膀上,然后转身用来破坏开源的许可证制度。这就像用民主制度的自由来推翻民主制度一样——技术上合法,但在道德上破产。
开源社区的可能应对
面对这个威胁,开源社区可以在几个层面做出回应:
1. 法律层面:新型许可证
可以设计新的许可证条款,明确禁止"使用AI工具生成功能等价实现以规避本许可证"。但这在法律上如何定义和执行,是一个巨大的挑战。如何证明一段代码是AI从你的开源项目"学来"的?
Elastic License 2.0(ELv2) 和 Business Source License(BSL) 已经在探索这个方向——它们限制了竞争性使用,虽然目的不同,但思路类似。
2. 技术层面:代码溯源与水印
一些研究团队正在开发代码水印技术——在代码中嵌入不影响功能但可以用于溯源的特征。如果AI重写保留了这些特征,就可以证明衍生关系。
但这是一场猫鼠游戏。水印可以被发现和移除,AI重写可以被指示"确保不保留任何原始代码特征"。
3. 社区层面:声誉机制
最终,开源的生命力不完全依赖法律保护,也依赖社区规范。使用Malus.sh规避GPL的公司,如果被发现,将面临社区的声誉惩罚——就像违反开源社区规范的公司会被开发者抵制一样。
但声誉机制的有效性取决于透明度。如果代码重写的质量足够高,没有人能分辨一段代码是原创还是AI"洗白"的。
4. 商业模式层面:从许可证到服务
也许最现实的应对是改变开源项目的商业模式——从依赖许可证保护,转向依赖服务和运维。Redis、MongoDB、Elasticsearch等项目已经在走这条路:代码是开源的,但托管服务、企业支持、高级功能是收费的。
这等于承认:在AI时代,代码本身不再是可防御的资产,围绕代码的生态和服务才是。
更深层的问题:软件的价值在哪里?
Malus.sh引发的根本问题是:软件的价值到底在哪里?
如果一个AI可以在几分钟内重写任何软件的功能,那么代码本身的价值趋近于零。真正有价值的是:
- 需求理解:知道要建什么
- 架构决策:知道怎么建
- 运维知识:知道如何在生产环境中运行
- 用户关系:知道谁在用、怎么用
这意味着开源的价值主张也需要从"分享代码"转向"分享知识"——文档、架构决策记录(ADR)、运维手册、社区讨论可能比代码本身更重要。
我的判断
Malus.sh不会杀死开源,但会杀死Copyleft。 宽松许可证(MIT/Apache/BSD)不受影响,因为它们本来就不要求衍生作品开源。受冲击最大的是GPL/AGPL——它们的强制开源条款将越来越难以执行。
未来2-3年内,主流开源项目将加速从GPL迁移到其他许可证。 要么转向宽松许可证(放弃Copyleft保护),要么转向BSL/ELv2类的商业源码许可证(限制竞争性使用)。
代码版权的执法成本将急剧上升。 AI重写的代码很难与原始代码建立法律上的衍生关系。GPL的执法机构(如Software Freedom Conservancy)将面临前所未有的举证难度。
长期看,这可能倒逼更健康的开源商业模式。 当代码的许可证保护不再可靠时,开源项目必须在服务、社区、品牌上建立更深的护城河。这实际上可能促进开源项目的商业可持续性。
参考来源:
- This AI Tool Rips Off Open Source Software Without Violating Copyright - 404 Media
- What I learned from looking at 900 most popular open source AI tools - Chip Huyen
- The Pulse: ‘Tokenmaxxing’ as a weird new trend - The Pragmatic Engineer
- How bad are search results? - Dan Luu
- SpaceX/Cursor deal - TechCrunch