自由软件和开源许可证在 20 世纪 70 年代和 80 年代的主要作用对象逐步演变成 “代码”。但今天,它必须再次转型以处理人工智能模型。
虽然人工智能诞生于开源软件,但基于版权法处理软件代码的自由软件和开源许可证 —— 并不适合用于人工智能开源软件的大语言模型 (LLM) 神经网络和数据集。
由于许多 LLM 的编程数据集采用了大量自由软件和开源代码,因此必须针对这种情况采取措施。
比如我们去年报道过开源软件作者拿起律师执业证,准备起诉 GitHub Copilot。
2022 年 11 月,一项集体诉讼针对微软、GitHub 和 OpenAI 提起,由 Matthew Butterick 和 Joseph Saveri 律师事务所提交的诉讼声称,Copilot 训练使用的开源代码侵犯了代码所有者的权利。
该诉讼指控微软及其子公司 GitHub 和其商业伙伴 OpenAI 创建了一种名为 GitHub Copilot 的人工智能编码助手,它依赖于 “前所未有规模的软件盗版”。
Copilot 于 2021 年 6 月由 GitHub 推出,它采用从网络上抓取的公共代码库进行训练,其中许多都带有要求任何人重用代码时都必须保留代码的归属信息 (attribution),而且原作者依旧拥有开源软件的版权 (Copyright)。Copilot 被发现在不遵守条款的情况下使用了开源代码 —— 因此促使了这起诉讼的发生,指控这些公司在大规模违反版权法。
这就是为什么 OSI 执行董事 Stefano Maffulli 和许多其他开源和人工智能领域的领导者携手合作,致力于以对双方都有意义的方式将人工智能和开源许可证结合起来。
正如文章中所提到的,不要认为这种诉讼只是微软这种大公司才面临的问题。Sean O'Brien(耶鲁法学院网络安全讲师兼耶鲁隐私实验室创始人)指出:“我相信很快会出现一个与专利流氓类似的子行业,但这次围绕着人工智能生成作品。这些流氓会追踪 “你” 的 ChatGPT 和 Copilot 代码。”
德国研究员兼政治家 Felix Reda 声称所有人工智能生成的代码都属于公共领域。美国律师 Richard Santalesa(SmartEdgeLaw Group 创始成员之一)则观察到存在合同和版权法问题,认为它们并不相同。
Santalesa 认为生产人工智能生成代码的公司将 “与他们所有其他知识产权一样,将其提供的材料(包括人工智能生成的代码)视为其财产”。
这个问题目前仍然在讨论之中,相信未来会有更多的法律和指导方针来解决这个问题。