海盗新纪元

作者: Jonathan Brun, CEO of Nimonik

作为1983年出生的人,我在盗版的决定性时代长大——电子游戏、音乐、电视、电影——你能想到的,我们都盗版过。如今,我们正进入一个“盗版”的新时代,强大的人工智能工具几乎吞噬了所有人类书写和视觉创作,包括艺术、技术文档、电影等。Nimonik与许多版权出版商合作,这些出版商正努力适应这一新现实。在这篇文章中,我想分享一些想法和创意。

斯坦福科学家最近发表的一篇题为《从生产语言模型中提取书籍》的研究论文,强调了版权材料持有者关注的领域。论文描述了研究人员如何从各种公共模型中提取逐字文本。有些模型需要比其他的更费力才能制作出受版权保护的作品,有些模型则需要“越狱”才能提取信息。

我们从这篇论文中记住的信息很简单。只要足够努力,保护措施可以被绕过,底层模型将暴露出版权保护的内容。论文明确指出,其关注点不是版权材料本身,而是保护模型内容的技术要素。

本文可能凸显了标准制定组织面临的两个问题。

你的标准已经存在于AI模型中

你制定的标准很可能是公开模型。尽管大多数公开模型的创建者否认包含这些标准的完整原文,但鉴于你从Gemini、ChatGPT等平台收到的回复质量,这种说法有些难以置信。我可以问任何模型关于利基标准的问题,都能得到非常详细的回答。我鼓励所有出版商验证模型能分享的关于其出版物的信息。

给谷歌Gemini的问题:在CSA P.9.1:23中,热性能是如何计算的?

回复摘录:

正如你所见,答案非常具体且详细。AI会提供指导和协助,帮助你完成计算、测试设置以及输入输出。与实际标准交叉比对,回复是准确的。

如果模型包含整个标准,那么——根据上述论文——理论上可以从模型中提取这些标准。从公共模型中完全提取技术出版物无疑构成版权侵权,但这些模型已经并将继续对逐字文本提取提供保护。然而,即使你无法轻松从模型中提取整段文本,模型存储和使用整个文本对所有出版商来说都是个问题。版权持有者必须面对这样一个事实:他们现在要与自己标准的免费版本竞争,这些版本以互动性和吸引力的方式访问。

传统的版权保护已不再有效

我个人成长于Napster时代,我清晰地记得盗版音乐的情景。我的高中朋友们很兴奋,因为我们现在可以免费下载、分享和听任何想听的音乐。我经历了各种遏制盗版的努力:DRM、诉讼、下架通知、Apple Music、iPod,最终还有流媒体音乐服务。正如我们在白皮书《倾听音乐产业:标准出版商的经验教训》中所记录的,音乐产业只有通过提供比盗版者本身更具吸引力的产品来遏制盗版。

90年代和2000年代初,防止音乐、软件、书籍及其他数字内容盗版的各种努力均告失败。他们失败的主要原因有两个。首先,任何受保护的数字商品只要付出足够的努力,都可以从牢笼中解锁。这一点反复出现。现在,通过这篇关于从公共模型中提取版权作品的论文,我们再次看到,一旦世界上有商品,足够有动机的一方就可以非法复制。

其次,许多数字商品被盗版,是因为官方数字商品的用户体验不如盗版。盗版音乐不仅免费,而且是无限的。你可以在几秒钟内在一个中心地点拥有任何专辑。即使在今天,许多人仍会盗版体育赛事,因为购买订阅涵盖各种体育项目的频道,从足球、板球、冰球到F1,是一个充满登录、密码、信用卡、界面和昂贵决策的错综复杂迷宫。便利往往胜过道德。

虽然数字图书出版商多年来一直使用数字版权管理,但这种保护机制只有在将书籍视为单一数字资产时才有效。受保护的PDF比带水印的PDF更好,但它仍然是PDF。嵌入公共模型中的PDF则是完全不同的问题。

虽然没有严肃的工程师会完全依赖标准的AI模型,但很可能有些人会选择在这些公开模型中提取或查询的免费版本。对于那些对你的组织来说并不关键或你不常用的标准,这种情况尤其可能发生。如果技术出版商仍专注于传统DRM和PDF共享,他们很可能无法防止内容通过人们每天使用的公开模式“泄露”。

即使出版商设法限制了面向公众的模型的行为,内部企业AI工具依然存在巨大的威胁,这些工具会吸取他们收到的任何文档。在Nimonik,我们听到客户询问是否可以在内部企业AI工具中加入标准。当然,其他客户也懒得问。如果你的内容没有DRM,我可以肯定地说,它已经被添加到AI工具中了。

结论

人工智能和大型语言模型是一个快速发展的话题。推动人工智能发展的底层技术、终端用户工具以及相关的版权问题正迅速变化,每天都在不断更新和法庭案件涌现。跟上节奏可能会让人感到压力山大。就我个人而言,这段时间让人联想到1990年代互联网和网络盗版的兴起。在许多方面,人工智能仍然是“狂野西部”,尘埃落定后将走向何方尚不明朗。

版权持有人需要专注于保持领先,制定一套能够减轻人工智能负面影响的策略,并关注潜在的积极结果。我们对技术出版物版权持有人的建议有三点:

  1. 在你所有内容上应用DRM。
    无论零售、订阅、直销或通过分销商销售,你都应对内容应用DRM,以防止内容被分享或插入第三方AI工具。
  2. 限制你的分发。
    只将内容分发给符合强大IT安全标准(如ISO 27001)且拥有强大工具保障数据安全的公司。零售和订阅服务都应通过安全平台和安全合作伙伴进行。
  3. 打造新工具。
    人们常说最好的防御是进攻。为应对人工智能,技术标准发布者应与能够安全部署AI工具的公司合作,确保有强有力的对齐和版税安排。在强大合作伙伴的成功发布下,将为版权持有人带来净新收入。

在快速变化的数字环境中,Nimonik 致力于帮助技术出版商。欢迎随时联系我们,讨论人工智能工具、安全性以及如何以可持续的方式发展您的组织。