美国爆发“数据起义”，矛头直指 ChatGPT

luyuanhong 发表于 2023-7-21 10:58

美国爆发“数据起义”，矛头直指 ChatGPT

作者：陈晓锐方晓来源：澎湃新闻发布时间：2023/7/18 10:19:08

美国圣克拉拉大学法学院教授埃里克·戈德曼认为，诉讼浪潮才刚刚开始，“第二波和第三波”即将到来，而这将定义人工智能的未来。

人工智能公司辩解称，使用受版权保护的作品来培训人工智能是合理的——这参考了美国版权法中“转换性使用”的概念，如果材料以一种“变革性”的方式改变，就会创造一个例外。

美国正在爆发一场“数据起义”，好莱坞、艺术家、作家、社交媒体公司和新闻机构都是反抗者。

一切的矛头都指向 ChatGPT 和 Stable Diffusion 等生成式人工智能工具，它们被指在未经许可或提供补偿的前提下，非法利用内容创作者的作品训练大型语言模型。

这场“数据起义”的核心是一种新的认识，即在线信息——故事、艺术品、新闻文章、网络帖子和照片可能具有重要的未开发价值。在互联网上抓取公开内容的做法由来已久，大多数采取这种做法的公司和非营利组织都会公开披露。但在 ChatGPT 发布之前，数据所有者对此并不太了解，也不认为这是一个特别严重的问题。现在，当公众了解了更多关于 AI 训练的基础知识后，这种情况发生了变化。

“这是数据价值的根本性重塑。”Nomic 公司的创始人兼首席执行官布兰登·杜德斯塔特（Brandon Duderstadt）在接受媒体采访时说，“以前，人们通过让所有人都能访问数据并投放广告来获得数据价值。而现在，人们认为要保护好自己的数据。”

浪潮迭起

最近几个月，Reddit 和推特等社交媒体公司、《纽约时报》和美国全国广播公司（NBC）等新闻机构、科幻作家保罗·特伦布雷（Paul Tremblay）和女演员莎拉·西尔弗曼（Sarah Silverman）等纷纷发采取行动，反对他们的作品和数据被人工智能擅自收集。这一系列举动被美国媒体称为“数据起义（Data Revolt）”。

上周，西尔弗曼向 penAI 和 Meta公司提起诉讼，指控他们在训练数据时使用其著作的盗版内容，因为这两家公司的聊天机器人可以准确地总结其书中的内容。此外，包括乔迪·皮科特（Jodi Picoult）、玛格丽特·阿特伍德（Margaret Atwood）和阮越清（Viet Thanh Nguyen）在内的 5000 多名作家签署了一份请愿书，要求科技公司在使用他们的书作为训练数据时，要征得他们的许可，并给予他们署名和补偿。

为了保护自己的作品，作家和艺术家们采取了不同的抗议方式。有的选择锁定作品，不让人工智能获取；有的选择抵制发布人工智能生成内容的网站；有的则选择编写一些颠覆性的内容，来干扰人工智能的学习。

7 月 13 日，拥有 16 万会员的好莱坞三大工会之一 SAG-AFTRA 宣布罢工，在此之前，美国编剧工会已经罢工 70 多天。《纽约时报》称，这次大罢工使价值 1340 亿美元的美国影视业陷入停顿，SAG-AFTRA 工会要求流媒体巨头为他们提供更公平的利润分配和更好的工作条件，并要求制片公司保证不会以 AI 和电脑生成面孔和声音来替代演员。

与此同时，一些新闻机构也在抵制人工智能。6 月，在关于使用生成型人工智能的内部备忘录中，《纽约时报》表示，“人工智能公司应该尊重我们的知识产权。”同月，在代表在线出版商利益的贸易组织 Digital Content Next 发布的一份声明中，《纽约时报》和《华盛顿邮报》等在线出版商认为，使用受版权保护的新闻文章作为人工智能的训练数据具有潜在风险和法律问题，它们呼吁人工智能公司尊重出版商的知识产权和创作劳动。

社交媒体公司也纷纷表明立场。今年 4 月，社交新闻网站 Reddit 表示，它希望对访问其应用程序编程接口（API）的第三方收费。Reddit 首席执行官史蒂夫·霍夫曼（Steve Hoffman）表示，他的公司“不需要把所有价值都免费提供给世界上最大的一些公司。”7 月，推特所有者埃隆·马斯克（Elon Musk）也表示，一些公司和组织“非法”大量抓取推特的数据，为了应对“极端的数据抓取和系统操纵”，推特决定限制个人账户可以查看的推文数量。

这场“数据起义”也包括“诉讼浪潮”，一些人工智能公司由于数据隐私问题受到多次起诉。去年 11 月，一群程序员对微软和 OpenAI 发起集体诉讼，称这两家公司使用其代码训练人工智能编程助手，侵犯了他们的版权。今年 6 月，总部位于洛杉矶的克拉克森律师事务所向 OpenAI 和微软发起起诉书长达 151 页的集体诉讼，指出 OpenAI 如何从未成年人那里收集数据，并称网络抓取侵犯了版权法，构成了“盗窃”。此后，该事务所又对谷歌提起了类似的诉讼。

美国圣克拉拉大学法学院教授埃里克·戈德曼（Eric Goldman）在接受媒体采访时说，这起诉讼的论点过于宽泛，不太可能被法院接受。但他认为，诉讼浪潮才刚刚开始，“第二波和第三波”即将到来，而这将定义人工智能的未来。

法律争议

OpenAI 的 ChatGPT 和 Dall-E 、谷歌的 Bard 、Stability AI 的 Stable Diffusion 等生成式 AI 都是基于从互联网上抓取的海量新闻文章、书籍、图片、视频和博客文章进行训练的，其中很多公开内容都受版权保护。

今年 3 月，OpenAI 发布了一份对该机构主要语言模型的分析报告，显示训练数据的文本部分使用了来自新闻网站、维基百科和一个盗版书籍数据库（LibGen）的数据，目前，该盗版书籍数据库已被美国司法部查封。

7 月 13 日，美国联邦贸易委员会（FTC）向 OpenAI 发送了一份 20 页的文件，要求 OpenAI 提供有关其人工智能模型的风险管理、数据安全和信息审核的记录，以调查其是否侵犯了消费者权利。

但在公开露面和对诉讼的回应中，人工智能公司辩解称，使用受版权保护的作品来培训人工智能是合理的——这参考了美国版权法中“转换性使用”的概念，如果材料以一种“变革性”的方式改变，就会创造一个例外。

“人工智能模型基本上是在从所有的信息中学习。这就像一个学生在图书馆读书，然后学习如何写作和阅读。”谷歌全球事务总裁肯特·沃克（Kent Walker）在一次采访中说，“与此同时，你必须确保没有复制别人的作品，也没有做一些侵犯版权的事情。”

谷歌的总法律顾问哈利玛·德莱恩·普拉多（Halimah DeLaine Prado）向媒体表示：“多年来，所有人都很清楚，我们会使用来自公共来源的数据——比如发布到开放网络和公共数据集的信息，来训练谷歌翻译等服务背后的人工智能模型。”她指出，“美国法律支持利用公共信息来创造新的有益用途，我们期待着驳斥这些毫无根据的说法。”

迈阿密大学研究知识产权法的教授安德烈斯·索维基（Andres Sawicki）在接受采访时说，有一些可能有利于科技公司的先例，比如 1992 年美国上诉法院的裁决，允许公司对其他公司的软件代码进行逆向工程来设计竞争产品。但许多人表示，对于大型公司利用创造者的工作来制造新的赚钱工具，直觉上这是不公平的。“关于生成式人工智能的问题真的很难给出答案。”他说。

迈阿密大学版权法教授杰西卡·D·利特曼·索维基（Jessica D. Litman Sawicki）表示，合理使用原则（Fair use）是对人工智能公司的一种有力辩护，因为人工智能模型的大多数输出内容并不明确地类似于某个特定人类的作品。但她认为，如果起诉人工智能公司的创作者能够展示足够多与他们作品非常相似的人工智能输出的例子，他们就会有充分的理由认为，他们的版权正在受到侵犯。

人工智能公司开始应对

索维基表示，人工智能公司可以通过在产品中安装过滤器（filters）来避免这种情况，以确保它们不会生成任何与现有作品太相似的内容。例如，视频网站 YouTube 已经使用相关技术，检测并自动删除上传到其网站的受版权保护的作品。从理论上讲，人工智能公司也可以建立算法，发现与现有艺术、音乐或写作作品高度相似的输出。

这场“数据起义”从长期来看可能无法掀起波澜。像谷歌和微软这样的科技巨头已经拥有了海量的专有数据，并且有能力获取更多数据。但是，随着内容获取变得越来越困难，人工智能的规模也在缩小。那些想要与大公司抗衡的新兴企业和非营利机构可能无法得到足够的数据来训练他们的系统。

就在 7 月初，加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素（Stuart Russell）发出警告称，ChatGPT 等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”，通过收集大量文本来训练机器人的技术“开始遇到困难”。

一些公司也正在以合作态度应对这股浪潮。OpenAI 在一份声明中表示，“我们尊重创意人员和作者的权利，并期待继续与他们合作，以保护他们的利益。”7 月 14 日，美联社同意将 1985 年以后的新闻报道档案授权给 OpenAI ，同时也将利用 OpenAI 的技术和产品。

谷歌也在一份声明中表示，它参与了关于出版商未来如何管理其内容的谈判。该公司表示：“我们相信，每个人都能从一个充满活力的内容生态系统中受益。”

人工智能公司 HuggingFace 的首席伦理科学家玛格丽特·米切尔（Margaret Mitchell）在接受媒体采访时表示，“整个数据收集系统都需要改变，不幸的是，它需要通过诉讼来实现，但这往往是推动科技公司进行改变的方式。”她说，如果 OpenAI 因为诉讼或新规定而在年底前完全下架其中一款产品，她不会感到惊讶。

（原标题：美国爆发“数据起义”：好莱坞文学界新闻界和社交媒体反抗 AI ）

页: [1]

数学中国's Archiver

美国爆发“数据起义”，矛头直指 ChatGPT