加拿大多家媒体起诉 OpenAI ,指控其侵犯版权

(大中网/096.ca讯) 加拿大环球邮报(Globe and Mail)报道说,包括加拿大广播公司(CBC)和《环球邮报》在内的一批加拿大最大的媒体机构已经起诉 OpenAI人工智能公司,指控该公司通过非法手段获取新闻素材来建立自己的模型(如用于 ChatGPT),从而侵犯了版权。
周五(11月29日),提交给安省高等法院提起的索赔诉讼称,OpenAI 以牺牲新闻机构的利益为代价“不当得利”。 诉讼声明称:"OpenAI 非法获取的数据和知识产权是媒体机构及其记者、编辑和员工花费大量时间、精力和成本的产物。"
"OpenAI选择公然盗用媒体机构宝贵的知识产权,并在未经同意或考虑的情况下将其转化为自己的用途,包括商业用途。"
这些指控均未在法庭上得到证实。
原告还包括 Postmedia 网络公司、多伦多星报出版社、Metroland 媒体集团、加通社和加拿大电台(radio-canada)。
OpenAI 在一封电子邮件声明中表示,尚未审查这些指控,但补充说,公司的人工智能模型是根据公开数据训练开发的。声明称,该公司还允许媒体机构选择屏蔽其访问其内容。
有两家新闻机构在一份联合声明中说:“新闻报道符合公共利益。OpenAI 利用其他公司的新闻报道为自己谋取商业利益则不符合公共利益。这是非法的。”
这些媒体机构要求OpenAI赔偿损失,涉嫌侵权的每件作品可能高达 2 万美元。这意味着法庭上的胜诉可能价值数十亿美元。诉讼还要求发布禁令,阻止该公司继续从事这些行为。
加拿大新闻媒体协会主席迪根(Paul Deegan)表示,人工智能公司在“掠夺新闻行业”,从中非法获利。他说:“这些人工智能公司利用新闻出版商的内容获利,而出版商则投入真金白银雇佣记者撰写真实的故事。”
OpenAI 两年前发布了 ChatGPT,掀起了生成式(generative)人工智能的热潮,目前估值已达 1570 亿美元。诉讼称,OpenAI 在盗用版权作品的同时,还赚取了数十亿美元的收入。
该诉讼是新闻媒体机构、作家和艺术家针对人工智能公司提起的众多此类诉讼之一。生成式人工智能指的是生成文本、图像和其他媒体的应用程序,需要大量数据依托才能正常工作。比如,这些模型能发现数据中的模式,把碎片化的素材组合在一起。
多家媒体公司表示,他们在网站上使用了各种工具来防止未经授权的数据抓取和复制,并表示他们的使用条款早已禁止将材料用于个人、非商业目的以外的任何用途。诉讼称,OpenAI 早在 2015 年就有意规避这些措施,并可能不止一次地访问或复制素材到多个数据库中。
索赔声明称,在此期间,媒体机构至少发布了约 1610 万篇自有和已授权作品。诉讼指出,原告并不清楚 OpenAI 如何以及何时获取了这些资料。
人工智能公司一般不会披露其训练数据集中使用了哪些资料,而且近年来由于竞争日益激烈和法律问题,这些公司的口风越来越紧。
在某些情况下,人工智能公司会对资料进行授权,但也会依靠爬虫(crawler)工具在互联网上抓取信息,以积累大量数据库,并辩称这种做法是合法的。加拿大的《版权法》中规定,允许出于研究和教育目的使用受知识产权保护的资料。
但该条款如何适用于建立商业模型的人工智能公司,却引起了争议。去年秋天,联邦政府发起了一次公众咨询,就《版权法》针对生成式人工智能的修订征求意见。
代表科技行业的加拿大创新者委员会主席伯根(Benjamin Bergen)呼吁政府加速制定明确规则,包括人工智能监管法案。他指出,政府未能及时出台政策,导致相关问题被推向法庭。他说:“政府需要针对这些重要问题及时采取行动。”
包括谷歌公司和Cohere公司在内的开发人工智能的公司在提交的意见书中表示,他们赞成明确的豁免条款,以便能够合法抓取数据,而不必被迫赔偿权利人或获得权利人的许可,并警告说针对人工智能的禁令将阻碍加拿大的科技产业发展。
向OpenAI投资数十亿美元的微软公司在其提交的材料中说:“从受版权保护的作品中学习不是侵犯版权,使用人工智能阅读和学习不应该需要赔偿。”
代表加拿大多家新闻机构的律师哈勒瓦尼(Sana Halwani)表示,OpenAI 的活动不属于公平交易豁免范围。她说:“他们是向消费者提供产品。因此,在我们看来,他们在豁免范围之外。”
她还对人工智能公司辩称他们在"可公开获得"的资料上进行训练的说法提出异议。她说:"你可以去图书馆借一本书,这本书毋庸置疑是公开的,但这并不意味着你可以复制和出售它。"
约克大学专门研究知识产权的法学教授达戈斯蒂诺(Pina D'Agostino)认为,政府需要做出澄清。她说:"每次出现新技术,我们都会看到同样的问题和同样的诉讼。这起诉讼应该成为一个信号,促使政府发挥领导作用,出台相关立法。"
去年 12 月,《纽约时报》起诉 OpenAI 和微软侵犯版权。诉状中提供了 ChatGPT 近乎逐字复制《纽约时报》文章的几个例子,并且律师指控 OpenAI 在接到诉讼后,指使工程师在网络上故意抹去了为庭审所收集的证据。OpenAI 在回应中表示,该案例是由一个已修复的罕见错误造成的。
OpenAI 与全球多家新闻机构和出版商达成了授权协议,在训练数据中使用它们的内容,其中包括新闻集团(默多克家族),金融时报(总部位于伦敦)和美联社。
此次诉讼的结果或将为新闻出版商与人工智能公司之间的版权争议确立重要先例。随着生成式人工智能技术的快速发展,加拿大在相关政策上的走向将受到广泛关注。