点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
作者:王振宇 刘捷
近期,备受行业关注的美国人工智能公司Anthropic侵权一案有了新进展。Anthropic公司向法官表示,愿意支付15亿美元以和解作家集体诉讼,这一消息再次引发全球范围内对人工智能训练数据合法性问题的激烈讨论。这起具有标志性的案件,不仅将重塑美国乃至全球人工智能企业的合规路径,也为正在大力推进“人工智能+”行动的中国提供了重要镜鉴。
今年6月,美国加州北区联邦法院就三位作家诉人工智能公司Anthropic侵权案件作出关键裁决。法官裁定,公司使用受版权保护的书籍来训练其大语言模型Claude的行为,属于美国版权法下的“合理使用”,包括将合法购买的纸质书扫描成数字副本用于内部研究,也被认定为合理使用;但是,公司从盗版网站下载数百万本书籍并将其永久存储在其中央数据库中的行为,构成了对作者版权的侵犯。
法官“一半是火焰,一半是海水”的判决,折射出人工智能数据训练的法律困境。眼下,人工智能训练与版权之间的冲突正在多个领域集中爆发,我国同样存在类似纠纷。2023年,某公司指控另一公司盗取其平台用户生成的作文素材用于训练人工智能作文助手,涉嫌不正当竞争与著作权侵权。同年,多位插画师联合起诉某社交媒体平台,指控其未经授权抓取平台用户上传的原创插图训练人工智能绘画模型,侵犯其署名权、复制权和网络信息传播权。
这些案件共同揭示出三个问题:一是数据获取的合法性边界模糊。人工智能企业常以“技术中立”为名,大量爬取、复制互联网公开内容,却忽视其版权属性和授权链条。二是训练过程中的“复制”行为性质难定。究竟是学习还是窃取?是转化性使用还是实质性替代?司法实践中尚未形成统一标准。三是生成内容与训练数据之间的权属关系复杂。人工智能输出内容是否构成衍生作品?原作者是否应享有收益分成?这些问题在现行著作权法中均缺乏明确界定。
此次Anthropic侵权案件的相关判决,是美国法院首次就“使用版权数据训练生成式人工智能模型是否构成合理使用”这一核心问题作出明确的裁决,将人工智能公司“获取、存储、训练”行为链条逐一进行剖析,给出了清晰的法律定性。判决既认定了使用受版权保护的书籍训练其大语言模型的合法性,也打消了人工智能公司试图用“最终用途的变革性”来掩盖“上游侵权行为”的幻想。这一判决,不仅关系着Anthropic公司的命运,更将对所有依赖海量数据训练的公司,甚至千千万万的内容创作者,产生深远影响。
在目前的法律体系中,世界各国都在通过司法判例与行业实践逐步探索人工智能训练的合法性路径。美国通过“合理使用四要素”测试(使用目的、作品性质、使用比例、市场影响)对人工智能训练行为进行个案判断。与此同时,美国正兴起一个数据授权市场,人工智能公司开始与出版商、内容平台建立合作,通过支付许可费获取合法训练数据,逐步形成合规换取数据的商业模式。在我国,著作权法第二十四条以“列举+兜底”方式规定了合理使用情形,但未明确将人工智能训练纳入其中。目前司法实践倾向于严格解释“为个人学习、研究或欣赏”等条款,企业很难援引此条抗辩。
在缺乏明确例外条款的情况下,事前许可和法定许可成为可行路径。部分平台开始通过用户协议获取“未来使用授权”,或在内容上传时明确提示可能用于人工智能训练,以此降低法律风险。此外,也有学者建议参考广播权、录制权等法定许可制度,建立人工智能训练法定许可机制,在保障权利人获酬权的前提下降低交易成本。
我国正在积极推进“人工智能+”行动,旨在推动人工智能与实体经济深度融合。在这一背景下,构建既鼓励创新又保护原创的知识产权体系至关重要。我们或可从几方面展开行动和探索。
一是明确人工智能训练的版权例外边界,可允许人工智能企业对已公开发表的作品进行必要的复制与处理,但须符合“非表达性使用”“不影响原作品市场”等限制条件。二是强化平台责任与数据合规监管,要求人工智能企业建立数据来源追溯机制,对训练数据实施分类管理,确保数据来源和使用合法合规。三是推动公共数据开放与共享,政府可牵头建设人工智能训练公共数据资源库,推动高质量、多模态、合规授权的公共数据向人工智能企业开放,降低企业对侵权数据的依赖。
Anthropic的天价和解不仅是一个案件的终结,更是一个时代的开始。它标志着人工智能行业从“数据蛮荒”走向“合规文明”的转折。对我国而言,既要抓住“人工智能+”的战略机遇,也必须尽快构建起兼顾创新与保护的知识产权新秩序。唯有在法律的轨道上奔跑,人工智能才能真正成为推动社会进步的可信赖力量。
(作者分别系中国科学院科技战略咨询研究院学部综合研究支撑中心执行副主任,知识产权律师)