作者:邱政谈 上海融力天闻律师事务所合伙人
引言
AI能力三要素,算法、算力、数据。
算法是AI系统的大脑,算法的设计和选择对AI系统的性能有着决定性的影响,比如以ChatGPT为代表的人工神经网络架构在流派众多的人工智能领域异军突起,GPT路线在大模型方向上完全占据主流。【1】强大的算力可以加速模型的训练过程,处理更复杂的算法和更大的数据集,使AI系统能够更快地进行训练和推理以获得更优能力。数据是人工智能系统的原材料,高质量、多样化的数据对于训练有效的AI模型至关重要,数据的量和质直接影响模型的准确性和泛化能力。
同时,OpenAI还提出了“规模法则”(ScalingLaw):随着数据量、计算资源或模型规模的增加,AI系统性能的提升趋势和模式。按照这个法则,人们相信数据和算力的不断累积投入,可以不断提升AI系统的能力,这也是当前大模型互卷的一个重要原因。但由于算力受限于现实的硬件及能源,模型企业另一个重点争夺的领域即是AI训练数据。OpenAI一位员工提出一个观点:所有模型在同样的数据级上,不同架构模型在同样的数据级收敛在一个点,现在发布的点都是收敛的情况下,决定模型能力的其实就是数据,每个模型不代表自己的模型架构,也不代表自己的训练过程,只代表了原始数据的质量。【2】故而现在存在一个很强的非共识是,不同的大模型利用相同的数据进行训练,最终模型能力会无限趋同。
国内对于scaling Law的看法分为两派,市场信仰派朱啸虎(认为Scaling Law失效)、技术信仰派杨植麟(认可Scaling Law)。杨植麟第一性原理是增加模型压缩比通向AGI,不断Scaling不断压缩。而朱啸虎不建议卷模型能力、算力,觉得开源就够,应该卷应用,同时认可专有领域的数据是AI企业的护城河,在开源模型预训练的基础上进行专有数据的强化训练,可以产生垂类模型应用能力的巨大差异。所以不论是技术信仰派还是市场信仰派,都认为数据都很重要。
AI训练数据,是衡量大模型能力的重要因素,也是大模型企业重点争夺领域,也就有我们后面讨论AI训练数据法律问题的必要性。
AI训练数据法律分类
当前的大语言模型(LLM)训练过程一般分为预训练、监督微调、基于人类反馈的强化学习三个阶段。第一阶段预训练所需的语料是各类世界知识,如公开网页数据、社交媒体对话数据、书籍等,构建模型基础能力。第二阶段监督微调则需要标注人员设计问答,将例题投喂,提升模型泛化能力。第三阶段则需要人类对模型回答进行打分、排序,使模型价值观与人类对齐。【3】所以我们一般更多地讨论预训练阶段数据,大语言模型所采用的预训练数据通常包括网页数据、图书、论文、百科和社交媒体等。网页数据方面是通用数据数量最多的一种,大模型公司爬取海量的网页并不简单,所以研究人员构建了SogouT-16、CommonCrawl等在内的开源网页数据集,但是这些爬取的网页数据还包含非常多的低质量的文本,所以需要进行过滤和清洗以提高模型训练数据的质量。【4】一般来说,以中国法律视角去对AI训练数据分类,我们认为以下方式是更便于法律人进行分析的:
1.公共开源数据集(包含开源网页数据集、开源对话数据集、开源书刊数据集等):涉及开源许可证
2.公开网络数据但非开源(公开可访问的互联网数据,需模型企业爬取):涉及数据合法获取和使用、隐私合规、著作权问题
3.私有数据(未公开的行业数据集):隐私合规、数据合规
本文会以较大篇幅针对第二类“公开网络数据但非开源”展开讨论。
中美AI训练数据来源差异引发模型能力差异
美国的社会力量整合政府的开放数据与网络的公开数据,提升数据精细度和专业性,形成以开源为主的高质量训练语料。我国的社会力量主要是结合海外优质开源数据集及中文语料,产出训练数据集,但各企业出于商业利益和知识产权的考虑,对于领域知识共享意愿度低,同时我国公共数据开发不足,【5】导致了整体开源的高质量训练语料不足。[]这种差异也是导致中美模型能力差异的重要原因之一。阿里研究院提出几大建议,着重建议提升中文训练数据的社会共享、授权运营机制。基于近一年多来对中美大模型能力的持续观察,为促进中国大模型能力提升和产业发展,我们亦建议法律界对AI训练数据的法律限制持开放宽松的态度。
国内外大模型训练数据使用法律争议
国外最知名的AI法律争议当属《纽约时报》诉OpenAI案。2023年12月27日,纽约时报公司向OpenAI及微软提起诉讼,指控被告未经许可使用《纽约时报》的数百万篇文章训练ChatGPT模型,侵害了《纽约时报》(简称时报)的版权,并构成不正当竞争,其主张在GPT模型训练期间未经授权复制了报刊作品,从其用于训练的数据集中可以看出许多内容来自时报的独创性内容,即多次复制或提取了时报作品,且至少通过两种方式在未经授权的情况下公开展示时报作品,包括显示从模型本身检索到的时报作品的记忆副本或衍生作品,以及显示根据必应(Bing)搜索索引中储存的副本生成的与时报作品基本相似的合成搜索结果,并且未提供明显的超链接将用户引导至时报的网站。与传统知识产权侵权不同,ChatGPT产出的内容并非传统意义上的转载或者演绎作品,而是一种快速和高效的自动化处理。被告的生成式AI产品基于大规模侵犯版权的商业模式获得盈利,通过使用微软的Bing搜索引擎,OpenAI对时报内容复制和分类,生成比传统搜索引擎更长更详细的回复,从而破坏了时报与其读者之间的关系,剥夺了《纽约时报》的收入。基于此,《纽约时报》主要提出两方面的请求。第一,在金钱给付方面,虽未提出具体金额,但认为被告应当负担法定赔偿金、补偿性赔偿金、不当得利返还、律师费等金额。第二,被告应当停止侵权行为,并销毁掉所有使用《纽约时报》版权材料的聊天机器人模型和训练数据集。《纽约时报》请求法院以永久性禁令来限制和禁止被告的持续侵权行为。【6】
本质上是微软必应搜索引擎+大模型的一次商业探索。2023年微软推出搭载GPT、DALL-E 3等模型去挑战谷歌搜索引擎,其瞄准的是一个万亿市场,基于RAG技术(检索增强生成),一经推出,谷歌市占率略有下降。
对应的,最近国内市场的AI智能搜索,秘塔AI、360智脑、百度的简单搜素、字节小悟空也卷的火热,因为是万亿市场,其背后都背靠着互联网巨头,除了上海本土明星企业秘塔AI。为了争抢用户,AI智能搜索可以给到用户与以往的传统搜索不同体验,传统的需要自己去排查网页,现在AI只能搜索可以直接给到整体结果最后附链接(现在很多的国内产品都会附链接,这一点合规做得就比微软这个好)。
AI智能搜索是典型的大模型商业化的例子,也是大模型现在比较清晰明朗的Toc商业化方向。但是这种商业化一般只有原来就有一定搜索积累的巨头才做好,现在做其实本质上短期搜索市场不会有过多的提升,但是不做就会丧失搜索市场。同时做AI搜索会有更多的强化学习的机会,可以积累更多的用户数据,也可以反过来增强模型能力。
可以预见的是,接下来国内AI智能搜索领域会成为司法实践的前沿阵地,接下来会有很多的案例涌现供大家学习和思考。
除了《纽约时报》诉OpenAI案以外,在美国的Thomson Reuters Enterprise Center GMBH and West Publishing Corp. ,v.RossI ntelligence Inc.案中,汤森路透公司(版权人)拥有法律数据库Westlaw的版权,该数据库使用特定的编号系统和批注功能。Ross公司是一家AI初创企业,试图使用Westlaw数据库训练其自然语言搜索引擎,但遭到版权人拒绝。Ross公司随后与LegalEase合作,使用其提供的法律意见书作为AI训练数据。而在合作过程中,Ross公司使用了Legal Ease公司向Ross公司发送的一些来自Westlaw数据库中的编号系统。在本案中,美国司法领域也深入讨论了未经授权使用版权材料来训练大模型的行为是否构成合理使用,美国特拉华州地方法院指出了“允许AI训练版权材料是否符合公共利益”这一关键问题,在判例法基础上澄清了AI训练数据场景下合理使用的认定标准,严格区分事实和法律问题,其认为,合理使用是一个法律和事实的混合问题,虽然本质上是一个法律判断,但需要对复制行为和市场这些相关的事实性问题进行认定,目前,这些事实问题存在争议,应交由陪审团决定。【7】
而在国内,也产生了部分大模型训练数据使用而产生的争议。早在2023年6月,笔神作文,一个中小学生作文AI批改平台和投稿社区,隶属于北京一笔两划科技有限公司;旗下研发了一款人工智能辅助写作软件笔神,拥有千万级写作素材库。笔神作文与学而思之间有着多年的合作基础,其指控学而思在未经授权的情况下,使用“爬虫”技术非法访问和缓存其APP服务器数据,用于训练AI大模型MathGPT和“作文AI助手”,数量达到258万次,侵犯了其数据权益。爬取的基础在于笔神作文与学而思先前的合作,当时笔神作文与学而思旗下的一款学习工具APP——题拍拍签约合作,为其提供作文素材查询服务。双方在合同中明确约定未经许可不得将作文素材作为语料进行计算、训练。虽然本次风波的实质是授权合同违约纠纷,但很快引起了各行各业对大模型训练数据的来源合法性的关注,社会各界很快认识到了大模型训练中数据来源合法性的重要性。【8】
在今年6月20日,北京互联网法院审理了四起画师起诉AI绘画软件开发运营者的著作权侵权案件。该案中,四位画师认为某AI绘画软件可以创作出带有明显模仿原告作品痕迹的图片,其将四位原告作品用于训练AI模型并应用于商业用途,已经远超合理使用范畴,对原告权益造成严重侵害,其认为涉案AI绘画软件习得原告作品的绘画风格后,“一键生成”的大批量图片可以轻松替代原告一笔一划绘制的作品,残酷挤压原告依托其作品获得收益的空间,对原告作品未来的市场造成毁灭性打击,故主张被告应当停止对原告著作权的侵害,包括但不限于停止在AI模型中使用原告作品、剔除模型中与原告作品相关的学习成果等,并赔礼道歉和赔偿原告经济损失。该案目前仍在审理中。【9】
综合来看,无论是在国内还是国外,随着人工智能技术的快速发展和应用,大模型训练数据的来源合法性已成为AI大模型训练数据的重要法律议题。但就当前发生的法律争议来看,更多的集中在“数据合法获取和使用”(反法数据竞争专条)“训练数据著作权保护”(著作权法)两个角度,实际上AI训练数据的法律隐忧远比这些发生的涉著作权诉讼争议更多,其他法律隐忧也值得我们更多地关注。
AI训练数据主要涉及的法律问题思考
国内AI训练数据的法律隐忧
当前国内AI训练数据存在大量的法律隐忧还未被大规模讨论。如AI训练数据数量和质量不足,易发生或正在发生的大量违规数据爬取、利用API合作接口违法获取数据等获取方面的合规性问题。类似于电商刷单、AI生成内容水贴、恶意评论等基于互联网流量生态而发生的数据污染问题。大模型企业进行预训练时使用的数据存在民族、种族、职业、地域的数据偏见问题。AI训练数据获取时未进行隐私量化而产生的隐私问题等等(本文不作讨论)。我们提出这些隐忧,希望能进行初步的一些讨论
AI黑箱导致的AI训练数据不可感知而产生合规侥幸
现在有一个共识是存在一定程度的“AI黑箱”(人工智能系统缺乏透明度和可解释性,在这些系统中,如何训练数据、输入数据如何被转换成输出结果的过程不清晰,或者对于最终用户和利益相关者来说不可见)。此时对于AI系统拥有者而言,其容易认为如何进行模型的预训练外界无法感知,使用哪些AI训练数据亦不感,此时容易产生一种合规侥幸,在先其他行业的监管经验告诉我们,监管常常具有滞后性,对于AI大模型而言监管可能会更大篇幅地放在模型的输出端,而对于AI训练数据的获取和使用偏向于自训练端的监管会严重不足。实际上,欧盟《人工智能法》第(107)条【10】,已经对模型的提供者作出了相应的要求:模型的提供者应就通用模型训练中使用的内容制定并公开足够详细的摘要,并且人工智能办公室可对此进行监督。虽然当前我国的人工智能立法还在摸索阶段,但欧盟的立法对于我国是具有极高的参考价值的。我们可以见到诸如《生成式人工智能服务管理暂行办法》仅就训练数据进行了原则性陈述“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据”【11】,以及中国电子商会发布的《生成式人工智能数据应用合规指南》对于训练数据有数据采集、交易、共享、授权获取等诸多合规提示。但由于AI黑箱的存在,我们仍需要在立法层面进一步细化明确AI训练数据的披露要求和法律责任以消除模型企业就AI训练数据的合规侥幸。
AI训练数据收集、使用的法律要求
按照第一部分我们对于AI训练数据的分类进行分析:1.公共开源数据集;2.公开网络数据但非开源;3.私有数据。
对于公共开源的数据集而言,仅需注意一个“开源许可证”的问题,“开源许可证”就是公共数据集的法律“使用说明”,会列举数据集所有者对于使用者的要求和约束条件。【12】一般的开源数据社区都会为创作者设置在法律允许的最大范围内放弃其作品的版权和相关权利的协议,当然同时也会对使用者进行相应的限制,这对于大模型而言需要遵守开源许可证的要求进行训练数据的使用、共享、托管,即可满足基本的法律合规要求。
对于私有数据而言,一般采用向第三方数据商采购的方式。《生成式人工智能数据应用合规指南》中对于此类进行了合规提示:(模型)提供者应同相对方签订相应的法律协议,谨慎审核相对方的数据来源合法性和数据可交易性,并要求相对方作出来源合法性、可交易性和可使用性承诺,或出示相关证明等。鼓励提供者通过数据交易所等公开平台获取数据,以提升数据来源的合法合规性。对于此合规要求,其实是对现行的《数据安全法》《个人信息保护法》的落地解读,我们认为这一合规提示是基本满足当前对于私有数据的法律要求的。
对于公开网络数据但非开源而言,一般采用人工采集或自动爬取的方式从互联网获取。不论是采取爬虫还是诸如API接口等方法,当前法律均要求遵守相应的Robots协议或API服务鉴权声明,避免使用技术手段进行违规获取,且不得影响被获取服务商的正常运行,为其增添不合理的负担。当然也有一定的例外,在禁止Robots协议的网站,并不意味着爬取行为违法,根据《互联网搜索引擎服务自律公约》第八条,“互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。”一般认为为促进信息自由流动,对于爬虫爬取公开信息,网站需要具备一定的容忍度。【13】虽然该自律公约是针对搜索引擎抓取行为的保障,但在当前人工智能大发展的语境下讨论,以鼓励信息自由流动的视角看,只要爬取行为存在合理的正当性,大模型企业爬取公开网络数据也是可为的。综合来看,对于这一类AI训练数据法律要求的分析,当前还是需要更多结合《反不正当竞争》数据竞争专条作论证。
AI训练数据偏见和歧视的思考
AI训练数据中的偏见和歧视是指在模型的训练过程中,由于数据集的不平衡、不完整或有误导性,导致模型学习到的模式不公平地偏向某些群体,从而在预测和决策时产生歧视性结果。
欧盟《人工智能法案》针对AI训练数据可能造成的歧视问题进行了详细的论述,也提出了具体的要求:高质量数据和获取高质量数据在提供结构和确保许多人工智能系统的性能方面发挥着至关重要的作用,特别是在使用涉及模型训练的技术时,目的是确保高风险人工智能系统按预期安全运行,并且不会成为欧盟法律禁止的歧视来源。用于训练、验证和测试的高质量数据集需要实施适当的数据治理和管理实践。用于培训、验证和测试的数据集,包括标签,应具有相关性和足够的代表性,并在最大程度上不存在错误,而且从系统的预期目的来看应是完整的。为便于遵守欧盟数据保护法,如2016/679号条例,数据治理和管理实践应包括:就个人数据而言,数据收集的原始目的应当透明;数据集还应具有适当的统计属性,包括与高风险人工智能系统的预期使用对象相关的个人或群体。此外,数据集还应特别注意减少数据集中可能存在的偏差,这些偏差可能会影响个人的健康和安全,对基本权利产生负面影响,或导致欧盟法律禁止的歧视,尤其是在数据输出会影响未来操作的输入(反馈回路)的情况下。例如,偏差可能是基础数据集所固有的,特别是在使用历史数据时,或者是在现实世界环境中实施系统时产生的。人工智能系统提供的结果可能会受到这些固有偏差的影响,这些偏差可能会逐渐增加,从而延续和扩大现有的歧视,特别是对属于特定的弱势群体(包括种族或族裔群体)的人的歧视。如果训练端的数据偏见不进行技术和法律层面的解决,势必会影响整个人工智能系统的公平性输出,而实际上对于AI训练数据偏见和歧视的治理是一个多学科的问题。
在法律视角来看,我国现行法律针对反歧视的规定散鉴于《劳动合同法》《婚姻法》《残疾人保障法》等各个部门法,这种散落确实不利于人工智能时代对于AI企业进行训练数据偏见合规,所以当前亟待立法去集中梳理AI训练数据的偏见和歧视的监管或合规要求。我们需要从数据收集、处理、分析、算法设计等技术角度去做规则的细化,同时还应该建立相应的第三方评估体系,监管层出台更多的细则指南和标准引导减少数据偏见。
AI训练数据的著作权问题
实际上,大模型在其训练和输出阶段,都可能涉及著作权问题。输出阶段有大模型使用的过程中生成的内容的侵权认定问题,即AIGC与在先作品构成相同或者实质性相似时,应当如何认定其侵权责任以及由谁来承担责任,已有北京互联网法院和广州互联网法院的在先判决提出了阶段性的司法意见。而追根溯源,大模型生成物是否构成侵权并非大模型著作权问题的起点,大模型著作权问题从训练阶段就已发生,存在于整个模型生命周期的前端。国内目前关于大模型在训练过程中使用他人作品是否构成侵权,还尚未有司法界的定论。目前大模型应用过程中可能存在的著作权法律问题,主要集中于训练数据授权许可使用和训练素材使用著作权侵权问题。
训练数据授权许可与著作权冲突
根据AI发展科研机构Epochai发布的一项关于大模型消耗训练数据的研究报告,目前,人类公开的高质量文本训练数据集大约有300万亿tokens,但随着ChatGPT等大模型的参数、功能越来越强以及过度训练,对训练数据的需求呈指数级增长,预计将在2026年至2032年消耗完这些数据。当然,除了公开的高质量文本训练数据集外,还有私有数据,根据Epochai调查数据显示,目前全球文本数据包含私有总量大概在3100万亿tokens,也就是说还有90%的私有数据可以使用。【14】除了上述数据以外,还有通过合成数据、多模态和跨领域数据学习获取数据,以及一种最基础的获取训练数据的方式,即与真实世界实时交互学习,通过与人类交互来获得知识和技能。
随之而来的,是训练数据的授权许可使用问题。不同于一般的授权许可,训练数据的特点在于其数据量和数据类型更为庞大和复杂,大模型训练通常需要大量多样化的数据,涉及更广泛的数据来源,如大量的文本、图片、音频等,由于单个作品对于大模型训练来说是几乎没有意义的,大模型训练过程中需要投喂大量的数据,且使用目的也并非直接使用或二次呈现,而是被用于训练机器学习模型,以实现其它功能,若要进行授权,其授权的基础并不明确,授予的是著作权法上的何种权利有待论证,其授权的价值更多在于训练数据集中特征的集合,而非单个作品的独特性表达,采取作品的单独授权是不现实的。因此,训练数据的授权方式和授权范围则更为特殊。现阶段,数据的来源一般是使用公共数据训练集,或向第三方数据商采购。
如前文所述,对公共数据训练集而言,其往往来源于爬取的公开的网站、论坛、博客、App等,以及社交媒体、论坛帖子等对话,公开的书籍、电子文档等内容,并进行过滤筛选,整理上述公共数据训练集往往需要经过漫长的过程,因此一些研究人员构建了包括ClueWeb09、ClueWeb12、SogouT-16、CommonCrawl等在内的开源网页数据集。这些公共数据训练集一般通过开源许可协议的方式来约定权利义务,例如在中文训练数据集CNNovel125K中,使用了大模型训练常用的Apache2.0许可证,这类许可协议授权用户自由地使用、复制、修改、合并、发布和再许可被授权软件的副本,并允许商业,但在分发被授权软件时,用户需要包含原始版权、许可和免责声明,以确保软件的来源和许可信息被保留。部分公开数据集是采样于其他开源项目或开源数据集,因此会在开源许可协议中要求使用者遵守原始许可的条款。相对来说,公共数据训练集基于网上现有的整理已较为完善,获取也较为容易,授权许可使用协议也较为宽松。
当然,公共数据训练集一般训练的是通用自然语言的能力,以及部分行业内容,但对于行业大模型来说,其往往需要的是大量的专业内容,而这部分专业内容大多属于私有数据。
对私有数据而言,往往需要通过向第三方数据商采购的方式获取使用许可,部分内容创作平台也可以起到第三方数据商采购的角色。这类私有数据集往往具有独特的特点,例如金融行业数据集往往会有股票价格、公司财报等众多图表和指标数据,并有着严格的时效性要求,医疗行业的数据集通常包括病历记录、医学影像、基因数据等,这些数据的特点是格式复杂、需要专业人员进行标签化,并对准确性和隐私性有着极高要求。这类数据在采购过程中往往通过采购协议或平台协议约定权利义务,且由于行业不同和数据要求标准不同,其定价和具体合同约定也会有相应要求和区别。但是,对于第三方数据商或者平台是否得到上游授权仍待考究,对第三方数据商来说,获取全部的数据来源提供者的同意是不现实的,且会导致私有数据训练集的成本飙升,显然这不是市场所期望看到的。如何平衡私有数据的著作权保护以及大模型训练的需求,是训练数据授权许可亟待解决的问题。
训练数据著作权侵权问题
自大模型发展以来,未经许可使用他人享有著作权的作品作为大模型训练素材一直是常年的争议焦点。国外有“纽约时报诉OpenAI案”,国内有“小红书被控AI模型训练素材侵权案”,但目前国内外的司法实践均尚未有定论,毕竟除模型开发者以外,其他人无法感知模型实际的训练素材,只能从大模型生成物反推训练素材的侵权使用,这对司法实践认定训练数据著作权侵权提出极大的挑战,其中存在一些需要分析的问题,我们就部分核心争议焦点进行讨论:
首先,侵权纠纷最大的问题在于是否构成实质性相似?对于大语言模型而言,实质性相似是较为容易证成的,以“纽约时报诉OpenAI案”为例,诉状通过图片的方式直接展现了GPT4生成的多个结果,其将未经授权的纽约时报作品逐字逐句复制并输出,且由于纽约时报作品独创性较为突出,易于和其他作品产生区分,这种方式将本应该属于纽约时报等版权人的流量转移到合成搜索应用之上,系著作权法意义上的复制行为;但对于AI文生图的扩散模型而言,由于生成的图片是通过扩散生成的,其会包含训练素材中的扩散向量,但不会完整的包含训练素材的部分图片,因此不存在一模一样的“复制”,无法直接证明生成的作品使用了他人的作品。况且,大模型的训练本质上也是一种“黑盒”训练,即训练者本身也不知通过大量的数据训练会产生何种结果,甚至可能存在着通过完全使用他人素材训练的模型生成的内容与训练素材相去甚远、完全达不到实质性相似的标准的程度,也有可能存在未使用他人作品作为训练素材,但从概率学上存在着生成作品相似的可能性。因此,若要证明两幅美术作品是否构成实质性相似,也即6月20日北京互联网法院开庭审理的AI绘画大模型训练著作权侵权案中,通过考虑线条、色彩、比例等要素上是否存在实质性相似,或许能证明构成实质性相似,但若从生成作品反推证明训练过程中使用了其作品作为训练素材,则其难度大大增加。同时,我们注意到“Mike Huckabee等诉彭博社利用其版权作品训练AI系统BloombergGPT案”中,彭博社的答辩中提出一个非常关键的一点——原告未能明确指出哪些版权作品被使用,也未提供足够的事实来支持版权侵权的主张。【15】这说明,在司法实践中,证明训练数据中包含权利人的作品确实存在客观上的事实证明障碍。
其次,传统的著作权侵权抗辩是否能继续适用?根据《北京市高级人民法院侵害著作权案件审理指南》7.7:被告能够举证证明被诉侵权作品与原告作品存在相同或者实质性相似的表达部分来源于在先的其他作品,可以认定在先其他作品合法来源抗辩成立。就目前绝大部分的美术作品而言,其大部分有借鉴前人的元素在内,如果放宽实质性相似的标准,则极容易导致在侵权的大模型生成图片与权利图片之前,可能还存在构成实质性相似的在先作品。因此,通过传统的“接触+实质性相似”的方式认定大模型生成的图片构成著作权侵权,同意通过“在先作品”抗辩,侵权同样难以认定。
未经许可使用他人享有著作权的作品作为大模型训练素材是否构成著作权侵权?有学者认为,大模型在数据训练中对作品的使用具有“非特定性”,即不指向具体而特定的单个作品,应被视为“非作品性使用”行为,从而排除在著作权权利范围之外;而数据训练是生产过程的一部分,具有中间使用的性质,对于大模型具有增强效应,因此,从功能性视角看,应界定为“非作品性使用”,其不会削弱著作权人的整体激励,而是导致了激励行为的结构性调整,不需要将著作权保护延伸至数据训练来予以补偿。【16】其本质和美国法院在谷歌图书馆案中指出的转换性使用类似,该案中谷歌将数字化后的图书存放于服务器,供用户以“检索有限文字片段的方式”发现所需图书,美国法院认为不构成对原有图书购买市场的替代。也即这类使用是基于原创或扩展其使用,传递出新的不同的东西,进而促进了版权促进公共知识这一整体目标。因此,仅用于数据训练而使用数据,存在纳入合理适用范围的可能性。而在“纽约时报诉OpenAI案”中,其直接复现了纽约时报作品,将本应该属于纽约时报等版权人的流量转移到合成搜索应用之上,则是直接侵犯了作品的复制权。
阿里研究院观点认为:大模型对版权类训练语料的使用是转换性使用,属于合理使用或法定许可。大模型对于版权作品的使用,并不是以欣赏作品原有价值为目的而进行利用,或对原有作品内容进行复制和传播从而替代原有作品,而是为了掌握客观规律并培养模型的基础能力,就如给人类进行教育需要对其进行广泛的知识授予一般。有鉴于此,用版权类数据对模型进行训练,不应被视为“复制式拷贝”的版权侵权行为,而应属于转换性使用的范畴,并应构成“合理使用”或“法定许可”。【17】
我们在一定程度上认可这一观点,从产业的角度而言,过度强调训练数据侵权,从客观上并不能激励创作者的创作,对产业的发展起到一定的遏制作用,面对海量的内容生产者的维权,也会对司法造成巨大压力。从技术角度来看,AI的训练过程,起码Diffusion算法,只是学习各种共性,而人类作品的共性都离不开人类共同的文化、思想、审美,就算一个作品有创新的部分,在绝对的大模型中,这种创新都会显得微不足道。【18】人工智能时代,著作权法可适当适应新生产力和生产方式的变革,调整激励结构,促进人们积极面对、适应、拥抱人工智能工具的创新及其带来的新型生产方式。
AI训练数据的著作权问题的未来展望
探究合理使用的适用空间
在现有的众多开源训练数据集中都会谈及训练数据的合理使用,及将使用他人作品用于训练大模型纳入合理使用的范畴。而这一讨论在域外已经有了一定的法律实践探索。
欧盟《人工智能法案》(106)开发和训练此类模型需要获取大量文本、图像、视频和其他数据。在这种情况下,文本和数据挖掘技术可广泛用于检索和分析这些内容,而这些内容可能受到版权和相关权利的保护。对受版权保护内容的任何使用都必须获得相关权利人的授权,除非适用相关的版权例外和限制。2019/790号指令引入了例外和限制,允许在特定条件下为文本和数据挖掘的目的复制和提取作品或其他主体。根据这些规则,权利人可以选择保留对其作品或其他主体的权利,以防止文本和数据挖掘,除非是为了科学研究的目的。在以适当方式明确保留选择退出权的情况下,通用人工智能模型的提供者如果想对这些作品进行文本和数据挖掘,需要获得权利人的授权。同时,欧盟的《单一数字市场版权指令》第4条规定,在版权人未以适当方式保留文本与数据挖掘的权利的情况下,对合法获取的作品或其他内容进行复制和提取的行为是可以豁免的。
不同于欧盟针对人工智能和数据单独出具法律规定,日本直接扩大了著作权法中合理使用的边界,根据日本的《著作权法》第30条第4款:在如下所列情形以及其他情形下,当对作品的利用并非为了自己或他人享受作品所表达的思想或情感时,在使用的必要范围内,可以以任何方式利用作品。其直接将“不以自己或他人享受作品所表达的思想或情感为目的”的作品使用纳入了合理使用的范围【19】。在去年6月,日本文化厅发布了一份名为《AI与著作权》的文档,详细陈述了他们认为训练AI使用的数据不涉及版权问题的原因。其核心逻辑是:拥有版权的作品能直接引发欣赏者的特殊感受,但AI在使用版权作品训练时并不以此为目的,而且训练过程中也没有一个真正的人在以欣赏的态度对待这些作品,所以不涉及到版权保护的问题。【20】
在美国,对于是否将“使用他人作品用于训练大模型”纳入“合理使用”的问题同样进行了激烈的讨论。但美国的合理使用制度要更为灵活,美国版权法以“例示列举+一般要件”的方式对合理使用制度进行了规定,在任何特定案件中判断对作品的使用是否属于合理使用时,应考虑的因素包括:(1)使用的目的与性质;(2)该版权作品的性质;(3)使用部分占被利用作品质与量的比例;(4)该使用对版权作品潜在市场或价值所产生的影响。这被称为合理使用认定“四要素标准”。【21】又如彭博社在回应其开发的大语言模型BloombergGPT被指控侵权未经许可训练他人的版权作品“Books3”数据集时,其便在答辩中主张该使用属于合理使用范畴,并通过四要素标准进行了阐释,首先是1.使用的目的和性质:彭博社的使用是出于研究目的,具有教育性质。2.受版权保护作品的性质:原告的作品是创造性的,但彭博社的使用是转换性的,并不替代原作。3.使用作品的数量:彭博社使用的是大量数据集来训练AI,而不是复制作品的全部或部分。4.对作品市场的影响:Bloomberg GPT没有对原告作品的市场造成影响,也没有替代原作。【22】
在本段讨论环境下,我们可采用三步检验法去论证,同时可以适当结合美国合理使用四要素的方法,审查我国大模型训练数据合理使用的适用范围。即维持“只能在特殊情况下做出,与作品的正常利用不相冲突,没有不合理的损害版权人的利益”的三步检验法框架,并以“(1)使用的目的与性质;(2)该版权作品的性质;(3)使用部分占被利用作品质与量的比例;(4)该使用对版权作品潜在市场或价值所产生的影响”四要素去丰富三步检验法的论证逻辑,以增强其适用的灵活性,更好地应对大模型时代层出不穷的新型使用形式,同时避免产业对于AI训练数据的利用掣肘导致在大模型竞争中落后于欧美。关键在于分析AI训练之使用对版权作品潜在市场或价值所产生的影响。因此,通过三步检验法并结合四要素,着眼于“该使用对版权作品潜在市场或价值所产生的影响”可以较为灵活地分析大模型训练数据是否构成合理使用情形。
类似于法定许可的技术和商业可行性展望
不得不承认的是,我国现有的《著作权法》框架下很难就AI训练数据使用版权作品的情形直接适用“合理使用”的列举条款,需要后续立法或司法解释进一步明确AI训练数据的合理使用适用问题。那么是否存在类似于“法定许可”的一种制度适用空间,我们简单提出一些思考:
1.可以参考WEB3或版权链的形式进行作品使用权重分析、收益权重和模型能力贡献度分析进而自动化分配许可收益。(算力成本过高,不现实)
2.以类似法定许可的方式构建大模型数据流通共享,促进大模型能力,避免数据荒,降低模型能力的提升成本。
3.充分利用市场机制,鼓励私有数据隐私化提供及奖励机制(大模型企业公开制式数据搜集渠道,参考短视频平台初期的内容创作奖励模式。或内容平台构建平台数据池,进行用户奖励,后续内容平台可与大模型企业进行集体组织式的授权合作,消除“数据数量和质量”的焦虑)。
注释:
【1】[美]斯蒂夫·沃尔夫拉姆:《这就是ChatGPT》,人民邮电出版社。
【2】黄文灏:《零一万物黄文灏:大模型Scaling Law的训练方法论 | 智源大会》,微信公众号猜想笔记,2024-06-18.
【3】阿里巴巴集团等编写,《大模型训练数据白皮书》。
【4】Feeltouchlabs:《AI大语言模型之预训练数据来源》,微信公众号FeelTouch Labs,2024-06-03 21:59.
【5】王峥 傅宏宇 袁媛:《大模型数据之二|中美大模型的竞争之路:从训练数据讲起》,微信公众号阿里研究院,2023-12-28.
【6】牛予薇:《纽约时报诉OpenAI进展解读》,微信公众号清华大学智能法治研究院,2024-05-05.
【7】南希《AI训练版权材料是否构成合理使用?美国法院观点及对我国的借鉴》,微信公众号熊猫法律星球,2024-01-02.
【8】《学而思被指“偷数据”训练AI,大模型数据来源合法性第一案?》,微信公众号清华大学智能法治研究院,2023-06-18.
【9】董文佳 任惠颖:《全国首例涉及AI绘画大模型训练著作权侵权案今日开庭审理》,微信公众号知产力,2024-06-20.
【10】《人工智能法》(107)为了提高通用人工智能模型的预训练和训练中使用的数据的透明度,包括受版权法保护的文本和数据,此类模型的提供者应就通用模型训练中使用的内容制定并公开足够详细的摘要。在适当考虑保护商业秘密和商业机密信息的同时,该摘要的范围应在总体上全面,而不是在技术上详细,以方便包括版权持有者在内的合法权益方行使和执行其在欧盟法律下的权利,例如列出用于训练模型的主要数据收集或数据集,如大型的私有或公共的数据库或数据档案,并对所使用的其他数据来源进行叙述性的解释。人工智能办公室宜提供一个摘要模板,该模板应简单、有效,并允许提供者以叙述形式提供所需的摘要。
【11】《生成式人工智能服务管理暂行办法》第七条。
【12】养兔子的好人:《大模型训练用数据的开源许可证小调查》,微信公众号新江湾的周日,2024-06-10.
【13】宋婉瑜:《企业通过爬虫爬取他人公开数据的合法性探讨》,微信公众号电商与数字经济法务圈,2023-02-14.
【14】《ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据》,微信公众号AIGC开放社区,2024-06-19.
【15】《AI版权之争丨彭博社对侵权控诉做出回应(附答辩状中译)》,微信公众号AI与网络法,2024-06-24.
【16】 刘晓春:《生成式人工智能数据训练中的“非作品性使用”及其合法性证成》,《法学论坛》2024年第3期“特别策划·中国人工智能立法专论”栏目。
【17】阿里巴巴集团等编写,《大模型训练数据白皮书》。
【18】李伯阳:《万字!从技术角度评析AI著作权第一案 | 谁拥有算力,谁垄断国内AI著作权的未来?》,微信公众号游戏人的法律手册 2023-12-01.
【19】朱开鑫:《一文读懂:AI大模型训练中的核心版权问题》微信公众号腾讯研究院,2023-10-19.
【20】《生成式AI的训练数据,该由谁买单?|监管》,https://mp.weixin.qq.com/s/w8ay_fXoiM0y7WSRiL6EYg.
【21】朱开鑫:《一文读懂:AI大模型训练中的核心版权问题》微信公众号腾讯研究院,2023-10-19.
【22】《AI版权之争丨彭博社对侵权控诉做出回应(附答辩状中译)》,微信公众号AI与网络法,2024-06-24.
(本文仅代表作者观点,不代表知产财经立场)
查看更多知识产权精彩内容,请浏览知产财经官网:www.ipeconomy.cn