作者:邱政谈 上海融力天闻律师事务所合伙人
随着生成式人工智能等颠覆性AI技术的突飞猛进,人类社会的生产、生活方式乃至社会治理模式都将随之迎来新的变革。在这一时代背景下,如何认识人工智能产业发展带来的各种法律问题,也越来越具有现实意义。基于此,7月13日,由中国人民大学知识产权学院主办、知产财经协办的“人工智能相关法律适用问题”研讨会在北京举办,会议邀请了行业多领域代表,共同探讨和研究实务中遇到的涉人工智能法律问题及解决之道,以期为人工智能相关环节的法律适用问题探究答案。会上,上海融力天闻律师事务所合伙人邱政谈围绕“AI训练数据商业现状和法律分析”话题进行主题演讲,知产财经对其主讲内容进行了整理,以飨读者。以下是其演讲实录。
各位老师、各位领导上午好,今天,我以一个商业观察者的身份,从商业视角做分析,期待给各位法学专家提供一些新的内容。
我的分享分为两部分。第一部分,AI训练数据商业重要性。我会从AI三要素、AI训练过程所包含的阶段,以及AI训练数据在其中发挥的作用几方面说明,为什么数据对于AI大模型如此重要。第二部分,我将分享对AI训练使用数据相关法律问题的思考,包含数据歧视、数据污染等。本次分享的重点是著作权问题,尤其是数据收集和使用的合规问题。
一、AI训练数据商业重要性
1.AI能力三要素
AI能力三要素包括算法、算力和数据。第一块是算法,算法是一个模型能力的大脑,前年,OpenAI发布ChatGPT后,大家发现OpenAI的人工神经网络的架构算法非常好,后面所有的模型可能都会模仿他们的这种算法,算法是奠定一个模型能力的基础。第二块是算力,算力很重要,高算力意味着大模型拥有更高更快的训练能力,所以美国会对我国进行一些AI训练数据方面的禁令,比如芯片出口的禁令。第三块是数据,数据是实现人工智能训练的原材料,只有高质量的数据,才能不断提升人工智能的训练能力。
2.“规模法则”(ScalingLaw)
OpenAI为什么这么厉害?因为它首次提出了“规模法则”(ScalingLaw),ScalingLaw即随着数据量、计算资源或模型规模的增加,AI系统性能的提升趋势和模式。
国内市场上对于ScalingLaw有两种截然不同的看法。国内著名VC投资人朱啸虎认为,ScalingLaw可能会失效,他认为国内大模型企业不需要过多在模型能力上做大投入,只需要使用开源模型,利用企业内部核心数据做训练,这可能会使得大模型在应用层面比通用模型有更好的体现,从而获取更多商业价值。朱啸虎虽然认为ScalingLaw可能会失效,但同时又认为企业私有化的数据很重要,私有化数据决定企业训练模型的能力。KimiChat的创始人杨植麟则认为,根据第一性原理,不断增加模型的压缩比可以最终实现通用人工智能。但是在不断压缩的过程中,一定要有不断扩大模型规模的过程,所以他本质上也是认可ScalingLaw的。
无论如何,最终回归到一个判断:不断提升AI训练数据的数量和质量,才是不断提升模型能力的最关键核心。市场上有一个很强的共识:不同的大模型利用相同的数据进行训练,最终模型能力会无限趋同。AI训练数据决定模型能力,应当审慎看待AI训练数据的法律问题。中美有很多模型能力上的差异,可能大家觉得是因为中国的AI人才不如硅谷,或者是因为没有那么多的万卡甚至十万卡集群,所以算力不够,其实最关键的原因是中美训练数据的质量和数量上的差异。
3.大语言模型(LLM)训练过程
下面以大语言模型为例,介绍AI训练过程,包括三个阶段。第一,预训练,即利用公开数据进行基本模型能力的搭建。在预训练基础上,进入到第二阶段,监督微调,大模型企业的员工会进行针对性的设问和回答,把例题投喂给模型,模型根据人提供的例题实现监督微调功能。第三阶段,基于人类反馈的强化学习。前两段训练出来的模型并不能很好地匹配人类的价值观,甚至可能涉及反人类理论,因此第三阶段很重要,这是使得模型最终能够面向公众的阶段。在讨论AI训练数据时,主要涉及第一个阶段,后两个阶段较少涉及AI训练数据。
4.AI训练数据分类及合规要求
此处的AI训练数据分类是我站在法律人和商业观察者双重角度,提出的比较适合做法律分析的分类。市面上有一些对AI训练数据的分类,但都是站在技术角度的。第一,公共开源的数据集(包含开源网页数据集、开源对话数据集、开源书刊数据集等),需要注意“开源许可证”问题。第二,公开但非开源数据,一般采取人工采集或自动爬取的方式从互联网获取,需要注意合法利用爬虫或者API接口,不能违反Ropots协、者API服务鉴权声明等要求,还可能涉及著作权问题、隐私问题、数据合法使用问题。第三,私有数据,一般向第三方数据商采购获取,需要注意数据合规、隐私问题、合法交易问题。对于前两种公开数据,大部分模型企业掌握的都差不多,但私有数据是拉开各个企业模型能力差距的重要原因。
5.中美AI训练数据来源差异引发模型能力差异
当前,中美模型能力存在差异,而最根本的差异是AI训练数据本身的差异,中国的训练数据整体不如美国。美国的社会力量整合政府的开放数据与网络的公开数据,提升数据精细度和专业性,形成以开源为主的高质量训练语料。我国主要是利用海外优质开源数据集及中文语料数据集。在互联网上,90%的训练数据都是英文内容,中文内容不足10%。除了巨大的数量差异,还有一些社会原因导致我国的AI训练数据远远不如美国。中国企业处于商业利益和知识产权的考虑,对于领域知识共享意愿度低。因此,我国公共数据开发不足,整体开源的高质量训练语料不足。分享这些内容,是希望各位在讨论AI训练数据的法律问题时,能够考虑到产业保护,帮助国产大模型提升自己的能力。
二、国内外AI训练数据主要法律问题
从“纽约时报与微软OpenAI案”“笔神作文与学而思AI训练数据纠纷”等案件中可以发现,司法层面最为核心的问题是AI训练数据的合法获取和使用问题。
1.国内AI训练数据的法律隐忧
国内AI训练数据会存在的法律隐忧包括数据违规获取(违反爬虫协议、利用API接口违规获取等)和相关著作权问题,以及AI训练数据数量和质量不足、数据污染(电商刷单、AI生成内容水贴、恶意评论)、数据偏见与歧视、未进行数据隐私向量化、数据投毒等问题。今天的讨论主要集中于数据违规获取和相关著作权问题。
2.AI黑箱导致的AI训练数据不可感知而产生合规侥幸
“算法黑箱”是过去经常提到的一个概念,AI技术发展后的共识是存在一定程度的“AI黑箱”(人工智能系统缺乏透明度和可解释性,在这些系统中,如何训练数据、输入数据如何被转换成输出结果的过程不清晰,或者对于最终用户和利益相关者来说不可见)。此时对于AI系统拥有者而言,其容易认为如何进行模型的预训练外界无法感知,使用哪些AI训练数据亦不感,此时容易产生一种合规侥幸。
欧盟《人工智能法》中有AI合规侥幸相关规定,欧盟《人工智能法》第(107)条提出,通用人工智能模型提供者应就通用模型训练中使用的内容制定并公开足够详细的摘要,例如列出用于训练模型的主要数据收集或数据集,如大型的私有或公共的数据库或数据档案,并对所使用的其他数据来源进行叙述性的解释。
中国目前相关立法只有《生成式人工智能服务管理办法》第七条的概括性的描述:生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据。
我认为,如果要规制人工智能行业,需要在后续立法及实施细则上作出更多更详细地规定,比如详细规定需要制定一个怎样的摘要,摘要内容应该包含哪些信息,后续监督的机构是怎样的,以及未实施这些细则产生的法律责任。
3.训练数据授权许可不是很适用著作权授权许可使用制度
我认为,走传统的著作权授权许可路径对训练数据授权许可,不是很适用。原因有以下几点。第一,训练数据的特点是数据量大、类型复杂,大模型训练时需要非常大规模的数据,可能会涉及非常广泛的数据来源。单个或者部分的作品对于大模型整个训练的过程的作用几乎可以忽略不计。第二,考虑使用目的,人工智能训练对可能包含版权作品的数据进行使用时,并不是直接呈现版权内容,也不是二次呈现,只是提炼出其中具有特征向量化的数值去投喂给模型,使得模型具备理解那些数值的能力,进而通过算法生成一些新的内容。第三,授权基础不明确,与传统著作权授权不同。传统著作权授权的权项非常明确,比如购买版权内容是为了实现信息网络传播。但是,由于人工智能训练时使用版权内容的方式是完全不一样的,授权的是哪个权项,这一问题非常不明确。第四,考虑授权价值,AI训练数据非传统著作权授权的作品本身使用或欣赏价值。最后,考虑授权难度,面对庞杂的数据,寻求单一或部分作品的授权存在障碍。因此,当前的AI训练数据可能不是很适用著作权许可授权的制度。
4.训练数据著作权侵权问题
阿里研究院观点认为:大模型对版权类训练语料的使用是转换性使用,属于合理使用或法定许可。大模型对于版权作品的使用,并不是以欣赏作品原有价值为目的而进行利用,或对原有作品内容进行复制和传播从而替代原有作品,而是为了掌握客观规律并培养模型的基础能力,就如给人类进行教育需要对其进行广泛的知识授予一般。有鉴于此,用版权类数据对模型进行训练,不应被视为“复制式拷贝”的版权侵权行为,而应属于转换性使用的范畴,并应构成“合理使用”或“法定许可”。
本人在一定程度上认可上述阿里研究院的观点,我们认为,通过这种方式,可能使得国内模型企业的能力有一定的提升,能够保障他们在跟美国模型竞争时有一定的竞争力。
以上是我的分享,谢谢。
(本文仅代表作者观点,不代表知产财经立场)
查看更多知识产权精彩内容,请浏览知产财经官网:www.ipeconomy.cn