作者:吴凡 北京市融泰律师事务所合伙人
随着生成式人工智能等颠覆性AI技术的突飞猛进,人类社会的生产、生活方式乃至社会治理模式都将随之迎来新的变革。在这一时代背景下,如何认识人工智能产业发展带来的各种法律问题,也越来越具有现实意义。基于此,7月13日,由中国人民大学知识产权学院主办、知产财经协办的“人工智能相关法律适用问题”研讨会在北京举办,会议邀请了行业多领域代表,共同探讨和研究实务中遇到的涉人工智能法律问题及解决之道,以期为人工智能相关环节的法律适用问题探究答案。会上,北京市融泰律师事务所合伙人吴凡围绕“人工智能模型训练阶段法律问题及解决路径”话题进行主题演讲,知产财经对其主讲内容进行了整理,以飨读者。以下是其演讲实录。
各位好,很荣幸能在这里向大家汇报我对人工智能模型训练阶段法律问题及解决路径的思考。
前不久,《纽约时报》起诉OpenAI和微软未经许可使用其作品训练模型,除了索赔之外,甚至还要求销毁与之相关联的AI模型和数据。谷歌也曾因未经授权使用新闻媒体的报道训练聊天机器人而被罚款2.5亿欧元。无论在国内还是国外,模型训练阶段未经授权的版权使用行为所引发的纠纷都层出不穷。人工智能模型训练阶段的数据使用到底是合法使用还是非法使用,也决定了后续人工智能应用、输出是否正当。
根据我国《生成式人工智能服务管理暂行办法》的要求,生成式人工智能服务提供者在开展相应的数据训练活动时,要尊重他人的知识产权。这包含了我们对快速发展人工智能和保护知识产权的双重愿景,这一方向无疑是正确的。如果在未来,计算机已经拥有了人类一样的思想,进入高等人工智能的时代,今天讨论的问题也许就不再是问题。但是在当下,我国人工智能的发展仍然处于初期阶段,我们仍然要回答人工智能带来的模型训练阶段的现实问题。
一、训练数据来源困境:高质量数据的需求vs版权侵权的风险
相较于美国在人工智能领域当中的领先地位,我国目前还处在追赶阶段。无论是算法还是算力,我国都与美国有明显的差距。数据是我国制胜的关键之一,高质量数据是人工智能发展的根基,和庞大的数据数量相比,良好的数据质量更能成为人工智能发展的引擎和催化剂。有学者研究,在同等条件之下,使用更高质量的数据来训练模型,20亿参数量级的模型甚至可以超过100亿参数量级的模型。高质量训练数据必然包含了作品和由作品所组成的数据库,这些内容是人工智能模型训练阶段的优质养料。
人工智能模型训练阶段包含诸多步骤,比如内容获取与输入、数据处理与转化、算法测试与训练等。这可能涉及复制权、改编权、信息网络传播权等诸项著作权内容。
对作品的利用大多数情况下都离不开复制,复制权是著作权人所享有的经济权利的基本核心。在“作者中心主义”的影响下,随着新技术出现,复制权往往成为权利人主张权利的权利基础。在他人将其作品输入到计算机系统时,就已经实现了复制。在人工智能模型训练阶段,将作品转化为机器可读的作品的过程中,作品的表达没有发生根本性改变,仍然可能侵犯复制权。这个过程中,有必要区分临时复制和永久复制。尽管当前各国对临时复制的法律性质存在争议,但对永久性复制应当归入复制权规制范围却存在共识。
此外,由于模型训练的黑箱性质,如果人工智能生成物中出现了他人享有信息网络传播权的作品,则可以合理推定人工智能服务提供者将他人受保护客体用于数据训练。在数据训练过程中涉及对算法进行测试及同行校验,亦可能涉及信息网络传播权等向公众传播的权利。如果向用户提供的人工智能生成物并非原样提供他人作品,而是对他人作品进行改编后的作品,也可以合理推定人工智能服务提供者在数据训练过程中将他人作品进行了改编。
整体来看,人工智能模型训练阶段存在着高质量的数据要求和侵权风险之间的冲突关系。
二、训练数据来源途径:从“拿”到“买”
面对上述高质量数据要求和侵权风险之间的冲突问题,人工智能服务提供者已经以实际行动给出了他们的答案。简单归纳下,人工智能训练数据来源途径,一个是“拿”,一个是“买”。
对于“拿”,有两种获取数据的方式。一种方式是从公有领域获取,但是公有领域作品的时效性无法满足人工智能的需求。另一种方式是冒着破坏技术措施、不正当竞争、破坏计算机信息系统等一系列显而易见的法律风险,选择使用爬虫等技术手段直接抓取。
除了“拿”,“买”也是训练数据来源的重要途径。从长远看,初始发展阶段简单粗暴的数据“拿来主义”不是长久之计。此外,权利人呼吁或以提起维权诉讼等方式主张权利的行为,使不少人工智能开发者意识到,为了获得全面、完整、稳定且高质量的训练数据需要与相关权利人订立合同取得授权,只有在授权范围内的使用行为,才能最大程度避免侵权发生。
但是,向谁买?怎么买?买不买得到?这都是现实问题。若向权利人购买版权,但作品的权利人极为分散,找到作品权利人且获得授权,是难上加难的,是效率低、成本高的事,而且无法满足模型训练的需要。若向数据库或者类似平台购买版权,比如数字图书馆、出版商等,但权利范围能否满足需要,权利来源是否一定合法,高度类型化的数据能否满足模型训练多样化的需求,也是难题。此外,虽然我国目前已有音乐、音像、文字、摄影和电影五个著作权集体管理组织,且在国际上,由著作权集体管理解决权利许可的一种相对可行的办法,但是立足于我国国情,基于覆盖面、授权准确性等原因,难以由著作权集体管理组织来从根本上解决模型训练阶段的权利授权问题。
三、训练数据困境的解决之道:合理使用制度
(一)现行著作权法的合理使用制度难以满足模型训练需求
现有的市场许可机制似乎已经难以解决模型训练阶段的主要问题,此时我们的目光有必要转向合理使用制度。我国现行著作权法的合理使用制度采用了封闭式的规定,列举了具体情形,虽然规定了“法律、行政法规规定的其他情形”,但由于立法的空白,合理使用制度仍是限于十二项具体情形。
合理使用制度规定的“为个人学习、研究或者欣赏,使用他人已经发表的作品”,虽然对数量等没有限制,但限于“个人”。以个人为中心创设的合理使用制度,目前还难以扩大解释到“机器人”乃至“机器人”背后的机构。合理使用制度例举的以科研为目的使用,能够豁免复制权的侵权,但是“少量复制”的要求难以适配人工智能领域。文化遗产机构等对内容的复制则是限于陈列或者保存版本的需要,亦不符合人工智能模型训练的需要。
虽然现行的合理使用制度,不能完整涵盖模型训练。但是人工智能模型训练阶段,作品并非用于欣赏性、阅读性使用,而是作为模型训练的养料。同时,人工智能未对原作或转码、标记、整理的内容进行传播,范围可控。此外,如果模型训练中的使用行为在我国被判定为侵权,将会促使新技术流向法律环境更为宽松的国家,不利于我国参与国际竞争。因此,模型训练过程中对作品的使用,具有被作为权利例外的基础。
针对如何优化合理使用制度这一问题,有观点提出引入“转换性使用”。美国法院整体对文本与数据挖掘持相对开放的立场,当中最具代表性的案件便是美国“谷歌图书馆”案。但因未在我国法律法规或司法解释中予以规定,我国法院在司法实践中极少适用转换性使用理论作出裁判。我国著作权法暗含了“三步检验法”,在现在的争议案件、诉讼案件中,法院有可能认定特定情况之下,模型训练阶段使用他人作品属于合理使用。但是司法裁判是一事一议,且裁判标准的不完全统一,仍会使得人工智能服务提供商处于迷茫的尴尬境地。
(二)合理使用制度的优化构想
我认为,在现行的法律规定之内增加合理使用的具体情景是一个能更简便、快捷地解决当前迫切需求的路径。
合理使用制度具有丰富的内涵,体现了版权法在其诸多价值目标发生冲突时的一种解决路径,肯定了公共利益价值在一定条件下的优先地位。扩展著作权法中的合理使用,明确数据训练过程中的合理使用标准,鼓励开发者使其行为符合合理使用的要求,如非商业性用途或者非直接商业用途的计算机分析、适度复制、合法获得访问权限的版权材料、不侵犯原作品的市场价值等。
与此同时,传统作者群体的诉求也不容忽视,毕竟人工智能的健康可持续发展,是在各方权利安排有序、利益分配合理的基础上实现的。若简单划一地将整个过程视为合理使用,确实易引发潜在作者群体的抵触情绪,甚至最终挫伤潜在作者群体的创作积极性。传统作者群体对生成式人工智能的敌意,某种程度上是来自“机器训练”“机器学习”这一表象之下的“商业目的”,有着激烈利益冲突。很多作者不是不欢迎人工智能,而是不能容忍其作品在自己不知情的情况下被用于模型训练。我们应当在尊重版权的前提下,促进人工智能产业的发展。比如为作者建立“选择退出”“选择加入”机制,给予作者充分的选择决定权;比如推动建立人工智能开发者与作者、著作权集体管理组织、研究机构等共同探索建立正版化的高质量数据库;比如让作者参与人工智能面市前的模型测试阶段,若人工智能产品面市,则可以给予作者免费使用或者低价使用的机会,给作者一定的经济让利。
我个人倾向于采取优化合理使用制度的方案,至少解决以科研为目的的文本和数据挖掘问题,并且承认出于非商业目的的科研性质的数据使用的合法性。同时也需要结合权利保留、著作权集体管理组织以及事后补偿等措施,综合性实现人工智能发展和保护知识产权的双重目标。
我国目前的生成式人工智能技术创新还处在初级阶段,而且技术快速迭代,现在是我们抓住机遇的黄金时期,一旦错过,可能需要更多的时间来追赶。法律法规的制定应当给科技创新留有一定的发展空间,对于产品在研发阶段的数据合法性要求,建立相对宽松的法律、政策环境。
今天我的分享就到这里,谢谢。
(本文仅代表作者观点,不代表知产财经立场)
查看更多知识产权精彩内容,请浏览知产财经官网:www.ipeconomy.cn