作者:北京市融泰律师事务所 吴子芳
【摘要】生成式人工智能的快速发展得益于包括既有作品等大量著作权客体在内的大数据资源,以满足生成式人工智能数据训练的要求。此种广泛持续对他人作品的使用行为以人工智能生成物形式通过网络输出予以呈现。如何在实现生成式人工智能良性高效发展的同时,维护著作权法框架下权利人的合法权利,行政、司法机关已经开展积极探索。按照著作权法规定,生成式人工智能对他人作品等著作权客体的使用主要集中在信息网络传播权等相关权项,人工智能服务提供者有必要在取得授权的情况下开展数据训练等活动,以避免因人工智能产品推向市场后被集中批量维权而影响其正常业务发展。
【关键词】生成式人工智能 著作权 数据训练
2022年11月,OpenAI震撼推出对话式AI模型ChatGPT,引发了新一轮人工智能(Artificial Intelligence,AI)迈向大模型时代的浪潮。基于“大数据”“大算力”和“强算法”深度学习模型下的生成式人工智能【1】(Artificial Intelligence Generated Content,AIGC,下文简称人工智能)开始深入普通人的日常生活,在极大便利人们工作、娱乐、艺术创作的同时,将可能颠覆性地改变对人类成果的权益划分边界和收益分配规则。人工智能所引发的各类法律争议也纷至沓来,著作权纠纷是首先被关注的焦点。
一、人工智能引发著作权纠纷的相关背景
在国内,北京互联网法院于2023年下半年判决的首例“AI文生图”著作权纠纷案认定用户通过输入提示词使用AI绘画工具所获图片构成作品【2】,广州互联网法院判决的首例“生成式AI服务”著作权纠纷案认定作为人工智能企业的被告在提供生成式人工智能服务过程中侵害了原告对奥特曼作品所享有的著作权【3】,两案均引发了学界、业界的广泛热议。最高人民法院发布的《中国法院知识产权司法保护状况(2023年)》中评价首例“AI文生图”案探索了人工智能生成物的著作权保护路径【4】。国内诉讼纠纷主要集中在讨论人工智能生成物的客体性质以及提供人工智能生成物行为的侵权责任层面。
近期,《纽约每日新闻》等八家美国知名报纸媒体起诉了OpenAI和微软。此前《纽约时报》作为首家报纸媒体就曾以OpenAI和微软违规使用其百万篇文章用于训练两家公司旗下的自动聊天机器人为由提起诉讼【5】。此外,国外已有《黎明的扎里亚》《太空歌剧院》等多幅漫画或图像,因缺乏人的创作性贡献而被行政机关拒绝作为作品登记且得到法院支持的先例。相关争议已经聚焦于人工智能大模型数据训练【6】相关的著作权保护等问题。
人工智能是技术和数据的集合产物,其基于生成对抗网络(GAN)和大型预训练模型等人工智能技术,利用已有数据来寻找规律,并通过适当泛化能力来生成相关内容【7】。其中,利用已有数据寻找规律的过程主要为数据训练过程。数据训练通常是指在大量数据基础上,利用机器学习、统计学以及数据库等数据挖掘(Text Data Mining,TDM)、自动化分析数据技术,提炼分析文本内容以及其他有价值的信息,从文本或数据导出或组织信息的过程【8】。现阶段国内外争议恰好反映了与人工智能相关的两类焦点问题:一是人工智能输入端问题,即根据人工智能生成物认定人工智能服务提供者在数据训练中未经许可使用他人作品,并判断该行为的法律责任。二是人工智能输出端问题,即人工智能生成物能否成为著作权法保护的作品等权利客体;如果可以成为权利客体,如何认定权利主体。下文就前述问题展开讨论。
二、人工智能数据训练涉及的著作权问题
为发展优化人工智能,尤其是生成式人工智能,需要“投喂”大量的数据(文字、图像、音频、视频等)进行数据训练。大数据模型不可避免地在进行数据训练过程中使用他人已发表作品等公开的权利客体。但是仅仅只是训练阶段的使用,尚未提供给合作伙伴或者相关用户使用其人工智能产品的,他人并没有机会或者途径了解到其作品被训练使用的情况。正如OpenAI的ChatGPT研发训练多年,在没有向用户提供广泛使用前,并未发生普遍争议。
人工智能若仅停留在单纯数据训练阶段不进入应用阶段是没有现实意义的。客观上国内外已有众多人工智能产品面世进入应用领域,并且正是通过用户的广泛持续大量使用进一步完善数据训练,提升人工智能产品的智能化水平和程度。如ChatGPT的用户协议中约定,用户输入的内容将作为ChatGPT学习的文本数据之一,如果用户不同意此使用方式,可以通过邮件等方式拒绝授权而不会影响其正常使用等【9】。
(一)从人工智能生成物看数据训练行为
如果经过训练阶段人工智能产品后续必将推向市场进入公开使用阶段,人工智能服务提供者一般有必要取得训练阶段所使用他人作品的授权,除非人工智能服务提供者能确保其人工智能产品智能化程度极高,人工智能生成物中完全看不出来使用他人作品的表达。但是目前,人工智能尚未达到如此高度。
按照目前著作权法“先授权后使用”的基本理论,不能因为权利人不知悉自身作品被使用的情况,不会启动维权,而使人工智能服务提供者无需为其数据训练所使用他人作品的行为取得授权。但是,客观上,由于数据训练过程中对作品的使用具有“黑盒”性质,包括权利人在内的他人并不知道具体的使用方式,也难以对应现行《著作权法》第10条中规定的具体权项所涉及的使用行为特征。所以往往只能通过人工智能生成物的表现形态再来主张数据训练过程中对他人作品的使用行为实际可能影响的著作权权项。
实践中,对数据训练未经许可使用他人权利客体产生争议的情形主要发生在用户使用人工智能产品并获得人工智能生成物后,权利人发现该生成物中体现了其权利客体内容,进而推知在人工智能数据训练中未经许可使用其权利客体。此争议发生的前提是人工智能生成物中能相对完整地体现他人的作品表达或者受保护的权利客体内容。假如首例“AI文生图”案中《春风送来了温柔》一图中的人物肖像本身来自某摄影师的摄影作品,此时该摄影师可能会提出侵权主张,但如果该图完全无法体现在先作品的痕迹,权利人要主张人工智能数据训练中使用其作品将面临举证困难而难以得到支持。如果没有利用他人享有著作权的作品生成类似风格的作品,原则上不应当认定构成对他人著作权的侵害【10】。可以预见,在未来的强人工智能时代【11】,当前探讨的一系列问题终将不成问题。
当然,目前的人工智能尚未脱离人的自主意识阶段,正如《纽约时报》起诉OpenAI的诉讼中引用的案例显示,当被问及相关时事时,ChatGPT有时会生成《纽约时报》文章的逐字摘录,而这些文章在《纽约时报》的网站上是需要付费阅读的【12】。所以,现阶段通过人工智能生成物进而衍生探讨人工智能数据训练相关的著作权问题是有意义的。
(二)因人工智能数据训练可能引发的著作权侵权责任
1.人工智能训练数据是否构成对著作权权利客体的使用
使用大量已有数据进行数据训练显然是人工智能完成文本、图像、语音等内容智能合成的必要条件。在大量数据集基础上的训练,通常包含对既有数据的收集、存储、采样、处理,以及在特定算法下的输出等。在此过程中,有学者认为可能涉及对作品、制品的复制权、表演权、广播权、信息网络传播权等著作权法项下多个权项的侵权行为【13】。我国《生成式人工智能服务管理暂行办法》第七条规定了人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵害他人依法享有的知识产权。不仅是我国,欧盟的《人工智能法案》(the AI Act),规定用于生成艺术、音乐和其他内容的生成基础AI模型将受到严格的披露义务的约束。此类模型和生成内容的提供者必须披露内容是由AI而不是人类生成的,训练和设计其模型以防止生成非法内容,并发布有关使用受版权法保护的训练数据的信息【14】。该法案于当地时间2024年3月13日在欧洲议会通过,5月21日于欧盟理事会通过。
当前,包括知识产权在内的数据已经成为重要的生产要素和经济资源,人工智能数据训练过程中尊重并保护知识产权的原则和方向无疑是正确的,但任何针对事物的讨论不能仅停留在单纯理论分析层面,而应结合法律基本规定对客观事物本身的实现方式、应用特点、功能作用等展开分析,才能有的放矢,解析真问题。下文将对人工智能数据训练过程中可能使用著作权权利客体的情形进行梳理。
(1)复制权
《著作权法》第十条第一款第五项规定,复制权指以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利。按照法律释义,复制权是将作品制成有形的复制品的权利【15】。复制权是著作权人之经济权利的核心,因为对作品的利用大多离不开复制。这一结论在媒体融合时代也不会发生改变。【16】因此,部分观点认为,在数据训练过程中需对数据进行存储,自然落入了复制权的规制范畴,复制权是数据训练必须解决的问题,同时,人工智能生成的内容与原作品在表达上构成实质性相似,亦涉及复制权。部分观点则认为不构成对复制权的侵害,理由涉及训练阶段的实际行为是临时复制,是对原作品的转换和分析而非使用独创性表达等。
复制权体现了著作权人通过控制作品有形复制件数量从而控制对作品的使用。实践中,作品的复制行为通常是作品其他使用行为的前期准备,通常与发行、信息网络传播等行为结合使用。
比如,北京高院在(2024)京民终234号民事判决书中认定,“至于复制权,可以认定三鼎梦公司在上传涉案游戏过程中实施了复制涉案游戏的行为,但该行为系信息网络传播中直接提供行为的必要环节,在认定构成侵害信息网络传播权的情况下,没有必要单独进行认定,其也不单独造成权利人的损失。”在北京高院(2020)京民申3206号民事裁定书(简称3206号裁定书)中,该院认定,“芝兰玉树公司传播的系以涉案作品的词、曲及一定的卡通画面合成的Flash动画,其必然涉及利用一定的数字化设备进行合成、制作的过程,该过程包含了将涉案作品以数字化的形式固定在数字化设备上的复制行为,已落入著作权法所规定的复制权范畴。芝兰玉树公司后续在网站上提供含涉案词曲Flash动画的行为亦落入了著作权法所规定的信息网络传播权范畴。”
又如,作品复制权与发行权通常会结合使用,发行权是向公众提供作品原件或复制件的权利。《著作权法》第六十三条将作品的复制、发行明确规定为出版,故单纯的复制权常发生在权利人发现印刷公司批量印刷了部分侵权图书,尚未公开投入市场的情形中。
人工智能数据训练过程中收集、存储作品到用于训练的数据库中,此过程通常不强调作品复制件数量,甚至随着技术发展有些数据训练直接调用云端数据而不需要进行存储到己方服务器。同时,由于在人工智能数据训练阶段,尚无复制行为之后的发行、信息网络传播等行为,是否造成实际损害也是未知。因此,除数据训练阶段有数据存储情形涉及复制行为进而可能侵害复制权外,笔者不赞同人工智能数据训练过程中使用他人作品的数据处理行为可能侵害复制权。
(2)表演权和表演者权
《著作权法》第十条第一款第九项规定,表演权指公开表演作品,以及用各种手段公开播送作品的表演的权利。公开表演作品通常是指“现场表演”或者“活表演”,典型情形如歌手在休闲广场公开演唱歌曲,故人工智能训练数据中使用他人作品首先可以排除系公开表演他人作品。对于表演权定义的后半段,一般理解为“机械表演”,即借助技术设备将“活表演”进行公开传播,例如宾馆、饭店大堂播放音乐。不论是“活表演”还是“机械表演”,都强调表演环境的“公开性”特点。显然,人工智能数据训练的过程中即使存在对作品的“表演”,也不具备公开性,正相反,数据训练本身与人工智能的算法相结合,这显然属于人工智能核心技术内容,一般不会公之于众。
关于表演者权,《著作权法》第三十九条规定的表演者所享有的权利包括表明身份、保护表演形象不受歪曲,许可他人从现场直播或公开传送其现场表演,许可他人录音录像,许可他人复制、发行、出租录有其表演的录音录像制品,许可他人通过信息网络传播其表演等。人工智能数据训练过程中可能将既有的表演者形象、声音等特征性要素作为数据内容进行训练,有必要讨论是否存在侵害表演者权的情形。表演者人身权通常为了规制他人使用表演者表演时割裂表演者与其表演的关系、影响表演者声誉等行为,考虑到人工智能数据训练一般不向表演者在内的普通用户公开,数据训练过程也不属于录音录像,或者现场直播或公开传播现场表演等行为。同时我国出于对个人信息的保护,目前在数据训练阶段对个人信息清洗的要求越来越规范和严格。因此,除“许可他人通过信息网络传播其表演”外,人工智能数据训练一般不涉及表演者权的其他权项。
(3)广播权
《著作权法》第十条第一款第十一项规定,广播权指以有线或者无线方式公开传播或者转播作品,以及通过扩音器或者其他传送符号、声音、图像的类似工具向公众传播广播的作品的权利,但不包括本款第十二项规定的权利。由于广播权强调实时性,通常适用于广播电视或网络直播场景,显然与人工智能数据训练的使用情形相距甚远。
(4)信息网络传播权
《著作权法》第十条第一款第十二项规定,信息网络传播权指以有线或者无线方式向公众提供,使公众可以在其选定的时间和地点获得作品的权利。信息网络传播权强调通过信息网络向用户交互式提供作品、录音录像制品以及表演。考虑到当前的人工智能产品主要以互动聊天方式提供人工智能生成物,因此,如果人工智能生成物中出现了他人享有信息网络传播权的客体或受保护的客体部分,则可以合理推定人工智能服务提供者将他人受保护客体用于数据训练。此外,在数据训练过程中亦涉及对算法进行测试及同行校验,亦可能涉及信息网络传播权等向公众传播的权利。
我国著作权法框架下,信息网络传播权纠纷将可能成为人工智能数据训练所要面临的最主要的著作权问题。
(5)改编权等
《著作权法》第十条第一款还规定了改编权、翻译权、汇编权等权项。如改编权,是指改变作品,创作出具有独创性的新作品的权利。如果向用户提供的人工智能生成物并非原样提供他人作品,而是对他人作品进行改编后的作品,无疑也可以合理推定人工智能服务提供者将他人作品在数据训练过程中进行了使用。翻译权、汇编权亦如此。
综上,根据著作权法规定的相关权项,结合人工智能数据训练使用场景等具体情形,人工智能服务提供者在进行数据训练过程中,有必要根据用于数据训练的客体类型,取得作品信息网络传播权、改编权等权利。如录音录像制品权利人并无改编权,则无需取得该权利。
人工智能的发展带动了训练数据市场增长,部分公司为训练更强大的人工智能模型获得竞争优势,规避侵权风险等,开始购买人工智能训练数据,如Adobe公司购买视频训练AI模型。如权利人享有全部或部分权利的作品、制品可能被人工智能服务提供者用于数据训练,则应结合自身所持有的客体类型明确对外授予的权利。
相对应地,如果发现人工智能服务提供者在数据训练等过程中未经许可使用他人权利客体,权利人维权索赔主张可以结合作品等权利客体被使用的范围、持续时间等具体使用情节提出。如果人工智能服务提供者实施侵权行为存在故意且情节严重的情形,权利人还可以依法提出惩罚性赔偿请求。
2.人工智能数据训练对他人著作权客体的使用是否构成合理使用
著作权合理使用是在指明作者或者作品名称的情况下,可以不经著作权人许可,不支付报酬使用他人作品的情形。《著作权法》第二十四条吸收借鉴《伯尔尼公约》第9条第2款规定了合理使用的基本要件,即“不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”,同时还列举了12项典型的合理使用情形。
当前,人工智能数据训练所涉数据中包含他人享有权利的作品、制品等大量著作权客体,部分学者就是否构成合理使用问题从各种角度进行分析【17】,但正如上文分析,仅针对数据训练过程,包括数据挖掘、分析、处理等一系列方式对作品的使用一般不属于著作权法所规定具体权项所涵盖的行为范畴。实践中,人工智能面向用户使用的过程往往与数据训练过程融合,由此通过人工智能生成物可以认定人工智能数据训练中使用了他人著作权客体或者部分客体。对于作品而言,尽管是片段式的,但只要能体现作品的独创性表达,都可获得著作权保护。如北京互联网法院曾认定13秒时长的短视频构成类电影作品肯定其著作权【18】。因此,如果他人作品等著作权客体出现在人工智能生成物中,正如上文分析,不排除会侵害他人信息网络传播权、改编权等权项,被认定构成合理使用的难度较大。
至于部分学者提到的美国法中“转换性使用”【19】等认定,因未在我国法律法规或司法解释中予以规定,我国法院在司法实践中极少适用相关理论作出裁判。
3.人工智能服务提供者取得权利主体的授权能否解决人工智能数据训练可能产生的侵权责任
目前,我国出台的一系列规范性文件,包括《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》《国家新一代人工智能标准体系建设指南》等,美国出台的《人工智能应用规范指南》(Guidance for Regulation of Artificial Intelligence Applications)【20】,欧盟《人工智能法案》等,均对人工智能数据训练中的来源数据提出了要求。实践中,多种权利主体呼吁或以提起维权诉讼等方式主张权利的行为,使不少涉及人工智能大模型数据训练的企业已经意识到为了获得全面、完整、稳定且高质量的训练数据需要与相关权利人订立合同取得授权,只有在授权范围内的使用行为,才能最大程度避免侵权发生。
首先,从数据权利人处取得授权显然较未经许可直接使用的侵权风险低。从长远看,人工智能要顺利健康可持续发展,必然是在各方权利安排有序、行为边界清晰、利益分配合理的基础上实现,依靠初始发展阶段简单粗暴的数据“拿来主义”显然是不可行的。
其次,人工智能数据训练中对不同类型的数据使用方式不同,如对文字作品可能是提取段落、语句等要素,而对音乐要采集曲调、旋律或节奏片段,对视频则要提取场景、图像、特效等画面。不同类型的数据对应不同权利客体,亦对应不同的权利主体。因此,人工智能服务提供者就有必要结合其具体使用场景、期限、范围、是否允许转授权等需求与相关权利主体订立许可使用合同,以解决人工智能数据训练以及用户使用、人工智能生成物后续传播的著作权问题。
再次,与腾讯公司诉盈讯公司案中腾讯公司的主张不同,当前的人工智能服务提供者大多不再主张享有人工智能生成物可能产生的知识产权,而将这一权利让渡给用户。如首例“AI文生图”案中,Stable Diffusion的用户协议约定其“仅用于AIGC技术学习,其不对您使用模型生成的输出声称任何权利。您对生成的输出及其后续使用负有责任。”另一人工智能产品Kimi【21】在用户协议的“关于生成内容的知识产权”中明确“您基于Kimi智能助手生成的内容的版权由您自行维护并对其独立判断后使用,产生的任何知识产权问题都由您自行处理”。
在此情况下,是否意味着人工智能生成物侵权与否与人工智能服务提供者无关?答案显然是否定的。对于被用于人工智能数据训练而使用的著作权客体权利人而言,正是人工智能服务提供者首先使用其权利客体进行数据训练,才导致在用户使用人工智能产品后,相关包括了权利人客体的数据训练成果以人工智能生成物形式出现。不论人工智能服务提供者保留或是让渡人工智能生成物的权利,其使用他人作品的行为是客观存在的,就应当为其未事先取得授权而使用的行为承担相应的责任。
最后,从著作权客体权利人的角度考量,特别是在短视频业务蓬勃发展的当下,对于视频类客体权利人,如果本身的视频内容并非原创,如从其他权利人处取得授权,再将所获得的授权客体授予人工智能服务提供者时,还要注意以下方面:一是向人工智能服务提供者授权属于转授权行为,需要上手权利人授予转授权权利方可实施。二是权利人仅能在自身取得授权范围内向人工智能服务提供者授予权利,不能超出授权范围。例如,取得权利的客体是动漫作品本身,并未取得其中特定角色形象的著作权,则不能向他人转授权特定角色形象著作权。同样地,对于人工智能服务提供者而言,其获得著作权客体权利人的授权也应谨慎审查其授权范围等效力,以免出现无效授权。
三、人工智能生成物的客体性质及权利主体
(一)人工智能生成物能否作为著作权法的权利客体
人工智能生成物客体性质以及权利主体问题是当前司法实践以及学者探讨的重点问题。如上文提及的首例“AI文生图”案,以及此前的菲林诉百度公司案【22】、腾讯公司诉盈讯公司案【23】,三案生效判决在判决结果、审判思路方面存在不同。除了菲林诉百度公司案中法院否定人工智能生成的涉案文章内容构成作品,其余两案均认定人工智能生成物构成作品。“AI文生图”案认定提供了提示词的人工智能用户是作者,而腾讯公司诉盈讯公司案认定提供人工智能服务的腾讯公司享有其人工智能自动生成文章的著作权。
学者们在积极讨论过程中形成了旗帜鲜明的两派观点:以王迁教授为代表的学者认为,著作权法保护的作品须为人类的创作成果,包括ChatGPT在内的人工智能生成的内容在形式上的“独创”,并不是构成作品的充分条件,人工智能生成的内容不属于受著作权法保护的作品【24】。既然不是作品,也就无所谓作者以及著作权人。以李扬教授为代表的学者认为,人工智能仅是人的创作工具,且相较于著作权法规定的法人作品,既然能将具备法律主体资格的自然人视为创作工具,将无法律主体资格的人工智能视为创作工具在法理上更无障碍。虽然人工智能生成内容的独创性来源于使用者对提示词的选择和安排,但排他权范围仅延及人工智能最终生成的表达内容,单独的提示词属于不受保护的事实性材料,因此对满足独创性标准的人工智能生成内容赋予著作权保护,不会过度限制公众的行动自由【25】。还有观点扩展解释,著作权法的“宽进宽出”结构提示我们,将用户作出独创性表达的AIGC纳入著作权法图式是在认知层面最为经济的利益平衡分析框架,承认AIGC获得作品资格的可能性并不会过度妨碍公众自由【26】。
能否将人工智能生成物作为著作权法的权利客体,既是对法律基础问题的阐释,同时也是对产业导向指引以及行业发展激励等司法政策的理解。由于目前并无立法或政策明确规定人工智能生成物的客体性质,对生成式人工智能产生的法律问题,仍在个案中具体审理判断,著作权法仍然是必须考虑的重要法律依据。考虑现阶段人工智能发展水平,按照最新的“AI文生图”案判决,人工智能本身不具备自由意志进而认定人工智能生成物因用户提供提示词的作用而属于人的创作,可以构成作品。
(二)人工智能生成物客体性质差异对著作权权利主体的影响
当前国内司法实践中既有认定人工智能生成物为作品的判决(如“AI文生图”案),也有不认定人工智能生成物为作品的判决(如菲林诉百度公司案)。对于作品著作权人等权利主体而言,前述两种裁判观点是否影响其权利客体被人工智能服务提供者用于数据训练活动,同样值得讨论。
一方面,不论人工智能生成物是否被认定为作品或其他受著作权法保护的客体,其中所体现的他人权利客体不因人工智能生成物本身被认定的客体性质而变化。仍假设《春风送来了温柔》一图中的人物肖像来自某摄影师的摄影作品,那么即使《春风送来了温柔》一图因系人工智能生成过程缺乏人的创作而不被认定为作品,但其中体现摄影师作品内容的部分仍可受到著作权法保护。
另一方面,对人工智能生成物客体性质的认定差异,直接影响被用于数据训练权利客体的权利人如何选择维权对象。如果人工智能生成物不构成作品等受保护的著作权客体,前述假设情景下的摄影师主张维权的对象仅有人工智能服务提供者。如果人工智能生成物构成作品等受保护的著作权客体,那么摄影师不仅可以向人工智能服务提供者提起维权诉讼,而且在用户将人工智能生成物通过信息网络传播等实施了相关使用作品行为的情况下,摄影师还能向包括用户在内的作品权利人提起维权诉讼。另外,在腾讯公司诉盈讯公司案中,人工智能服务提供者和用户合一,就无所谓区别对待不同行为主体的问题。
四、小结
2017年,国务院印发《关于新一代人工智能发展规划》【27】,明确提出人工智能发展进入新阶段,将人工智能发展列入国家战略的层面进行系统化布局,人工智能是引领未来的战略性技术,是新一轮产业革命的核心驱动力。此后我国的人工智能进行快速发展阶段,其中人工智能数据训练的成效属于人工智能发展进程的关键因素之一。用于数据训练的数据集合中包含海量数据,显然包括了大量他人享有著作权的权利客体。以ChatGPT为例,其训练数据主要来源于维基百科(Wikipedia)、期刊杂志(Journals)、Common Crawl、书籍(Books)、Reddit社交新闻站点和其他数据集【28】。这些他人享有权利的数据是权利人通过数十年努力积累而成,人工智能的发展并不能忽视基于这些成果所形成的权利,而应在现有法律框架下合法取得数据并进行数据训练,以此获得人工智能高效、持续、良性发展。
注释:
【1】按照国家互联网信息办公室等七部委于2023年7月10日联合发布的《生成式人工智能服务管理暂行办法》 第二十二条规定,生成式人工智能技术,是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。生成式人工智能技术,是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术;生成式人工智能服务提供者,是指利用生成式人工智能技术提供生成式人工智能服务(包括通过提供可编程接口等方式提供生成式人工智能服务)的组织、个人;生成式人工智能服务使用者,是指使用生成式人工智能服务生成内容的组织、个人。
【2】北京互联网法院(2023)京0491民初11279号民事判决书。
【3】广州互联网法院(2024)粤0192民初113号民事判决书。
【4】参见中国法院网,https://img.chinacourt.org/mup/uploadfile/2024/04/22/12/8fa944f259dcc2705ffe283a7c2be810.pdf.
【5】https://apnews.com/article/chatgpt-newspaper-copyright-lawsuit-openai-microsoft-2d5f52d1a720e0a8fa6910dfd59584a9.
【6】人工智能数据训练(AI Training Data),也可称为“数据挖掘、机器学习”等。
【7】高金智库等于2023年10月发布的《2023生成式人工智能服务合规发展白皮书》,https://www.sohu.com/a/724688284_121763369.
【8】曹伟、万靖瑜:《生成式人工智能训练数据的治理与构建》,载微信公众号“知识产权家”2023年10月5日发布,https://mp.weixin.qq.com/s?src=11×tamp=1715334042&ver=5252&signature=oExdYTAVJ7dzkN82IscznAd6dn40dm*TtzKfNLltUPLG8I8Sz1FTRzH*u6gRHRCi0SLSfVFNmqXsdxUmOcGroPSC0CfJUkL9yy6aM2PlGfWA5wPEv9lwjtOBbwsiUews&new=1.
【9】参见OpenAI官网,Introducing ChatGPT,https://openai.com/index/gpt-4/.
【10】王利明:《生成式人工智能侵权的法律应对》,载《中国应用法学》2023年第5期。
【11】强人工智能(Artificial General Intelligence,AGI,Strong AI),该词最初是约翰·罗杰斯·希尔勒针对计算机和其它信息处理机器创造的,其定义为:“强人工智能观点认为计算机不仅是用来研究人的思维的一种工具;相反,只要运行适当的程序,计算机本身就是有思维的。” J Searle in Minds Brains and Programs. The Behavioral and Brain Sciences, vol. 3, 1980。参见百度百科“强人工智能”词条,https://baike.baidu.com/item/%E5%BC%BA%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/10403678?fr=ge_ala.
【12】郑栩彤:《大模型版权争议再起 纽约时报起诉OpenAI和微软》,载《第一财经资讯》微信公众号2023年12月28日发布,https://mp.weixin.qq.com/s?src=11×tamp=1715265163&ver=5250&signature=GOPRMxOe6JOUGJIkOx7gO7s*BLWpB8zWRgg*MpSv-iDNFnrPu7L2r3C423bPgbZLPlUdH0SAM6aTi2vUO5VHaOtcwM3--EubdIpVxexYWoo=&new=1.
【13】焦和平、梁龙坤:《人工智能合成音乐的著作权风险及其化解》,载《知识产权》2023年第11期。
【14】https://artificialintelligenceact.eu/the-act/.
【15】黄薇、王雷鸣:《中华人民共和国著作权法导读与释义》,中国民主法制出版社2021年3月第1版,第84页。
【16】王迁:《网络著作权专有权利研究》,中国人民大学出版社2022年8月第1版,第17页。
【17】刘禹:《机器利用数据行为构成著作权合理使用的经济分析》,载微信公众号“知识产权杂志”2024年4月22日发布, https://mp.weixin.qq.com/s?src=11×tamp=1715334228&ver=5252&signature=6U-Fyj*UyiNcWxVbLyUyncMKPI4hUOA3yg5AMZm7wHk1T0040fZJk6QQ0xUwZGIO-6lySxR4NzoP2po9jiveTyKNhwD7m8qr5-26lkN6j3-QrOyh-bnj*lfbhMQMLKIZ&new=1;宋海燕、陈佩龄:《浅析ChatGPT训练数据之合理使用》,载于微信公众号“金杜研究院”,2023年4月25日发布,https://mp.weixin.qq.com/s?src=11×tamp=1715334306&ver=5252&signature=5okG6V7JGzb7s7w9XE854nr4pDcGDyJQz40yuLW6hNITCYvPiKcorxxXV0ub06gTsK6fCgiwAQWLnd6sLNzglNKDAW0uYtpi8rswEYFWXKLsrkvVv8UOqEypiTKszMP9&new=1。
【18】北京互联网法院(2018)京0491民初1号民事判决书。
【19】李杨:《著作权法中的转换性使用理论阐释与本土化适用》,载《河北法学》2022年第6期。
【20】https://www.whitehouse.gov/wp-content/uploads/2020/11/M-21-06.pdf.
【21】北京月之暗面科技有限公司推出的人工智能产品“Kimi智能助手”, https://kimi.moonshot.cn/?data_source=tracer&utm_campaign=TR_PbzLg2eV&utm_content=&utm_medium=%E5%BE%AE%E8%BD%AFbing&utm_source=bing&utm_term=&msclkid=4dd069f35a021fe9fed50fceb55599ed.
【22】北京互联网法院(2018)京0491民初239号民事判决书。
【23】广东省深圳市南山区人民法院(2019)粤0305民初14010号民事判决书。
【24】王迁:《ChatGPT生成的内容受著作权法保护吗?》,载《探索与争鸣》2023年第3期;《再论人工智能生成的内容在著作权法中的定性》,载《政法论坛》2023年第4期。
【25】李扬、涂藤:《论人工智能生成内容的可版权性标准》,载《知识产权》2024年第1期。
【26】蒋舸:《论人工智能生成内容的可版权性:以用户的独创性表达为视角》,载《知识产权》2024年第1期。
【27】中华人民共和国中央人民政府网站,https://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
【28】姚前:《ChatGPT类大模型训练数据的托管与治理》,载《中国金融》2023年第6期。