作者:李士林 南昌大学法学院教授
黄 诚 南昌大学法学硕士
一、ChatGPT的技术核心与法律表达
ChatGPT是美国人工智能研究公司OpenAI发布的一款智能聊天机器人,通过 “模仿学习+强化学习”表现出非常通用且强大的自然语言处理能力,不仅可以与用户进行高质量的对话,而且可以准确地按照用户意图问答、对话,完成文档概况、文本创作等场景任务,甚至可以撰写行业报告、营销方案等[1]。难能可贵的是,ChatGPT可以主动承认错误,质疑不正确的对话,支持上下文理解并展开连续多轮对话。
ChatGPT之所以能够实现复杂的智能对话,端赖于其独特的核心技术构成,其可简要归纳为三点:其一,基于GPT-3.5(Generative Pre-trained Transformer 3.5)自然语言处理模型,主要包含超大的统计语言模型或顺序文本预测模型,使用RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)技术进行训练。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。奖励和优化模型获得SFT(Supervised Fine-Tuning)模型。训练奖励模型(Reward Model,RM)采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。其二,大数据:截止2022年11月参数量已经达到千亿级,预训练的数据量达到百T级;该模型使用来自互联网的文本数据库进行训练,包括从书籍、网络文本、维基百科、文章和互联网其他文本中获得的高达570GB的数据。更准确地说,它在5000亿个单词组成的训练数据上进行了高强度训练。其三,逻辑算法,ChatGPT仍然是黑盒模型。目前还未能对ChatGPT的内在算法逻辑进行分解,虽然使用AI对齐水平,加入了道德和伦理因素,但是并不能保证ChatGPT不会产生攻击甚至伤害用户的表述。[2]
ChatGPT不仅是技术上的一次突破,而且其强大的功能可能会带来生产关系的变革,考量和冲击现有的法律体系。考察其功能实现路径,我们不难发现ChatGPT作为智能机器人在法律语境下可以做如下表达:其一,在支持人工智能为法律主体的国家,ChatGPT可以获得主体地位;其二,构成ChatGPT的自然语言处理模型、反馈模型、优化模型等以计算机语言和程序代码实现,可以归类为著作权法上的计算机软件;其三,ChatGPT不同于搜索功能的大语言库,[3]依赖于获取的超量数据,受数据法律规范和相关文本访问与使用的约束;其四,ChatGPT的输出和表达涉及信息的表达和传播,受信息法律的监管和规制;其五,其运用算法进行内部训练和学习,可能存在著作权侵权和合理使用的疑问。
二、现有法律框架内的风险评价
在我国当下的法律语境中,调整信息的规范方式有内外之别。存在于内心无发乎于外者当属内心自由的范畴,不受法律的约束,由此延及私人领域的学习自由、交流自由和表达自由。个人可以利用一切可及的资料和素材充实自己的知识,提高自身的智识水平,达致高水平的专业能力;在他人允许的范围内,可以自由选择交流的对象,交换自己的思想和观点;通过写作和自言自语自由表达自己的思想,或者借助一定的表达工具记录自己的想法和观点。所有这一切私人行为只要限定在不影响他人的范围内,当不受法律的监控和规制。如果信息以一定的方式表达并公之于众,对他人产生智识、思想或情感上的影响,那么以信息为中心形成的多种社会关系就成为法律所调整的对象,为法律所规范。信息的传播因其方式的不同分别受到新闻法、出版法、网络信息法等规范的约束。具备独创性的作品在复制、传播过程中形成了一系列的财产关系。侵权性抄袭、复制、网络传播等行为引发相应的侵权诉讼。
ChatGPT是一款在模型框架内对大语言数据运用算法和算力训练而成的智能对话机器人。其强大的智能对话和文字处理功能皆建立在模型对大量资料的存储、运算、识别和调用中。依照信息规范的内外路径,ChatGPT包含了信息的内部处理程序和外部表达程序。在内部信息的处理过程中,其通过预先的学习、强化、反馈等过程,生成大语言库,在接收到用户对话或需要的内容指令,生成经过大算力之后的信息,然后将信息文本或对话通过编码输入,再通过解码输出最后的内容,即用户最终需要的文本、语音对话等。整个过程都在ChatGPT的内部程序和算法控制的范围内运行。从信息的内部规范路径审视,这些行为都属于私人领域的事务,并不受外部规范的约束。但是ChatGPT并非像自然人一样自行控制自己的内部学习,其全部的私行为其实为程序员施行大量的外部性社会行为的结果。剖析ChatGPT内部的运行机理,我们可以将其为集成程序所进行的外部行为归纳为一个流程,即资料搜集、数据攫取——加工整合成大语言数据库——命令的接收和算法运算——结果输出。
首先,从目前报道的情况看,ChatGPT的大语言信息来源于公开的网页信息、信息资源库(比如,维基百科等)、数字图书馆、专业数据库、社交平台等内容,使用爬虫协议等底层技术通过对大语言信息的搜索、归类、分析,训练ChatGPT成为智者。所爬取的信息如果属于公开可以利用的数据,自然就可以归入大语言库,如果属于信息来源方采用技术措施加密或不愿意分享的内容,ChatGPT就无法合法取得,否则构成破坏技术措施侵权,或者因非法访问、处理他人数据,构成不正当竞争侵害。由此可见,ChatGPT的训练学习和智能对话建立在大量信息的获取基础上,在不同的语言区域内,由于获取某种语言的信息广度和限度不同,导致ChatGPT处理和输出的信息量有所不同,在不同语言操作的情景对话情形下,ChatGPT输出的结果有所偏差,比如,在英语对话的场景中获得的结果比某种小语种输出的结果丰富。考虑到ChatGPT非对话情境下的强大翻译能力,用户可能获取的结果更多源于对英语信息的处理。如此以来,ChatGPT在推动信息流动的同时,反而加重了知识产权塑造的信息殖民格局。如果考虑到ChatGPT所在国善于政治操弄,ChatGPT政治立场上“选边站队”,[4]那么在ChatGPT置入意识形态内容,比如对平权意识、种族问题、性别问题等,它都会有一套符合美国政治标准的处理方案,并不是一个纯粹全球性的东西。[5]这反而更便捷于对他国发动信息战和政治攻击。
其次,在信息处理和形成的过程中,除面对数据权益和垄断的问题,还牵涉对享有知识产权信息的处置。ChatGPT的训练和学习过程是否存在知识产权问题,需要知识产权的例外和豁免?或者如上述的私人学习过程,根本不涉及知识产权问题呢?著作权对于私人学习行为,包括学习、研究、欣赏以及介绍、评论、说明某一问题引用的内容予以著作权侵权例外。ChatGPT的大语言训练过程,包含了对海量数据的处理,自然也涉及对作品的学习和利用,这个训练过程归入私人学习的范畴呢,还是属于复制、剪辑和重新排列组合呢?在著作权规范表达及其延伸至表达的物化载体前提下,我们大可不必究问形成表达的内部过程,不管是对于私人的学习,还是人工智能的内部训练,只要其最终的表达不落入著作权权利覆盖的范围内,自然不会侵犯著作权。唯一的疑问在于,ChatGPT内部训练学习的过程中,是否牵涉对他人数据的非法访问、存储、截取和运算。目前在我国法域内,数据的非法操作可能涉嫌构成不正当竞争。为了推动数据的流通,促进数字经济的发展,未来需要探索数据产权制度,为数据流通提供足够的制度支撑。
综合以上论述,ChatGPT的内部训练可以归结为法律规范上的数据使用问题,如此以来,ChatGPT的法律评价主要牵涉外部表达的法律性问题。
最后,考虑到ChatGPT强大的对话、思辨和学习能力,我们将其视为言论者或发言者并不过为。就言论者而言,其表达受到更多的人权宪章、国家主权、反邪教、反歧视、鼓吹战争、犯罪色情等限制。从我国的信息管控法的层面分析,这属于公法所控制的信息范围,任何组织和个人不得传播。
利用信息优势和技术优势,对他国政府、人民和社会进行污蔑、歪曲和抹黑,进行所谓的意识形态渗透,搞双标,操纵国际议论孤立和压制他国,以所谓的人权问题,颠倒黑白,扶植和组织反对势力对他国进行网络攻击和数据篡改等等一系列侵害他国信息安全和信息主权的行为都可能被ChatGPT翻越管控,放大、突出和散播。
第二类信息管控的是有害价值观和意识形态的软影响,虚假信息,煽动、拱火和挑拨,未经证实的伪科学,以及利用政治手段打压经济、文化、疫情等全球化和国际化的共同问题。尤其是私权争端的政治化,比如美国通过的商业秘密执行法案,将知识产权争端政治化和妖魔化等等有害言论。[6]
第三类为ChatGPT口头对话和文字表达涉嫌对他人人身性权利的损害,包括隐私权、人格尊严等等的隐私、歧视性侵害。文字表达涉嫌对他人作品的抄袭和剽窃,这其中可能会加重网络洗稿、超大数据片段的重新排列和组合,犹如混音作品对大量音乐音符的抽取和重组,加重了传统三步法、层次法等内容比对判断作品侵权方法应对的难度。
三、面向技术未来的法律变革
当前围绕AI的主导权争夺战愈演愈烈,不管对于哪个领域,数据都是AI不可或缺的基础资源。在汽车、医药、能源行业AI应用发展居于前列,新药的研发有赖于对病例的大数据分析,借助于AI针对病症、病灶的药物分子研究可以提高药物的研发效率,保证新药的有效靶点数。汽车的AI驾驶技术,电力的有效分配和电力系统的持续供应依赖于AI的算力和精准反应。AI智能有效运行的核心是数据,建立有效的数据流通和交换制度,解绑约束信息自由流通的知识产权制度,是推动ChatGPT新一代人工智能技术发展的必由之路。
(一)构建数据产权制度
为了在关键核心技术上获得突破性发展,我国发布了《关于构建数据基础制度更好发挥数据要素作用的意见》(又称《数据二十条》)以促进数据合规高效流通使用、赋能实体经济为主线,探索适应数字经济发展的产权制度。根据数据来源和数据生成特征,分别界定数据生产、流通、使用过程中各参与方享有的合法权利,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,推进非公共数据按市场化方式“共同使用、共享收益”的新模式。
目前依照我国法律的规定,信息的来源主体为个人、企业和政府部门。个人数据的主要内容为个人信息,剔除可识别性信息或者匿名化之后的数据,可以使用与流通。依照共同收益的原则,即便匿名化后的数据被使用和流通,也应当分配部分收益给个人。来自于企业的数据成分比较复杂,既有搜集于外部的交易类数据,也有内部生产管理过程中产生的数据,在不考虑数据原始来源的情况下,企业作为数据的收集者和加工处理者,可以流通享有权益的数据包。由于政府数据和公共数据的公益性,自有其特殊性,不便于商业数据一体处置。如此以来,借鉴我国农地三权分置制度,建构由各环节分享收益的有限产权制度,可以充分激活数据的流通价值和资源价值,打破数据的分割和垄断,弱化数据产权对数据流通的影响和不适当控制。
(二)变革知识产权制度
据前述,即便我们认定ChatGPT内部的训练和学习落入合理使用的范畴,但是由于技术措施对作品的保护,产权对数据访问的限制,事实上仍导致ChatGPT建立的大语言数据库存在数据资源的不足,尤其在同质人工智能产品的开发者之间,可便捷取得的数据资源将成为左右竞争的核心要素。为了推动人工智能科技的发展,我们可以考虑弱化著作权控制,合理解绑技术措施的保护,加大技术措施的例外和细化AI合理使用的情形。对于难以私下协商取得授权的数据库和资源库,可以集中设立著作权便捷性许可使用平台,推动著作权交易高效进行。
至于ChatGPT是否为创作主体,因不同法域规定的差别,大多数国家可能并不把AI人工智能视为法律主体,其创作物单纯从形式上判断可能满足作品独创性的构成要件,而一旦表明人工智能为创作人的事实,其作品性马上就会被否认。ChatGPT尽管有所突破,但它的回答是基于经验主义的判断,是先验知识基础上的精加工“知识拼盘”,[7]而非自主意识支配下的知识创新和自我思考下的灵感乍现,何况其不具备为创作负责的能力。[8]
(三)优化信息监管制度
我国对涉及国家主权和安全的信息采用绝对监管原则,虚假和不实信息由网信部门协助通信、卫生、公安、文化等部门执法,知识产权和侵害人身类信息主要依赖权利人自身维权。信息的分类分级管理体制和健康良好网络生态环境的总目标,使得我国的信息管控比较严格,国外未经认证的网络信息不可访问,损害政治生态和国家体制的信息不得传播,网络内重大问题和实质问题的讨论和争辩鲜少见到。
ChatGPT的大语言数据库依赖于可以获得的高质量信息,高质量的数据来源是建构AI大语言系统的基础。如果在信息资源和信息元数据的供应上不足或者无法满足大智能机器训练和学习需要的素材,那么人工智能产品的产出必然受到影响。为此,我们应该适当保持开放、共赢的原则,引入高质量的网络内容平台,对信息内容的审查坚持底线思维,尽量宽容。
结论
ChatGPT作为科技领域内的现象级成果,既能展开智能对话,又能够完成撰写代码、论文、诗歌、小说等等任务。但是其可能成为传播错误和虚假信息的工具,制造或加重各种歧视性话题,威胁他国网络安全和薪资主权,成为其所在国发动信息战的武器,诸如此类的缺陷让公众担心。
为了推动我国人工智能的发展,我们应当以数据流通为着力点,松绑知识产权对人工智能训练内容的限制,对信息流通和传播抱持宽容的态度,切实扫清阻碍生产力发展的旧生产关系,新立或修改不适合技术发展的法律法规。
注释:
1.王金桥:《嗨ChatGPT,人类对你最好奇的是什么呢?》,中科院之声,2023-02-16。
2.ChatGPT发展历程、原理、技术架构详解和产业未来。
3.由于 ChatGPT是一个大型语言模型,不直接具备网络搜索功能,因此不连接搜索引擎的版本只能基于2021年所拥有的数据集进行回答。
4.贾骥业、王林:《ChatGPT爆火,伦理安全拷问现行治理体系》,中国青年报,2023-02-21 。
5.承天蒙:《复旦教授徐英瑾:ChatGPT并不具备纯粹的全球性》,澎湃新闻?科创101,2023-02-16。
6.美国2023年初通过了《商业秘密保护执行法案》,可以利用政府力量对涉嫌侵害商业秘密的外国组织和个人启动刑事追诉程序。
7.张佳欣、刘园园、陈 曦:《ChatGPT:“顶流”之下,看人工智能喜与忧》,科技日报,2023-02-16。
8.万勇:《ChatGPT引发著作权问题新思考》,法治日报,2023-02-15。
(本文仅代表作者个人观点,不代表知产财经立场)