聊天机器人程序ChatGPT问世以来便引发全球关注。3月,人工智能研究公司OpenAI改进和优化ChatGPT语言模型并推出功能更加强大的GPT-4。在中国,百度公司也推出同类产品“文心一言”。可以预见,此类对话式人工智能产品不久后将广泛应用于社会生活领域。ChatGPT等产品具有极强的语言分析能力和内容输出能力,不仅能够根据用户需求生成相应文本,而且内容篇幅大、输出效率高、表达更规范。但与此同时,这类产品也面临诸多版权争议,有待梳理解决。
是否具有可版权性
ChatGPT生成内容以文字、图像、乐谱为主要表达形式,具有作品外观,但其作为人工智能生成内容(AIGC),是否属于著作权法意义上的作品,争议颇多,争论焦点在于该生成内容是否反映人类智慧劳动。
我国学理上存在以下观点:一是认为AIGC是算法、规则和模板运用下的产物,未体现创作者精神活动而不能被认定为作品;二是认为AIGC的内容和形式均是人类干预的结果,反映了人类意志或安排,具有可版权性;三是认为机器学习技术的发展必将对版权制度产生影响,立法上有必要对独创性判断标准或版权主体制度予以调适,从而对AIGC提供周延保护。ChatGPT生成内容在我国是否应受并能受版权保护,尚无定论。
值得关注的是,美国版权局近日发布规定称,由ChatGPT、人工智能AI绘画聊天机器人Midjourney等基于AI技术自动生成的内容不受版权法保护,但作者运用Photoshop等软件进行创作的图片可受保护,两者的差别在于人类在相关成果的产生过程中是否做出创造性贡献。
笔者认为,在现行法下,ChatGPT生成内容的可版权性问题可分情形讨论:一是完全由ChatGPT自动生成的内容难以具备可版权性,原因在于该内容基于算法运作完成,并非人类精神活动的产物。尽管此类内容在语言逻辑、表达技巧上迎合人类认知,但语法和技巧均属于思想范畴;而作为具体表达的内容则超出人类预设,不能反映人类意志或情感。二是ChatGPT根据人类输入的足够具体的指令所生成的内容,可能具备可版权性。一般而言,人类输入某一非具体化指令,ChatGPT生成的对话文本具有多种可能;但如果人类输入的指令足够具体,如要求ChatGPT根据指定具体情节生成相应故事文本,则供ChatGPT自由发挥的空间十分有限。在此情形下,ChatGPT生成内容蕴含着人类足够具体的表达,具有独创性,可受版权保护。基于同一逻辑,ChatGPT与人类就同一内容通过多次互动而生成的内容,系根据人类指令不断修正而来,也可能蕴含着人类对话者的特定意志或思想,具有可版权性。三是人类在ChatGPT生成内容基础上进行一定调整或加工而形成的内容,也具有可版权性。例如人类对ChatGPT翻译的文本进行语句调整或修改润色,其中体现人类独创性活动,其最终内容应认定为作品。
笔者认为,ChatGPT生成内容是否具有可版权性,需重点考察该生成内容是否体现人类精神活动,该精神活动能否被评价为著作权法上的创作行为,对此不能采取完全排斥的立场。权利人在主张ChatGPT生成内容具备可版权性时,应就其独创性贡献进行举证。不过,人类对ChatGPT模型的训练和优化活动不宜评价为创作,也不应在分析ChatGPT生成内容的可版权性问题时被当作考量因素。
规避版权侵权风险
自由获取和使用数据是ChatGPT类产品学习和训练的基础。ChatGPT在数据输入、训练优化和内容输出过程中涉及对包括数字化作品在内的海量数据的利用。如果ChatGPT等产品的研发者未能得到著作权人的逐一授权,可能面临诸多版权侵权风险。
一是复制权侵权风险。复制权是以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利。从机器学习过程看,ChatGPT类产品需要事先汇总输入大规模数据,并在自然语言处理系统中形成数据副本并以此为基础反复进行数据训练,属于对已有数据的数字化复制行为。如果输入的数据中包含未经著作权人授权使用的数字作品或者著作权法所保护的数据库中的数据,那么该行为可能侵犯作品复制权。
二是信息网络传播权侵权风险。ChatGPT内容系在网络环境生成,具有开放性、公共性、非同步性和交互性的特点。如果ChatGPT生成内容的主旨文本完全源自于某一部或者某几部在先作品中的独创性表达,则该文本属于对在先作品的抄袭或剽窃。由于ChatGPT通过计算机系统传播,且符合“公众可以在其选定的时间和地点获得作品”的要件,因此可能涉及作品信息网络传播权侵权。值得关注的是,ChatGPT所使用的自然语言处理系统更加智能,其中所涉及的信息网络传播权侵权行为将更加隐蔽。例如为了满足用户撰写论文但控制文字复制比率的要求,ChatGPT可能对在先作品中的主干语句进行词组替换或句式调整,从而存在“洗稿”的可能。
三是演绎权侵权风险。ChatGPT类产品在机器学习过程中,涉及对训练数据的复制、翻译、改编和汇编等,因此其输出的文本中可能保留在先作品的基本表达。如果ChatGPT生成内容具有一定独创性,但在内容上保留了在先作品的基本表达,该生成内容可能构成演绎作品。由于ChatGPT的开发者、使用者均未向在先作品的著作权人寻求授权,因此该生成内容同时属于侵权作品。
ChatGPT类产品涉及诸多版权侵权风险,其原因在于AIGC对已有数字化作品进行复制和利用的行为尚未纳入著作权限制体系。然而,如果将人工智能深度学习行为视为著作权侵权,可能遏制人工智能技术创新,还可能引发超大规模诉讼。基于促进产业发展和防范法律风险的考虑,我国应将“文本与数据挖掘”确定为作品合理使用的一类具体情形,其原因在于:一方面,传统著作权许可模式难以满足人工智能时代规模化利用数字作品的需求;另一方面,AIGC所产生的知识增值与作品原初价值之间相互独立,人工智能利用已有数字化作品进行深度学习的行为并不损害著作权人合法权益。
ChatGPT类产品的涌现和市场化运用将引领相关商业模式变革,提升经济社会效益,但同时也应关注其中涉及的法律风险。对此,应当主动寻求风险化解之策,构建全方位知识产权风险防控机制,助力人工智能产业良性健康发展。(黄玉烨 刘云开 中南财经政法大学知识产权研究中心)