当前位置:首页 >
中文在线童之磊:尊重正版内容数据价值,共建版权保护新生态
“《三体》作者刘慈欣是哪个省的人?”
“《三体》作者刘慈欣是黑龙江省的人,出生于哈尔滨市。”这是ChatGPT此前给出的回答。
稍作了解会知道,刘慈欣是山西阳泉人。虽然ChatGPT已经对错误答案做了修正,但这不是它第一次犯错,显然也不会是最后一次。
面对专业领域的具体问题,AI常常被人诟病“一本正经地胡说八道”,而AIGC模型之所以无法保证生成内容的质量和准确性,根源在训练数据。
“各种AI模型通过各种数据集的投喂获取知识图谱和源数据,其生成内容的质量依赖于训练数据本身的质量和准确性。”6月2日,在远集坊第五十四期文化讲座《人工智能生成内容版权问题研讨》中,中文在线董事长兼总裁童之磊表示。他认为,2023年是人工智能的历史性时刻,正在带来数字内容产业的新机遇,也激活了模型训练对高质量数据的需求。
据悉,远集坊此次讲座由中国版权协会主办,理事长阎晓宏亲自主持,演讲嘉宾除童之磊外,还有多位来自法学界、科技界和商界的代表,包括中国法学会副会长甘藏春、清华大学新闻学院教授、元宇宙文化实验室主任沈阳、澜舟科技创始人兼CEO周明、北京互联网法院综合审判一庭副庭长朱阁等。虽然在人工智能生成内容的版权界定上,仍有诸多议题处于理论探讨阶段,但对于尊重数字版权、抵制版权侵权,各方已经达成了共识。
数据,AIGC的“砖石”与“命门”
随着大模型的技术演进,尤其是多模态大模型的持续迭代,不仅需要更大的数据集进行预训练,更需要高质量的数据投喂。权威学者吴恩达曾在提及“以数据为中心的AI”时公开表示:“我认为目前必须将重点从大数据转移到高质量数据。”
AI模型背后的数据以文本、语音、图像、视频等多种形态存在,其来源包括公共数据集、公共网站、自有数据、众包数据、合成数据等。这些数据是构建AIGC模型的“砖石”。理想状态下,海量、优质、正版数据与算力、算法三位一体,加速大模型迭代进化和应用层产品孵化,并通过AIGC产业层面的落地,完美呈现数据要素的价值。
但这只是数据之于AIGC的A面,一旦数据存在缺陷,大厦的根基就会被撼动。例如,标注数据质量欠佳、预训练语料库多样性不足可能导致模型训练效果不理想、输出内容错误;数据来源不正,会使得生成的内容面临版权风险;数据安全性不足,可能导致模型抵御攻击性差、隐私信息暴露等,这些构成了数据之于AIGC的B面。
更为隐蔽的风险则在于数据的导向性。AIGC作为一种高效的生产力工具,与人类“从无到有”的创造性劳动不同,它是将数据以一定形式转换后输入AIGC模型,从中提取有价值的内容,再生成与之相匹配的学习结果,本质上是一个“从有到无”的过程。因此,AIGC生成的内容,会展现出训练数据的元素、特征和价值倾向。数据所带有的价值观和立场,直接影响到AI生成内容的导向,决定了输出作品的底色。
这也意味着,一旦数据导向存在偏差,大概率会导致AI生成的内容也同样“跑偏”,进而影响到用户的认知和行为,从这个角度看,数据也是AIGC的“命门”,获取优质、正版数据的能力成为大模型企业的核心竞争力之一。
与对高质量数据的渴求相伴而来的,是AIGC训练数据的版权争议。
大量凝结着作者原创智慧的作品如果在AIGC领域脱离了版权的保护,长期来看,可能导致大量盗用和滥用,不仅会损害创作者的各项权益,也会扰乱市场秩序和社会安全,损害高质量数据的商业价值,最终反噬AI模型,影响其训练效果。
多方合力,共建AIGC版权保护新生态
为了解决AIGC时代全新的版权保护问题,行业层面已经行动起来。在远集坊的活动中,中国版权协会联合首批26家单位发布《合理使用正版数据倡议书》,向AIGC领域专家、学者及AIGC从业机构发出六点倡议,包括尊重版权,赋能产业正向发展;避免侵权,营造良好发展环境等,并特别提及要在模型训练者与内容提供者之间搭建便利、有序的内容授权渠道。
规范数据使用,当“破”亦当“立”。为推进数据交易市场体系建立,政策层面已经给出了清晰的指引。2022年底,国务院印发《数据二十条》,成为数据基础制度体系的高规格顶层设计。在市场层面,各主体也正在积极推动正版数据的交易和使用,其中,中文在线的做法堪称表率。
作为数据的拥有者,中文在线现有的数据总量达55.5TB ,甚至比GPT3.5使用的45TB文本训练数据还要多,并且这些数据皆为正版、优质数据,兼具准确性、完整性、一致性、真实性。除此之外,中文在线每天还会产生数以亿计文字内容增量。
在数字版权保护上,童之磊认为:“当下面临的版权挑战,既然是以技术为因,就应该以技术手段来应对。”为此,中文在线已开启以区块链技术为底层的知识产权保护逻辑,向上延伸至版权溯源与交易平台双线并行的业务模式。不仅以自研的创珍链作为底层技术支撑版权流转所有阶段,构建自主产权的版权秩序管理架构,还打造了以人工智能为基础的一站式版权监测及维权平台,能够实现自动取证、AI调整等功能,并以大数据为基础构建版权价值评估体系,通过技术创新强化数字版权服务。
版权保护不是“一个人的战斗”,自2005年“中文在线反盗版联盟”成立开始,一个协同共建的版权保护生态就在不断生长。在近20年的时间里,中文在线主导内外部维权案件超万件,涉案著作权作品10万余部,累计获赔金额数亿元,为数千权利人提供了知识产权服务。这些实践让中文在线面对AIGC时代的数字版权保护难题时,得以提出更具可行性的解题思路。
一个繁荣可持续的人工智能产业生态不可能建立在盗版与侵权之上,相信在政府、行业、企业、学界多方携手之下,AIGC版权生态的新格局是定将抵达的彼岸。