当前位置：首页 >

中文在线童之磊：尊重正版内容数据价值，共建版权保护新生态

时间：2023-06-05 16:11:33　　　来源：消费快报

　　“《三体》作者刘慈欣是哪个省的人？”

　　“《三体》作者刘慈欣是黑龙江省的人，出生于哈尔滨市。”这是ChatGPT此前给出的回答。

　　稍作了解会知道，刘慈欣是山西阳泉人。虽然ChatGPT已经对错误答案做了修正，但这不是它第一次犯错，显然也不会是最后一次。

　　面对专业领域的具体问题，AI常常被人诟病“一本正经地胡说八道”，而AIGC模型之所以无法保证生成内容的质量和准确性，根源在训练数据。

　　“各种AI模型通过各种数据集的投喂获取知识图谱和源数据，其生成内容的质量依赖于训练数据本身的质量和准确性。”6月2日，在远集坊第五十四期文化讲座《人工智能生成内容版权问题研讨》中，中文在线董事长兼总裁童之磊表示。他认为，2023年是人工智能的历史性时刻，正在带来数字内容产业的新机遇，也激活了模型训练对高质量数据的需求。

微信图片_20230605161130.jpg

　　据悉，远集坊此次讲座由中国版权协会主办，理事长阎晓宏亲自主持，演讲嘉宾除童之磊外，还有多位来自法学界、科技界和商界的代表，包括中国法学会副会长甘藏春、清华大学新闻学院教授、元宇宙文化实验室主任沈阳、澜舟科技创始人兼CEO周明、北京互联网法院综合审判一庭副庭长朱阁等。虽然在人工智能生成内容的版权界定上，仍有诸多议题处于理论探讨阶段，但对于尊重数字版权、抵制版权侵权，各方已经达成了共识。

　　数据，AIGC的“砖石”与“命门”

　　随着大模型的技术演进，尤其是多模态大模型的持续迭代，不仅需要更大的数据集进行预训练，更需要高质量的数据投喂。权威学者吴恩达曾在提及“以数据为中心的AI”时公开表示：“我认为目前必须将重点从大数据转移到高质量数据。”

　　AI模型背后的数据以文本、语音、图像、视频等多种形态存在，其来源包括公共数据集、公共网站、自有数据、众包数据、合成数据等。这些数据是构建AIGC模型的“砖石”。理想状态下，海量、优质、正版数据与算力、算法三位一体，加速大模型迭代进化和应用层产品孵化，并通过AIGC产业层面的落地，完美呈现数据要素的价值。

　　但这只是数据之于AIGC的A面，一旦数据存在缺陷，大厦的根基就会被撼动。例如，标注数据质量欠佳、预训练语料库多样性不足可能导致模型训练效果不理想、输出内容错误；数据来源不正，会使得生成的内容面临版权风险；数据安全性不足，可能导致模型抵御攻击性差、隐私信息暴露等，这些构成了数据之于AIGC的B面。

　　更为隐蔽的风险则在于数据的导向性。AIGC作为一种高效的生产力工具，与人类“从无到有”的创造性劳动不同，它是将数据以一定形式转换后输入AIGC模型，从中提取有价值的内容，再生成与之相匹配的学习结果，本质上是一个“从有到无”的过程。因此，AIGC生成的内容，会展现出训练数据的元素、特征和价值倾向。数据所带有的价值观和立场，直接影响到AI生成内容的导向，决定了输出作品的底色。

　　这也意味着，一旦数据导向存在偏差，大概率会导致AI生成的内容也同样“跑偏”，进而影响到用户的认知和行为，从这个角度看，数据也是AIGC的“命门”，获取优质、正版数据的能力成为大模型企业的核心竞争力之一。

　　与对高质量数据的渴求相伴而来的，是AIGC训练数据的版权争议。

　　大量凝结着作者原创智慧的作品如果在AIGC领域脱离了版权的保护，长期来看，可能导致大量盗用和滥用，不仅会损害创作者的各项权益，也会扰乱市场秩序和社会安全，损害高质量数据的商业价值，最终反噬AI模型，影响其训练效果。

　　多方合力，共建AIGC版权保护新生态

　　为了解决AIGC时代全新的版权保护问题，行业层面已经行动起来。在远集坊的活动中，中国版权协会联合首批26家单位发布《合理使用正版数据倡议书》，向AIGC领域专家、学者及AIGC从业机构发出六点倡议，包括尊重版权，赋能产业正向发展；避免侵权，营造良好发展环境等，并特别提及要在模型训练者与内容提供者之间搭建便利、有序的内容授权渠道。

　　规范数据使用，当“破”亦当“立”。为推进数据交易市场体系建立，政策层面已经给出了清晰的指引。2022年底，国务院印发《数据二十条》，成为数据基础制度体系的高规格顶层设计。在市场层面，各主体也正在积极推动正版数据的交易和使用，其中，中文在线的做法堪称表率。

　　作为数据的拥有者，中文在线现有的数据总量达55.5TB ，甚至比GPT3.5使用的45TB文本训练数据还要多，并且这些数据皆为正版、优质数据，兼具准确性、完整性、一致性、真实性。除此之外，中文在线每天还会产生数以亿计文字内容增量。

　　在数字版权保护上，童之磊认为：“当下面临的版权挑战，既然是以技术为因，就应该以技术手段来应对。”为此，中文在线已开启以区块链技术为底层的知识产权保护逻辑，向上延伸至版权溯源与交易平台双线并行的业务模式。不仅以自研的创珍链作为底层技术支撑版权流转所有阶段，构建自主产权的版权秩序管理架构，还打造了以人工智能为基础的一站式版权监测及维权平台，能够实现自动取证、AI调整等功能，并以大数据为基础构建版权价值评估体系，通过技术创新强化数字版权服务。

　　版权保护不是“一个人的战斗”，自2005年“中文在线反盗版联盟”成立开始，一个协同共建的版权保护生态就在不断生长。在近20年的时间里，中文在线主导内外部维权案件超万件，涉案著作权作品10万余部，累计获赔金额数亿元，为数千权利人提供了知识产权服务。这些实践让中文在线面对AIGC时代的数字版权保护难题时，得以提出更具可行性的解题思路。

图片2.jpg

　　一个繁荣可持续的人工智能产业生态不可能建立在盗版与侵权之上，相信在政府、行业、企业、学界多方携手之下，AIGC版权生态的新格局是定将抵达的彼岸。

热点推荐