人工智能时代如何维护文化主体性
当前,以大语言模型技术为核心的人工智能技术正飞速迭代
和加速演进。大模型通过海量数据的预训练,形成千亿级别参数
的复杂网络结构,能够实现强大的上下文理解和多模态内容生成
能力,并在很大程度上体现出了通用性和推理能力,能够有效解
决当前社会生产生活中存在的一些具体问题,提升全社会的生产
效率。围绕大模型的广泛应用,正在形成新的科研范式、创新范
式、人机协同工作范式,解构了传统的代际知识传承方式和教育
方式,催生出新的人类信息和知识获取模式,重塑未来经济生活
形态。
但是,当我们看到人工智能带给人类新纪元曙光的同时,也
必须看到当前的大模型在涉及文化判断和价值取向的领域,输出
结果仍不尽如人意,存在着与主流认知之间的差异,在一定程度
上存在着“胡说”“乱说”“胡写”“乱画”的现象,干扰了人们
对社会主流价值观念的认同与判断、对中华优秀传统文化的认知
和理解,也对人工智能时代的薪火赓续形成了新的挑战。因此,
亟须在积极推进大模型产业应用的前提下多措并举,以社会主义
核心价值观为引领,把中华文化主体性融入到大模型的建设和产
业应用中,让大模型更具“中国特色、中国风格、中国气派”。
当前的大模型在涉及文化安全的领域,存在着如下问题和挑
战。
从训练数据角度看,全球互联网中的英文语料占比高达
59.8%,中文语料占比仅为 1.3%,使得大模型在训练生成时就缺
乏丰富的中文知识。比如,ChatGPT 训练数据所使用的中文数据
占比就不足 0.1%。这种数据分布结构性的缺陷导致了大模型在
认知中文世界时存在先天不足。与此同时,互联网公开信息来源
复杂,存在大量未经认证的虚假和错误信息,“以讹传讹、三人
成虎”的现象在互联网中屡见不鲜,并形成了大量基于误导信息
的语料。这就导致大模型对于真实信息的识别能力下降,进而影
响输出结果的正确性。除此之外,互联网经过近三十年的发展,
“数字鸿沟”问题依然存在,数据在地域、领域和人群分布上极
其不均衡,“马太效应”严重,互联网是强势地区、活跃领域、
活跃人群的发声地,互联网数据无法全面代表全球不同人群的价
值观和世界观,扭曲了大模型最终的价值判断和文化取向。
从大模型本身的技术架构角度来看,大模型存在着极其复杂
的网络结构,内部工作机制一直被认为是个黑箱,输出逻辑不可
理解,输出结果难以预测,可解释性是目前大模型应用中的重要
技术难点。因此,一旦出现大模型针对某些领域的输出异常,难
以判断是来自模型内部的技术缺陷,还是来自模型外部的人为操
作。难以区分“别有用心”和“无心之举”,也就限制了相应对
策和措施的应用。此外,大模型在极力追求通用性和泛化能力时,
会过度依赖统计规律,导致非强势文化在内容生成时出现明显失
真。
从外部操作角度看,在大模型的创制过程中,算力成为第一
制约要素。但是算法和数据依然对于大模型生成有着直接而重要
的作用。模型训练数据的取舍、清洗、标注、质量检测,模型参
数的调优、对齐、反馈强化学习、能力评价,都有着大量人类智
力活动的主动参与,有着主观能动性的发挥空间。业界常说的
“有多少人工,就有多少智能”,对于大模型的应用落地依然有
效,那么从业者本身的价值判断和审美取向,也会通过其工作带
到大模型中。人的主观能动性也在潜移默化中影响着大模型的输
出结果。
因此,为了应对上述风险和挑战,需要从系统思维的角度,
展开以下工作。
第一,加强人工智能时代广义标准体系建设。总而言之,就
是要用“标准来约束过程,用数据集来约束结果”。具体来讲,
一是要建立“国家—行业—社会—企业”的多层级标准体系。通
过标准的建设,纲举目张,执本末从,将大模型的数据建设、参
数调优、能力评估、人员准入等问题,以标准的形式加以约束和
指导,将价值判断和意识形态融入到大模型的建设过程中。二是
要加快人文社科领域各类权威数据集的建设。权威数据集在大模
型时代中的作用,犹如定海神针。有了各个