推动我国大模型技术与产业发展迈向自主可控
随着人工智能的快速发展,大模型技术已成为当今人工智能
领域的热门话题。2022 年底以来,认知大模型掀起通用人工智
能的全新热潮,其历史意义被认为“不亚于 PC 和互联网的诞
生”。2024 年 12 月底,深度求索公司先后发布 DeepSeek V3 和
DeepSeek R1 大模型,并快速“出圈”,提升了我国在全球人工
智能领域的影响力,引发国内外广泛关注,在全球范围掀起又一
轮大模型发展浪潮。鉴于此,梳理大模型技术的进展和产业发展
现状,剖析其面临的困难挑战以及未来发展趋势,并找到针对性
的对策,有助于我们全面深入地掌握大模型这一前沿领域,加快
推动我国大模型技术与产业的发展迈上新台阶。
大模型技术及产业发展现状
2017 年,Google 提出 Transformer 架构,成为大模型领域主
流算法基础。次年,OpenAI 发布 GPT-1、Google 推出 BERT,
预训练大模型由此成为自然语言处理主流。此后,AI 大模型技
术不断突破。2020 年起,OpenAI 陆续推出 GPT-3、GPT-3.5、
GPT-4,AI 能力多轮提升。至 2024 年,全球大模型井喷式发展。
OpenAI 发布的文生视频 Sora 模型,推动大模型技术向语音、视
觉等多模态及学科交叉方向拓展;随后推出的 GPT-4o 能够实时
处理多类型信息,显著提升了人机对话响应速度;发布的 o1-
Preview 大模型则大幅提高了复杂推理能力。同年末,又推出了
o1pro、o3 等新一代推理大模型,向通用人工智能进一步迈进。
在国内,众多公司以及高校和科研机构均加大投入,发布众多通
用大模型,形成了“百花齐放”的景象。例如,百度的“文心一
言”、阿里的“通义千问”、字节跳动的“豆包”以及科大讯飞的
“讯飞星火”,特别是深度求索公司发布的 DeepSeek V3 和
DeepSeek R1 大模型,通过打破传统的“算力竞赛”规则并完全
开源,成为国内的一个里程碑事件。
在产业应用方面,国外微软、谷歌等大厂积极探索企业级服
务商业化路径,加快产业落地。微软先后把 ChatGPT/GPT-4 能
力融入 Bing 搜索引擎、Office 全家桶、Azure 云服务和 Teams 程
序等,推出 Microsoft 365 Copilot,显著提升 Office 生产力与交互
体验。OpenAI 借助插件接入互联网,能调用各类 APP、解决复
杂任务,甚至被美国国防部、NASA 等政府机构用于情报分析、
军事战略规划等领域。随着我国新基建、新经济推进,众多团队
加速大模型场景创新应用。如在教育领域,大模型赋能智慧课堂、
个性化学习等,助力教育公平与教学质量提升;在医疗领域,大
模型全方位提升“医、教、研、管”各环节诊疗水平。此外,在
金融、工业、政府、科研、电商、文旅、司法等其他领域,大模
型也得到广泛应用,为各行业发展注入新的动力。通过融合
DeepSeek 等深度搜索技术的优势,国内团队也在不断探索如何
进一步提升大模型在特定应用场景下的信息检索与处理能力,以
满足更加复杂多样的用户需求。
面临的困难和挑战
尽管大模型技术及其产业生态已取得阶段性显著成果,但其
发展之路仍布满复杂且亟待解决的难题与挑战。
国产大模型的创新升级在较大程度上依赖于国外的先进算
力。当前国产算力软件系统的生态还不成熟,每一次大模型算法
创新,都需要额外投入数月的时间来进行大量的国产适配移植和
效率优化工作。此外,国产大模型训练高度依赖进口算力,除个
别模型外,多数可下载的大模型均基于英伟达卡训练。考虑到未
来我国获取英伟达先进制程算力资源的渠道可能会进一步受限,
若不能尽快解决国产自主可控人工智能产业生态薄弱、适配困难
等问题,我们或将面临“在他国基石上构筑高楼”的困境。
国产大模型在落地应用生态方面缺乏成熟有效的工具链体
系支持。尽管国家已出台多项政策措施,鼓励和支持基于国产硬
件开展大模型的落地应用,但大模型在实际行业应用中需要语言、
语音及多模态等多个大模型的组合创新,同时还需要针对行业/
私域知识和特定场景任务进行定制优化,这迫切需要成熟、高效
且易用的工具链体系来支撑。然而,当前国产落地工具链体系的
缺失和不足,正严重制约大模型在行业中的广泛、快速应用,以
及创新创业生态的构建和发展。
人工智能生成的虚假信息泛滥正在威胁网络信息安全。在技
术机理上,现行人工智能系统主要依托深度神经网络架构进行统
计建模,这种数据驱动范式导致模型存在知识记忆模糊、幻觉等
问题。以OpenAI发布的GPT-4.5为例,虽将幻觉发生率较GPT-4o
降低 40%,但在 SimpleQA 基准测试中仍高达 37.1%。随着具备
长思维链的推理模型用户增多,由于推理模型在生成内容逻辑自
洽性、结构严谨性方面的优势,幻觉数据会变得更具迷惑性和欺
骗性。普通民众对 AI 技术了解不足,极易将算法输出的幻觉数
据误判为真实可信信息。更严峻的是,这些带算法偏差的虚假信
息会被迭代训练的新一代 AI 系统重新学习,并通过搜索引擎等
渠道指数级扩散,最终形成“数据污染—算法吸收—再污染”的
恶性循环。
通用大模型技术的发展趋势及应对策略
当前大模型性能的上限天花板在不断地被抬高,大模型训练