国内多数模型训练使用中文数据占比超60%

来源：人民日报2025年08月19日 08:54作者：王云杉

记者从国家数据局获悉：中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%，有的模型达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能快速提升。

在人工智能时代，Token（通常所说的词元）是处理文本的最小数据单元。国家数据局局长刘烈宏介绍，2024年初，我国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，反映了我国人工智能应用规模的快速增长。

投稿与新闻线索: 微信/手机: 15910626987 邮箱: 95866527@qq.com

中国能源网官方微信二维码

欢迎关注中国能源官方网站

分享让更多人看到

中国能源网版权作品，未经书面授权，严禁转载或镜像，违者将被追究法律责任。

即时新闻

要闻推荐

热点专题

精彩视频

新型电力系统的核心引擎第二集深远海风电送出

新型电力系统的核心引擎第一集柔性直流输电技术

《大国重器直创未来》——记国网经研院直流技术攻关团队

雷鸟电视被指虚假宣传，消费者曝光“维权被要求签保密协议”

精彩图集

核电送出特高压工程开展高空作业

中国成功发射通信技术试验卫星二十六号A星

世界杯成为民众表达不满的契机，墨西哥迎来抗议浪潮

渤海首个千亿方大气田Ⅱ期开发项目主体结构建造完成

国内多数模型训练使用中文数据占比超60%

分享到：

合作伙伴

扫描二维码关注"中国能源报"官方微信

关于我们联系我们版权声明广告服务本网公示

地址：北京市金台西路2号人民日报社新媒体大厦联系电话：010-65369469

违法和不良信息举报电话：010-65369452 举报邮箱：95866527@qq.com

互联网新闻信息服务许可证10120190006 | 增值电信业务经营许可证京B2-20240802 | 广播电视节目制作经营许可证(京)字第29656号 | 网络出版服务许可证(京)字第406号

中国能源网版权所有 @ 2019 中国能源报社 | 京ICP备14049483号-5 | 京公网安备 11010502033025号