国内多数模型训练使用中文数据占比超60%

来源:人民日报2025年08月19日 08:54作者:王云杉

记者从国家数据局获悉:中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

在人工智能时代,Token(通常所说的词元)是处理文本的最小数据单元。国家数据局局长刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已经突破30万亿,1年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。

投稿与新闻线索: 微信/手机: 15910626987 邮箱: 95866527@qq.com
中国能源网官方微信二维码
欢迎关注中国能源官方网站
分享让更多人看到
中国能源网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。

即时新闻

要闻推荐

热点专题

精彩视频

国家能源局发布51个“人工智能+能源”高价值场景并组织场景开放试点
安福县物流产业园开业前夕更换运营商,被指抛弃“原配”不打招呼2026-05-24 19:23 发布于江西
全球首例 贺兰山重引入雪豹繁殖育幼成功
瑞幸新品饮用后可查出酒驾?记者实测饮用后已达酒驾标准

精彩图集

渤海首个千亿方大气田Ⅱ期开发项目主体结构建造完成
推动可再生能源开发利用
7273辆新能源车从江苏南通出海欧洲
我国首座海上移动式多功能措施平台启运渤海油田
国内多数模型训练使用中文数据占比超60%
分享到: