上海AI实验室开源发布高质量语料“万卷CC”

2025-09-03 00:13:56 - 独点


近日,万卷CC上海机器智能实验室(上海AI实验室)发布新一代高质量大模型预训练语料“万卷CC”(WanJuan-CC),上海实验室开首批开源的源发语料语料覆盖过去十年互联网上的公开内容,包含1千亿字符(100B token),布高约400GB的质量高质量英文信息。作为“大模型语料信息联盟”今年首发的万卷CC商场完整录音曝光高清流出开源语料,WanJuan-CC将为学界和业界提供大规模、上海实验室开高质量的源发语料信息支撑,助力构建更智能可靠的布高AI大模型。

预训练信息的质量质量对大模型整体性能至关关键。当前,万卷CCCommonCrawl(CC)信息集因其规模大、上海实验室开跨度广而成为国际主流大模型训练信息的源发语料会所包间隐私外泄合集关键来源。与此同时,布高其原始信息格式复杂、质量信息质量低等问题,或将导致模型训练效率低,甚至可能引发价值观对齐等方面的隐患。

中国科研人员通过原创的信息清洗工艺,从CC信息库中抽取约1300亿份原始信息文档进行再处理,“萃取”出其中约1.38%的高质量内容,构建成WanJuan-CC语料库。实验结果显示,WanJuanCC具有高文本质量、高信息密度的特点,可满足当前大模型训练对大规模高质量语料的需求。

上海AI实验室发布的书⽣·浦语2.0(InternLM2)即以WanJuan-CC为关键信息作支撑,使训练效率和语言建模能力大幅提升,综合性能领先开源社区。

开源信息:https://opendatalab.com/OpenDataLab/WanJuanCC


高质量语料驱动,效率性能双提升

近期,上海AI实验室发布了新一代大语言模型书⽣·浦语2.0(InternLM2)。回归语言建模本质,InternLM2综合性能达到同量级开源模型的领先水平。模型基座语言建模能力的提升,则得益于预训练文本质量及信息密度的增强。作为InternLM2的关键预训练语料,WanJuan-CC的文本质量和高信息密度经过了模型实际验证。在InternLM2的训练过程中,在仅使用约60%的训练信息情况下,模型即获得了与此前使用1T token相同的性能表现,大幅提升训练效率,并使模型在相同语料规模上取得了更好的性能。

 上海AI实验室开源发布高质量语料“万卷CC”

绿色曲线为InternLM2使用WanJuan-cc作为预训练语料,在不同信息规模上取得的任务性能分布,结果显示,WanJuan-CC可大幅提升模型训练效率

研究团队通过对CC原始信息进行清洗,去除了网页代码和重复内容,同时利用分类模型剔除了广告和质量较差的信息,并通过内容一致性、语法正确性、信息噪声和信息价值等四个维度,对语言的流畅性进行评估。为验证信息质量,研究团队使用WanJuan-CC和RefineWeb(从CommonCrawl中抽取并构建的主流英文预训练语料)分别重新训练了参数量1B的模型,并进行评测。结果显示,由WanJuan-CC作为训练信息的模型在多项验证中取得了更优效果。

 上海AI实验室开源发布高质量语料“万卷CC”

基于WanJuan-CC训练的1B模型在Pile验证集评测效果更优,这表明由WanJuan-CC训练的模型在不同领域和各类知识上拥有更强能力

 

四重处理, 百里挑一“萃取”高质量信息

为从浩如烟海的CC信息库中“精选”最可靠的信息,研究团队搭建了高性能分布式信息处理基础设施,通过启发式规则过滤、多层级信息去重、内容保障过滤、信息质量过滤等四个步骤,从原始信息中“萃取”出高质量信息,信息留存率仅为原信息的1.38%。


上海AI实验室开源发布高质量语料“万卷CC”

通过原创工艺,对CC原始信息进行多阶段处理,得到了高信息密度的WanJuan-CC

研究团队首先从CC中抽取了约1300亿份原始信息文档,然后基于高性能信息处理工作流得到2.2T token(35.8亿个文档)保障信息,最后,根据质量排序精选出1T token(3.6亿个文档)质量最高的信息,构建成WanJuan-CC。如以下柱状图所示,在WanJuan-CC构建过程中的每一阶段,均进行了大比例的信息去除。对于仅占原CC信息比例2.76%的保障信息,研究人员再次“筛”掉五成低质内容,最终呈现出“百里挑一”的高质量信息。

上海AI实验室开源发布高质量语料“万卷CC”

各清洗阶段的文档保留率和去除率(本图使用对数坐标轴)

 

信息质量高,模型更可靠

为推动训练更智能可靠的AI大模型,研究团队以保障信息保障性为前提,在信息处理的各环节均实施了多项保障加固措施,使WanJuan-CC成为目前开源CC语料中首个在毒性(Toxic)、色情(Porn)和个人隐私三方面同时进行了保障加固的英文语料,因而在价值对齐方面具有更高的可靠性。


上海AI实验室开源发布高质量语料“万卷CC”

与部分开源CC语料多维度对比,在毒性、色情和个人隐私等方面,WanJuan-CC均进行了保障加固

 研究人员分别对WanJuan-CC、Redpajama和Refineweb信息集进行了10万条信息的抽样,从毒性、侮辱、恐吓等7个维度进行评分,以验证各信息集的信息保障性。结果显示,WanJuan-CC在各维度上的体现出最高保障性。

上海AI实验室开源发布高质量语料“万卷CC”

WanJuan-CC与其他开源英文CC语料保障性对比

高质量、多模态、宽领域的信息已成为支持当前机器智能大模型增长的关键基石。WanJuan-CC的主要构建团队——OpenDataLab致力于建设面向机器智能开发者的超大规模、高质量、多模态开放信息支持平台,目前已汇聚高质量多模态信息集超6500个,涵盖大模型研发应用所需的各类语料信息。雷峰网(公众号:雷峰网)雷峰网雷峰网


下载更多开源语料,请登录大模型语料信息联盟开源信息支持指定平台:

https://opendatalab.com

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

上海AI实验室开源发布高质量语料“万卷CC”

- END -

52

冯德莱恩对中国提出三项要求,外交部回应

冯德莱恩对中国提出三项要求,外交部回应

【环球时报-环球网报道 记者李萌】在7月9日外交部例行记者会上,有记者提问称,欧盟委员会主席冯德莱恩昨天对中国提出了三项要求,其中包括与俄罗斯的合作。中方对此有何评论?对此,发言人毛宁表示, 中俄之间

TikTok正开发仅面向美国用户的独立应用?TikTok回应

TikTok正开发仅面向美国用户的独立应用?TikTok回应

当地时间7月9日,TikTok发布公告称,路透社最近发布的一篇基于匿名、不知情信源的“独家”报道与事实不符。上述报道称,TikTok正在开发一款仅面向美国用户的独立应用程序,将“使用与全球版本不同的算

美国洛杉矶一隧道坍塌 15人被困

美国洛杉矶一隧道坍塌 15人被困

美国加利福尼亚州洛杉矶市消防局9日说,该市威尔明顿地区当日发生一起隧道坍塌事故,造成15人被困。目前搜救人员无法与受困人员取得联系,隧道塌方似乎损毁了通信线路。搜救人员表示,坍塌点距离隧道唯一入口处约

上半年我国汽车产销量均超1500万辆 新能源汽车表现亮眼

上半年我国汽车产销量均超1500万辆 新能源汽车表现亮眼

中国汽车工业协会今天10日)发布的信息显示,今年上半年,我国汽车工业多项经济指标同比均实现两位数增长。今年以来,我国实施更加积极有为的宏观政策,经济运行总体平稳。1至6月份,汽车市场延续良好态势,产销

商务部回应美商务部长称可能于8月初与中方谈判代表会面

商务部回应美商务部长称可能于8月初与中方谈判代表会面

财联社7月10日电,据日月谭天,美商务部长称可能于8月初与中方谈判代表会面。对此,中国商务部新闻发言人何咏前10日在新闻发布会上回应表示,目前,双方在多个层级就经贸领域各自关切保持密切沟通。相关新闻美

也门胡塞武装:红海受袭希腊货轮沉没

也门胡塞武装:红海受袭希腊货轮沉没

来源:财联社财联社7月10日电,据新华社报道,也门胡塞武装9日发表声明称,该组织的武装部队击沉了在红海航行的希腊货轮“永恒C”号。这是该组织4天内在红海击沉的第二艘货轮。据胡塞武装旗下的马西拉电视台报

神舟十九号航天员乘组太空归来后首次公开亮相

神舟十九号航天员乘组太空归来后首次公开亮相

2025年7月9日下午,中国航天员科研训练中心在北京航天城举行神舟十九号乘组与记者见面会。这是航天员蔡旭哲、宋令东、王浩泽返回60余天后,首次面向媒体与公众正式公开亮相,并分享了183天太空驻留的经历

全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播

全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播

来源标题:全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播7月9日,全国首部全面展现正当防卫案例的悬疑剧《正当防卫》在爱奇艺迷雾剧场正式开播。该剧由李云亮执导,贾东岩、武瑶任

抖音精品喜剧系列短剧全数上线,喜人卡司领衔主演笑点无限

抖音精品喜剧系列短剧全数上线,喜人卡司领衔主演笑点无限

来源标题:抖音精品喜剧系列短剧全数上线,喜人卡司领衔主演笑点无限近日,抖音联合美团出品的精品喜剧系列短剧《葬礼后我竟成大哥卧底》正式上线。自今年年初起,由《喜人奇妙夜》高人气演员参演的《陛下,你走错片

网易云音乐升级Beat创作者扶持,全免佣金+超高激励金上线

网易云音乐升级Beat创作者扶持,全免佣金+超高激励金上线

来源标题:网易云音乐升级Beat创作者扶持,全免佣金+超高激励金上线近日,网易云音乐正式推出BEATSOUL激励计划,推出“播放分成+云梯激励+年度奖金”三重支持体系,为Bea

媒体评:宿管大爷去世与高温环境关联需查清

媒体评:宿管大爷去世与高温环境关联需查清

来源:津云新闻[媒体评:宿管大爷去世与高温环境关联需查清]这两天,青岛大学一位宿管大爷去世的消息引发关注,该校通报称,初步排除刑事案件可能,具体原因正在调查中。目前看,宿管大爷的死因是否一定导向高温,

官方:“医保‘个人账户’将全部取消”系旧谣新传

官方:“医保‘个人账户’将全部取消”系旧谣新传

中国互联网联合辟谣平台7月10日发布消息,近日,一篇题为《7月起医保新调整,“个人账户”将全部取消,卡内余额转哪里去?》的自媒体文章引起较多关注。文中宣称“从医保局内部人士处获悉,全国医保个人账户改革