Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长视频,一对一QA视频内容细节
2025-08-31 23:05:23 - 专点
作者:赖文昕
编辑:陈彩娴
自3天前Sora发布以来,新工小时细节由图灵奖得主、世界Meta首席科学家Yann LeCun提出的模型“世界模型”又一次引起了广泛关注。
“世界模型”作为Sora的轻松一大核心亮点,被OpenAI写在工艺报告中。玩转但Sora是长影否真的如Open AI所说,是片对一个世界模型,却引起了行业内的影片争论。
在Yann LeCun的内容愿景中,世界模型是新工小时细节一个能够学习世界如何运作的内在规律的内部模型,可以更快速地学习,世界为完成复杂任务做出计划,模型并且随时应对不熟悉的轻松新情况,所以它很有可能克服目前限制最先进的玩转AI系统增长的难关。
而在这场争论持续之际,长影 UC Berkeley(加州大学伯克利分校)发布了一项名为“Large World Model(LWM)”的最新研究成果,今日已成功登上GitHub榜首。
值得一提的是,两位华人学者Hao Liu和Wilson Yan为共同一作,指导老师是吴恩达开门大弟子、伯克利机器智能实验室主任Pieter Abbeel与计算机副教授Matei Zaharia。两位教授的谷歌学术引用次数均十分耀眼,分别高达13.8万次与7.4万次。
论文链接:https://arxiv.org/pdf/2402.08268.pdf
为了应对由于内存限制、计算复杂性和信息集有等重大挑战,这个团队构建了一个由不同影片和书籍组成的大型信息集,以Hao Liu先前提出的RingAttention工艺为基础,对长序列进行可伸缩训练,并将上下文大小从4K逐渐增加到100万tokens,一次可以分析1小时长度的影片。
100万token,1小时长影片,它还开源
大模型的增长进程快得令人惊叹,但是仍存在不少工艺痛点。比如,目前的语言模型无法理解世界上某些难以用语言描述的问题,且难以处理复杂冗长的任务。
针对这个难题,该团队提出了“Large World Model(LWM)”,因为影片序列能提供语言和静态图像中没有的、有价值的时间信息,这使得它们对于语言的联合建模具有特别作用。这样的模型可以更好地理解人类文本知识和物理世界,从而实现更广泛的机器智能能力来帮助人类。
这个“大世界模型”是否确如其名呢?
在研究报告的开篇,团队便自信展示了LWM与GPT-4V、Gemini Pro Vision与Video-LLaVA的对比结果:将长达1小时的油管影片输入并根据影片内容细节提问后,只有LWM能提供准确的答复。
而除了能读懂理解长影片外,LWM在超长文本任务的表现同样亮眼。LWM 可以高精度地检索 1M 上下文中的事实。 针对Gemini Pro 和 GPT-4各自的最大上下文长度(32K 和 128K)进行单针检索比较时,LWM在各个指标上的表现均大幅领先。
团队对LWM的研究成果作出了以下总结:
该研究在长影片和语言序列上训练了一个拥有极大上下文尺寸的 transformers 模型,从而设立了新的检索任务和长影片理解方面的标杆。
为了克服视觉 - 语言训练带来的挑战,该研究采取了以下措施,包括使用掩码序列以混合不同长度的序列、损失加权以平衡语言和视觉、以及使用模型生成的问答信息来处理长序列对话。
通过 RingAttention、掩码序列打包等方法,可以训练数百万长度的多模态序列。
完全开源 7B 参数系列模型,其能够处理超过 100 万 token 的长文本文档(LWM-Text、LWM-Text-Chat)和影片(LWM、LWM-Chat)。
分阶段的渐进式训练,模型能力逐步升级
是什么训练方法让LWM具备如此亮眼的能力呢?
LWM的训练步骤主要分为两个阶段:第一阶段是学习长上下文语言模型(Learning Long-Context Language Models),第二阶段是学习长上下文视觉-语言模型(Learning Long-Context Vision-Language Models)。
第一阶段时,团队将研究重点分为了上下文扩展、训练步骤、聊天微调和语言结果评估四个部分。
在上下文扩展中,他们使用RingAttention工艺,通过分块计算和序列并行,理论上可以扩展到无限上下文,仅受限于可用设备数量。
RingAttention作为一个环形结构来组织blocks,这样每个block只需要与其相邻的block进行通信、交换信息,此结构能够大大减少通信开销。
分块计算则是将长序列分割成多个较小的blocks,每个block包含固定数量的tokens。这样,模型只需要计算每个block内的注意力权重,而不是整个序列。
在训练过程中,序列并行的方法可以并行处理多个block,每个block由不同的GPU处理,使模型能在多个设备上同时处理序列的不同部分,从而提高了训练效率。
同时,由于RingAttention 支持渐进式训练,让模型可以从处理较短的序列开始,然后逐步增加序列长度。于是团队就采用了渐进式训练方法,从32K tokens开始,逐步增加到1M tokens,以有效扩展上下文大小。这意味着此方法有助于模型逐步学习处理更长序列的能力,同时保持训练效率。
到了训练步骤的部分,团队会初始化模型参数,然后逐步增加上下文长度,分为32K、128K、256K、512K和1M tokens共5个阶段,且在每个阶段,会使用不同版本的Books3信息集进行训练,这些信息集经过过滤,以适应当前的上下文长度。
针对聊天微调,团队构建了模型生成的问答信息集,通过将文档分割成固定大小的block,然后使用短上下文语言模型生成问题和答案对。而在长上下文长度(如32K tokens)下,则是通过连接相邻的block和在序列末尾添加相关的问答对来构建单个32K tokens的示例。
在第一阶段的最后,团队对于LWM的语言能力进行了单针检索、多针检索、多文本评估和聊天评估。
值得一提的是,此研究还对比了具有 4K 上下文的 Llama2-7B 模型与LWM-Text(从 32K 到 1M)的语言能力。 评估涵盖了各种语言任务,证明扩大上下文大小不会作用短上下文任务的性能。结果表明,LWM在32K 到 1M长度下各任务中表现得同样好,甚至更好。
这一证据表明上下文扩展不存在负面作用,突显了模型适应不同任务要求而不会在较短上下文中损失效率的能力。
在完成语言模型的训练后,团队开启了他们的第二阶段——学习长上下文视觉-语言模型。在此阶段中,团队也将研究工作分为三个板块,即视觉架构修改、训练步骤和评估结果。
对于视觉架构修改,他们使用了预训练的VQGAN将图像和影片帧转换为离散tokens,并且引入新的tokens来区分文本生成的结束和视觉生成的开始,以及影片帧的结束。
而在训练步骤中,团队从LWM-Text-1M文本模型开始初始化,然后在大量结合文本-图像和文本-影片信息上进行渐进式训练。他们分别在1K、8K、32K、128K和1M tokens的序列长度上进行训练,同样地,每个阶段都是从先前的较短序列长度阶段初始化。
在最终的评估结果上,团队在长影片理解、图像理解和短影片理解等任务上评估了LWM的模型性能并展示了其在处理长影片和图像生成方面的优秀能力。
结语
Sora在2024年拉响了大模型比拼的第一枪,使得文生影片工艺跃为时下焦点,也让“世界模型”变得似乎不再遥不可及。
在应对长文本、影片甚至是多模态工艺时,世界模型对物理世界规律的理解与应用,或将成为各家大模型选手能否在角逐中取胜的关键。
雷峰网(公众号:雷峰网)AI 科技评论将持续关注大模型领域动态,欢迎添加anna042023,交流认知,互通有无
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
浪潮信息彭震:AI+是目标也是机会,要推动AI成为百行千业的生产力

去年以来,ChatGPT引爆了新一轮的AI浪潮,随后国内大模型进入“百模大战”的热闹中。如今,一年多过去,国内外的大模型开启了不同的叙事方式,OpenAI已在酝酿GPT5,继续探求通往AGI的路径,而
第五届“金豪笔编剧之夜”入围名单揭晓 183位优秀编剧携74部作品入围

来源标题:第五届“金豪笔编剧之夜”入围名单揭晓 183位优秀编剧携74部作品入围6月9日,第五届“金豪笔编剧之夜”入围名单及终评评委名单揭晓,共有183位优秀编剧携74部作品入
数字戏剧让每位观众都有“最优座位”

来源标题:数字戏剧让每位观众都有“最优座位”XR戏剧《嵇康》拍摄现场XR戏剧《麦克白》拍摄现场传统剧场中,好座位总是稀缺资源——池座中区声效最佳,但视野受限;二楼看台能纵览全局
北京人艺话剧《张居正》折射时代风云

来源标题:北京人艺话剧《张居正》折射时代风云北京人艺话剧《张居正》6月10日起在首都剧场再次上演。该剧透过一代名臣的生前身后,折射出一个时代的风云,由熊召政编剧,冯远征、闫锐导演。熊召政创作的小说《张
“寒冬”还是“拂晓”?第四范式成功上市率先交卷

作者丨孙溥茜编辑丨陈彩娴AI科技评论消息,今天,第四范式以“6682”为股票代码,正式在香港联合交易所挂牌上市。第四范式是从去年年底大模型浪潮兴起以来首家成功上市的国内AI公司。值得注意的是,第四范式
中国戏曲演出暨优秀电视纪录片展映活动在塞尔维亚举行
来源标题:中国戏曲演出暨优秀电视纪录片展映活动在塞尔维亚举行6月16日,在塞尔维亚首都贝尔格莱德中国文化中心,塞尔维亚演员展示当地传统舞蹈科罗舞。新华社发王韡摄)新华社贝尔格莱德6月17日电记者石中玉
胡元军世界夫人大赛集团董事局主席出席第78届戛纳电影节

来源标题:胡元军世界夫人大赛集团董事局主席出席第78届戛纳电影节胡元军于第78届戛纳电影节红毯绽放多元魅力。他应邀出席此次电影节,踏上那象征着荣耀与梦想的红毯,不仅是个人的高光时刻,更展现出跨领域的独
小马宝莉卡生产商卡游:反欺凌卡牌登场,教育新招引关注

来源标题:小马宝莉卡生产商卡游:反欺凌卡牌登场,教育新招引关注5月26日,在 “法治护航成长,共建阳光校园 —— 五老携手反欺凌法治教育进校园” 公益活
Lydia 动作大模型亮相,虚拟动点助力“利亚德集团2024年生态合作伙伴大会”

随着「百模大战」进入白热化阶段,通用大模型的优势和弊端都已渐渐显露。与此同时,能应用在特定行业的垂直大模型,具备优越的落地场景,有更多来自市场的切实需求。利亚德集团的动作大模型便是行业垂直大模型的代表
电影《恋曲尘封》今日上映 聚焦弄堂里的“生煎”人生

来源标题:电影《恋曲尘封》今日上映 聚焦弄堂里的“生煎”人生日前,由吴有音导演/编剧,蒋雯丽、黄轩、黄小蕾、罗辑、林栋甫主演,马思纯特别出演的电影《恋曲尘封》发布今日上映海报。一本旧日记,一支素描笔,
全球十大娱乐城市榜单发布 重塑世界娱乐格局

来源标题:全球十大娱乐城市榜单发布 重塑世界娱乐格局6月5日,世界娱乐休闲产业大会联合美国城市研究院于中国最美山庄——山西壶关红豆峡澳涞山庄重磅揭晓“全球十大娱乐城
德法“顶流”回归,六部音乐剧集结返场

来源标题:德法“顶流”回归,六部音乐剧集结返场德语音乐剧《莫扎特!》取材于奥地利作曲家莫扎特的传记。图为海报。《莫扎特!》《伊丽莎白》德语音乐剧双“顶流”年底将重返上海。消息传