多模态AI工艺「涌现」,AI公司的「新机会」

2025-09-02 10:08:19 - 风风专

ChatGPT-4的多模横空出世,让AI行业再一次柳暗花明。艺涌

某AI企业人士如此评价GPT-4的现A新机进步:“GPT-3或3.5像一个六年级学生,而GPT-4像一个聪明的多模十年级学生。”

即将毕业的艺涌小学生与新晋高中生的思维差距,既体现在涉猎知识的现A新机上海财经大学晚自习广度上,也体现在独立思考的多模深度上。

GPT-4为代表的艺涌AI智力上的提升,直观表现为,现A新机从实现单调的多模文本交互,转变为可以接受图像、艺涌文本作为输入,现A新机并表现出更人性化的多模交互能力。

这种处理多种类型信息的艺涌能力,被称为“多模态”工艺。现A新机

接下来,掌握了多模态AI工艺秘钥的公司,将可以进一步拓展下游新兴领域,改变传统AI定制化的特点,向通用化方向增长。

整个产业也将在更加多样化的场景应用,以及产业链条的进一步集成融合中,迎来规模化的升级。

从简单的人脸识别、文字语音识别,上升到理解人的行为意图,像人一样懂得察言观色,以人类复杂性作为参考的机器智能与人类的差距之一,就是多模态信息的智能化理解。

如果说,机器智能的终极目的是让AI基于对环境的感知采取合理行动,从而帮助人类获得最大收益;那么,抖音剧情号吐槽合集合集在更多复杂场景对 AI 工艺的应用效果提出更高要求的当下,多模态俨然成为 AI 产业突围的重点方向。

AI的未来范式:多模态

多模态并非新概念,早在2018年,“多模态”作为AI未来的一个增长方向,已开始成为业界研究的重点。

什么叫“多模态”?

“模态”一词最早是一个生物学概念,以人类为例,触觉,听觉,视觉,嗅觉、味觉,都是一种模态。从机器智能和计算机视觉的角度来说,模态就是感官信息。

简单理解,多模态AI=多种信息类型+多种智能处理运算规则。

以往单模态、单任务的机器智能工艺,局限于 AI 模型与信息之间的交互,通过让AI学习互联网上的海量文本、图片等不同模态的信息,寻找其内在规律,但在算力、信息资源的限制下,仅依赖互联网上信息学习很大可能会达到瓶颈。

多模态AI工艺,为AI能力的提升,提供了一个解法,即让机器智能自主学习并不断迭代新的知识。

之所以能做到这一点,是因为多模态AI工艺,是一种交互式的 AI 工艺,突破了以往单一的模型与信息的交互,可以实现模型与模型、模型与人类、模型与环境等多种交互。

举例来说,现在很火的AIGC,可以通过文本生成图像甚至影片,就是多模态AI的一个典型应用。

但多模态AI的想象力,远不止于此。

从工艺的创新上来看,模态不仅包括最常见的图像、文本、影片、音频信息,还包括无线电信息、光电传感器、压触传感器等更多可能性。

不同模态都有各自擅长的事情,这些信息之间的有效融合,不仅可以实现比单个模态更好的效果,还可以做到单个模态无法完成的事情。

多模态AI的设计和应用体现一个词:以人为中心。

当AI同时处理多个模态的信息时,其感知方式会更贴近人类,从而让机器更加全面、准确地理解人类的真实指令和意图,比如能够理解人类交流中细微差别的系统,具有高度关怀感和真实感的虚拟助手等,实现的是一种高度自然的人机交互和协同。

虽然AI在多模态方面取得了突破,但这种工艺及其应用还不成熟,由多模态AI带来的产业规模升级,还面临重重阻碍。

多模态AI的两大挑战:工艺、产业链

多模态AI探索的是人类行动和感知背后的关系,其蕴含的想象力与应用潜能毋庸置疑。

但围绕搜索和生成两项基本任务,多模态AI的训练还存在诸多难点,如多模态信息的收集、新的模型和架构的搭建、高效的信息融合等问题。

首先,多模态的信息收集、对齐和标注,复杂且不易完成。

一方面,优质的多模态信息规模还不够大;另一方面,在具体的业务场景中,很难同时满足所有的模态信息的收集。

共达地对雷峰网(公众号:雷峰网)表示:“视觉(图像/影片)和文本的信息可以根据语义描述来对齐,但需要经过精心的标注。同样,其它模态的对齐也面临类似的问题,需要考虑如何对齐。”

其次,不同模态具有不同的信息特性,多模态AI的训练,需要根据不同模态的特性,开发新的模型和架构。

构建统一、跨场景、多任务的多模态基础预训练模型,包含两个问题:

如何在统一的预训练模型中,处理视觉 (图片、影片、3D 图像) 三种模态的输入, 并将其映射到统一的特征空间的问题。 


如何采用统一的模型和训练框架,分别训练文本、图像、语音的预训练模型的问题。

此外,开发能够大幅降低AI模型训练门槛,简化部署流程,让不具备AI专业知识的人员也能生产运算规则的平台也十分关键。

再者,让不同模态的信息有效融合以指导决策,也并非易事。

大模型中有非常多隐性的知识,对这些知识的优化、迭代是一大挑战。

多模态AI需要处理的信息和参数十分海量,如何利用并行计算和分布式计算等工艺来提高计算效率,也是多模态机器智能工艺需要解决的难点之一。

此外,中科摇橹船认为,“如何在多模态AI的下游任务中进行自监督学习也是一大难点。”

也就是说,如何通过构建自监督的任务,提高多模态模型的表征能力,缓解缺少大规模监督信息的挑战。

多模态AI最终是为了实现高质量的内容生成,背后需要参数规模巨大的模型以及海量信息集作为支撑。AIoT场景下,AI应用对于端云互动有着更强的需求。

这意味着,在硬件和芯片上,也提出了更高的要求。

硬件方面,由于要汇聚多种信息分析,行业对前端硬件种类和数量的需求会更大,如视觉、声音等不同模态的信息,都需要不同的设备去采集。

芯片方面,相比于单模态,多模态需要的是庞大的“机器智能算力网络”,单纯的语音芯片、视觉芯片等已很难满足多模态AI运算规则的需求。

云天励飞对雷峰网表示,从支持大规模并行计算的角度出发,芯片要能够同时处理多个任务和信息流,计算效率和本地存储能力需要进一步提升;从支持多模态AI长时间运行的角度出发,芯片还要能够维持较低的功耗,如通过提高单芯片计算能力,降低系统的复杂度和总成本。

目前,transformer是处理多模态比较常用的工艺,共达地李思晋也认为,“当前的芯片,transformer的计算并不高效,如果没有专用的硬件,或者为transformer定制开发,其计算效率比其它模型结构可能慢一个数量级。”

AI公司如何寻找商业化的落脚点?

经过模型参数与信息规模的比拼阶段后,搭载在摄像头、边缘计算盒子、机器人等智能设备中的多模态AI正走向场景应用。

目前已知的是,多模态AI首先在计算机视觉和自然语言处理等领域获得验证。

OpenAI 的 DALL-E模型,可以从文本描述中生成对应图像;谷歌的多任务统一模型MUM,可以做到从 75 种不同语言中挖掘上下文信息来提高搜索体验;英伟达的GauGAN2 模型,可以根据简单的文本输入生成照片般逼真的图像。

多模态大模型时代,AI应用也正走向产业纵深处。

工业场景中,运用多模态的智能化运营系统,正在走进工厂和车间。

以中科摇橹船的AGV调度运营系统为例,通过将雷达图像处理、视觉图像处理等图像处理工艺集成在同一产物中,可以轻松完成车辆、交通、调度、运行、叫料、通信、统计等运营工作。相比于人力,这种智能化的运营,更能满足当下制造业客户的柔性定制需求。

在城市治理场景中,多模态AI工艺可以运用在巡检机器人上。当前的巡检机器人可以通过“眼睛”识别占道经营、垃圾桶满溢等问题,并对相关情况进行提醒,但大多没有“耳朵”。

相关研究表明,人类获取的信息中的25%,都是通过听觉实现的。对于巡检机器人来说,没有耳朵,意味着难以监测到环境中的异常响动。

云天励飞表示,未来将研发下一代高效多模信息感知引擎,在原有的影片结构化工艺基础上结合三维场景信息、音频信息等其他模态信息,提升传感器信息流中语义和非语义信息的结构化密度,从而为相关产物及支持在更多应用场景的落地提供运算规则工艺支持。

但客观来看,在视觉和听觉之外,能够商业化落地的多模态工艺还很少,大多处于研究阶段。

多模态AI之路不好走,高度智能的人机交互道阻且长,主要表现为:

一、 AI 的理解和执行还不够可控、可信赖、可复制。

比如,多样化风险和AI偏见风险,当信息不具有广泛代表性时,运算规则就会出现偏差,偏差的不断被放大,(后果)

二、运算规则开发成本较高,产物不具性价比,市场和客户不愿意买单。

多模态AI的应用落地,需要大量专业的研究人员,包括运算规则架构师或AI开发者,也包括产业专家。而这两类专家关注点的相对独立,又往往进一步增加研发和落地过程中的成本。

此外,多模态AI的应用需要不同类型的信息、知识、产物等,其落地需要产业链整体加强协作和沟通,从核心的AI芯片,到物联网硬件,再到软件运算规则开发,时间周期长,需要协调各方利益。

三、业务场景较少,且业务场景的定义还不够清晰。

多模态AI产物和方案,需要根据实际需求针对性开发,什么场景需要使用哪几个模态,以及从成本和收益上来看,是否有商业价值,都需要进行前置考虑。

AI能力想要进入实体产业,尤其是工业属性相对较强的产业,需要从方方面面的复杂细节中进入,而答案都掌握在Know-How手中。

“与行业领域具备know-how的公司进行合作,降低场景验证的成本,是AI公司的机会点。”李思晋表示。

多模态工艺是个硬骨头,更加类人的智能需要AI公司投入大量的研发;其背后需要的大模型和海量信息,同时对产业链上的硬件和芯片厂商提出了更高的要求;业务场景的探索尚处迷雾之中;市场的接受度也还不尽人意。

但从好的一面看,无论是最近大火的AIGC,还是在国内默默壮大的多模态机器智能产业联合体,都说明AI将不断朝着多模态方向增长,以更为广泛的感知能力,进一步向产业落地。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

多模态AI工艺「涌现」,AI公司的「新机会」

- END -

23383

以技术为引 以创意为核 上影节用新拥抱电影

以技术为引 以创意为核 上影节用新拥抱电影

来源标题:以技术为引 以创意为核 上影节用新拥抱电影“AIGC单元”入围作品《风吹过那拉提》电影百年,创制焕新。近些年,技术的快速发展、全面迭代,不仅提高了电影的制作质量,创新

徐凌杰创立魔形智能,国际头部GPU高管加盟

徐凌杰创立魔形智能,国际头部GPU高管加盟

导语:创业方向是做大模型基础设施。作者丨马蕊蕾编辑丨陈彩娴近日,前「壁仞科技」总裁徐凌杰,离开壁仞4个月后,于2024年6月份,正式成立了上海魔形智能有限公司。据悉,徐凌杰毕业于上海交通大学电子工程系

WAIC 2024 已落幕:大模型再无新玩家,AGI 下半场是计算与应用

WAIC 2024 已落幕:大模型再无新玩家,AGI 下半场是计算与应用

导语:「十八金刚」暗示的,其实是巨大的技术想象力与迫切的 AI 生产力。作者:马蕊蕾编辑:陈彩娴WAIC 论坛最后一天下午,启明创投主管合伙人周志峰在世博中心红厅分享了一组数据:经统计,仅 2023

家务机器人或将再更新?Chelsea Finn团队推出BID新算法,机器人一键变聪明

家务机器人或将再更新?Chelsea Finn团队推出BID新算法,机器人一键变聪明

斯坦福大学的 Chelsea Finn 团队又出新成果了。Chelsea Finn 团队一直是斯坦福走在具身智能研究前沿的团队之一,之前火遍全网的 ALOHA 炒菜机器人就是出自这个团队之手。团队领头

人民日报:不少声音呼吁“同志”称呼重归主流

人民日报:不少声音呼吁“同志”称呼重归主流

来源:北京青年报7月7日,《人民日报》刊发了题为《称呼与风气金台随感)》的文章。全文如下:称呼,一个老生常谈的问题。曾几何时,招呼人无须刻意措辞,一声“同志”便可,听者坦然、舒泰。后来,经济增长、文化

OpenAI 终于发布 GPT

OpenAI 终于发布 GPT

美国时间 7 月18 日,OpenAI 正式发布了多模态小模型 GPT-4o mini,在海内外引起了广泛关注。此前,OpenAI 凭借 GPT-3 开拓了 AI 模型的“暴力美学”时代,同时也以训练

JetBrains与阿里云战略合作发布JetBrains AI Assistant:聚焦中国市场开发者,实现开发效率代际提升

JetBrains与阿里云战略合作发布JetBrains AI Assistant:聚焦中国市场开发者,实现开发效率代际提升

9月19日,全球知名的软件开发工具提供商JetBrains在2024云栖大会上正式发布基于阿里云通义大模型的JetBrains AI Assistant,标志着JetBrains在完善其开发工具产品生

商汤大模型的「5o」交互,普通人如何和 AI 过一天?

商汤大模型的「5o」交互,普通人如何和 AI 过一天?

「雷峰网(公众号:雷峰网)」在刚刚结束的堪称「AI 界春晚」的世界人工智能大会WAIC 2024)上,「中国版GPT-4o」亮相,它是来自商汤科技发布的“日日新5o”——国内首个「流式交互」多模态大模

警惕!“美企竟这样绕过禁令,偷拿中国关键矿物”

警惕!“美企竟这样绕过禁令,偷拿中国关键矿物”

【文/观察者网 柳白】面对中国依国际惯例执行的关键矿物管制,一些美西方买家叫苦不迭,甚至动起歪脑筋。路透社7月9日报道披露,为绕过中方管制,有美国买家通过第三国转运拿到了矿物。比如根据海关和航运记录,

人形机器人「星尘智能」获数千万美元Pre

人形机器人「星尘智能」获数千万美元Pre

图片来源:星尘智能近日,AI机器人公司星尘智能Astribot)宣布完成数千万美元Pre-A轮融资,由经纬创投领投,道彤投资及清辉投资等产业资本跟投,老股东云启资本跟投。华兴资本担任独家财务顾问。本轮

100天后,阶跃星辰交出了第二份答卷

100天后,阶跃星辰交出了第二份答卷

今年 3 月,「借着」 2024 全球开发者先锋大会的场子,「国内最后一家通用大模型公司」——阶跃星辰发布了 Step 系列通用大模型,包括 Step-1 千亿参数语言大模型、Step-1V 千亿参数

专访 OmniH2O 项目发起人何泰然:探索人形机器人遥操作通向具身智能的可行之路

专访 OmniH2O 项目发起人何泰然:探索人形机器人遥操作通向具身智能的可行之路

作者丨饶舒玮编辑丨岑峰“既要又要”是何泰然的野心,也是决心。在谈到人形机器人遥操作的可行路径时,何泰然表示他既可以实现机器人的全身控制,还可以用强化学习来实现这一点。在他所探索的这条路上,不必因为技术