IDEA研究院发布DINO

2025-08-31 05:41:25 - 深闻

计算机视觉工艺在真实世界的研究院应用场景十分广泛。然而,研究院过去主流的研究院小模型方案,难以应对碎片化、研究院多变的研究院长尾需求,限制了工艺落地规模。研究院何某明星塌房热搜截图

源自自然语言研究的研究院Transformer架构诞生后,视觉模型与之结合,研究院走上一条“从小变大,研究院从N变1”之路。研究院自2022年起,研究院IDEA团队从目标检测出发,研究院打造精准度、研究院俄罗斯异国恋人整套流出通用性、研究院泛化能力兼优的研究院DINO系列视觉大模型。 

11月22日,IDEA大会在深举办,在本次大会上,IDEA研究院发布了该系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,实现开放世界(Open-world)目标检测。无需客户提示,直接检测万物。

与此同时,IDEA团队还推出行业平台架构,通过一个大模型基座,结合通用识别工艺结合,让模型不需重新训练,就可边用边学,支撑多种多样的B端应用需求。


万物识别:无须指引,罕物尽览 


全面检测:DINO-X在物体检测领域树立新标杆,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。

IDEA研究院发布DINO-X目标检测视觉大模型

在零样本评估设置中,DINO-X Pro在业界公认的LVIS-minival信息集上取得了59.7%的AP,遥遥领先于其它现有运算规则。在LVIS-val信息集上,DINO-X Pro也表现亮眼,取得了52.4%的AP。具体到LVIS-minival信息集上的各个长尾类别评估中,DINO-X Pro在稀有类别上取得了63.3%的AP(比Grounding DINO 1.5 Pro还要高出7.2%),在常见类别上取得了61.7%的AP,在频繁类别上取得了57.5%的AP。DINO-X称得上目前业界检测最全的通用视觉模型。

泛化和通用性:得益于超过1亿高质量样本的大规模信息集多样化训练,DINO-X对未知场景和新物体具有更强的适应性。这意味着在面对未见过的物体或环境时,模型仍能保持高水平的检测性能。这种超强的泛化能力,使其在实际应用中更加灵活。   

多任务感知与理解:DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实。

长尾目标检测优化:为了支持长尾目标的检测任务,DINO-X不仅支持文本提示和视觉提示,还支持经过视觉提示优化的自定义提示。

 

开放世界:支持丰富场景,迈向具身智能

 

DINO-X的万物识别能力,让其拥有了对开放世界(Open World)的视觉感知,轻松应对真实世界中的众多不确定性和开放环境,赋能具身智能、大规模多模态信息的自动标注、视障人士支持等高难度场景。

对具身智能而言,开发环境感知和理解是核心能力,这其中的视觉感知更是机器和物理世界交互的基础。近期,聚焦人居环境具身智能核心工艺攻关的福田实验室正式挂牌,该实验室正式由IDEA研究院与腾讯合作组建,致力于打造最前沿的具身智能创新平台。

多模态模型通常需要处理大量的图片并生成图文对,而仅依靠人工标注的方式不仅耗时、成本高,而且在面对海量信息时难以保障标注的一致性和效率。DINO-X的万物识别能力,可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果,从而降低手工标注的工作量。

视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求,DINO-X的万物识别能力恰逢其时地为助盲工具开发带来福音,为视障人士的未来生活带来美好希望。

在自动驾驶、智能安防、工业检测等领域,DINO-X也将发挥关键作用。其卓越的通用检测能力,使得系统能够应对各种复杂场景,识别出传统模型难以检测的物体,为产业升级和社会增长注入新的活力。

IDEA研究院发布DINO-X目标检测视觉大模型

 Dino-X基座大模型零样本检测能力,为广大中小企业客户提供便捷高效的计数和标注工具 

IDEA研究院一系列视觉大模型,包括DINO-X,为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题,提供了可行的方案。IDEA研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作,在视觉大模型的落地方面取得了实质性进展。

一方面,有别于市场上的以语言为基础的多模态大模型基于全图理解的方法, 通过在物体级别的理解上加入语言模块优化大模型幻觉问题。另一方面结合自研的“视觉提示优化”方法,无需更改模型结构,不用重新训练模型,实现小样本下的场景化定制。 IDEA研究院发布DINO-X目标检测视觉大模型

IDEA研究院通用视觉大模型行业平台架构

从DINO到DINO-X,IDEA研究院始终站在视觉感知工艺的前沿。通过对开放世界的探索和对具身智能的赋能,DINO-X的卓越性能和通用检测能力更加凸显。雷峰网(公众号:雷峰网)雷峰网

值得一提的是,IDEA 研究院也开放了DINO-X API: 

https://user.deepdataspace.com/login?redirect=https%3A%2F%2Fcloud.deepdataspace.com%2Fapply-token

有关DINO-X 的工艺细节,请参考同期发布的论文。

► 论文链接:https://arxiv.org/abs/2411.14347

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

IDEA研究院发布DINO-X目标检测视觉大模型

- END -

2

“寒冬”还是“拂晓”?第四范式成功上市率先交卷

“寒冬”还是“拂晓”?第四范式成功上市率先交卷

作者丨孙溥茜编辑丨陈彩娴AI科技评论消息,今天,第四范式以“6682”为股票代码,正式在香港联合交易所挂牌上市。第四范式是从去年年底大模型浪潮兴起以来首家成功上市的国内AI公司。值得注意的是,第四范式

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟

从“棉田”到“烟火人间”:一场土地和生命的共生叙事,影展佳片《地上的云朵》定档5月7日

从“棉田”到“烟火人间”:一场土地和生命的共生叙事,影展佳片《地上的云朵》定档5月7日

来源标题:从“棉田”到“烟火人间”:一场土地和生命的共生叙事,影展佳片《地上的云朵》定档5月7日近日,聚焦新疆棉农真实生活的纪录电影《地上的云朵》官宣定档,影片将于5月7日登陆人民院线。电影由中央新影

蚂蚁集团官宣开源统一多模态大模型Ming

蚂蚁集团官宣开源统一多模态大模型Ming

5月27日,在蚂蚁技术日上,蚂蚁集团旗下的百灵大模型Ling)团队宣布正式开源统一多模态大模型Ming-lite-omni。据蚂蚁方面介绍,这是一款基于Ling-lite构建的MoE架构的全模态模型,

SCOW 首次亮相 HPC China 2022,以算网融合助力“东数西算”工程发展

SCOW 首次亮相 HPC China 2022,以算网融合助力“东数西算”工程发展

12月13日,以“新算力 新赋能 新未来”为主题的2022 CCF全国高性能计算学术年会CCF HPC China 2022)在线上正式召开。作为高性能计算领域全球最具影响力的三大超算盛会之一,大会邀

大模型热度退潮,真正的技术创新者开始被「看见」

大模型热度退潮,真正的技术创新者开始被「看见」

“过去两年中国的大模型投资并不是投技术,而是套着投技术的壳投商业模式。硅谷的投资人投 OpenAI 是投技术。”一位投资人对 AI 科技评论表示。商业模式驱动的投资核心是可预见的数字增长,而技术投资则

斯坦福 AI 指数报告发布:2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍

斯坦福 AI 指数报告发布:2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍

4 月 7 日,斯坦福大学以人为本的人工智能研究所 HAI) 发表了新的《2025年人工智能指数报告》,多项数据统计表明:中美 AI 的差距正在缩小,AI 技术的创新速度是过去十年的数倍之快。该报告总

哥大最新调研:多款 AI 搜索引用错误率高达 60%,付费版本错误率更高

哥大最新调研:多款 AI 搜索引用错误率高达 60%,付费版本错误率更高

AI 搜索工具在美国很火,几乎四分之一的美国人都表示他们已经用 AI 来取代了传统的搜索引擎。然而在享受便捷的同时,也潜藏着诸多问题。例如,AI 会直接引用网络上原始文章的内容,但这些内容是否符合指令

神舟十九号航天员乘组太空归来后首次公开亮相

神舟十九号航天员乘组太空归来后首次公开亮相

2025年7月9日下午,中国航天员科研训练中心在北京航天城举行神舟十九号乘组与记者见面会。这是航天员蔡旭哲、宋令东、王浩泽返回60余天后,首次面向媒体与公众正式公开亮相,并分享了183天太空驻留的经历

破解创作密码,解码市场趋势,这场研讨共探精品创作新路径

破解创作密码,解码市场趋势,这场研讨共探精品创作新路径

来源标题:破解创作密码,解码市场趋势,这场研讨共探精品创作新路径近年来,北京网络剧创作成果丰硕。在“北京大视听”品牌引领下,涌现出《我的阿勒泰》《滤镜》《异人之下之决战!碧游村

乌镇暑假新推十余项活动,乌镇消夏节疯玩古今江南

乌镇暑假新推十余项活动,乌镇消夏节疯玩古今江南

来源标题:乌镇暑假新推十余项活动,乌镇消夏节疯玩古今江南蝉鸣渐起,夏意渐浓,当众多古镇都陷入千篇一律的暑热氛围中,乌镇却凭借深厚的历史底蕴与独特的江南美学,以一场别开生面的消夏节“出圈&r

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

昨天一早,Meta 了放出自家用了 20 万显卡集群训练出的 Llama 4 系列模型,其中包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。消