IDEA研究院发布DINO

2025-07-11 10:26:24 - 风汇潮

计算机视觉工艺在真实世界的研究院应用场景十分广泛。然而，研究院过去主流的研究院小模型方案，难以应对碎片化、研究院多变的研究院长尾需求，限制了工艺落地规模。研究院

源自自然语言研究的研究院Transformer架构诞生后，视觉模型与之结合，研究院走上一条“从小变大，研究院从N变1”之路。研究院自2022年起，研究院IDEA团队从目标检测出发，研究院打造精准度、研究院通用性、研究院泛化能力兼优的研究院DINO系列视觉大模型。

11月22日，IDEA大会在深举办，在本次大会上，IDEA研究院发布了该系列最新的DINO-X通用视觉大模型，拥有真正的物体级别理解能力，实现开放世界（Open-world）目标检测。无需客户提示，直接检测万物。

与此同时，IDEA团队还推出行业平台架构，通过一个大模型基座，结合通用识别工艺结合，让模型不需重新训练，就可边用边学，支撑多种多样的B端应用需求。

万物识别：无须指引，罕物尽览

全面检测：DINO-X在物体检测领域树立新标杆，无需任何提示，即可识别几乎所有物体，并给出其类别，包括罕见的长尾物体（出现频率低但种类繁多的物体）。

IDEA研究院发布DINO-X目标检测视觉大模型

在零样本评估设置中，DINO-X Pro在业界公认的LVIS-minival信息集上取得了59.7%的AP，遥遥领先于其它现有运算规则。在LVIS-val信息集上，DINO-X Pro也表现亮眼，取得了52.4%的AP。具体到LVIS-minival信息集上的各个长尾类别评估中，DINO-X Pro在稀有类别上取得了63.3%的AP（比Grounding DINO 1.5 Pro还要高出7.2%），在常见类别上取得了61.7%的AP，在频繁类别上取得了57.5%的AP。DINO-X称得上目前业界检测最全的通用视觉模型。

泛化和通用性：得益于超过1亿高质量样本的大规模信息集多样化训练，DINO-X对未知场景和新物体具有更强的适应性。这意味着在面对未见过的物体或环境时，模型仍能保持高水平的检测性能。这种超强的泛化能力，使其在实际应用中更加灵活。

多任务感知与理解：DINO-X整合了多个感知头，支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务，让感知到理解逐步成为了现实。

长尾目标检测优化：为了支持长尾目标的检测任务，DINO-X不仅支持文本提示和视觉提示，还支持经过视觉提示优化的自定义提示。

开放世界：支持丰富场景，迈向具身智能

DINO-X的万物识别能力，让其拥有了对开放世界（Open World）的视觉感知，轻松应对真实世界中的众多不确定性和开放环境，赋能具身智能、大规模多模态信息的自动标注、视障人士支持等高难度场景。

对具身智能而言，开发环境感知和理解是核心能力，这其中的视觉感知更是机器和物理世界交互的基础。近期，聚焦人居环境具身智能核心工艺攻关的福田实验室正式挂牌，该实验室正式由IDEA研究院与腾讯合作组建，致力于打造最前沿的具身智能创新平台。

多模态模型通常需要处理大量的图片并生成图文对，而仅依靠人工标注的方式不仅耗时、成本高，而且在面对海量信息时难以保障标注的一致性和效率。DINO-X的万物识别能力，可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果，从而降低手工标注的工作量。

视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求，DINO-X的万物识别能力恰逢其时地为助盲工具开发带来福音，为视障人士的未来生活带来美好希望。

在自动驾驶、智能安防、工业检测等领域，DINO-X也将发挥关键作用。其卓越的通用检测能力，使得系统能够应对各种复杂场景，识别出传统模型难以检测的物体，为产业升级和社会增长注入新的活力。

IDEA研究院发布DINO-X目标检测视觉大模型

Dino-X基座大模型零样本检测能力，为广大中小企业客户提供便捷高效的计数和标注工具

IDEA研究院一系列视觉大模型，包括DINO-X，为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题，提供了可行的方案。IDEA研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作，在视觉大模型的落地方面取得了实质性进展。

一方面，有别于市场上的以语言为基础的多模态大模型基于全图理解的方法，通过在物体级别的理解上加入语言模块优化大模型幻觉问题。另一方面结合自研的“视觉提示优化”方法，无需更改模型结构，不用重新训练模型，实现小样本下的场景化定制。 IDEA研究院发布DINO-X目标检测视觉大模型

IDEA研究院通用视觉大模型行业平台架构

从DINO到DINO-X，IDEA研究院始终站在视觉感知工艺的前沿。通过对开放世界的探索和对具身智能的赋能，DINO-X的卓越性能和通用检测能力更加凸显。雷峰网(公众号：雷峰网)雷峰网

值得一提的是，IDEA 研究院也开放了DINO-X API：

https://user.deepdataspace.com/login?redirect=https%3A%2F%2Fcloud.deepdataspace.com%2Fapply-token

有关DINO-X 的工艺细节，请参考同期发布的论文。

► 论文链接：https://arxiv.org/abs/2411.14347

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

- END -

53199

IDEA研究院发布DINO

上半年我国汽车产销量均超1500万辆新能源汽车表现亮眼

4K镜头聚焦文物传奇，《博物馆之城》第三季圆满收官

24小时两见特朗普以色列总理只为一件事

外卖大战彻底疯狂！“一天三顿不超过10元”

抖音辟谣：“花费9位数与周杰伦签约”为谣言

Hammerspace携手驿心科技，为中国打造超大规模AI存储解决方案

阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力

《非遗里的中国》带你探寻白山松水间的匠心传承

2025年电影票房破300亿

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

微软人工智能公开课概览

Anthropic AI 最新研究成果发布：揭示大模型中的注意力回路