IDEA研究院发布DINO
2025-07-11 10:26:24 - 风汇潮
计算机视觉工艺在真实世界的研究院应用场景十分广泛。然而,研究院过去主流的研究院小模型方案,难以应对碎片化、研究院多变的研究院长尾需求,限制了工艺落地规模。研究院
源自自然语言研究的研究院Transformer架构诞生后,视觉模型与之结合,研究院走上一条“从小变大,研究院从N变1”之路。研究院自2022年起,研究院IDEA团队从目标检测出发,研究院打造精准度、研究院通用性、研究院泛化能力兼优的研究院DINO系列视觉大模型。
11月22日,IDEA大会在深举办,在本次大会上,IDEA研究院发布了该系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,实现开放世界(Open-world)目标检测。无需客户提示,直接检测万物。
与此同时,IDEA团队还推出行业平台架构,通过一个大模型基座,结合通用识别工艺结合,让模型不需重新训练,就可边用边学,支撑多种多样的B端应用需求。
万物识别:无须指引,罕物尽览
全面检测:DINO-X在物体检测领域树立新标杆,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。
在零样本评估设置中,DINO-X Pro在业界公认的LVIS-minival信息集上取得了59.7%的AP,遥遥领先于其它现有运算规则。在LVIS-val信息集上,DINO-X Pro也表现亮眼,取得了52.4%的AP。具体到LVIS-minival信息集上的各个长尾类别评估中,DINO-X Pro在稀有类别上取得了63.3%的AP(比Grounding DINO 1.5 Pro还要高出7.2%),在常见类别上取得了61.7%的AP,在频繁类别上取得了57.5%的AP。DINO-X称得上目前业界检测最全的通用视觉模型。
泛化和通用性:得益于超过1亿高质量样本的大规模信息集多样化训练,DINO-X对未知场景和新物体具有更强的适应性。这意味着在面对未见过的物体或环境时,模型仍能保持高水平的检测性能。这种超强的泛化能力,使其在实际应用中更加灵活。
多任务感知与理解:DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实。
长尾目标检测优化:为了支持长尾目标的检测任务,DINO-X不仅支持文本提示和视觉提示,还支持经过视觉提示优化的自定义提示。
开放世界:支持丰富场景,迈向具身智能
DINO-X的万物识别能力,让其拥有了对开放世界(Open World)的视觉感知,轻松应对真实世界中的众多不确定性和开放环境,赋能具身智能、大规模多模态信息的自动标注、视障人士支持等高难度场景。
对具身智能而言,开发环境感知和理解是核心能力,这其中的视觉感知更是机器和物理世界交互的基础。近期,聚焦人居环境具身智能核心工艺攻关的福田实验室正式挂牌,该实验室正式由IDEA研究院与腾讯合作组建,致力于打造最前沿的具身智能创新平台。
多模态模型通常需要处理大量的图片并生成图文对,而仅依靠人工标注的方式不仅耗时、成本高,而且在面对海量信息时难以保障标注的一致性和效率。DINO-X的万物识别能力,可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果,从而降低手工标注的工作量。
视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求,DINO-X的万物识别能力恰逢其时地为助盲工具开发带来福音,为视障人士的未来生活带来美好希望。
在自动驾驶、智能安防、工业检测等领域,DINO-X也将发挥关键作用。其卓越的通用检测能力,使得系统能够应对各种复杂场景,识别出传统模型难以检测的物体,为产业升级和社会增长注入新的活力。
Dino-X基座大模型零样本检测能力,为广大中小企业客户提供便捷高效的计数和标注工具
IDEA研究院一系列视觉大模型,包括DINO-X,为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题,提供了可行的方案。IDEA研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作,在视觉大模型的落地方面取得了实质性进展。
一方面,有别于市场上的以语言为基础的多模态大模型基于全图理解的方法, 通过在物体级别的理解上加入语言模块优化大模型幻觉问题。另一方面结合自研的“视觉提示优化”方法,无需更改模型结构,不用重新训练模型,实现小样本下的场景化定制。
IDEA研究院通用视觉大模型行业平台架构
从DINO到DINO-X,IDEA研究院始终站在视觉感知工艺的前沿。通过对开放世界的探索和对具身智能的赋能,DINO-X的卓越性能和通用检测能力更加凸显。雷峰网(公众号:雷峰网)雷峰网
值得一提的是,IDEA 研究院也开放了DINO-X API:
https://user.deepdataspace.com/login?redirect=https%3A%2F%2Fcloud.deepdataspace.com%2Fapply-token
有关DINO-X 的工艺细节,请参考同期发布的论文。
► 论文链接:https://arxiv.org/abs/2411.14347
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
上半年我国汽车产销量均超1500万辆 新能源汽车表现亮眼

中国汽车工业协会今天10日)发布的信息显示,今年上半年,我国汽车工业多项经济指标同比均实现两位数增长。今年以来,我国实施更加积极有为的宏观政策,经济运行总体平稳。1至6月份,汽车市场延续良好态势,产销
4K镜头聚焦文物传奇,《博物馆之城》第三季圆满收官

来源标题:4K镜头聚焦文物传奇,《博物馆之城》第三季圆满收官“细节是开启文明的钥匙。”7月4日,大型文博探秘类文化节目《博物馆之城》第三季圆满收官。这部由北京卫视周末季播团队精
24小时两见特朗普 以色列总理只为一件事

继7日晚在白宫会见之后,美国总统特朗普当地时间8日表示,他当晚会在白宫与以色列总理内塔尼亚胡再次会面,继续讨论加沙问题。与此同时,在卡塔尔首都多哈,巴勒斯坦伊斯兰抵抗运动哈马斯)与以色列的新一轮间接谈
外卖大战彻底疯狂!“一天三顿不超过10元”

来源:中国新闻周刊“外卖大战的输家已定,是我。”一位网友在小红书上说道。在连续点了5天外卖后,他打趣道自己已经可以“出栏”了。上周以来,持续不断的大额外卖券突然频频被塞到客户账户中,其慷慨程度更是前所
抖音辟谣:“花费9位数与周杰伦签约”为谣言

新京报贝壳财经讯记者罗亦丹)7月9日,艺人周杰伦入驻抖音的消息引发关注,有网络传言称抖音花费9位数与周杰伦签约。对此,抖音相关负责人对贝壳财经记者予以否认,“消息不实,为谣言”。编辑 岳彩周校对 杨许
Hammerspace携手驿心科技,为中国打造超大规模AI存储解决方案

Hammerspace今日宣布与中国领先企业北京驿心科技有限公司Yition.ai)达成战略合作。驿心科技致力于让超大规模 AI 基础设施更加易于访问与高效运作。此次合作将 Hammerspace 成
阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力

4月27日,夸克AI超级框发布全新AI相机,上新“拍照问夸克”功能。基于视觉理解与思考推理的强大模型能力,夸克AI超级框从视觉出发创新下一代搜索体验,进一步理解和回答物理世界中的各类问题。作为阿里巴巴
《非遗里的中国》带你探寻白山松水间的匠心传承

来源标题:《非遗里的中国》带你探寻白山松水间的匠心传承长白山巅的积雪映照着千年文明的星火,松花江流淌的碧波承载着多元文化的记忆。在东北这片广袤的黑土地上,吉林如同一部厚重的文化典籍,有55项国家级非物
2025年电影票房破300亿

来源标题:2025年电影票房破300亿从票房构成来看,年度票房榜前十名影片中,国产电影占据九席。《哪吒之魔童闹海》以超过51%的票房占比持续领跑,《唐探1900》和《封神第二部:战火西岐》分列第二、三
推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025 年 1 月 20 日 Kimi k1.5 正式发布,伴随着技术报告的公布,有网友表示:“这应该是全球范围内,除 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能了吧!”一时间,
微软人工智能公开课概览

人工智能无疑是当前最为热门的科技概念。作为科技界的领军企业,微软在人工智能领域耕耘已久。早在25年前微软研究院建立时,人工智能就已经成为整个微软的战略目标。微软为此倾注了许多精力和资源,并取得了亮眼的
Anthropic AI 最新研究成果发布:揭示大模型中的注意力回路

语言模型怎么“知道”乔丹是篮球运动员的?近日,Anthropic通过构建归因图呈现了语言模型处理这一问题时的底层机制。由下图可以看到,对于"Fact: Michael Jordan play