苹果大模型最新论文:AFM 模型多维度评测「出炉」
2025-07-11 09:56:32 - 风汇台
编译 | 朱可轩
编辑 | 陈彩娴
不久前,苹果苹果在全球开发者大会(WWDC)上推出了最新个人智能系统 Apple Intelligence,大模多维度评可以深度集成到 iOS 18、型最新论iPadOS 18 和 macOS Sequoia 中,模型引起了 AI 业内人士、测出尤其是苹果端侧智能领域的讨论。
苹果在 2024 年的大模多维度评一系列工艺动作,被戏称为苹果为端侧 AI 所设计的型最新论“开卷考试”,即:大模型时代,模型AI 工艺应如何在手机、测出平板等端侧设备上运营,苹果让手机变得更智能?大模多维度评
近日,苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的型最新论最新论文,其中介绍了苹果用在 Apple Intelligence 上的模型两个基础语言模型,包括:一个在设备端运行的测出大约 30 亿参数的语言模型 AFM-on-device,以及一个在私有云端服务上运行的大规模支持器语言模型 AFM-server。
论文链接:https://arxiv.org/pdf/2407.21075
根据该论文,苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时,在保护客户信息隐私与保障上,苹果强调在后训练阶段不会使用客户的个人信息进行训练。
结果显示,苹果的 AFM 模型在指令遵循层面皆优于其他大模型,同时,从写作写作能力来看,在摘要总结方面,AFM 模型无论是端侧还是私有云也均要好于其他。而在保障性评估时,AFM 模型也比其他模型要更为负责。但是值得一提的是,AFM 模型的数学能力整体上来看较为一般。
研究发现
人类评估
在人类评估中,在端侧,AFM 仅输于 Llama-3-8B ,而与其他模型相比显然更优。据论文介绍,AFM 与 Phi-3-mini 相比,模型尺寸小了 25%,而胜率达47.7% ,AFM 甚至超出参数数量为两倍多的 Gemma-7B 和 Mistral-7B。而在私有云上,与GPT-3.5相比时,AFM 也具有一定竞争力,胜率超 50%。
指令遵循
在指令级(Instruction-level)与提示级(Prompt-level)的评估中,无论是端侧还是私有云上,均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%,而提示级的得分则分别为 79.3% 和 83.0%。
此外,苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上,这两项测试中均为 GPT-4 的表现最优,其中,在 Arena Hard 测试中,GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中,则为 Gemma-7B 评分最优,AFM 模型紧随其后。
工具使用
苹果还测试了在调用工具使用基准测试中 AFM 模型的表现,分别从简单(Simple)、多重(Multiple)、并行(Parallel)、并行多重(Parallel Multiple)、相关性(Relevance)和平均(Average)几个纬度展开。
整体来看,AFM-server 表现较优,从测试结果上来看,在简单、多重、相关性、平均性维度中,AFM-server 均得分最高,分别为91.0、95.5、91.3、89.5。在并行多重维度中,AFM-server 得分 85.0,仅次于 Gemini-1.5-Pro-0514 的 88.0,且领先于 GPT-4 与 GPT-3.5。
但 AFM-on-device 表现则较为一般,在多重、并行多重、相关性及平均维度中,均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外,在并行维度中,AFM-server 和 AFM-on-device 的表现情况则都较为一般。
写作能力分两块,一块是摘要总结,一块是长作文。其中,AFM 模型主要在摘要总结上表现较好,在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B,在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5:
数学能力上,苹果 AFM 模型的表现则一般,仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B,GSM8k 是 8-shot、MATH 是 4-shot:
负责任的 AI
在文本摘要总结功能中,苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试,分别从 5 个维度(仇恨言论、歧视、违法、色情、暴力)来评估模型的“好”与“差”。研究显示,苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B:
保障性评测
在有害输出上,苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%,得分越低、效果越好,远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B(其余得分均在 10% 以上):
在保障提示词上,人类评估,苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B,AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B:雷峰网(公众号:雷峰网)雷峰网
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
- END -
独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元

近日,关于字节跳动大语言模型研发技术专家杨红霞离职创业的事情,坊间传得沸沸扬扬。雷峰网独家获悉,杨红霞已于 5 月下旬正式从字节跳动离职,开始筹备 AI 创业项目。不过,杨红霞不做“大”模型,而是将方
伯克利具身智能图谱:深度强化学习浪尖上的中国 90 后们

作者 | 赖文昕编辑 | 陈彩娴短短不到一年内,边塞科技、星动纪元、星海图和千寻智能接连成立,跻身国内明星创企之列;大洋彼岸,Covariant 和 Anyware Robotics 也正在湾区闪耀。
海信世俱杯AI焕新计划启动,AI真空磁场保鲜技术重构美食

来源标题:海信世俱杯AI焕新计划启动,AI真空磁场保鲜技术重构美食欣赏体育赛事,从来少不了美食搭子。还有大约半个月,全新升级后的世俱杯就将鸣锣开赛。5月28日,海信世俱杯AI足球家庭焕新计划发布会举行
王威廉最新创业项目:世界上第一个用于芯片设计和验证的 AI 智能体来了

今年 AI 智能体简直火得不行,各种初创公司像雨后春笋般冒出,光是 Y Combinator 一家今年就已经投资了 94 家相关初创公司。怪不得吴恩达说:“AI 智能体工作流程将在今年推动 AI 的巨
会员积分兑、星钻免费看 《临江仙》加更礼怎么看更划算?

来源标题:会员积分兑、星钻免费看 《临江仙》加更礼怎么看更划算?爱奇艺出品,白鹿、曾舜晞领衔主演的古装仙侠剧《临江仙》将于6月21日18:00开启加更嘉年华。解锁加更嘉年华的爱奇艺会员可直通大结局、观
《哈哈哈哈哈5》方言挑战与文化碰撞,解锁四川风情新体验

来源标题:《哈哈哈哈哈5》方言挑战与文化碰撞,解锁四川风情新体验《哈哈哈哈哈》第五季(以下简称《五哈5》)第七期,在成都的悠然烟火气中,五哈团再度集结——邓超、陈赫、范志毅、王
朱芷瑩:连续二年闪耀戛纳的中国时尚艺人

来源标题:朱芷瑩:连续二年闪耀戛纳的中国时尚艺人 中国时尚艺人朱芷瑩以双重身份闪耀2025戛纳电影节:戛纳红毯展现东方气质,007主题造型诠释"攻击性时尚",从红毯新人到国际盛事常客,她用多元表现力持
跟着吴晓波解锁吉博力的世纪卫浴革命 ——《从面子到里子的卫浴革命》引发热议

来源标题:跟着吴晓波解锁吉博力的世纪卫浴革命 ——《从面子到里子的卫浴革命》引发热议2015年,财经作家吴晓波发表《去日本买只马桶盖》的文章,由一个“热搜”上被调侃的话题,透视
价格战之后,智谱来到商业化的下一站

「雷峰网(公众号:雷峰网)消息」刚刚过去的 5 月里,中国 AI 大模型领域掀起一场价格战,激起行业热议。这次价格战的两股势力分别是互联网大厂和大模型创业公司,以字节、阿里云、腾讯和智谱为主要参战代表
湾区聚力 开源启智

当下,全球数字化浪潮席卷而来,开源技术已成为科技创新和产业升级的关键驱动力。11月9-10日,以“湾区聚力 开源启智”为主题的2024 CCF中国开源大会在深圳隆重举行。本届大会由中国计算机学会主办,
实测豆包1.5后,看到了字节不走捷径的底气

2025 年 1 月,豆包大模型 1.5 全面上线火山方舟,其中豆包通用模型 pro 在多个权威测评集综合得分优于GPT4o、Claude 3.5 Sonnet 等业界一流模型,模型效果达到全球领先水
清程极智 CEO 汤雄超:训推一体机并非 AI Infra 的未来

早在超算时代,清华大学高性能计算研究中心便一直是解决算力需求相关软件问题的行家。“目前 AI Infra 赛道几家国内厂商中,只有我们有过十万台服务器的超大规模国产算力集群的使用和调优经验。”汤雄超向