微软人工智能公开课概览
2025-07-10 22:01:08 - 短榜
机器智能无疑是微软当前最为热门的科技概念。作为科技界的机器领军企业,微软在机器智能领域耕耘已久。公开早在25年前微软研究院建立时,课概机器智能就已经成为整个微软的微软战略目标。微软为此倾注了许多精力和资源,机器并取得了亮眼的公开成绩,但它还有着更加宏伟的课概愿景:将机器智能带给每个人,从开发者到信息科学家,微软从工艺爱好者到学生。机器
本次公开课,公开雷锋网邀请到了微软亚洲研究院掌门人洪小文博士,课概为大家分享《微软机器智能公开课》第一章节——《微软机器智能概览》中的微软精彩内容,介绍微软在机器智能领域的机器最新研究成果以及微软的AI支持如何赋能开发者。
整套《微软机器智能公开课》已在微软虚拟学院全面上线,公开感兴趣的朋友可以点击链接(https://aka.ms/MicrosoftAIMOOC)跳转学习。
据雷锋网了解,《微软机器智能公开课》分为三大块,呈金字塔结构,最底层针对所有的开发者,涵盖认知支持Cognitive Service以及Bot Framework。中间层针对信息科学家,包括Azure Machine Learning、HDInsight、Stream Analyst等。最顶层则瞄准需要开发自己运算规则的研究者,主要工具有 Microsoft Cognitive Toolkit、Azure Data Science VM等,同时也支持其他框架,比如 TensorFlow、Caffee等。
嘉宾介绍
洪小文博士,现任微软全球资深副总裁,微软亚太研发集团主席,兼微软亚洲研究院院长,全面负责推动微软在亚太地区的科研及产物开发战略,加强微软与中国和亚太地区学术界的合作。
洪小文博士是电气电子工程师学会院士(IEEE Fellow),微软杰出首席科学家和国际公认的语音识别专家。洪博士在国际著名学术刊物及大会上发表过百余篇学术论文。
以下为雷锋网对嘉宾分享内容的实录精编。
机器智能概述
很多人都在问,我们研究机器智能的目的是什么。微软的答案是:让我们的应用和支持能够拥有像人类一样认识世界的能力,在视觉、语音、语言、知识等维度得到拓展,带来更好的客户体验。
还有很多人问,机器智能该如何分类,究竟哪几部分算机器智能。机器智能工艺纷繁复杂,但微软认为可以归结为三大类:
大信息&机器学习
认知计算能力
对话即支持的体验
以智能手机为例,我们与智能手机的交互是通过不断点击屏幕上的菜单来实现的;客户需要耗费很多时间学习菜单中每个选项代表的意义。认知支持可以让我们与机器的交互变得更加简单直接,机器也能更好地了解客户的意图,不必浪费太多的沟通时间。
微软AI的增长历程
微软在AI领域耕耘已久。1991年,微软AI基础研究院成立,致力于打造一个能够听懂、看懂和理解人类以及世间万物的电脑。2007年,微软语音部门从研究部门正式转为产物部门,开启了AI的产物化道路。到2014年,在天津的一个活动中,微软系统已经能够将英文演讲实时翻译为中文了。紧接着,2015年微软亚洲研究院的计算机视觉系统首次在ImageNet上打败了人类。这套计算机视觉系统对超过2000种物体进行辨认,失误率仅为3.5%,而人类的失误率为5.5%。当时这套神经网络共有152层,如今已经增长到了上千层。
但对于微软来说,人类与机器智能的关系不是谁打败谁。事实上,AI将成为人类最好的工具,能够拓展人类的智能,让人类完成更多的事情。一般我们理解的AI是Artificial Intelligence(机器智能),但也可以将其阐释为Augmented Intelligence(增强智能)。未来人类与机器密切合作,就能实现我们理想中的Superman。微软的愿景就是,通过API等方式让AI这项看似高大上的工艺平民化。有了微软的认知支持API,开发者无需自己做人脸识别、年纪识别和物种识别,只要使用相应的API,就能轻松调用这些功能,在其熟悉的领域开发应用。
微软认知支持API
微软的认知支持API主要可以归结为5大类:
视觉:从面部感官到感觉,让对话机器人了解图像、影片和情绪。
语音:把语音转换为文本,或把文本转化为语音,了解客户的意图,翻译语言,过滤噪声以及识别说话者。
语言:教对话机器人理解复杂的自然语言指令,解析复杂的文本以及理解客户情绪。
知识:从网络、学术界,或者客户自己的信息积累中融合丰富的知识。
搜索:通过必应API的强大功能,访问数十亿网页、图片、影片和新闻。
微软此前和一个非营利组织达成合作,共同寻找失踪儿童,其中就用到了视觉支持中的人脸识别。利用运算规则和深度学习,系统可以了解一个人的外貌。虽然人类在成长过程中外貌会不断变化,但系统可以从数学的角度找到比例等不变的特征,从而将其辨认出来。
微软的人脸识别API,除了可以检测图片中的人脸,识别其属性;还能实现人脸验证、相似人脸搜索、人脸分组、人脸辨识等功能。此外,情绪识别也是人脸识别的关键应用之一。微软的情绪识别API并非简单反馈对象的情绪好坏,而是返回一个分值,供开发者进行判断。
微软的语音API目前已经具备了听和说的能力,支持多国语言以及多种方言。此外,声纹识别也是语音识别中非常关键的部分。通过声纹识别,系统可以辨认出说话人是谁,这对提升语音识别的准确率非常关键。尤其是在嘈杂的环境中,如果系统可以辨认出客户,那么就可以对背景声和其他人的语音进行屏蔽,实现更好的语音识别效果。
语言和语音的关系非常紧密,语音只解决了“听到”的问题,能够辨认出句子中的每一个字;但要“听懂”,了解这些句子背后的涵义,就需要用到语言能力。语言能力建立在语音的基础之上。以往很多所谓的自然交互都是通过关键字判断来实现的。比如,客户输入“帮我看看是否有违章”,系统自动检测到关键字“违章”,就能得知客户想要查询违章记录。而借助深度学习的语义理解,即使客户输入的信息中不包含关键字“违章”——比如输入“帮我看看是否有违法停车”“我昨天闯红灯了,怎么办”,系统也能理解客户的真实意图。
“知识”能力的应用场景很多,其中最具代表性的是学校,比如寻找论文等。此外,很多企业也运用到了“知识”的能力,比如利用客户产生的信息,通过深度学习,向客户提供个性化的产物和支持。
机器人写歌
将多个微软的机器智能API整合到一起,可以开发出非常有趣的应用。比如一个叫做songbot的应用,它可以识别图片中的内容,自动获取关键字进行歌词创作,并将作品唱给你听。
以上图为例,系统扫描图片后自动获取到“小鸟”“飞翔”“自由”“梦想”和“天空”等关键词,这部分用到了视觉的能力。songbot通过学习多达20万首歌,基于自然语言能力,理解了歌词的结构和组织。因此获得关键词后,可以利用机器学习重新创作歌词,最后利用语音合成工艺把它唱出来。
微软机器智能公开课
为了让开发者、信息科学家、工艺爱好者和学生能够充分利用微软的机器智能API,开发出更强大的应用,拓展全人类的智慧,微软特地推出了《微软机器智能公开课》,邀请各个领域的专家为不同知识程度的机器智能从业人员及爱好者提供针对性的专业辅导。该课程可以通过登陆微软虚拟学院轻松获取。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
为每个用户提供专属定制服务,OPPO 安第斯大模型的新卷法

作者丨郭 思编辑丨陈彩娴ChatGPT热潮引发的百模大战,在持续了大半年之后,模型的参数已经卷到极限,越来越多的公司开始意识到,百模大战的下半场,落地应用才是值得卷的地方。而当聚光灯打在OPPO这个手
元象发布中国最大MoE开源大模型 落地应用登顶港台榜

元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,将国产开源提升至国际领先水平。该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃
AI 图像生成平台 LiblibAI 融资总额达数亿元;Meta 曝训练 Llama 3 每 3 小时「罢工」一次丨AI情报局

今日融资快报AI 图像生成平台 Liblib AI 融资总额达数亿元 AI图像生成平台 LiblibAI哩布哩布AI一年内,已经完成了三轮融资,总金额达数亿元人民币,天使轮投资方为源码资本、高榕创投和
JetBrains与阿里云战略合作发布JetBrains AI Assistant:聚焦中国市场开发者,实现开发效率代际提升

9月19日,全球知名的软件开发工具提供商JetBrains在2024云栖大会上正式发布基于阿里云通义大模型的JetBrains AI Assistant,标志着JetBrains在完善其开发工具产品生
媒体评:宿管大爷去世与高温环境关联需查清

来源:津云新闻[媒体评:宿管大爷去世与高温环境关联需查清]这两天,青岛大学一位宿管大爷去世的消息引发关注,该校通报称,初步排除刑事案件可能,具体原因正在调查中。目前看,宿管大爷的死因是否一定导向高温,
黑神话手办炒到6000,AI自己做一个可行?

图:B站up主 黑板Black这两天不是在玩黑神话就是在刷黑神话的视频,而本人一直以来的怨念就是没抢到典藏版。这个怨念在刷到典藏版手办的开箱视频后达到了极致,而当我试图某鱼圆梦的时候,打开一看,好家伙
OpenAI 终于发布 GPT

美国时间 7 月18 日,OpenAI 正式发布了多模态小模型 GPT-4o mini,在海内外引起了广泛关注。此前,OpenAI 凭借 GPT-3 开拓了 AI 模型的“暴力美学”时代,同时也以训练
Viggle 获 a16z 领投 1900 万美元;华为启动 AI 百校计划,解决高校算力问题;字节成立大模型研究院丨AI情报局

今日融资快报AI视频生成公司 Viggle 获1900万美元投资,a16z领投Viggle 已完成由 Andreessen Horowitz 领投的 1900 万美元 A 轮融资,Two Small
公职人员被境外间谍布局围猎 国安部公布案例详情

记者从国家保障部了解到,近年来,境外间谍情报机关对我开展渗透窃密活动愈发活跃,他们将我公职人员作为重点围猎的目标,精心布局,因人下套。个别公职人员因立场信念缺失、纪律观念弱化、规矩意识松懈等原因,引发
史上最快AI芯片Sohu获1.2亿美元融资;Groq进行估值25亿美元融资;Mac版ChatGPT开放下载丨AI情报局

融资快报Groq 正进行新一轮融资,估值或将达25亿美元:据多位消息人士透露,由前谷歌高管和TPU的发明者之一的Jonathan Ross于创立的AI芯片公司 Groq,在由全球最大资产管理公司之一的
最受欢迎开源大模型,为什么是通义?

开源与闭源之争早已非新奇的话题,但毋庸置疑的是,开源极大地促进了大模型技术发展和生态繁荣。大模型被认为是最烧钱的技术,训练一个大模型往往需要大量的数据、计算资源,导致训练成本巨大,众所周知GPT-3的
端侧ChatGPT时刻!这家清华系大模型公司赶在OpenAI、苹果之前

下周苹果即将召开发布会了!但最令笔者期待的不是 iphone16,而是苹果今年提出的 Apple Intelligence 的进展,这是苹果今年进军端侧 AI 的一大杀手锏。其实早在今年年初,国内就有