自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构

清华大学
3次浏览

清华新闻网11月21日电 过去几十年间,计算机视觉研究取得了突破性进展。然而,深度神经网络驱动的计算机视觉模型在功耗、存储和响应时延等方面存在显著的效率瓶颈,难以广泛部署于机器人、移动设备或边缘终端等资源受限的场景。此外,大型视觉模型巨大的训练与推理开销也使算力瓶颈问题和环境可持续性问题变得尤为突出。16U知多少教育网-记录每日最新科研教育资讯

16U知多少教育网-记录每日最新科研教育资讯

图1.当前计算机视觉范式所面临的能效瓶颈16U知多少教育网-记录每日最新科研教育资讯

人类视觉系统能在庞杂的视觉输入中快速筛取要点,大幅降低冗余计算,使得人类高度复杂的视觉系统能够高效、快速运行。无论外界场景多么复杂,人类视觉系统的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在2015年,深度学习三位主要奠基人杨立昆(Yann LeCun)、本吉奥(Bengio)和辛顿(Hinton)便指出,未来的AI视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年以来,这一方向仍缺乏系统性研究。16U知多少教育网-记录每日最新科研教育资讯

16U知多少教育网-记录每日最新科研教育资讯

图2.人类视觉系统的主动自适应感知策略16U知多少教育网-记录每日最新科研教育资讯

11月6日,清华大学自动化系宋士吉教授、黄高副教授团队在《自然·机器智能》(Nature Machine Intelligence)上以“模拟人类自适应视觉,实现高效灵活的机器视觉感知”(Emulating human-like adaptive vision for efficient and flexible machine visual perception)为题发表论文,提出AdaptiveNN架构,通过借鉴人类“主动自适应视觉”机制,逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止感知过程。16U知多少教育网-记录每日最新科研教育资讯

AdaptiveNN模型在一个视觉环境中,依次在若干感兴趣区域上进行“注视”,逐步积累信息形成内部视觉表征,并动态决定何时结束该过程。在每一步,Vision Agent基于当前的内部视觉表征评估任务完成度,若信息不足,则通过策略网络选择下一次注视位置。每个选定的注视区域由表征提取网络提取深度特征,从而不断更新内部视觉表征用于后续决策。AdaptiveNN的整体框架模拟了人类从全局到局部、从粗到细的视觉感知策略,使神经网络具备了类人式的主动感知能力,突破了传统视觉模型的效率瓶颈。16U知多少教育网-记录每日最新科研教育资讯

AdaptiveNN在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种任务类型(如视觉识别、具身视觉感知、视觉-语言多模态联合建模等)。16U知多少教育网-记录每日最新科研教育资讯

16U知多少教育网-记录每日最新科研教育资讯

图3.AdaptiveNN的网络架构和推理过程16U知多少教育网-记录每日最新科研教育资讯

AdaptiveNN的训练过程同时涉及连续变量(如从注视区域中提取特征)和离散变量(如决定下一次注视位置)的优化。具体而言,从期望优化目标出发,对整体损失函数进行分解,AdaptiveNN的端到端优化过程可自然地分解为两项:第一项为表征学习目标(representation learning),对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标(self-rewarding reinforcement learning),对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了AdaptiveNN的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一。16U知多少教育网-记录每日最新科研教育资讯

16U知多少教育网-记录每日最新科研教育资讯

图4.自激励强化学习驱动的端到端主动视觉感知行为学习16U知多少教育网-记录每日最新科研教育资讯

研究团队在九类典型视觉任务上对AdaptiveNN进行了实测验证,AdaptiveNN展现出了高效、灵活和透明的特点16U知多少教育网-记录每日最新科研教育资讯

16U知多少教育网-记录每日最新科研教育资讯

图5.ImageNet大规模视觉识别任务上的定性和定量实验结果16U知多少教育网-记录每日最新科研教育资讯

研究团队进一步将AdaptiveNN应用于具身智能的基础模型——视觉语言动作模型(VLA)。结果表明,该框架在复杂操作场景中显著提升了具身基础模型的推理与感知效率,在保持任务成功率的同时将计算效率提升4.4至5.9倍。16U知多少教育网-记录每日最新科研教育资讯

16U知多少教育网-记录每日最新科研教育资讯

图6.ApdativeNN应用于VLA具身任务的实验结果16U知多少教育网-记录每日最新科研教育资讯

综上,AdaptiveNN提供了一种通用的高效视觉模型,对认知科学的研究具有启发意义,有望用于模拟和检验人类的注意力分配、感知学习以及复杂任务中的视觉决策机制,为认知科学提供新的视角和工具。16U知多少教育网-记录每日最新科研教育资讯

清华大学自动化系2019级博士生王语霖,2022级博士生乐洋、乐阳为论文共同第一作者,自动化系教授宋士吉、副教授黄高为论文共同通讯作者。研究得到国家重点研发计划青年科学家项目、国家自然科学基金重大仪器研制项目、联合重点项目等的资助。16U知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-3-4470.html自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

福建今年高考状元是谁(2024年高考状元)
今天小编整理了福建今年高考状元是谁(2024年高考状元)相关信息,希望在这方面能够更好的大家。 理科状元钱炜楠,文科状元林佳雯。2021福建理科状元钱炜楠,高考总分712分,就读于泉州实验中学,文科状元林佳
播音主持艺考对身高有要求吗
小编今天整理了一些播音主持艺考对身高有要求吗相关内容,希望能够帮到大家。 播音主持艺考要求 1.声音条件 好的嗓子是播音员的标志,这也是播音员主持人最基本的要求。播音要给人带来
2024年艺考改革政策 2024年艺考分数线
2024年艺考改革政策 2024年艺考分数线相关内容,小编在这里做了整理,希望能对大家有所帮助,关于2024年艺考改革政策 2024年艺考分数线信息,一起来了解一下吧! 2024年艺考改革政策如下 一
春季高考是平行志愿吗
小编给大家带来了春季高考是平行志愿吗相关文章,一起来看一下吧。 春季高考是平行志愿吗介绍如下: 春季高考志愿是平行志愿。 春季高考平行志愿的录取是:按“分数优先,遵循志愿”的原则
2024河北艺考政策 2024年艺考考试流程发布
小编今天整理了一些2024河北艺考政策 2024年艺考考试流程发布相关内容,希望能够帮到大家。 2024河北艺考政策如下: 1、到2024年,河北省将基本建立以统一高考为基础、艺术类省级统一考试为
徐州大专有哪些专业学校?
徐州大专有哪些专业学校?很多朋友对这方面很关心,整理了相关文章,供大家参考,一起来看一下吧! 徐州大专有: 1、江苏建筑职业技术学院 江苏建筑职业技术学院是江苏省属公办全日制高校、国

热点精选

最新推荐

您可能感兴趣