阅读排名更多

企业直播更多

推荐展会更多

沈阳自动化所机器视觉研究多篇论文获AAAI2026录用

2025-11-17 09:07:01来源：中国科学院沈阳自动化研究所关键词：机器视觉阅读量：21738

　　近日，国际人工智能顶级会议AAAI 2026论文接收结果公布，中国科学院沈阳自动化研究所在机器视觉研究方面的多篇研究论文获录用。

　　在多模态大模型视觉生成方面，研究团队提出了一种专家表征对齐的多模态大模型训练框架ARRA，可有效促进大模型学习跨模态表征，实现多任务通用多模态生成。相关研究成果Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment被大会选为口头汇报(Oral)论文，论文第一作者为博士生谢兴，通讯作者为范慧杰研究员与屈靓琼助理教授。

　　在多模态大模型方面，研究团队提出了创新的物体分词框架ObjecTok，显著提升了模型以物体为中心的感知与推理能力。相关成果论文为ObjecTok: Learning Holistic and Robust Object Tokens for MLLMs，第一作者为博士生王思翰，通讯作者为刘西瑶副研究员。

　　在具身智能操作方面，研究团队提出了一种仿人知识总结与继承的终身学习框架，赋予智能操作机器人持续演进、不断适应新技能的终身学习能力。相关研究成果论文为Lifelong Language-Conditioned Robotic Manipulation Learning，第一作者为博士生王旭东与沈阳自动化所实习生韩泽斌，通讯作者为韩志研究员。

　　在具身智能导航方面，研究团队提出了一种基于分层规划策略的导航智能体，可提升智能机器人在复杂大场景中具身导航的鲁棒性。相关研究成果论文为SeqWalker: Sequential-Horizon Vision-and-Language Navigation with Hierarchical Planning，第一作者为沈阳自动化所实习生、中北大学本科生韩泽斌，通讯作者为博士生王旭东。

　　在视频定制化生成方面，研究团队提出了一种连续定制化视频扩散模型，可在连续动态空间中实现任意概念的个性化视频生成。相关研究成果论文为Bring Your Dreams to Life: Continual Text-to-Video Customization，第一作者为沈阳自动化所博士毕业生、穆罕默德·本·扎耶德人工智能大学博士后董家华和沈阳自动化所博士生王旭东，通讯作者为韩志研究员。

　　在生成式世界模型方面，研究团队提出了首个可用自然语言控制的 4D LiDAR 生成模型，实现了高逼真、可编辑的动态点云场景生成，可用于多种下游感知模型的安全验证和闭环仿真。该研究成果LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences被大会选为口头汇报(Oral)论文，第一作者为博士生梁奥，通讯作者为赵怀慈研究员。

　　上述研究成果得到了国家自然科学基金、国家重点研发计划、机器人与智能系统全国重点实验室自主项目、沈阳自动化所基础研究项目等支持。(机器人学研究室光电信息技术研究室)

上一篇：内江市聚势赋能推动人工智能产业能级跃升

下一篇：这22个领域，有新赛道新机会！

版权与免责声明：1.凡本网注明“来源：仪器网”的所有作品，均为浙江兴旺宝明通网络有限公司-兴旺宝合法拥有版权或有权使用的作品，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：仪器网”。违反上述声明者，本网将追究其相关法律责任。 2.本网转载并注明自其它来源（非仪器网）的作品，目的在于传递更多信息，并不代表本网赞同其观点或和对其真实性负责，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品第一来源，并自负版权等法律责任。 3.如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。

全部评论

昵称验证码匿名

文明上网，理性发言。（您还可以输入200个字符)

表情

所有评论仅代表网友意见，与本站立场无关