Vision Language Action Models

从 Vision 到 Language 再到 Action，万字漫谈三年跨域信息融合研究

导语：阿德莱德大学助理教授吴琦回顾了他从跨领域图像识别到 Vision-to-Language 相关的研究思路，如今正将研究领域延伸到与 Action 相关的工作。雷锋网 AI 科技评论按：本文作者为阿德莱德大学助理教授吴琦，他在为雷锋网 AI 科技评论投递的独家稿件中回顾了他 ...

2025年被称为“VLA上车元年”，以视觉语言动作模型（Vision-Language-Action Model, VLA）为核心的技术范式正在重塑智能驾驶行业。 VLA不仅融合了视觉语言模型（VLM）的感知能力和端到端模型的决策能力，更引入了“思维链”技术，实现了全局上下文理解与类人推理 ...

导语：在经典的 vision-language 任务上，能够增长的空间已经很小，已经过了暴力的通过数据去学习的阶段。真正的挑战其实是一些细分的领域。雷锋网 AI 科技评论按：本文作者为阿德莱德大学助理教授吴琦，去年，他在为 AI 科技评论投递的独家稿件中回顾了他 ...

一些您可能无法访问的结果已被隐去。