导语:阿德莱德大学助理教授吴琦回顾了他从跨领域图像识别到 Vision-to-Language 相关的研究思路,如今正将研究领域延伸到与 Action 相关的工作。 雷锋网 AI 科技评论按:本文作者为阿德莱德大学助理教授吴琦,他在为雷锋网 AI 科技评论投递的独家稿件中回顾了他 ...
2025年被称为“VLA上车元年”,以视觉语言动作模型(Vision-Language-Action Model, VLA)为核心的技术范式正在重塑智能驾驶行业。 VLA不仅融合了视觉语言模型(VLM)的感知能力和端到端模型的决策能力,更引入了“思维链”技术,实现了全局上下文理解与类人推理 ...
导语:在经典的 vision-language 任务上,能够增长的空间已经很小,已经过了暴力的通过数据去学习的阶段。真正的挑战其实是一些细分的领域。 雷锋网 AI 科技评论按:本文作者为阿德莱德大学助理教授吴琦,去年,他在为 AI 科技评论投递的独家稿件中回顾了他 ...