# uav-agent-vla **Repository Path**: pi-lab/uav-agent-vla ## Basic Information - **Project Name**: uav-agent-vla - **Description**: 面向集群无人机的Agent和VLA - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2025-12-05 - **Last Updated**: 2025-12-06 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 面向集群无人机的Agent和VLA 无人机、智能体与视觉语言动作模型正推动着下一代自主系统的革命。无人机作为空中移动机器人平台,提供了独特的物理感知与行动能力;智能体是系统的“大脑”,负责感知、规划、决策与控制,实现任务的自主完成;而视觉语言动作模型则是实现智能体高级认知的关键技术,它赋予机器理解人类自然语言指令、解读视觉环境信息、并生成具体控制动作的能力。 研究这三者的深度融合,其核心目的在于解决传统无人机操作对专业飞手的高度依赖,突破其只能在预设脚本下执行简单任务的局限。通过构建基于VLA的无人机智能体,我们能够实现“用自然语言指挥无人机”的愿景,使其能理解如“巡逻园区并检查东南角是否有异常”这类复杂、高层次的指令,并自主分解任务、规划路径、规避障碍、完成动作,最终实现真正智能化的“人机协同”与“自主作业”。 这项研究具有广阔的应用前景,将深刻改变多个领域。例如,在物流配送中,无人机可理解“将这份急救包送到三楼阳台的受伤者手中”的指令,自主完成多楼层导航与精准投递;在基础设施巡检中,它可根据“检查桥梁支座裂缝”的要求,自主靠近目标进行多角度拍摄与分析;在应急响应中,它能理解“搜索失联人员最后出现区域”的指令,协同多机进行大面积高效搜索。总而言之,基于VLA的无人机智能体研究,是迈向普惠型、通用型空中机器人服务的关键一步,将为社会经济发展开启全新的可能性。 ## 研究方法 先了解一下这个领域的基本知识,代码,数据等。按照如下的步骤进行学习 ### Step 1 先看看参考文献的视频、论文,大概过一下代码,看看每个项目的功能、目的,用什么样的技术 ### Step 2 * 学习LLM的基础知识,调用方法;理解LLM基础,API调用、Prompt工程 * 掌握ROS2基础:节点、话题、服务、动作 * 学习AirSim/OpenUAV仿真:基本飞行控制 ### Step 3 * 将参考文献里面的代码在自己的电脑上运行通,看看效果如何,遇到问题可以查Kimi等帮助解决 * 思考如何改进已有的代码 ### Step 4 * 设想一个多个无人机搜索目标和监视的任务。无人机先搜索整个区域,找到目标之后,多个无人机协同分配任务多目标持续跟踪监视等 * 可以使用AirSim等仿真,构建自己想要的场景。例如在仿真场景增加一些目标(例如坦克)需要侦查到 * 仿真图像获取,目标识别,或者基于多模态大语言模型输出目标的描述文字 * 将目标识别的结果整合到 ReCode或者NeLV里面,实现自己设想功能 ## 参考资料 * 2025 - Next-Generation LLM for UAV: From Natural Language to Autonomous Flight - https://github.com/liangqiyuan/NeLV - https://liangqiyuan.github.io/NeLV/ * 2025 - ReCode: Unify Plan and Action for Universal Granularity Control - https://github.com/FoundationAgents/ReCode * 2024 - Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology - https://prince687028.github.io/OpenUAV/ - https://github.com/prince687028/TravelUAV * 2025 - UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation - https://github.com/sautenich/uav-vla