(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210920715.3
(22)申请日 2022.08.02
(71)申请人 清华大学
地址 100084 北京市海淀区清华园
(72)发明人 杜军 王子源 任勇 夏照越
许璀杰
(74)专利代理 机构 北京华进京联知识产权代理
有限公司 1 1606
专利代理师 朱五云
(51)Int.Cl.
G06F 16/23(2019.01)
G06F 30/27(2020.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
B63C 11/52(2006.01)
(54)发明名称
物体围捕方法和装置
(57)摘要
本申请涉及一种物体围捕方法和装置。 获取
目标无人潜航器在距当前时刻 的上一时刻 的第
一环境观测 信息, 然后对第一环 境观测信息进行
运行趋势处理, 得到目标无人潜航器在当前时刻
的运行数据, 并以当前时刻的运行数据更新目标
无人潜航器在当前时刻的第二环 境观测信息, 若
第二环境观测 信息中存在待围捕物体, 且待围捕
物体周围预设范围内的无人潜航器的数量大于
预设值, 确定物体围捕任务完成。 该方法中使无
人潜航器能够根据上一时刻 的观测结果做出下
一步的运动决策, 实现了对自身任务的分布式决
策, 保证了对物体围捕的高成功率。
权利要求书3页 说明书26页 附图8页
CN 115422211 A
2022.12.02
CN 115422211 A
1.一种物体围捕方法, 其特 征在于, 所述方法包括:
获取目标无人潜航器在距当前时刻的上一 时刻的第 一环境观测信 息; 所述目标无人潜
航器为物体围捕任务中的任一个无 人潜航器;
对所述第一环境观测信 息进行运行趋势处理, 得到所述目标无人潜航器在所述当前时
刻的运行数据, 并以所述当前时刻的运行数据更新所述目标无人潜航器在所述当前时刻的
第二环境观测信息;
若所述第二环境观测信 息中存在待围捕物体, 且所述待围捕物体周围预设范围内的无
人潜航器的数量大于预设值, 确定所述物体围捕任务完成。
2.根据权利要求1所述的方法, 其特征在于, 所述对所述第 一环境观测信 息进行运行趋
势处理, 得到所述目标 无人潜航器在当前时刻的运行 数据, 包括:
将所述第一环境观测信 息输入至预设的策略网络模型中, 得到所述目标无人潜航器在
当前时刻的运行数据; 所述策略网络模型在训练过程中的每次训练是上一次训练 时样本无
人潜航器的样本环境观测信息的准确度的量 化结果进行的。
3.根据权利要求2所述的方法, 其特 征在于, 所述策略网络模型的构建过程, 包括:
获取所述样本无人潜航器的样本环境观测信 息; 所述样本环境观测信 息包括多种状态
的样本环境观测信息;
将所述样本环境观测信 息输入至初始策略网格模型中, 得到所述样本无人潜航器的测
试运行数据;
根据所述测试运行 数据, 确定模型训练损失;
获取所述样本环境观测信 息的准确度的量化结果, 并根据 所述模型训练损失和所述样
本环境观测信息的准确度的量化结果, 对所述初始策略网格模型进行训练, 直至所述初始
策略网格模型训练完成, 得到所述策略网络模型。
4.根据权利要求3所述的方法, 其特征在于, 所述样本无人潜航器所属 环境包括多个区
域; 所述样本环境观测信息包括样本状态信息、 周围状态信息、 物体状态信息和地图信息;
所述获取样本无 人潜航器的样本环境观测信息, 包括:
获取所述样本无 人潜航器的样本状态信息;
获取在所述样本无人潜航器在预设通信范围内的其他无人潜航器的周围状态信息和
在所述样本无 人潜航器在预设探测范围内的物体 状态信息;
根据所述预设通信范围, 获取 所述样本无 人潜航器的地图信息 。
5.根据权利要求3所述的方法, 其特征在于, 所述样本环境观测信 息的准确度的量化结
果包括所述样本环境观测信息的准确度的量 化信息和奖励信息;
所述获取 所述样本环境观测信息的准确度的量 化结果, 包括:
获取所述样本无人潜航器在所属 环境中各区域的信 息年龄; 所述信 息年龄为所述样本
无人潜航器距离上次探测各区域的时间 间隔;
根据所述样本无人潜航器的样本环境观测信 息和所述信 息年龄, 得到所述样本无人潜
航器的全局观测信息;
对所述全局 观测信息执行动作评估操作, 确定所述样本环境观测信 息的准确度的量化
信息;
根据所述全局观测信息, 确定所述样本环境观测信息的准确度的奖励信息 。权 利 要 求 书 1/3 页
2
CN 115422211 A
26.根据权利要求5所述的方法, 其特征在于, 所述获取所述样本无人潜航器在所属 环境
中各区域的信息年龄, 包括:
针对任一区域, 若所述样本无人潜航器满足第 一预设条件, 且不满足第 二预设条件, 则
根据所述样本无人潜航器在上一时刻的信息年龄和所述样本无人潜航器在当前时刻所属
环境中其他无人潜航器的信息年龄, 确定所述样本无人潜航器在当前时刻在所述区域的信
息年龄;
若所述样本无人潜航器满足所述第 二预设条件, 则确定所述无人潜航器在所述 区域的
信息年龄为0;
若所述样本无人潜航器不满足所述第一预设条件, 且不满足所述第二预设条件, 则根
据所述无人潜航器在上一时刻的信息年龄和所述样本无人潜航器的探测时间间隔, 确定所
述样本无 人潜航器在当前时刻 在所述区域的信息年龄;
其中, 所述第一预设条件为所述样本无人潜航器的通信范围内存在其他无人潜航器;
所述第二预设条件为所述区域在所述样本无 人潜航器的探测范围内。
7.根据权利要求5所述的方法, 其特征在于, 所述奖励信息包括碰撞奖励、 距离保持奖
励、 追踪时间奖励、 平衡任务奖励和环境探索奖励; 所述全局观测信息还包括探测到所述样
本无人潜航器预设探测范围内物体的无 人潜航器的数量;
所述根据所述全局观测信息, 确定所述样本环境观测信息的准确度的奖励信息, 包括:
获取所述样本无人潜航器与 所属环境中其他无人潜航器的第 一距离值, 并根据 所述第
一距离值确定所述样本环境观测信息的碰撞奖励值;
获取所述样本无人潜航器与 所属探测范围内物体的第 二距离值, 并根据 所述第二距离
值确定所述样本环境观测信息的距离保持奖励值;
获取所述样本无人潜航器对所述探测范围内物体的追踪时间, 并根据 所述追踪时间确
定所述样本环境观测信息的追踪时间奖励值;
根据所述探测到所述样本无人潜航器预设探测范围内物体的无人潜航器的数量, 确定
所述样本环境观测信息的平衡任务奖励值;
获取所述样本无人潜航器在当前时刻的信 息年龄和上一 时刻的信 息年龄的差值, 确定
所述样本环境观测信息的环境探索奖励值; 所述上一时刻为当前时刻的前一时刻;
对所述碰撞奖励值、 所述距离保持奖励值、 所述追踪时间奖励值、 所述平衡任务奖励值
和所述环境探索奖励值进行加权计算, 确定所述样本环境观测信息的准确度的奖励信息 。
8.根据权利要求3所述的方法, 其特征在于, 所述样本环境观测信 息的准确度的量化结
果包括所述样本环境观测信息的准确度的量 化信息和奖励信息;
根据所述模型训练损失和所述样本环境观测信 息的准确度的量化结果, 对所述初始策
略网格模型进行训练, 包括:
根据所述 量化信息和所述奖励信息, 确定优势函数的参数值;
根据所述优势函数的参数值和所述 量化信息, 确定所述 量化信息的标签值;
对所述标签值进行归一 化计算, 得到所述 量化信息对应的标准信息;
根据所述模型训练损 失、 所述量化信息和所述量化信息对应的标准信息, 对所述初始
策略网格模型进行训练。
9.根据权利要求4所述的方法, 其特征在于, 所述测试运行数据包括加速度和角速度;权 利 要 求 书 2/3 页
3
CN 115422211 A
3
专利 物体围捕方法和装置
文档预览
中文文档
38 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:43:06上传分享