专利 物体围捕方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210920715.3 (22)申请日 2022.08.02 (71)申请人清华大学地址 100084 北京市海淀区清华园 (72)发明人杜军　王子源　任勇　夏照越　许璀杰　 (74)专利代理机构北京华进京联知识产权代理有限公司 1 1606 专利代理师朱五云 (51)Int.Cl. G06F 16/23(2019.01) G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) B63C 11/52(2006.01) (54)发明名称物体围捕方法和装置 (57)摘要本申请涉及一种物体围捕方法和装置。获取目标无人潜航器在距当前时刻的上一时刻的第一环境观测信息，然后对第一环境观测信息进行运行趋势处理，得到目标无人潜航器在当前时刻的运行数据，并以当前时刻的运行数据更新目标无人潜航器在当前时刻的第二环境观测信息，若第二环境观测信息中存在待围捕物体，且待围捕物体周围预设范围内的无人潜航器的数量大于预设值，确定物体围捕任务完成。该方法中使无人潜航器能够根据上一时刻的观测结果做出下一步的运动决策，实现了对自身任务的分布式决策，保证了对物体围捕的高成功率。权利要求书3页说明书26页附图8页 CN 115422211 A 2022.12.02 CN 115422211 A 1.一种物体围捕方法，其特征在于，所述方法包括：获取目标无人潜航器在距当前时刻的上一时刻的第一环境观测信息；所述目标无人潜航器为物体围捕任务中的任一个无人潜航器；对所述第一环境观测信息进行运行趋势处理，得到所述目标无人潜航器在所述当前时刻的运行数据，并以所述当前时刻的运行数据更新所述目标无人潜航器在所述当前时刻的第二环境观测信息；若所述第二环境观测信息中存在待围捕物体，且所述待围捕物体周围预设范围内的无人潜航器的数量大于预设值，确定所述物体围捕任务完成。 2.根据权利要求1所述的方法，其特征在于，所述对所述第一环境观测信息进行运行趋势处理，得到所述目标无人潜航器在当前时刻的运行数据，包括：将所述第一环境观测信息输入至预设的策略网络模型中，得到所述目标无人潜航器在当前时刻的运行数据；所述策略网络模型在训练过程中的每次训练是上一次训练时样本无人潜航器的样本环境观测信息的准确度的量化结果进行的。 3.根据权利要求2所述的方法，其特征在于，所述策略网络模型的构建过程，包括：获取所述样本无人潜航器的样本环境观测信息；所述样本环境观测信息包括多种状态的样本环境观测信息；将所述样本环境观测信息输入至初始策略网格模型中，得到所述样本无人潜航器的测试运行数据；根据所述测试运行数据，确定模型训练损失；获取所述样本环境观测信息的准确度的量化结果，并根据所述模型训练损失和所述样本环境观测信息的准确度的量化结果，对所述初始策略网格模型进行训练，直至所述初始策略网格模型训练完成，得到所述策略网络模型。 4.根据权利要求3所述的方法，其特征在于，所述样本无人潜航器所属环境包括多个区域；所述样本环境观测信息包括样本状态信息、周围状态信息、物体状态信息和地图信息；所述获取样本无人潜航器的样本环境观测信息，包括：获取所述样本无人潜航器的样本状态信息；获取在所述样本无人潜航器在预设通信范围内的其他无人潜航器的周围状态信息和在所述样本无人潜航器在预设探测范围内的物体状态信息；根据所述预设通信范围，获取所述样本无人潜航器的地图信息。 5.根据权利要求3所述的方法，其特征在于，所述样本环境观测信息的准确度的量化结果包括所述样本环境观测信息的准确度的量化信息和奖励信息；所述获取所述样本环境观测信息的准确度的量化结果，包括：获取所述样本无人潜航器在所属环境中各区域的信息年龄；所述信息年龄为所述样本无人潜航器距离上次探测各区域的时间间隔；根据所述样本无人潜航器的样本环境观测信息和所述信息年龄，得到所述样本无人潜航器的全局观测信息；对所述全局观测信息执行动作评估操作，确定所述样本环境观测信息的准确度的量化信息；根据所述全局观测信息，确定所述样本环境观测信息的准确度的奖励信息。权　利　要　求　书 1/3 页 2 CN 115422211 A 26.根据权利要求5所述的方法，其特征在于，所述获取所述样本无人潜航器在所属环境中各区域的信息年龄，包括：针对任一区域，若所述样本无人潜航器满足第一预设条件，且不满足第二预设条件，则根据所述样本无人潜航器在上一时刻的信息年龄和所述样本无人潜航器在当前时刻所属环境中其他无人潜航器的信息年龄，确定所述样本无人潜航器在当前时刻在所述区域的信息年龄；若所述样本无人潜航器满足所述第二预设条件，则确定所述无人潜航器在所述区域的信息年龄为0；若所述样本无人潜航器不满足所述第一预设条件，且不满足所述第二预设条件，则根据所述无人潜航器在上一时刻的信息年龄和所述样本无人潜航器的探测时间间隔，确定所述样本无人潜航器在当前时刻在所述区域的信息年龄；其中，所述第一预设条件为所述样本无人潜航器的通信范围内存在其他无人潜航器；所述第二预设条件为所述区域在所述样本无人潜航器的探测范围内。 7.根据权利要求5所述的方法，其特征在于，所述奖励信息包括碰撞奖励、距离保持奖励、追踪时间奖励、平衡任务奖励和环境探索奖励；所述全局观测信息还包括探测到所述样本无人潜航器预设探测范围内物体的无人潜航器的数量；所述根据所述全局观测信息，确定所述样本环境观测信息的准确度的奖励信息，包括：获取所述样本无人潜航器与所属环境中其他无人潜航器的第一距离值，并根据所述第一距离值确定所述样本环境观测信息的碰撞奖励值；获取所述样本无人潜航器与所属探测范围内物体的第二距离值，并根据所述第二距离值确定所述样本环境观测信息的距离保持奖励值；获取所述样本无人潜航器对所述探测范围内物体的追踪时间，并根据所述追踪时间确定所述样本环境观测信息的追踪时间奖励值；根据所述探测到所述样本无人潜航器预设探测范围内物体的无人潜航器的数量，确定所述样本环境观测信息的平衡任务奖励值；获取所述样本无人潜航器在当前时刻的信息年龄和上一时刻的信息年龄的差值，确定所述样本环境观测信息的环境探索奖励值；所述上一时刻为当前时刻的前一时刻；对所述碰撞奖励值、所述距离保持奖励值、所述追踪时间奖励值、所述平衡任务奖励值和所述环境探索奖励值进行加权计算，确定所述样本环境观测信息的准确度的奖励信息。 8.根据权利要求3所述的方法，其特征在于，所述样本环境观测信息的准确度的量化结果包括所述样本环境观测信息的准确度的量化信息和奖励信息；根据所述模型训练损失和所述样本环境观测信息的准确度的量化结果，对所述初始策略网格模型进行训练，包括：根据所述量化信息和所述奖励信息，确定优势函数的参数值；根据所述优势函数的参数值和所述量化信息，确定所述量化信息的标签值；对所述标签值进行归一化计算，得到所述量化信息对应的标准信息；根据所述模型训练损失、所述量化信息和所述量化信息对应的标准信息，对所述初始策略网格模型进行训练。 9.根据权利要求4所述的方法，其特征在于，所述测试运行数据包括加速度和角速度；权　利　要　求　书 2/3 页 3 CN 115422211 A 3

专利 物体围捕方法和装置

专利物体围捕方法和装置