专利 一种数据集构建方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210603101.2 (22)申请日 2022.05.30 (71)申请人上海商汤临港智能科技有限公司地址 200232 上海市自由贸易试验区临港新片区泥城镇秋山路1775弄29、 30号2 楼01室 (72)发明人余佳桁　杜豪　徐志华　郑捷力　卢乐炜　 (74)专利代理机构北京中知恒瑞知识产权代理事务所(普通合伙) 11889 专利代理师袁忠林 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/72(2022.01) G06V 10/74(2022.01)G06V 10/82(2022.01) G06V 20/56(2022.01) G06V 20/40(2022.01) (54)发明名称一种数据集构建方法、装置、计算机设备及存储介质 (57)摘要本公开提供了一种数据集构建方法、装置、计算机设备及存储介质，其中，该方法包括：获取至少一个样本视频；分别对所述样本视频进行采样处理，得到采样图像组；其中，所述采样处理包含基于行驶距离的第一采样处理、基于转向信息的第二采样处理、基于位置信息的第三采样处理中至少一种；基于所述采样图像组中所包含的样本视频帧，构建与所述样本视频对应的数据集。权利要求书2页说明书16页附图3页 CN 115019127 A 2022.09.06 CN 115019127 A 1.一种数据集构建方法，其特征在于，包括：获取至少一个样本视频；分别对所述样本视频进行采样处理，得到采样图像组；其中，所述采样处理包含基于行驶距离的第一采样处理、基于转向信息的第二采样处理、基于位置信息的第三采样处理中至少一种；基于所述采样图像组中所包含的样本视频帧，构建与所述样本视频对应的数据集。 2.根据权利要求1所述的方法，其特征在于，所述获取至少一个样本视频，包括：获取至少一个样本视频，以及在采集所述样本视频时对应的传感器数据；所述分别对所述样本视频进行采样处理，包括：基于所述样本视频对应的传感器数据，对所述样本视频进行采样处理。 3.根据权利要求2所述的方法，其特征在于，所述传感器数据包括所述样本视频的各样本视频帧对应的速度信息；所述基于所述样本视频对应的传感器数据，对所述样本视频进行采样处理，包括：从所述样本视频帧的首帧开始，基于各样本视频帧对应的速度信息和各样本视频帧之间的时间间隔，确定首个距离所述首帧视频帧的行驶距离不小于第一预设距离的目标视频帧；将所述目标视频帧的下一视频帧重新确定为首帧视频帧，并返回执行确定目标视频帧的步骤；其中，所述目标视频帧为进行第一采样处理后得到的采样图像组的视频帧。 4.根据权利要求3所述的方法，其特征在于，所述目标视频帧包括高速视频帧和低速视频帧；所述方法还包括：将对应的速度信息小于预设速度阈值的目标视频帧确定为所述低速视频帧，以及，将对应的速度信息不小于所述预设速度阈值的目标视频帧确定为所述高速视频帧；所述基于所述采样图像组中所包含的样本视频帧，构建与所述样本视频对应的数据集，包括：基于所述高速视频帧对应的第一构建比例和所述低速视频帧对应的第二构建比例，从所述目标视频帧中筛选出第一视频帧，并基于所述第一视频帧构建与所述样本视频对应的数据集。 5.根据权利要求2～4任一所述的方法，其特征在于，所述传感器数据包括所述样本视频的各样本视频帧对应的航向角；所述基于所述样本视频对应的传感器数据，对所述样本视频进行采样处理，包括：确定对应的航向角大于预设航向角阈值的转向视频片段；按照预设的第一采样间隔对所述转向视频片段进行采样处理。 6.根据权利要求5所述的方法，其特征在于，所述传感器数据还包括所述样本视频的各样本视频帧对应的速度信息；所述按照预设的采样间隔对所述转向视频片段进行采样处理，包括：基于所述转向视频帧对应的速度信息和所述转向视频帧之间的时间间隔，确定各段转向视频片段对应的转向移动距离；在所述转向移动距离超过第二预设距离的情况下，按照预设的第一采样间隔对所述各权　利　要　求　书 1/2 页 2 CN 115019127 A 2段转向视频片段进行采样处理。 7.根据权利要求2～6任一所述的方法，其特征在于，所述传感器数据包括所述样本视频的各样本视频帧对应的位置信息；所述基于所述样本视频对应的传感器数据，对所述样本视频进行采样处理，包括：基于所述各样本视频帧对应的位置信息，确定在目标区域拍摄的至少一段样本视频片段；按照预设的第二采样间隔对各段样本视频片段进行采样处理。 8.根据权利要求7 所述的方法，其特征在于，所述目标区域包括路口区域；在按照预设的第二采样间隔对各段样本视频片段进行采样处理之后，所述方法还包括：对采样处理后的区域视频帧进行识别，并基于识别结果确定各区域视频帧对应的区域类型；所述基于所述采样图像组中所包含的样本视频帧，构建与所述样本视频对应的数据集，包括：基于各区域类型分别对应的构建比例，从所述区域视频帧中筛选出第二视频帧，并基于所述第二视频帧构建与所述样本视频对应的数据集。 9.根据权利要求1～8任一所述的方法，其特征在于，所述基于所述采样图像组中所包含的样本视频帧，构建与所述样本视频对应的数据集，包括：确定所述采样图像组中所包含的样本视频帧分别对应的嵌入表征向量；基于各样本视频帧分别对应的嵌入表征向量，对所述采样图像组中的样本视频帧进行去重处理，并将去重处理之后的采样图像组作为所述样本视频对应的数据集。 10.根据权利要求1～ 9任一所述的方法，其特征在于，所述方法还包括：基于所述样本视频对应的数据集对待训练的神经网络进行训练。 11.一种数据集构建装置，其特征在于，包括：获取模块，用于获取至少一个样本视频；采样模块，用于分别对所述样本视频进行采样处理，得到采样图像组；其中，所述采样处理包含基于行驶距离的第一采样处理、基于转向信息的第二采样处理、基于位置信息的第三采样处理中至少一种；构建模块，用于基于所述采样图像组中所包含的样本视频帧，构建与所述样本视频对应的数据集。 12.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至10任一项所述的数据集构建方法的步骤。 13.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一项所述的数据集构建方法的步骤。权　利　要　求　书 2/2 页 3 CN 115019127 A 3

专利 一种数据集构建方法、装置、计算机设备及存储介质

专利一种数据集构建方法、装置、计算机设备及存储介质