一种视频处理方法和相关设备与流程

更新时间:2025-03-29 11:11:43 0条评论

默认

一种视频处理方法和相关设备与流程

1.本发明涉及多媒体技术领域，特别涉及一种视频处理方法和相关设备。

背景技术：

2.随着互联网娱乐的发展，越来越多的人参与到互联网的音频制作中。随着技术的发展和普及，音频制作和视频制作的门槛越来越低。在视频制作中，必不可少的一个环节就是视频的特效处理。例如调整光线、增加物品，或者减少物品。
3.针对调整光线这种类型，只要确定调整的视频帧，按照统一的处理方式处理即可，但是对于后两种类型，由于视频的每一个帧之间存在视角、方向的变动，因此，当需要为视频增加物品时，需要不停地调整每一个图像帧中物品的透视、位置等参数，较为繁琐且易出错。

技术实现要素：

4.本发明要解决的技术问题在于降低视频特效的难度，针对现有技术的不足，提供一种视频处理方法和相关设备。
5.为了解决上述技术问题，本发明所采用的技术方案如下：
6.一种视频处理方法，所述方法包括：
7.获取视频文件，其中，所述视频文件包括若干个视频片段；
8.针对每一个所述视频片段，将该视频片段作为处理片段，根据所述处理片段中的图像帧，进行二维场景三维化，得到与该处理片段对应的场景模型；
9.当检测到针对预设的物品元素对应的特效增加指令时，根据所述场景模型和所述特效增加指令，对所述视频文件进行处理，得到特效视频。
10.所述视频处理方法，其中，所述针对每一个所述视频片段，将该视频片段作为处理片段，根据所述处理片段中的图像帧，进行二维场景三维化，得到与该处理片段对应的场景模型包括：
11.针对每一个所述视频片段，将该视频片段作为处理片段，将该处理片段输入已训练的三维场景模型中，并控制所述三维场景模型对所述处理片段中的图像帧进行三维化，得到与该视频片段对应的场景模型。
12.所述视频处理方法，其中，所述针对每一个所述视频片段，将该视频片段作为处理片段，根据所述处理片段中的图像帧，进行二维场景三维化，得到与该处理片段对应的场景模型之前，还包括：
13.获取针对训练模型的训练视频；
14.对所述训练视频中的训练帧进行数据转换，得到五维函数，其中，所述五维函数包括位置坐标和观察向量；
15.将所述五维向量输入预设的三维预测模型中，得到所述五维特征对应的体素颜和体素密度；
16.将所有所述体素颜和所述体素密度进行渲染，得到预测模型；
17.基于预设的损失函数，计算所述预测模型和所述训练模型之间的损失值；
18.基于所述损失值，对所述三维预测模型进行训练，直至所述三维预测模型收敛。
19.所述视频处理方法，其中，所述当检测到针对预设的物品元素对应的特效增加指令时，根据所述场景模型和所述特效增加指令，对所述视频文件进行处理，得到特效视频包括：
20.对该场景模型进行物体识别，得到若干个追踪对象；
21.当检测到针对预设的物品元素对应的特效增加指令时，根据所述特效增加指令中的指示坐标，确定所述追踪对象中的追踪元素和插入坐标；
22.根据所述场景模型、所述追踪元素和所述指示坐标，确定所述物品元素对应的处理参数；
23.根据所述插入坐标、所述处理参数和所述物品元素，对所述视频文件进行处理，得到特效视频。
24.所述视频处理方法，其中，所述处理参数包括透视参数和投影参数；所述根据所述场景模型、所述追踪元素和所述指示坐标，确定所述物品元素对应的处理参数包括：
25.根据所述追踪元素和所述场景模型对应的透视信息，确定所述物品元素对应的透视参数；以及，
26.根据所述追踪元素在所述场景模型中的光线信息，确定物品元素对应的投影参数。
27.所述视频处理方法，其中，所述根据所述追踪元素在所述场景模型中的光线信息，确定物品元素对应的投影参数包括：
28.根据场景模型中的光源分布信息，确定追踪元素对应的光线面，其中，所述光线面包括受光面、侧光面和背光面；
29.根据追踪元素中的受光面的亮度值、侧光面的亮度值和背光面的亮度值，以及场景模型中光源的亮度值，计算光线传播函数和亮度传递函数；
30.根据所述指示坐标、所述光线传播函数和所述亮度传递函数，计算所述物品元素对应的投影参数。
31.所述视频处理方法，其中，所述特效视频包括若干个特效图像；所述根据所述插入坐标、所述处理参数和所述物品元素，对所述视频文件进行处理，得到特效视频包括：
32.当所述场景模型包括镜面物时，根据所述插入坐标和所述镜面物的世界坐标，生成与所述物品元素对应镜面元素、所述镜面元素对应的镜面坐标和镜面参数；
33.根据镜面信息和物品信息，对所述视频文件进行处理，得到特效视频，其中，所述镜面信息包括所述镜面元素、所述镜面坐标和所述镜面参数，所述物品信息包括所述物品元素、所述插入坐标和所述处理参数。
34.所述视频处理方法，其中，所述特效视频包括特效处理视频和特效补充视频；根据所述插入坐标、所述处理参数和所述物品元素，对所述视频文件进行处理，得到特效视频包括：
35.将待处理片段对应的待处理模型与所述场景模型进行比较，确定与所述场景模型对应的比较模型；
36.根据所述特效增加指令，生成与所述比较模型对应的特效补充指令；
37.根据所述特效补充指令，对所述比较模型对应的待处理片段进行处理，得到特效补充视频；以及，
38.根据所述插入坐标、所述处理参数和所述物品元素，对所述处理片段进行处理，得到特效处理视频。
39.一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的视频处理方法中的步骤。
40.一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；
41.所述通信总线实现处理器和存储器之间的连接通信；
42.所述处理器执行所述计算机可读程序时实现如上任一所述的视频处理方法中的步骤。
43.有益效果：本发明根据图像帧，对视频文件中不同的视频片段创建场景模型，当用户需要为视频文件增加物品时，将物品元素添加到场景模型中，由于场景模型来源于图像帧，因此图像帧可视作是针对场景模型按照一定视角进行投影的结果，因此，基于添加了物品的场景模型，可对二维的图像帧进行修改。从而实现物品由三维的场景模型进入到二维的帧图像中，提高了特效处理的简便性和快速性。
附图说明
44.图1为本发明提供的视频处理方法的流程图。
45.图2为本发明提供的视频处理方法的视频文件切分为视频片段的示意图。
46.图3为本发明提供的视频处理方法的显示界面的示意图。
47.图4为本发明提供的视频处理方法的光线面的示意图。
48.图5为本发明提供的终端设备的结构原理图。
具体实施方式
49.本发明提供一种视频处理方法，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
50.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
51.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该
理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
52.如图1所示，本实施提供了一种视频处理方法，为方便说明，以常见的服务器作为执行主体进行描述，此处的服务器可替换为平板、电脑等具有数据处理功能的设备，视频处理方法包括以下步骤：
53.s10、获取视频文件。
54.具体地，首先获取待处理的视频文件。视频文件可以由一个或者多个视频片段组成。该视频文件可来源于本地、云端或者客户端传输。视频片段和视频片段的划分标准在于来源的镜头是否相同，视频文件中可能为不同的视频片段进行记号标记，此时只要直接根据标记对视频文件进行拆分，即可得到若干个视频片段。对于不存在标记的视频文件，可采用根据镜头边界，将视频文件进行拆分，得到若干个视频片段。镜头边界的判断可通过视频背景、图像帧中人物或物体的面积变化等方式实现。例如前一个图像帧中包含人，后一个图像帧中不包含人，则将前一个图像帧和后一个图像帧之间确定为镜头边界。
55.s20、针对每一个所述视频片段，将该视频片段作为处理片段，根据所述处理片段中的图像帧，进行二维场景三维化，得到与该处理片段对应的场景模型。
56.具体地，由于不同的视频片段对应的场景不同，后续三维化得到的场景模型也并不相同，此处针对每一个视频片段，将该视频片段作为处理片段，根据在这个视频片段中的图像帧，进行二维场景的三维化，得到与该视频片段对应的场景模型。
57.本发明可采用基于深度图建立三维的场景模型，此方法虽然简单，但是深度图的采集需要实地采集，对设备和环境要求较高，难度较大。但是对于连续时间内变化的多张图像，图像和图像之间会提供更多的信息，因此，对于视频片段，可直接根据视频片段中的多张图像帧进行三维化，得到场景模型。
58.本实施例提供一种预先训练好的三维场景模型，将视频片段作为处理片段，并将其输入至所述三维场景模型中，并控制三维场景模型对输入的视频片段中的图像帧进行三维化，得到与该视频片段对应的场景模型。而该三维场景模型的训练过程包括：
59.a10、获取针对训练模型的训练视频。
60.具体地，预先获取针对预设的训练模型的训练视频。该训练视频可采用对实物进行拍摄得到，也可以根据训练模型制作二维视频得到，也可以是大量相机参数已知的图像组合形成的训练视频。
61.a20、对所述训练视频中的训练帧进行数据转换，得到五维函数，其中，所述五维函数包括训练坐标和观察向量。
62.具体地，针对训练视频中的每一张图像帧作为训练帧，对其进行数据转换，将其转换为一个五维函数，该五维函数包括该图像帧在空间中对应的训练坐标，还包括观察向量，观察向量包括观察角度和观察的起点坐标。
63.a30、将所述五维向量输入预设的三维预测模型中，得到所述五维特征对应的体素颜和体素密度。
64.具体地，将五维特征向量输入到三维预测模型中，三维预测模型可将其转换为三维模型中体素的属性值，例如体素颜和体素密度。
65.以公式可表示为f
θ
：(x,d)
→
(c,σ)
66.其中，x＝{x,y,z}表示三维坐标；d＝{θ,φ}表示二维的观察向量；c＝{r,g,b}，表示与视角相关的该体素的颜；σ表示体素的密度。该三维预测模型可采用mlp网络。
67.a40、将所有所述体素颜和所述体素密度进行渲染，得到预测模型。
68.具体地，在三维模型建模过程中，知道体素颜和体素密度，即可实现三维模型的渲染和输出，得到预测模型。
69.a50、基于预设的损失函数，计算所述预测模型和所述训练模型之间的损失值。
70.具体地，得到预测模型后，为评价该三维预测模型的准确性，基于预设的损失函数，计算预测模型和训练模型之间的损失值，也就是三维预测模型预测不准确的数值。
71.a60、基于所述损失值，对所述三维预测模型进行训练，直至所述三维预测模型收敛。
72.具体地，然后将损失值反向传输回三维预测模型中，以对三维预测模型内的参数进行调整。再重复训练、损失计算、调整的过程，直至三维预测模型满足预设的收敛条件，实现模型收敛。预设的收敛条件可包括三维预测模型的准确性达到阈值，或训练次数达到目标次数等。
73.s30、当检测到针对预设的物品元素对应的特效增加指令时，根据所述场景模型和所述特效增加指令，对所述视频文件进行处理，得到特效视频。
74.具体地，预先设定若干个物品元素，该物品元素可以由设计者预先设计，也可由用户自己手动添加。物品元素可包括花瓶、球等多种物品的形状、大小、颜等参数。
75.当用户需要对视频文件添加物品元素时，可通过外接设备选择所需要添加的物品元素，以及所要添加物品元素的指示位置，从而生成用于向服务器发送的特效增加指令。在本实施例的一种生成特效增加指令的方式中，如图3所示，在与服务器连接的显示界面上，左边显示视频文件中的某一张图像帧，右边列有可被加入该视频文件的物品元素。用户可直接将右侧的物品元素拖动到显示的图像帧中，然后松开鼠标，松开鼠标时的坐标即指示坐标，即用户期望添加物品元素的坐标。
76.由于为不同的视频片段创建了与其对应的场景模型，因此当得到物品元素和指示位置时，根据指示坐标，将物品元素移动到场景模型上。在这个处理片段中，每一张图像帧都可以看做场景模型根据特定视角投影得到。因此，在物品元素移动到场景模型上后，基于每一张图像帧投影场景模型的角度，以及添加物品元素后的场景模型，将该物品元素对应的二维信息添加至图像帧，从而得到该图像帧对应的特效图像。将所有图像帧转化为添加物品元素的特效图像后，即得到对整个视频片段添加物品元素的特效视频。
77.进一步地，若指示坐标为针对场景模型的世界坐标确定的坐标，则根据指示坐标，能够确定与物品元素对应的唯一位置进行添加物品元素。但是由于显示的图像是二维的，用户并不容易确定自己期望确定的位置，指定坐标更多是二维坐标。而在进行视频进展过程中常常出现视角调整，因此仅靠二维坐标确定在场景模型中的位置并不稳定。因此，本实施例将场景模型中的物品作为标的，用于固定物品元素的位置，在本实施例的一种对视频片段进行处理的过程为：
78.b10、对该场景模型进行物体识别，得到若干个追踪对象；
79.具体地，由于场景模型是通过体素进行建模，并不是根据存在物品再进行建模，所
以得到场景模型后，先对场景模型进行物品识别，识别在场景模型中的物品，将这些本身就在场景模型中的物品成为追踪对象。常见的最终对象如墙壁、桌子、人、椅子。
80.b20、当检测到针对预设的物品元素对应的特效增加指令时，根据所述特效增加指令中的指示坐标，确定所述追踪对象中的追踪元素和插入坐标。
81.具体地，当检测到针对物品元素对应的特效增加指令时，根据该指示坐标对应在显示的图像帧上的坐标，可确定用户希望在图像帧上添加物品元素的二维坐标。根据二维坐标，确定追踪对象中的追踪元素。如图3所示，本实施例，若用户输入的指示坐标在图像帧对应的物品为天空，则将天空作为追踪元素。
82.基于追踪元素的固定，以及指示坐标，物品元素可较为稳定地确定在场景模型中相对固定的位置。当视频片段中发生视角的变化，例如从11点方向调整至10点方向，物品元素在各个图像帧中的投影都较为固定。例如前文中选择的追踪元素为天空，物品元素为太阳，则太阳在图像帧1的视角中投影的位置在天空的区域，在图像帧2的视角中投影的位置也在天空的区域。此方式能够更好地提高物品元素插入位置的稳定性。再例如，物品元素是放置于某个平面的表面，例如墙的表面，将墙的表面作为一个固定面，基于该固定面在世界坐标系中的函数和指示坐标，可将物品元素固定在一个唯一坐标上，本实施例中将这一坐标作为插入坐标。此外，用户还可通过发送修正指令，调整物品元素对应的插入坐标，以固定物品元素的位置。
83.b30、根据所述场景模型、所述追踪元素和所述指示坐标，确定所述物品元素对应的处理参数。
84.具体地，根据场景模型、追踪元素和指示坐标，物品元素能够确定一个相对稳定的位置坐标，将该插入坐标对应的显示参数，例如光线、投影等，作为物品元素对应的处理参数。本实施例以处理参数包括透视参数和投影参数为例，透视参数是物品元素与场景模型之间的透视关系，投影参数是在场景模型的光线下物品元素所显示的明暗分布。因此，可根据所述追踪元素和所述场景模型对应的透视信息，确定所述物品元素对应的透视参数。同时，根据所述追踪元素在所述场景模型中的光线信息，确定物品元素对应的投影参数。
85.在确定投影参数时，由于物品元素依赖追踪元素，因此可先根据场景模型中的光源分布信息，确定追踪元素对应的光线面。光线面是指对光线的承受的程度不同进行划分，一般包括受光面、侧光面和背光面。以图4为例，场景模型中的光源分布于右上角，因此可确定追踪元素中的受光面(图中3标识的面)、侧光面(图中2标识的面)以及背光面(图中1标识的面)。
86.根据追踪元素中的受光面、侧光面和背光面的亮度值以及场景模型中光源的亮度值，计算光线传播函数和亮度传递函数，光线传播函数即代表从光源到追踪元素之间的光线传播路径的函数；亮度传递函数即光线在传播至追踪元素过程时，受光面、侧光面和背光面的亮度值的变化函数。最后根据物品元素对应的插入坐标，将物品元素插入至场景模型中，并根据光源传递函数和亮度传递函数，计算所述物品元素在场景模型中不同面呈现的亮度，即投影参数。
87.因此，根据场景模型、追踪元素和指示坐标，物品元素能够确定一个相对稳定的位置坐标，将该位置坐标对应的显示参数，例如光线、投影等，作为物品元素对应的处理参数。
88.b40、根据所述插入坐标、所述处理参数和所述物品元素，对所述视频文件进行处
理，得到特效视频。
89.具体地，得到物品元素对应的处理参数后，可将物品元素更为真实且贴切地插入到是场景模型中。可根据视角信息，重新对插入了物品元素和镜面元素的场景模型进行投影，得到投影图像，将该投影图像替代图像帧。但是这种方式，视频片段中出现了物品移动等现象，新的投影图像并不能很好保留原有图像帧的信息。因此，本实施例根据视频片段不同的图像帧对应的视角，将物品元素投影并插入至该图像帧中。对每一个图像帧处理完毕后，即得到特效视频。
90.进一步地，若场景模型中包括镜面物，例如镜子、湖面，在场景模型中增加物品元素时，在实际场景中，镜面会出现对应的镜像。因此，在本实施例中，当场景模型中包含镜面物时，需要对场景模型中的镜面进行处理。
91.首先，当检测到场景模型中存在镜面物时，根据所述物品元素对应的插入坐标和所述镜面物对应的世界坐标，生成与所述物品元素对应的镜面元素，以及所述镜面元素对应的镜面坐标和镜面参数。镜面参数是指与物品元素对应的处理参数类似的参数，可包括投影参数、透视参数等。将物品元素、插入坐标和处理参数作为物品信息，将镜面元素、镜面坐标和镜面参数作为镜面信息，根据镜面信息和物品信息，对视频文件进行处理，得到特效视频。对视频文件中的图像帧的处理方式在前文已描述，故不再一一陈述。
92.进一步地，视频片段之间可能存在场景共用的情形，例如视频片段1针对场景a，视频片段2针对场景b，而视频片段3仍针对场景a。若用户只针对视频片段1插入了物品元素，视频片段3应当也进行特效处理。因此在对该视频片段处理后，还包括：
93.c10、将待处理片段对应的待处理模型与所述场景模型进行比较，确定与所述场景模型对应的比较模型。
94.具体地，待处理片段就是所有视频片段中与用户选择处理的视频片段以外的视频片段。待处理模型即对待处理片段进行三维化得到的模型。
95.待处理模型和场景模型都是三维模型，故两者可以进行比较，从而确定与场景模型较为相似的待处理模型作为其对应的比较模型。三维模型的比较可先采用坐标系归一化，将三维模型转换为同一个坐标系下的模型，然后采用外观比较、几何相似性等方法比较位于同一坐标系下的场景模型和待处理模型之间的模型相似度。然后选择模型相似度满足预设的阈值的待处理模型作为场景模型对应的比较模型。
96.若采用几何相似性比较待处理模型和场景模型之间的相似度，由于几何相似性中采用亮度、颜、拓扑结构等多个维度评价两个模型之间的模型相似度，因此，在计算模型相似度时，可为不同维度设定不同的权重，针对每一个维度，计算该维度下的单维度相似度与对应的权重之积，再对所有添加权重后的单维度相似度求和，得到模型相似度。例如，在视频拍摄中，随着时间推移，亮度会发生变化，因此亮度这一维度对应的权重值较低，例如小于30％，而颜是较为稳定的，因此这一维度对应的权重值较高，例如大于50％。
97.c20、根据所述特效增加指令，生成与所述比较模型对应的特效补充指令。
98.具体地，特效增加指令是针对场景模型的，由于不同视频片段对应的三维模型不同，因此，需要将特效增加指令转换为针对比较模型的指令。首先将建立场景模型与比较模型的坐标系之间的转换函数，然后基于转换函数，将特效增加指令进行转换，得到特效补充指令。
99.c30、根据所述特效补充指令，对所述比较模型对应的待处理片段进行处理，得到特效补充视频；以及，根据所述插入坐标、所述处理参数和所述物品元素，对所述处理片段进行处理，得到特效处理视频。
100.具体地，最后基于特效补充指令，对比较模型对应的待处理片段进行处理，得到在该待处理片段中增加物品元素的特效补充视频。同时，根据插入坐标、处理参数和物品元素，对处理片段也进行处理，得到特效处理视频。由于此过程与前文针对视频片段的处理过程相同，故在此不再赘述。将特效处理视频替换处理片段在视频文件中的位置，以及将特效补充视频替换待处理片段在视频文件中的位置，即可得到处理后的特效视频。
101.本发明对视频文件创建场景模型，当用户需要添加物品元素时，在场景模型上进行模拟，然后根据图像帧投影的角度，将物品元素从三维变更为二维，得到其二维信息，并添加至图像帧上。在此过程中，用户仅需要确定所要添加的位置以及所要添加的物品元素即可，降低了对整个视频特效处理的难度，提高处理速率。此外，本发明在实施过程中，还结合追踪元素，提高物品元素位置的稳定性，镜面物对视频特效的影响，以及不同的视频片段场景重合时的处理方式，提高处理的精确度，进一步降低处理门槛。
102.基于上述视频处理方法，本发明还提供了一种终端设备，如图3所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(communications interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑命令，以执行上述实施例中的方法。
103.此外，上述的存储器22中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取计算机可读存储介质中。
104.存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序命令或模块。处理器20通过运行存储在存储器22中的软件程序、命令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。
105.存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态计算机可读存储介质。
106.此外，上述计算机可读存储介质以及终端设备中的多条命令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。
107.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种视频处理方法，其特征在于，所述方法包括：获取视频文件，其中，所述视频文件包括若干个视频片段；针对每一个所述视频片段，将该视频片段作为处理片段，根据所述处理片段中的图像帧，进行二维场景三维化，得到与该处理片段对应的场景模型；当检测到针对预设的物品元素对应的特效增加指令时，根据所述场景模型和所述特效增加指令，对所述视频文件进行处理，得到特效视频。2.根据权利要求1所述视频处理方法，其特征在于，所述针对每一个所述视频片段，将该视频片段作为处理片段，根据所述处理片段中的图像帧，进行二维场景三维化，得到与该处理片段对应的场景模型包括：针对每一个所述视频片段，将该视频片段作为处理片段，将该处理片段输入已训练的三维场景模型中，并控制所述三维场景模型对所述处理片段中的图像帧进行三维化，得到与该视频片段对应的场景模型。3.根据权利要求2所述视频处理方法，其特征在于，所述针对每一个所述视频片段，将该视频片段作为处理片段，根据所述处理片段中的图像帧，进行二维场景三维化，得到与该处理片段对应的场景模型之前，还包括：获取针对训练模型的训练视频；对所述训练视频中的训练帧进行数据转换，得到五维函数，其中，所述五维函数包括位置坐标和观察向量；将所述五维向量输入预设的三维预测模型中，得到所述五维特征对应的体素颜和体素密度；将所有所述体素颜和所述体素密度进行渲染，得到预测模型；基于预设的损失函数，计算所述预测模型和所述训练模型之间的损失值；基于所述损失值，对所述三维预测模型进行训练，直至所述三维预测模型收敛。4.根据权利要求1所述视频处理方法，其特征在于，所述当检测到针对预设的物品元素对应的特效增加指令时，根据所述场景模型和所述特效增加指令，对所述视频文件进行处理，得到特效视频包括：对该场景模型进行物体识别，得到若干个追踪对象；当检测到针对预设的物品元素对应的特效增加指令时，根据所述特效增加指令中的指示坐标，确定所述追踪对象中的追踪元素和插入坐标；根据所述场景模型、所述追踪元素和所述指示坐标，确定所述物品元素对应的处理参数；根据所述插入坐标、所述处理参数和所述物品元素，对所述视频文件进行处理，得到特效视频。5.根据权利要求4所述视频处理方法，其特征在于，所述处理参数包括透视参数和投影参数；所述根据所述场景模型、所述追踪元素和所述指示坐标，确定所述物品元素对应的处理参数包括：根据所述追踪元素和所述场景模型对应的透视信息，确定所述物品元素对应的透视参数；以及，根据所述追踪元素在所述场景模型中的光线信息，确定物品元素对应的投影参数。
6.根据权利要求5所述视频处理方法，其特征在于，所述根据所述追踪元素在所述场景模型中的光线信息，确定物品元素对应的投影参数包括：根据场景模型中的光源分布信息，确定追踪元素对应的光线面，其中，所述光线面包括受光面、侧光面和背光面；根据追踪元素中的受光面的亮度值、侧光面的亮度值和背光面的亮度值，以及场景模型中光源的亮度值，计算光线传播函数和亮度传递函数；根据所述指示坐标、所述光线传播函数和所述亮度传递函数，计算所述物品元素对应的投影参数。7.根据权利要求4所述视频处理方法，其特征在于，所述特效视频包括若干个特效图像；所述根据所述插入坐标、所述处理参数和所述物品元素，对所述视频文件进行处理，得到特效视频包括：当所述场景模型包括镜面物时，根据所述插入坐标和所述镜面物的世界坐标，生成与所述物品元素对应镜面元素、所述镜面元素对应的镜面坐标和镜面参数；根据镜面信息和物品信息，对所述视频文件进行处理，得到特效视频，其中，所述镜面信息包括所述镜面元素、所述镜面坐标和所述镜面参数，所述物品信息包括所述物品元素、所述插入坐标和所述处理参数。8.根据权利要求4所述的视频处理方法，其特征在于，所述特效视频包括特效处理视频和特效补充视频；根据所述插入坐标、所述处理参数和所述物品元素，对所述视频文件进行处理，得到特效视频包括：将待处理片段对应的待处理模型与所述场景模型进行比较，确定与所述场景模型对应的比较模型；根据所述特效增加指令，生成与所述比较模型对应的特效补充指令；根据所述特效补充指令，对所述比较模型对应的待处理片段进行处理，得到特效补充视频；以及，根据所述插入坐标、所述处理参数和所述物品元素，对所述处理片段进行处理，得到特效处理视频。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～8任意一项所述的视频处理方法中的步骤。10.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述通信总线实现处理器和存储器之间的连接通信；所述处理器执行所述计算机可读程序时实现如权利要求1～8任意一项所述的视频处理方法中的步骤。

技术总结

本发明公开了一种视频处理方法和相关设备，方法包括：获取视频文件，其中，所述视频文件包括若干个视频片段；针对每一个所述视频片段，将该视频片段作为处理片段，根据所述处理片段中的图像帧，进行二维场景三维化，得到与该处理片段对应的场景模型；当检测到针对预设的物品元素对应的特效增加指令时，根据所述场景模型和所述特效增加指令，对所述视频文件进行处理，得到特效视频。本发明提供一种针对视频的方便快捷的特效处理方法，提高视频特效处理的效率。理的效率。理的效率。