直播流的字幕处理方法、装置及直播流的播放方法、装置与流程

更新时间:2025-04-01 05:18:19 0条评论

默认

直播流的字幕处理方法、装置及直播流的播放方法、装置与流程

1.本技术涉及计算机技术领域，具体涉及一种直播流的字幕处理方法、装置及直播流的播放方法、装置。

背景技术：

2.随着互联网技术的不断发展，视频直播已经成为当下最受欢迎的信息传播媒介之一。直播一向是实时内容，无法像点播视频一般预先制作字幕。但大部分人由于观看电影、电视剧、点播等有字幕视频的习惯，以及一些主播口音、语言的原因，或者观众当前所处的环境无法听到声音时，字幕将会给观众带来极大的便利和更高的观看体验。然而，现有的字幕处理技术有的无法精准对齐到帧级别、而且成本高，有的会增加延迟，降低了直播中的即时互动性。

技术实现要素：

3.本技术的目的是提供一种直播流的字幕处理方法、装置及直播流的播放方法、装置，以解决现有技术存在的由于字幕处理而增加的延迟，造成的劣化了直播中的即时互动体验，导致用户观看直播体验差等问题。
4.根据本技术实施例的一个方面，提供了一种直播流的字幕处理方法，包括：
5.获取直播流的待处理音频数据，对待处理音频数据进行语音转写处理得到对应的字幕信息，并确定字幕信息对应的字幕时间戳；
6.根据字幕信息对应的字幕时间戳，确定目标视频帧；
7.计算字幕时间戳相对于目标视频帧的视频帧时间戳的字幕时间戳偏移值，将字幕时间戳偏移值及字幕信息写入目标视频帧的补充增强字段中；
8.将处理后的目标视频帧与目标视频帧对应的音频数据进行封包推流。
9.根据本技术实施例的另一方面，提供了一种直播流的播放方法，包括：
10.获取直播流，对直播流进行分包处理得到包含视频帧的视频包及包含音频数据的音频包，对视频包的目标视频帧中的补充增强字段进行解析处理，得到字幕时间戳偏移值及字幕信息；
11.根据字幕时间戳偏移值及目标视频帧的视频帧时间戳确定字幕信息对应的字幕时间戳；
12.根据字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理，根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
13.根据本技术实施例的另一方面，提供了一种直播流的字幕处理装置，包括：
14.语音转写处理模块，适于获取直播流的待处理音频数据，对待处理音频数据进行语音转写处理得到对应的字幕信息，并确定字幕信息对应的字幕时间戳；
15.确定模块，适于根据字幕信息对应的字幕时间戳，确定目标视频帧；
16.计算模块，适于计算字幕时间戳相对于目标视频帧的视频帧时间戳的字幕时间戳
偏移值；
17.写入模块，适于将字幕时间戳偏移值及字幕信息写入目标视频帧的补充增强字段中；
18.封包推流模块，适于将处理后的目标视频帧与目标视频帧对应的音频数据进行封包推流。
19.根据本技术实施例的另一方面，提供了一种直播流的播放装置，包括：
20.获取模块，适于获取直播流；
21.分包模块，适于对所述直播流进行分包处理得到包含视频帧的视频包及包含音频数据的音频包；
22.解析模块，适于对视频包的目标视频帧中的补充增强字段进行解析处理，得到字幕时间戳偏移值及字幕信息；
23.第一确定模块，适于根据字幕时间戳偏移值及目标视频帧的视频帧时间戳确定字幕信息对应的字幕时间戳；
24.对齐模块，适于根据字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理；
25.播放模块，适于根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
26.根据本技术实施例的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；
27.存储器用于存放至少一可执行指令，可执行指令使处理器执行上述直播流的字幕处理方法对应的操作或执行上述直播流的播放方法对应的操作。
28.根据本技术实施例的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述直播流的字幕处理方法对应的操作或执行上述直播流的播放方法对应的操作。
29.根据本技术实施例提供的方案，在无新增直播延迟的情况下，实现了字幕在直播系统中的帧对齐，确保了观看的同步性，有效提升了直播中的互动性，使得用户观看直播的体验良好，而且有效降低了成本。
30.上述说明仅是本技术技术方案的概述，为了能够更清楚了解本技术的技术手段，而可依照说明书的内容予以实施，并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本技术的具体实施方式。
附图说明
31.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本技术的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
32.图1示出了根据本技术中的一个实施例的直播流的字幕处理方法的流程示意图；
33.图2a示出了根据本技术中的另一个实施例的直播流的字幕处理方法的流程示意图；
34.图2b为直接从主播推流端工具采集音视频数据进行字幕处理的示意图；
35.图2c为对第三方推流工具推送的直播流进行字幕处理的示意图；
36.图3示出了根据本技术中的一个实施例的直播流的播放方法的流程示意图；
37.图4a示出了根据本技术中的另一个实施例的直播流的播放方法的流程示意图；
38.图4b为直播流播放的示意图；
39.图4c为字幕信息的流动过程的信令图一；
40.图4d为字幕信息的流动过程的信令图二；
41.图5示出了根据本技术中的一个实施例的直播流的字幕处理装置的结构示意图；
42.图6示出了根据本技术中的一个实施例的直播流的播放装置的结构示意图；
43.图7示出了根据本技术中的一个实施例的计算设备的结构示意图。
具体实施方式
44.下面将参照附图更详细地描述本技术的示例性实施例。虽然附图中显示了本技术的示例性实施例，然而应当理解，可以以各种形式实现本技术而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本技术，并且能够将本技术的范围完整的传达给本领域的技术人员。
45.首先，对本技术一个或多个实施例涉及的名词术语进行解释。
46.分布式网络：由分布在不同地点且具有多个终端的节点机互连而成。网中任一点均至少与两条线路相连，当任意一条线路发生故障时，通信可转经其他链路完成，具有较高的可靠性。同时，网络易于扩充。
47.延迟：指从捕获视频到在观看者设备上的显示延迟。
48.字幕信息：指以文字形式显示电视、电影、舞台作品、直播中的对话等非影像内容。
49.sei：即补充增强字段(supplemental enhancement information)，提供了向视频码流中加入额外信息的方法，是h.264/h.265视频压缩标准的特性之一。视频编码器在输出视频码流的时候可以不提供sei信息。并且也可能在视频传输、解封装、解码这些环节由于某种原因丢弃sei内容。包含sei信息的视频内容可以经过传输链路到达消费端进行任意扩展。
50.实时语音转写服务：将不限时长的音频流实时识别为文字，并返回带有时间戳的文字流。
51.本技术的发明人发现，在直播流的字幕处理方面，现有技术主要是通过如下方法来实现的：
52.方法一：将字幕做一个单独的服务部署给所有用户连接访问，像弹幕服务器一样，通过实时语音转写服务，发送到字幕服务器，然后字幕服务器将该字幕转发给所有用户。这个方案虽然能实现一般的字幕功能，但有很多局限性。作为中心式的字幕服务器面对的问题有：1.网络环境复杂：广大地区众多不同运营商网络的用户，单服务器网络环境复杂，易丢失，到达率偏低；2.时间戳对齐复杂：不仅要考虑网络缓冲、源视频和弹幕时间戳以及转码视频时间戳对齐较为复杂且无法精准对齐到帧级别；3.成本较高：高速的稳定的服务器带宽出口价格昂贵，成本压力大。
53.方法二：通过将字幕渲染至视频画面实现，做法是将采集好的音视频数据缓存到内存中，将音频数据送入实时语音转写服务，等待转写好的文字流，将文字流对齐时间戳硬
渲染到视频画面中，再编码推流出去，达到直播中带有字幕的效果。但此方案增加了延迟，降低了即时互动性，导致用户在直播中最关键的互动环节体验较差。
54.本技术的发明人为了有效解决上述问题，提出了直播流的字幕处理方案及直播流的播放方案。
55.图1示出了根据本技术中的一个实施例的直播流的字幕处理方法的流程示意图。如图1所示，该方法包括以下步骤：
56.步骤s101，获取直播流的待处理音频数据，对待处理音频数据进行语音转写处理得到对应的字幕信息，并确定字幕信息对应的字幕时间戳。
57.本实施例提供的直播流的字幕处理方法可以在直播过程中的任意时刻执行字幕处理。例如，设置有相应的字幕处理按钮，用户通过点击该按钮发送字幕处理请求；也可以通过语音控制方式来发送字幕处理请求，根据用户(比如，主播)触发的字幕处理请求进行直播流的字幕处理，这里不做具体限定。
58.其中，待处理音频数据是指字幕处理开始后，存在语音转写需求的音频数据，例如，待处理音频数据可以是字幕处理开始后，在任意时刻从麦克风处采集到的声音；或者是第三方推流的视频中的声音。
59.具体地，获取直播流的待处理音频数据，在获取到直播流的待处理音频数据之后，对该待处理音频数据进行语音转写处理，例如，可以通过自然语音识别技术(automaticspeech recognition，asr)将音频数据转换成文字，所得到的文字称为待处理音频数据对应的字幕信息，当然，还可以通过其他技术手段，这里不做具体限定。并确定所得到的字幕信息对应的字幕时间戳，字幕时间戳是字幕信息开始显示的时间。
60.步骤s102，根据字幕信息对应的字幕时间戳，确定目标视频帧。
61.语音转写处理过程是存在耗时的，直播流是实时进行推流的，不需要等待语音转写的处理结果，因此，可能出现语音转写处理得到字幕信息后，与该字幕信息在时间戳上对齐的视频帧及相关的音频数据已经被推流。
62.为了保证用户观看的同步性，避免视频流和字幕流的缓冲情况，本实施例是将字幕信息写入到视频帧的补充增强字段中，因此，就需要确定将字幕信息写入到哪个视频帧的补充增强字段中，具体是根据字幕信息对应的字幕时间戳，确定目标视频帧。
63.步骤s103，计算字幕时间戳相对于目标视频帧的视频帧时间戳的字幕时间戳偏移值，将字幕时间戳偏移值及字幕信息写入目标视频帧的补充增强字段中。
64.由于语音转写处理需要耗时，而直播流在实时推流时，并不需要等待语音转写出来的结果，从而导致字幕信息对应的字幕时间戳与目标视频帧的视频帧时间戳不一致，为了便于在视频播放阶段确定字幕信息应该与哪个视频帧同时显示，本步骤需要计算字幕时间戳相对于目标视频帧的视频帧时间戳的字幕时间戳偏移值，字幕时间戳偏移值是字幕信息相对于目标视频帧偏移的时长，然后，将字幕时间戳偏移值及字幕信息写入目标视频帧的补充增强字段中，通过将字幕时间戳偏移值写入到目标视频帧的补充增强字段中，便于后续直播流播放时，实现字幕信息在直播系统的帧对齐。
65.这里是将字幕时间戳偏移值写入到补充增强字段(sei信息)中，而不是将绝对的字幕时间戳写入到sei信息中，是为了简单方便快捷的支持转码流确定字幕，由于写入的是字幕时间戳偏移值，因此，在转码时只需要将源直播流的视频帧中的sei信息直接拷贝到转
码后的直播流中视频帧时间戳最接近的视频帧中，即在转码后的直播流中仍旧可以实现帧级别对齐的字幕。转码后的直播流中的视频帧的视频帧时间戳可能与源直播流的视频帧的视频帧时间戳并不对应，如果将绝对的字幕时间戳写入到源直播流的视频帧中的sei信息，很可能出现在转码后，字幕信息对应的字幕时间戳与转码后的直播流中的视频帧的视频帧时间戳不对应，从而影响字幕信息的显示。另外，转码时可能会出现视频帧减少的情况，如果将绝对的字幕时间戳写入到源直播流的视频帧中的sei信息，很可能由于视频帧的减少而影响字幕信息的显示。
66.步骤s104，将处理后的目标视频帧与目标视频帧对应的音频数据进行封包推流。
67.在根据步骤s103对目标视频帧进行处理后，将处理后的目标视频帧与目标视频帧对应的音频数据进行封包推流，其中，目标视频帧对应的音频数据是在时间戳上与目标视频帧的视频帧时间戳对齐的音频数据。
68.本技术提供的方案，在无新增直播延迟的情况下，实现了字幕在直播系统中的帧对齐，确保了观看的同步性，有效提升了直播中的互动性，使得用户观看直播的体验良好，而且有效降低了成本。
69.图2a示出了根据本技术中的另一个实施例的直播流的字幕处理方法的流程示意图。如图2a所示，该方法包括以下步骤：
70.步骤s201，获取直播流的待处理音频数据，对待处理音频数据进行语音转写处理得到对应的字幕信息。
71.本步骤与图1所示实施例中的步骤s101中的部分步骤类似，这里不再赘述。
72.步骤s202，记录字幕处理开始时音频数据输入至语音转写服务的输入时间戳。
73.语音转写服务在进行语音转写处理时，可能会有其独立的时间记录方式，与音频数据对应的时间戳并不相同，例如，语音转写服务可能从0开始计时，而输入至语音转写服务的音频数据的时间戳可能是从3秒开始，是两个不同维度的计时方式。
74.因此，在字幕处理开始时，需要记录首次将音频数据输入至语音转写服务的输入时间戳，该输入时间戳是以字幕处理开始时输入至语音转写服务的音频数据的时间戳来进行定义的，比如，在字幕处理开始时，将第3秒的音频数据输入至语音转写服务，那么输入时间戳记为3秒，这里仅是举例说明，不具有任何限定作用。
75.步骤s203，根据输入时间戳及待处理音频数据的语音转写时间戳确定字幕信息对应的字幕时间戳，以数据键值对形式将字幕信息及对应的字幕时间戳存储至字幕队列中。
76.在确定了待处理音频数据对应的字幕信息后，需要确定字幕信息对应的字幕时间戳，具体地，可以根据输入时间戳及待处理音频数据的语音转写时间戳确定字幕信息对应的字幕时间戳，例如，将输入时间戳与待处理音频数据的语音转写时间戳求和，得到字幕信息对应的时间戳。其中，待处理音频数据的语音转写时间戳为语音转写服务对待处理音频数据开始进行语音转写处理的时间戳。比如，输入时间戳为3秒，待处理音频数据的语音转写时间戳为2秒，那么可以确定字幕信息对应的时间戳为5秒，也就是说，是对第5秒的音频数据进行语音转写处理；待处理音频数据的语音转写时间戳为5秒，那么可以确定字幕信息对应的时间戳为8秒，也就是说，是对第8秒的音频数据进行语音转写处理。
77.在确定了字幕信息对应的字幕时间戳之后，以数据键值对(key-value)形式将字幕信息及对应的字幕时间戳存储至字幕队列中。其中，数据键值对中的数据键(key)为字幕
时间戳，数据键对应的数据值(value)为字幕信息。
78.步骤s204，将即将推流的视频帧中视频帧时间戳与字幕时间戳之间的差值最小的视频帧确定为目标视频帧。
79.语音转写处理过程是存在耗时的，直播流是实时进行推流的，不需要等待语音转写的处理结果，因此，可能出现语音转写处理得到字幕信息后，与该字幕信息在时间戳上对齐的视频帧及相关的音频数据已经被推流。
80.为了保证用户观看的同步性，避免视频流和字幕流的缓冲情况，本实施例是将字幕信息写入到视频帧的补充增强字段中，因此，就需要确定将字幕信息写入到哪个视频帧的补充增强字段中，而为了在缓冲区较小时依旧能够显示字幕，则字幕信息应该尽快地写入到编码完成的视频帧中，具体是通过计算即将推送的视频帧的视频帧时间戳与字幕时间戳之间的差值，将差值最小的视频帧确定为目标视频帧。差值最小的视频帧就是字幕信息完成之后刚刚编码完成的视频帧，即所确定的目标视频帧。其中，目标视频帧为识别到字幕信息后的下一个编码完成的视频帧。
81.步骤s205，计算字幕时间戳相对于目标视频帧的视频帧时间戳的字幕时间戳偏移值，将字幕时间戳偏移值及字幕信息写入目标视频帧的补充增强字段中。
82.本步骤与图1所示实施例中的步骤s103类似，这里不再赘述。其中，目标视频帧相对于字幕信息所对齐的视频帧是靠后的，因此目标视频帧的视频帧时间戳大于字幕时间戳，字幕时间戳偏移值＝字幕时间戳-目标视频帧的视频帧时间戳，字幕时间戳偏移值为负数。
83.通过将字幕时间戳偏移值及字幕信息写入目标视频帧的补充增强字段中，可以有效降低延迟，在直播流播放时能够尽快实现字幕显示，而无需等待太长时间，保证了互动及时性。
84.需要说明的是，补充增强字段还可以包括：音频数据标识、转写识别结果标识、字幕持续时间、用户信息。
85.在写入时，可以按照预设格式写入目标视频帧的sei信息中，其中，表1为sei包含的数据格式定义。
86.表1：
87.音频数据标识转写识别结果标识字幕时间戳偏移值字幕信息字幕持续时间用户信息
88.其中，音频数据标识(id)，用于标识一条音频数据，同一句话具有相同的音频数据标识，不同的音频数据对应的音频数据标识不同。
89.转写识别结果标识(type)，用于对语音转写识别结果进行标识，主要分为中间转写结果标识或最终转写结果标识，中间转写结果标识用于说明对音频数据进行语音转写，识别出了一句话的部分文字，而未完整地识别出该句话的全部文字，这里在识别出中间结果后也进行了字幕信息写入sei信息的操作，可以提高字幕信息显示的实时性，在播放的缓冲区较小时，通过显示中间转写结果可以达到同步显示的效果；最终转写结果标识用于说明对音频数据进行语音转写，完整地识别出了一句话的全部文字，在播放的缓冲区较大时，通过显示最终转写结果可以达到像平时看电影看点播视频时的文字在说话时就显示完整的效果。
90.字幕时间戳偏移值(offsettimems)，当前音频数据对应的字幕时间戳相较于目标
视频帧的视频帧时间戳的差值，这里写入字幕时间戳偏移值，方便转码，而且便于在播放时计算显示字幕的视频帧时间戳。
91.字幕信息(text)，语音转写识别出来的文字，字幕信息可以是中间转写结果或者是最终转写结果，无论是中间转写结果或者是最终转写结果，都是全量填充识别文字，方便每次中间结果的变更修正能及时显示。
92.字幕持续时间(durationms)，用于表示字幕信息的持续时间，字幕信息该于何时消失。
93.用户信息，用于对识别用户身份，比如可以提前录制一段声音用于记录用户的声纹，在实时语音转写过程中，不仅转换为文字，也可识别出用户身份并在字幕中予以显示。
94.此外，sei信息中还可以包含其他自定义的扩展信息，例如，字幕信息的翻译文本，可以对转换好的字幕信息提供翻译，以满足多语言字幕的功能，当然，还可以根据业务需求包含其他信息。
95.步骤s206，将处理后的目标视频帧与目标视频帧对应的音频数据进行封包推流。
96.在对目标视频帧进行处理后，将处理后的目标视频帧与目标视频帧对应的音频数据进行封包推流，其中，目标视频帧对应的音频数据是在时间戳上与目标视频帧的视频帧时间戳对齐的音频数据。在本实施例中，目标视频帧是经过视频编码处理的视频帧，目标视频帧对应的音频数据也是经过音频编码处理后的，其中，具体的编码处理过程这里不做详细赘述。
97.本实施例在语音转写时，随即将该待处理音频数据送入音效等其他流水线处理后进行编码，不需要等待实时语音转写服务返回字幕信息，这是一个异步过程，只需要实时接收语音转写服务的回调即可，同样地，将待处理音频数据对应的视频帧送入滤镜等其他流水线处理后进行编码，即，该方法还包括：对待处理音频数据进行音频编码处理；对待处理音频数据对应的视频帧进行视频编码处理，其中，音频编码处理过程、视频编码处理过程、语音转写处理过程为异步过程。
98.图2b为直接从主播推流端工具采集音视频数据进行字幕处理的示意图。在图2b中，画面即为从主播推流端工具采集的视频数据，声音为从主播推流端工具(例如，麦克风)采集的音频数据，画面和声音对都应有各自的时间戳，方便进行对齐，针对采集到的画面会进行滤镜等处理，在处理后输入至视频编码器中进行视频编码处理，针对采集到的声音会进行音效等处理，例如，添加音效等，在处理后输入至音频编码器进行音频编码处理，而采集到的声音会按照规定格式送入至实时语音转写服务中，上述处理过程是异步处理过程，不需要等待实时语音转写服务返回结果，只需要实时接收语音转写服务的回调即可。对音频数据进行转写后得到字幕信息，确定字幕信息对应的字幕时间戳，然后，计算字幕时间戳偏移值，将字幕时间戳偏移值及字幕信息写入视频帧(该视频帧是视频帧时间戳与字幕时间戳之间差值最小的即将推流的视频帧)的sei中，然后进行封包推流。
99.图2c为对第三方推流工具推送的直播流进行字幕处理的示意图。针对第三方推送的直播流，可以在云端或者导播台为其添加字幕，可以直接在云端或导播台拉取主播使用第三方工具或者其他来源的直播流进行添加字幕。其基本流程和图2b在流程上稍有不同，数据处理基本一致，具体处理过程不再赘述。如图2c所示，会经过如下流程：1.将拉取到的直播流进行拆分，拆分为视频包和音频包。2.将音频包送入音频解码器，将解码后的音频数
据送入实时语音转写服务，异步接受回调进行处理。3.同时重新进行封包，对字幕回调进行插入处理，然后重新推流。这里不需要将视频数据进行解码后再将字幕渲染至画面然后重新编码封包推流，不仅节省机器性能，也节省了编解码时间，仅异步地将音频包解码进行识别。直播流在该场景中只是经历了拆包封包，耗时几乎可以忽略，达到了无新增直播延迟的目标。
100.本技术提供的方案，在无新增直播延迟的情况下，实现了字幕在直播系统中的帧对齐，且对齐方式简单，确保了观看的同步性，有效提升了直播中的互动性，使得用户观看直播的体验良好，而且有效降低了成本。由于不需要中心式的字幕服务器去转发字幕消息，而是复用视频流的分布式网络传输链路，不仅不需要直接面对复杂多变的网络环境，也不会额外增加中心服务器的带宽成本，且字幕信息嵌在视频流的扩展字段sei中，不需要分别考虑视频流和字幕流的缓冲情况，确保了观看的同步性，且能够提供帧级别的字幕对齐，观看体验良好。直播流会在云端保存，以符合直播规范，也可以方便的进行二创、投稿等，提升主播影响力，此时，字幕无缝保存在录像文件中，可以随着录像文件一起切割、剪辑、合并等，提供了极大的方便性。
101.图3示出了根据本技术中的一个实施例的直播流的播放方法的流程示意图。如图3所示，该方法包括以下步骤：
102.步骤s301，获取直播流，对直播流进行分包处理得到包含视频帧的视频包及包含音频数据的音频包，对视频包的目标视频帧中的补充增强字段进行解析处理，得到字幕时间戳偏移值及字幕信息。
103.具体地，用户进入直播间观看直播，即认为存在直播流播放需求，因此，需要获取直播流，为了实现字幕信息的同步显示，在获取直播流后，对所获取的直播流进行分包处理，通过分包处理，可以得到包含视频帧的视频包及包含音频数据的音频包。字幕信息是写入到目标视频帧中的补充增强字段中，因此，对视频包的目标视频帧中的补充增强字段进行解析处理，得到字幕时间戳偏移值及字幕信息。这里的目标视频帧是补充增强字段中写有字幕时间戳偏移值及字幕信息的视频帧。其中，字幕时间戳偏移值是字幕信息相对于目标视频帧偏移的时长。
104.步骤s302，根据字幕时间戳偏移值及目标视频帧的视频帧时间戳确定字幕信息对应的字幕时间戳。
105.目标视频帧对应有其视频帧时间戳，用于标识目标视频帧的显示时间。因此，在确定了字幕时间戳偏移值之后，可以根据字幕时间戳偏移值及目标视频帧的视频帧时间戳确定字幕信息对应的字幕时间戳，其中，字幕时间戳指字幕信息的显示时间。
106.步骤s303，根据字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理，根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
107.在确定了字幕信息对应的字幕时间戳之后，可以根据字幕时间戳确定字幕信息的显示时间，通常情况下，字幕信息对应着相应的音频数据和视频帧，每条音频数据对应有相应的音频时间戳，每个视频帧对应有相应的视频帧时间戳，因此，可以根据字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理，对齐处理是查询音频时间戳、视频帧时间戳与字幕时间戳最相近的音频数据和视频帧，在对齐处理后，根据字幕信
息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
108.本技术提供的方案，在无新增直播延迟的情况下，实现了字幕在直播系统中的帧对齐，确保了观看的同步性，有效提升了直播中的互动性，使得用户观看直播的体验良好，而且有效降低了成本，另外，字幕信息是外嵌渲染在播放的视频帧上，因此，观看用户可以根据实际观看需要而选择显示字幕信息或不显示字幕信息，例如，设置了字幕开关控制字幕信息的显示或不显示。
109.图4a示出了根据本技术中的另一个实施例的直播流的播放方法的流程示意图。如图4a所示，该方法包括以下步骤：
110.步骤s401，获取直播流，根据缓冲区大小，动态将直播流缓存至缓冲区中，对缓冲区中的直播流进行分包处理得到包含视频帧的视频包及包含音频数据的音频包。
111.具体地，用户进入直播间观看直播，即认为存在直播流播放需求，因此，需要获取直播流，为了流畅的观看体验，通常会设置缓冲区，缓冲区动态存储直播流，然后，对缓冲区中的直播流进行分包处理，通过分包处理，可以得到包含视频帧的视频包及包含音频数据的音频包。
112.步骤s402，对缓冲区中目标视频帧中的补充增强字段进行解析处理，得到字幕时间戳偏移值及字幕信息。
113.字幕信息是写入到目标视频帧中的补充增强字段中，因此，需要对缓冲区中视频包的目标视频帧中的补充增强字段进行解析处理，得到字幕时间戳偏移值及字幕信息。这里的目标视频帧是补充增强字段中写有字幕时间戳偏移值及字幕信息的视频帧。其中，字幕时间戳偏移值是字幕信息相对于目标视频帧偏移的时长。
114.步骤s403，将字幕时间戳偏移值与目标视频帧的视频帧时间戳进行求和计算，得到字幕信息对应的字幕时间戳，以数据键值对形式将字幕信息及对应的字幕时间戳存储至字幕队列中。
115.目标视频帧对应有其视频帧时间戳，用于标识目标视频帧的显示时间。字幕时间戳偏移值是负数，因此，在得到字幕时间戳偏移值之后，可以将字幕时间戳偏移值与目标视频帧的视频帧时间戳相加，求得字幕信息对应的字幕时间戳，其中，字幕时间戳指字幕信息的显示时间。
116.在得到字幕信息对应的字幕时间戳之后，以数据键值对形式将字幕信息及对应的字幕时间戳存储至字幕队列中。其中，所述数据键值对中的数据键为字幕时间戳，所述数据键对应的数据值为字幕信息。
117.步骤s404，判断字幕信息对应的字幕时间戳与待播放视频帧的视频帧时间戳之间的时间差值是否小于或等于预设时长；若是，则执行步骤s406。
118.具体地，可能存在字幕信息对应的字幕时间戳与视频帧时间戳不是完全一致的情况，因此，预先设置了一间隔时长，例如，1000ms/帧数，计算字幕信息对应的字幕时间戳与待播放视频帧的视频帧时间戳之间的时间差值，将该时间差值与预设时长进行比较，以确定时间差值是否小于或等于预设时长。
119.步骤s405，根据字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理。
120.若时间差值小于或等于预设时长，可以确定字幕信息对应着待播放视频帧，字幕
信息对应着相应的音频数据和视频帧，每条音频数据对应有相应的音频时间戳，每个视频帧对应有相应的视频帧时间戳，因此，可以根据字幕信息对应的字幕时间戳执行音频数据与视频帧的对齐处理，对齐处理是查询音频时间戳、视频帧时间戳与字幕时间戳最相近的音频数据和视频帧。
121.步骤s406，根据字幕队列中字幕时间戳对应的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
122.在对齐处理后，可以根据字幕时间戳查询字幕队列，查到字幕时间戳对应的字幕信息，根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
123.在本技术一种可选实施方式中，补充增强字段还包括：音频数据标识；
124.在根据字幕时间戳偏移值及目标视频帧的视频帧时间戳确定字幕信息对应的字幕时间戳之后，方法还包括：
125.以数据键值对形式将具有相同音频数据标识的字幕信息及对应的字幕时间戳存储至字幕队列中，其中，同一音频数据标识的字幕信息对应的字幕时间戳相同；
126.根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放进一步包括：
127.若字幕队列中的字幕时间戳对应着多个字幕信息，则从字幕队列中选取最新存储的字幕信息；
128.根据选取的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
129.针对音频数据，可能是经过多次语音转写才完整识别到其字幕信息，而为了满足同步性，会将中间识别出的字幕信息也写入到目标视频帧的补充增强字段中，因此，针对同一音频数据，可能解析到多条字幕信息，因此，在识别出字幕信息后，是以数据键值对形式将具有相同音频数据标识的字幕信息及对应的字幕时间戳存储至字幕队列中，其中，同一音频数据标识的字幕信息对应的字幕时间戳相同，而在视频播放时，从字幕队列中选取最新存储的字幕信息，根据选取的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
130.在本技术一种可选实施方式中，补充增强字段还包括：转写识别结果标识，转写识别结果标识包含中间转写结果标识或最终转写结果标识；
131.根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放进一步包括：
132.若解析到最终转写结果标识，则根据最终转写结果标识对应的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放；
133.若未解析到最终转写结果标识且解析到中间转写结果标识，则根据中间转写结果标识对应的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
134.转写识别结果标识用于对语音转写识别结果进行标识，主要分为中间转写结果标识或最终转写结果标识，中间转写结果标识用于说明对一条音频数据进行语音转写，识别出了该音频数据的部分文字，而未完整地识别出该音频数据的全部文字；最终转写结果标识用于说明对一条音频数据进行语音转写，完整地识别出了该音频数据的全部文字。
135.因此，这里需要识别从补充增强字段中解析出的是最终转写结果标识还是中间转
写结果标识，若解析到最终转写结果标识，则在视频播放时显示最终转写结果标识对应的字幕信息；若未解析到最终转写结果标识且解析到中间转写结果标识，则在视频播放时显示中间转写结果标识对应的字幕信息。
136.若中间转写结果标识对应的多个字幕信息，则在视频播放时显示最新的中间结果。
137.其中，在视频播放时，显示最终结果还是中间结果，与缓冲区大小相关，缓冲区大时，缓冲区中的目标视频帧的补充增强字段中写入有最终转写结果标识，那么在视频播放时显示最终转写结果标识对应的字幕信息；缓冲区小时，缓冲区中的目标视频帧的补充增强字段中写入有中间转写结果标识且未解析到最终转写结果标识，则在视频播放时显示中间转写结果标识对应的字幕信息。
138.在本技术一种可选实施方式中，补充增强字段还包括：字幕持续时间，方法还包括：根据字幕持续时间确定视频播放时字幕信息的消失时间。
139.具体地，字幕持续时间表示字幕信息的持续时间，字幕信息该于何时消失，在从补充增强字段中提取出字幕持续时间后，可以根据字幕持续时间来确定字幕信息的消失时间，从而在进行视频播放时，可以确定该字幕信息应该在何时消失。
140.在本技术一种可选实施方式中，补充增强字段还包括：用户信息；方法还包括：在视频播放时显示字幕信息对应的用户信息。
141.具体地，用户信息用于对识别用户身份，比如可以是用户声纹或用户名称等，从补充增强字段中提取出用户信息，在视频播放时显示字幕信息对应的用户信息，从而便于分辨哪条字幕信息是哪个用户说出的，这里的用户主要是指主播，而用户信息则对应的为主播信息。
142.图4b为直播流播放的示意图。在图4b中，在视频输入后，先对视频进行分包处理，得到视频包和音频包，从对视频包中的视频帧的sei进行解析，得到字幕信息及字幕时间戳偏移值，根据字幕时间戳偏移值计算字幕时间戳，字幕信息与对应的字幕时间戳存入字幕队列，视频解码器对视频帧进行解码，音频解码器对音频数据进行解码，然后根据字幕时间戳进行音视频对齐，在字幕队列中根据字幕时间戳查对应的字幕信息，根据字幕信息与对齐的音视频进行视频播放。
143.图4c为字幕信息的流动过程的信令图一，在图4c中，是以直接采集主播推流端工具的音视频数据为例进行说明，以25fps为例，每次的采集到的均为1帧画面和声音，此处将1秒的音视频数据做聚合以简化流程，最上端为第一帧，最下端为第25帧，假定实时语音转写服务需要1s数据才能够开始提供结果，假定缓冲区为2s来显示直播内容，按此耗时来描述字幕信息的流动过程，其中，video为视频帧，audio为音频数据。在图4c中，主要是按照时间以单个视频帧为例进行说明，并涉及到如下模块：音视频采集模块、实时语音转写服务、编码模块、cdn、用户拉流模块、用户播放模块。图4c主要分为采集流程和播放回调查询字幕流程。
144.采集流程如下：音视频采集模块采集到video1、audio1后，将video1、audio1发送至编码模块进行编码处理，采集到的audio1输入至实时语音转写服务进行语音转写处理，其中，编码处理及语音转写处理是异步过程，编码模块会向实时语音转写服务发送识别结果查询请求，以查询是否存在识别结果，如果不存在，可以不做任何操作，编码模块会将
video1、audio1封包后推流至cdn。
145.实时语音转写服务回调(callback)，得到audio1识别结果(audio1字幕)。
146.音视频采集模块采集到video2、audio2后，将video2、audio2发送至编码模块进行编码处理，采集到的audio2输入至实时语音转写服务进行语音转写处理，其中，编码处理及语音转写处理是异步过程，编码模块会向实时语音转写服务发送识别结果查询请求，以查询是否存在识别结果，此时存在audio1识别结果(audio1字幕)，向编码模块返回audio1字幕，计算video2和audio1识别结果的字幕时间戳偏移值，audio1字幕及对应的字幕时间戳偏移值写入video2的sei中，将video2(audio1字幕)+audio2封包推流至cdn
147.实时语音转写服务回调(callback)，得到audio2识别结果(audio2字幕)。
148.音视频采集模块采集到video3、audio3后，将video3、audio3发送至编码模块进行编码处理，采集到的audio3输入至实时语音转写服务进行语音转写处理，其中，编码处理及语音转写处理是异步过程，编码模块会向实时语音转写服务发送识别结果查询请求，以查询是否存在识别结果，此时存在audio2识别结果(audio2字幕)，向编码模块返回audio2字幕，计算video3和audio2识别结果的字幕时间戳偏移值，audio2字幕及对应的字幕时间戳偏移值写入video3的sei中，将video3(audio2字幕)+audio3封包推流至cdn。
149.实时语音转写服务回调(callback)，得到audio3识别结果(audio3字幕)。
150.音视频采集模块采集到video4、audio4后，将video4、audio4发送至编码模块进行编码处理，采集到的audio4输入至实时语音转写服务进行语音转写处理，其中，编码处理及语音转写处理是异步过程，编码模块会向实时语音转写服务发送识别结果查询请求，以查询是否存在识别结果，此时存在audio3识别结果(audio3字幕)，向编码模块返回audio3字幕，计算video4和audio3识别结果的字幕时间戳偏移值，audio3字幕及对应的字幕时间戳偏移值写入video4的sei中，将video4(audio3字幕)+audio4封包推流至cdn。
151.同上，省略之后采集流程。
152.播放回调查询字幕流程：用户进入直播间后，用户拉流模块从cdn开始拉流，cdn向用户拉流模块返回video1+audio1，用户播放模块对video1、audio1进行解码。用户拉流模块进行回调发现无sei字幕，用户播放模块开始播放video1+audio1，多次进行视频帧更新回调，检查是否存在字幕，如果对应时间戳无sei字幕，则不显示字幕，进行解码。
153.用户拉流模块回调发现audio1存在sei字幕，用户播放模块多次执行进行视频帧更新回调，检查是否存在字幕，如果对应时间戳有audio 1 sei字幕，则显示字幕，进行解码。
154.用户拉流模块回调发现audio2存在sei字幕，用户播放模块多次执行进行视频帧更新回调，检查是否存在字幕，如果对应时间戳有audio 1 sei字幕，则显示字幕。
155.用户播放模块开始播放video2+audio2，多次进行视频帧更新回调，检查是否存在字幕，如果对应时间戳有audio 2 sei字幕，则显示字幕，进行解码。
156.用户拉流模块回调发现audio3存在sei字幕，用户播放模块多次执行进行视频帧更新回调，检查是否存在字幕，如果对应时间戳有audio 2 sei字幕，则显示字幕，进行解码。
157.同上，省略之后播放回调查询字幕流程。
158.在图4c中，由于是以视频帧为例进行举例说明，并未示出播放缓冲。
159.图4d为字幕信息的流动过程的信令图二，在图4d中，主要是以音视频片段为例进行说明，具体地，音视频采集模块采集音视频片段1，将音视频片段1发送至编码封装模块进行编码封装处理，采集到的音视频片段1中的音频片段输入至语音转写服务进行语音转写处理，其中，编码处理及语音转写处理是异步过程，而且不需要等待语音识别结果，语音识别存在耗时，编码封装模块将音视频片段1推流至cdn，cdn存在网络延迟，为了流畅的观看体验，播放器通常存在播放缓冲，音视频片段1被缓存至缓冲区中；
160.在完成音视频片段1推流后，音视频采集模块采集音视频片段2，将音视频片段2发送至编码封装模块进行编码封装处理，采集到的音视频片段2中的音频片段输入至语音转写服务进行语音转写处理，语音识别存在耗时，此时还未得到音视频片段1中的音频片段的字幕1，编码封装模块将音视频片段2推流至cdn，音视频片段2被缓存至缓冲区中；
161.在完成音视频片段2推流后，音视频采集模块采集音视频片段3，将音视频片段3发送至编码封装模块进行编码封装处理，采集到的音视频片段3中的音频片段输入至语音转写服务进行语音转写处理，语音识别存在耗时，由于已经得到音视频片段1中的音频片段的字幕1，编码封装模块将音视频片段3+字幕1推流至cdn，播放器通常存在播放缓冲，音视频片段音视频片段3+字幕1被缓存至缓冲区中；
162.在完成音视频片段3推流后，音视频采集模块采集音视频片段4，将音视频片段4发送至编码封装模块进行编码封装处理，采集到的音视频片段4中的音频片段输入至语音转写服务进行语音转写处理，语音识别存在耗时，由于已经得到音视频片段2中的音频片段的字幕2，编码封装模块将音视频片段4+字幕2推流至cdn，播放器通常存在播放缓冲，音视频片段音视频片段4+字幕2被缓存至缓冲区中；
163.在完成音视频片段4推流后，音视频采集模块采集音视频片段5，将音视频片段5发送至编码封装模块进行编码封装处理，采集到的音视频片段5中的音频片段输入至语音转写服务进行语音转写处理，语音识别存在耗时，由于已经得到音视频片段3中的音频片段的字幕3，编码封装模块将音视频片段5+字幕3推流至cdn，播放器通常存在播放缓冲，音视频片段音视频片段5+字幕3被缓存至缓冲区中；
164.在完成音视频片段5推流后，音视频采集模块采集音视频片段6，将音视频片段6发送至编码封装模块进行编码封装处理，采集到的音视频片段6中的音频片段输入至语音转写服务进行语音转写处理，语音识别存在耗时，由于已经得到音视频片段4中的音频片段的字幕4，编码封装模块将音视频片段6+字幕4推流至cdn，播放器通常存在播放缓冲，音视频片段音视频片段6+字幕4被缓存至缓冲区中；
165.在完成音视频片段6推流后，音视频采集模块采集音视频片段7，将音视频片段7发送至编码封装模块进行编码封装处理，采集到的音视频片段7中的音频片段输入至语音转写服务进行语音转写处理，语音识别存在耗时，由于已经得到音视频片段5中的音频片段的字幕5，编码封装模块将音视频片段7+字幕5推流至cdn，播放器通常存在播放缓冲，音视频片段音视频片段7+字幕5被缓存至缓冲区中；
166.由于缓冲区的存在，因此，解码播放模块可以从音视频片段3的sei中提取出字幕1，在播放音视频片段1时，同时播放字幕1；可以从音视频片段4的sei中提取出字幕2，在播放音视频片段2时，同时播放字幕2；可以从音视频片段5的sei中提取出字幕3，在播放音视频片段3时，同时播放字幕3；可以从音视频片段6的sei中提取出字幕4，在播放音视频片段4
时，同时播放字幕4。
167.在实际直播观看过程中，一般为了流畅的观看体验，播放器会有3s左右缓冲时长。一般实时语音转写服务能在1-2s左右有识别结果出来。在播放器刚刚拉到流时将其中的sei字幕信息提取出来，该字幕信息正是之前几秒的实时语音转写服务转写得到的字幕信息，因此只要用户有1秒左右的缓冲区，就可以显示中间结果的字幕。如果用户缓冲区更大，则可以显示最终结果。即正在播放的直播内容的音视频，其字幕是在之后几秒的直播流中的。因此，利用缓冲区实现字幕显示，无新增延迟，无新增编解码流程，且复用直播流的分布式传播路径，不仅未增加成本，却仍旧大大提升了直播的观看体验。
168.本技术提供的方案，在无新增直播延迟的情况下，实现了字幕在直播系统中的帧对齐，且对齐方式简单，确保了观看的同步性，有效提升了直播中的互动性，使得用户观看直播的体验良好，而且有效降低了成本。由于不需要中心式的字幕服务器去转发字幕消息，而是复用视频流的分布式网络传输链路，不仅不需要直接面对复杂多变的网络环境，也不会额外增加中心服务器的带宽成本，且字幕信息嵌在视频流的扩展字段sei中，不需要分别考虑视频流和字幕流的缓冲情况，确保了观看的同步性，且能够提供帧级别的字幕对齐，观看体验良好。直播流会在云端保存，以符合直播规范，也可以方便的进行二创、投稿等，提升主播影响力，此时，字幕无缝保存在录像文件中，可以随着录像文件一起切割、剪辑、合并等，提供了极大的方便性。另外，字幕信息是外嵌渲染在播放的视频帧上，因此，观看用户可以根据实际观看需要而选择显示字幕信息或不显示字幕信息，例如，设置了字幕开关控制字幕信息的显示或不显示。
169.图5示出了根据本技术中的一个实施例的直播流的字幕处理装置的结构示意图。如图5所示，该装置包括：
170.语音转写处理模块501，适于获取直播流的待处理音频数据，对待处理音频数据进行语音转写处理得到对应的字幕信息，并确定字幕信息对应的字幕时间戳；
171.确定模块502，适于根据字幕信息对应的字幕时间戳，确定目标视频帧；
172.计算模块503，适于计算字幕时间戳相对于目标视频帧的视频帧时间戳的字幕时间戳偏移值；
173.写入模块504，适于将字幕时间戳偏移值及字幕信息写入目标视频帧的补充增强字段中；
174.封包推流模块505，适于将处理后的目标视频帧与目标视频帧对应的音频数据进行封包推流。
175.可选地，确定模块进一步适于：将即将推流的视频帧中视频帧时间戳与字幕时间戳之间的差值最小的视频帧确定为目标视频帧。
176.可选地，装置还包括：记录模块，适于记录字幕处理开始时音频数据输入至语音转写服务的输入时间戳；
177.语音转写处理模块进一步适于：根据输入时间戳及待处理音频数据的语音转写时间戳确定字幕信息对应的字幕时间戳。
178.可选地，装置还包括：编码模块，适于对待处理音频数据进行音频编码处理；对待处理音频数据对应的视频帧进行视频编码处理，其中，音频编码处理过程、视频编码处理过程、语音转写处理过程为异步过程。
179.可选地，装置还包括：字幕队列，适于以数据键值对形式存储字幕信息及对应的字幕时间戳。
180.可选地，数据键值对中的数据键为字幕时间戳，数据键对应的数据值为字幕信息。
181.可选地，补充增强字段还包括：音频数据标识、转写识别结果标识、字幕持续时间、用户信息。
182.可选地，转写识别结果标识包含中间转写结果标识或最终转写结果标识。
183.可选地，装置还包括：分包处理模块，适于获取直播流视频，对直播流视频进行分包处理，得到视频包及音频包；
184.解码模块，适于对音频包进行解码处理，得到音频数据。
185.本技术提供的方案，在无新增直播延迟的情况下，实现了字幕在直播系统中的帧对齐，确保了观看的同步性，有效提升了直播中的互动性，使得用户观看直播的体验良好，而且有效降低了成本。
186.图6示出了根据本技术中的一个实施例的直播流的播放装置的结构示意图。如图6所示，该装置包括：
187.获取模块601，适于获取直播流；
188.分包模块602，适于对所述直播流进行分包处理得到包含视频帧的视频包及包含音频数据的音频包；
189.解析模块603，适于对视频包的目标视频帧中的补充增强字段进行解析处理，得到字幕时间戳偏移值及字幕信息；
190.第一确定模块604，适于根据字幕时间戳偏移值及目标视频帧的视频帧时间戳确定字幕信息对应的字幕时间戳；
191.对齐模块605，适于根据字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理；
192.播放模块606，适于根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
193.可选地，装置还包括：缓存模块，适于根据缓冲区大小，动态将直播流缓存至缓冲区中；
194.分包模块进一步适于：对缓冲区中的直播流进行分包处理得到包含视频帧的视频包及包含音频数据的音频包。
195.可选地，第一确定模块进一步适于：将字幕时间戳偏移值与目标视频帧的视频帧时间戳进行求和计算，得到字幕信息对应的字幕时间戳。
196.可选地，对齐模块进一步适于：判断字幕信息对应的字幕时间戳与待播放视频帧的视频帧时间戳之间的时间差值是否小于或等于预设时长；
197.若是，则根据字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理。
198.可选地，补充增强字段还包括：音频数据标识；
199.装置还包括：字幕队列，适于以数据键值对形式存储具有相同音频数据标识的字幕信息及对应的字幕时间戳，其中，同一音频数据标识的字幕信息对应的字幕时间戳相同。
200.可选地，播放模块进一步适于：若字幕队列中的字幕时间戳对应着多个字幕信息，
则从字幕队列中选取文字数量最长的字幕信息；
201.根据选取的文字数量最长的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
202.可选地，数据键值对中的数据键为字幕时间戳，数据键对应的数据值为字幕信息。
203.可选地，补充增强字段还包括：转写识别结果标识，转写识别结果标识包含中间转写结果标识或最终转写结果标识；
204.播放模块进一步适于：若解析到最终转写结果标识，则根据最终转写结果标识对应的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放；
205.若未解析到最终转写结果标识且解析到中间转写结果标识，则根据中间转写结果标识对应的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
206.可选地，补充增强字段还包括：字幕持续时间；
207.装置还包括：第二确定模块，适于根据字幕持续时间确定视频播放时字幕信息的消失时间。
208.可选地，补充增强字段还包括：用户信息；
209.播放模块还适于：在视频播放时显示字幕信息对应的用户信息。
210.本技术提供的方案，在无新增直播延迟的情况下，实现了字幕在直播系统中的帧对齐，确保了观看的同步性，有效提升了直播中的互动性，使得用户观看直播的体验良好，而且有效降低了成本。
211.本技术实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的直播流的字幕处理方法。
212.图7示出了根据本技术中的一个实施例的计算设备的结构示意图，本技术具体实施例并不对计算设备的具体实现做限定。
213.如图7所示，该计算设备可以包括：处理器(processor)702、通信接口(communications interface)704、存储器(memory)706、以及通信总线708。
214.其中：处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
215.通信接口704，用于与其它设备比如客户端或其它服务器等的网元通信。
216.处理器702，用于执行程序710，具体可以执行上述直播流的字幕处理方法实施例中的相关步骤。
217.具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。
218.处理器702可能是中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本技术实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。
219.存储器706，用于存放程序710。存储器706可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
220.程序710具体可以用于使得处理器702执行上述任意方法实施例中的直播流的字幕处理方法。程序710中各步骤的具体实现可以参见上述直播流的字幕处理实施例中的相
应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。
221.本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，可执行指令可执行上述任意方法实施例中的直播流的播放方法。
222.本发明实施例还提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行上述的直播流的播放方法对应的操作。该计算设备的结构示意图与图7所示的计算设备的结构示意图相同，此处不再赘述。
223.在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本技术实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本技术的内容，并且上面对特定语言所做的描述是为了披露本技术的最佳实施方式。
224.在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本技术的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
225.类似地，应当理解，为了精简本技术并帮助理解各个发明方面中的一个或多个，在上面对本技术的示例性实施例的描述中，本技术实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本技术要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本技术的单独实施例。
226.本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
227.此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
228.本技术的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本技术实施例的一些或者全部部件的一些
或者全部功能。本技术还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本技术的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。
229.应该注意的是上述实施例对本技术进行说明而不是对本技术进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本技术可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

技术特征：

1.一种直播流的字幕处理方法，包括：获取直播流的待处理音频数据，对所述待处理音频数据进行语音转写处理得到对应的字幕信息，并确定所述字幕信息对应的字幕时间戳；根据所述字幕信息对应的字幕时间戳，确定目标视频帧；计算所述字幕时间戳相对于所述目标视频帧的视频帧时间戳的字幕时间戳偏移值，将所述字幕时间戳偏移值及所述字幕信息写入所述目标视频帧的补充增强字段中；将处理后的目标视频帧与所述目标视频帧对应的音频数据进行封包推流。2.根据权利要求1所述的方法，其中，根据所述字幕信息对应的字幕时间戳，确定目标视频帧进一步包括：将即将推流的视频帧中视频帧时间戳与字幕时间戳之间的差值最小的视频帧确定为目标视频帧。3.根据权利要求1或2所述的方法，其中，所述方法还包括：记录字幕处理开始时音频数据输入至语音转写服务的输入时间戳；所述确定所述字幕信息对应的字幕时间戳进一步包括：根据所述输入时间戳及待处理音频数据的语音转写时间戳确定所述字幕信息对应的字幕时间戳。4.根据权利要求1-3中任一项所述的方法，其中，所述方法还包括：对所述待处理音频数据进行音频编码处理；对所述待处理音频数据对应的视频帧进行视频编码处理，其中，音频编码处理过程、视频编码处理过程、语音转写处理过程为异步过程。5.根据权利要求1-4中任一项所述的方法，其中，在确定所述字幕信息对应的字幕时间戳之后，所述方法还包括：以数据键值对形式将字幕信息及对应的字幕时间戳存储至字幕队列中。6.根据权利要求5所述的方法，其中，所述数据键值对中的数据键为字幕时间戳，所述数据键对应的数据值为字幕信息。7.根据权利要求1-6中任一项所述的方法，其中，所述补充增强字段还包括：音频数据标识、转写识别结果标识、字幕持续时间、用户信息。8.根据权利要求7所述的方法，其中，所述转写识别结果标识包含中间转写结果标识或最终转写结果标识。9.根据权利要求1-8中任一项所述的方法，其中，所述方法还包括：获取直播流视频；对所述直播流视频进行分包处理，得到视频包及音频包；对音频包进行解码处理，得到音频数据。10.一种直播流的播放方法，包括：获取直播流，对所述直播流进行分包处理得到包含视频帧的视频包及包含音频数据的音频包，对所述视频包的目标视频帧中的补充增强字段进行解析处理，得到字幕时间戳偏移值及字幕信息；根据所述字幕时间戳偏移值及所述目标视频帧的视频帧时间戳确定所述字幕信息对应的字幕时间戳；根据所述字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理，根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。
11.根据权利要求10所述的方法，其中，所述方法还包括：根据缓冲区大小，动态将直播流缓存至缓冲区中；对所述直播流进行分包处理得到包含视频帧的视频包及包含音频数据的音频包进一步包括：对缓冲区中的直播流进行分包处理得到包含视频帧的视频包及包含音频数据的音频包。12.根据权利要求10或11所述的方法，其中，根据所述字幕时间戳偏移值及所述目标视频帧的视频帧时间戳确定所述字幕信息对应的字幕时间戳进一步包括：将所述字幕时间戳偏移值与所述目标视频帧的视频帧时间戳进行求和计算，得到所述字幕信息对应的字幕时间戳。13.根据权利要求10-12中任一项所述的方法，其中，所述根据所述字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理进一步包括：判断所述字幕信息对应的字幕时间戳与待播放视频帧的视频帧时间戳之间的时间差值是否小于或等于预设时长；若是，则根据所述字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理。14.根据权利要求10-13中任一项所述的方法，其中，所述补充增强字段还包括：音频数据标识；在根据所述字幕时间戳偏移值及所述目标视频帧的视频帧时间戳确定所述字幕信息对应的字幕时间戳之后，所述方法还包括：以数据键值对形式将具有相同音频数据标识的字幕信息及对应的字幕时间戳存储至字幕队列中，其中，同一音频数据标识的字幕信息对应的字幕时间戳相同。15.根据权利要求14所述的方法，其中，所述根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放进一步包括：若字幕队列中的字幕时间戳对应着多个字幕信息，则从所述字幕队列中选取最新存储的字幕信息；根据选取的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。16.根据权利要求14或15所述的方法，其中，所述数据键值对中的数据键为字幕时间戳，所述数据键对应的数据值为字幕信息。17.根据权利要求10-16中任一项所述的方法，其中，所述补充增强字段还包括：转写识别结果标识，所述转写识别结果标识包含中间转写结果标识或最终转写结果标识；所述根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放进一步包括：若解析到最终转写结果标识，则根据最终转写结果标识对应的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放；若未解析到最终转写结果标识且解析到中间转写结果标识，则根据中间转写结果标识对应的字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。18.根据权利要求10-17中任一项所述的方法，其中，所述补充增强字段还包括：字幕持
续时间；所述方法还包括：根据所述字幕持续时间确定视频播放时字幕信息的消失时间。19.根据权利要求10-18中任一项所述的方法，其中，所述补充增强字段还包括：用户信息；所述方法还包括：在视频播放时显示所述字幕信息对应的用户信息。20.一种直播流的字幕处理装置，包括：语音转写处理模块，适于获取直播流的待处理音频数据，对待处理音频数据进行语音转写处理得到对应的字幕信息，并确定所述字幕信息对应的字幕时间戳；确定模块，适于根据所述字幕信息对应的字幕时间戳，确定目标视频帧；计算模块，适于计算所述字幕时间戳相对于所述目标视频帧的视频帧时间戳的字幕时间戳偏移值；写入模块，适于将所述字幕时间戳偏移值及所述字幕信息写入所述目标视频帧的补充增强字段中；封包推流模块，适于将处理后的目标视频帧与所述目标视频帧对应的音频数据进行封包推流。21.一种直播流的播放装置，包括：获取模块，适于获取直播流；分包模块，适于对所述直播流进行分包处理得到包含视频帧的视频包及包含音频数据的音频包；解析模块，适于对所述视频包的目标视频帧中的补充增强字段进行解析处理，得到字幕时间戳偏移值及字幕信息；第一确定模块，适于根据所述字幕时间戳偏移值及所述目标视频帧的视频帧时间戳确定所述字幕信息对应的字幕时间戳；对齐模块，适于根据所述字幕信息对应的字幕时间戳执行待播放音频数据与待播放视频帧的对齐处理；播放模块，适于根据字幕信息、对齐后的待播放音频数据及对齐后的待播放视频帧进行视频播放。22.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的直播流的字幕处理方法对应的操作或执行如权利要求10-19中任一项所述的直播流的播放方法对应的操作。23.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-9中任一项所述的直播流的字幕处理方法对应的操作或执行如权利要求10-19中任一项所述的直播流的播放方法对应的操作。

技术总结

本申请公开了一种直播流的字幕处理方法、装置及直播流的播放方法、装置。其中，直播流的字幕处理方法包括：获取直播流的待处理音频数据，对待处理音频数据进行语音转写处理得到对应的字幕信息，并确定字幕信息对应的字幕时间戳；根据字幕信息对应的字幕时间戳，确定目标视频帧；计算字幕时间戳相对于目标视频帧的视频帧时间戳的字幕时间戳偏移值，将字幕时间戳偏移值及字幕信息写入目标视频帧的补充增强字段中；将处理后的目标视频帧与目标视频帧对应的音频数据进行封包推流。由此在无新增直播延迟的情况下，实现了字幕在直播系统中的帧对齐，确保了观看的同步性，有效提升了直播中的互动性，使得用户观看直播的体验良好，而且有效降低了成本。效降低了成本。效降低了成本。