人工智能在视频编码中的应用

更新时间:2023-06-25 02:20:01 阅读: 评论:0

打开usb调试
本文介绍了随着网络视频的发展,目前视频应用中对编解码器性能的需求及未来的发展方向,人工智能在视频编解码的设计、测试中的应用情况。
视频编解码    人工智能
图像、视频的数字化处理过程主要分采样、量化与编码三个步骤。数字化后得到的图像数据量十分巨大,必须采用编码技术来压缩其信息量,可以说编码压缩技术是实现图像传输与储存的关键。为了使图像压缩标准化,20世纪90年代后,国际电信联盟(ITU )、国际标准化组织ISO 和国际电工委员会IEC 已经制定并继续制定一系列静止和活动图像编码的国际标准,目前主要有JPEG 标准、MPEG 标准等。
近些年来人工智能热度很高,人工智能在视频领域已经得到广泛应用,如人脸识别、视频自动抠像等技术已经比较成熟。那么人工智能能为视频编码技术带来哪些变化呢?我们做个简单的探讨。
一 人工智能对视频应用            的渗透
目前的人工智能还处于工具阶段,还没有人工智能开发出来的任何的超越时代的编码方法、传输协议、解码、交互技术存在。人工智能的渗透包括预处理和后处理、超分辨率、
提升开发效率或者处理效果。而编解码技术,则属于人类专家技术团队才能解决的问题,目前的人工智能还很难介入。如图1所示人工智能目前渗透的视频应用流程。
z 编码端保证编码实时性和码率要求的同时,保证尽量高的图像质量;
新员工入职申请书
z 发送、传输、缓冲、延时尽量小;
z 解码器尽量能输出最好的质量,最好能超分辨率。编码器遇到的问题:硬件编码器性能好,但是图像质量差,码率高。软件编码器效率较低,遇到复杂视频,比如物体繁多、较大运动、闪光、旋转等,既不能满足实时编码的需求,同时输出码率也出现较大抖动。对于网络应用来说是很大的障碍。解码器需要增强的点:大家都在构想能不能应用超分辨率技术,把较低分辨率的视频的播放质量提升一大块。目前有很多算法显示出巨大的潜力,比
深的融合,用来解决传统方法很难解决的这几个问题。图2是人工智能技术跟编解码更深融合示意图。
生如夏花之绚烂死如秋叶之静美二 人工智能增强的编码器
1. 动态编码器
以下探讨一下传统编码器码率、编码时间、图像质量几方面的关系。对于不同场景下编码保持恒定质量的码率,如图3。
编码时间和码率是正相关的,在码率暴涨的同时,编码时间也剧烈延长。对于低延时需求强烈的直播应用,会造成严重的卡顿。一般就只好使用绝对不变码率ABR 。不同场景下ABR 的图像质量,如图4。
这样带来的结果就是图像质量不稳定,在大运动场景下图像质量变差。于是我们希望是如图5这样的曲线。
这就需要编码器能够提前判定大码率场景出现的可能性。 需要判定的几种情况:
z 物体繁多且有摄像机运动;
z 背景不动但是有大量物体的大范围运动,包括快速运动、旋转、仿射、蠕变等;
z 出现闪光、风沙、粒子系统。
这就需要开发一种适用于高清晰度直播应用的面向场景的智能编码技术。该技术通过学习将常见视频编码卡顿场景分类并快速识别,提前预判视频场景的编码复杂度和码率抖动,使用动态参数配置来编码,保证编码的实时性和限定码率下最好的图像质量。
2. 内容自动植入
这里主要讨论广告的自动植入问题。一种是在编码前合成到视频里面,这个过程跟编码关系
不大。但是直接合成到视频之后,所有的观众看到的广告内容都一样。要做到个性化,精准的广告投放,就只有在播放端解码时合成。要做到这点,服务器不仅要发送原始视频流,还要发送后期合成物体的定位方法和图像数据,
以便客户端按照需求进行动态合成。自动植入的广告跟前贴片比起来优势很明显,可以植入的广告数量非常巨大,效果也更自然,用户也不会产生明显的反感。其次,个性化精准投放又进一步扩大了广告投放的总容量和效率。
通过对这个人进行人脸识别,进而产生与此人相关的内容链接。
三 人工智能增强的解码器
1. 单个图像的超分辨率
自然图像基本上是平坦的纹理填充和显著的边缘(线条)组合形成的。要实现图像的超分辨率,通常会在解码器中采用插值算法,常规有双线性插值和双三次样条曲线插值。
一幅图像模糊的原因有以下几个: z 低分辨率下线条会变得模糊; z 低分辨率图像在拉伸到高分辨率时候会在线条上引
入额外的模糊;
z 噪音的存在。
欣的成语
超分辨率主要从以上几个方面进行处理,其中噪音的处理技术已经比较成熟。第一个讨论点,如何降低线条的拉伸效应,也就是线条的锐度保持,需要使用统计方法,或者说是机器学习的办法来获得一个比较好的滤波器参数表。一般的机器学习过程都是类似的: 准备一些原始 HR 图像(2×2)和从采样生成的 LR (1×1)图像,作为配对数据。然后采用了几个优化操作:
第一步,将复杂 4×4 梯度图像点阵处理成为简单的码本图像(HASH );
第二步,针对这个码本图像,使用考虑临近像素梯度权重的方法重构滤波器参数,寻找最接近的拟合曲线参数;
关于茶的诗句第三步,对上一步获得的大量参数计算概率分布,取最大概率的参数作为该码本的最优解;
第四步,对近似的码本进行合并处理,以减小码本的数量。
还有一个讨论点,就是低分图像对边界造成的模糊,目前业内提出了梯度变换的方法:即计算出梯度的分布,然后适当把梯度收窄。不考虑实现速度的话,这个方法取得效果是很明显的。
只是这个算法的运算量太大了,目前只能想办法把这个过程融合到寻找滤波器参数矩阵的过程中来,在实际处理过程中,使用上面过程获得的参数进行超分辨率计算。以现在的CPU 性能,经过充分优化,完全有可能实现
1080P 到4K 的超分辨率上达到实时30fps ,这样某些时候得到的图像目视效果甚至要超过原始图像。
2. 视频的超分辨率
皮肤干燥脱皮怎么办上面是单个图像的超分辨率,视频的超分辨率和单个图像是不同的,但是单个图像的超分辨率算法可以融合到视频超分辨率里面来。视频的超分辨率基本思路是从连续的视频序列来重建高分辨率的图像,涉及到图像配准和子像素提取,研究方法和评价方法存在很大差异,视频质量的评估远比图像质量评估要复杂,因此主观感受是一个比较简易的评估标准。图7是一个视频快速超分辨率处理过程示意图。
预估整个超分辨率过程输出的HSR 视频图像质量可以提升1个dB 左右。
四 人工智能编解码技术的实际应用
Google 发布了一种名为RAISR (Rapid and Accurate Super Image Resolution ,意为“快速、精确的超级图像分辨率技术”)
(下转第46页)
z 确保场馆转播信号安全送到IBC ; z 确保相关音频信号安全送到IBC ; z 为4K 、5G 、VR 等新技术尝试提供传输保障,确保
其拿到相应的信号源;
z 确保信号在IBC 内准确分配至各转播商指定的区域; z 监控转播商的节目从IBC 安全送出至各台播出端所在地;
z 监控以上所有环节信号传送的质量,并及时纠正可能出现的问题。
转播商工作区提供所有直播场馆转播信号、电力、空调等服务,为赛时各电视台工作和休息的区域。
供主备两路4K 公共信号输出,同时也要提供主备两路高清公共信号输出。参与开闭幕式、田径转播的A 类4K 转播车均使用SMPTE2110协议,通过IP 交换机进行调度能够实现208×208路的4K IP 信号调度能力。全系统配置2个调度核心形成主备架构,可实现信号的无缝倒换。在海军五项的转播中将采取5G+4K 超高清视频传输,这也是国内首次在大型综合性运动会上采用中央广播电视总台研发的新一代5G 背包设备进行直播。
本次第七届世界运动会还开创性的在国际、国内综合性体育大赛中采用全流程的远程制作的手段对军事五项和羽毛球项目进行直播,尤其是军事五项项目,场地距离IBC 较远,除了传统的光纤直连的方式,核心链路采用新一代的波分复用光传输网进行传输,同时配合全IP 的转播系统,实现了基带和IP 交互传输。考虑到军事五项项目的特殊性,有户外远距离无线传输、有水下特种设备,有各种摇控微型,对该项目的直播不仅仅完成了一次全技术
手段上的远程制作,同时对制作流程和制作习惯也是一种新的体验和尝试。本次第七届世界运动会还将首次在国际、国内综合性大赛中采用云收录、云存储、云检索等云端技术,并引入人工智能,对存储的素材可通过图文识别、语音识别、人脸识别等方式进行检索以及编辑,有效地提高工作效率。
2019武汉军运会的成功转播,为总台今后的大型顶级体育赛事转播活动积累了丰富的主播经验,希望此次转播的主播经验能和大家分享,能为今后担当更多的大型赛事打印机如何复印
主播机构角色提供些许借鉴和帮助。
(上接第107页)
的图像压缩技术,该技术可以降低最高达75%的带宽。RAISR 分析同一图像的低分辨率和高分辨率版本,了解到高分辨率版本出众的原因,使用机器学习创建一个图像过滤器(根据图像的边缘特征训练:亮度和色彩梯度、平实和纹理区域等),在低分辨率版本模拟出来。而低分辨率图像在主观感受上与高分辨率图像几乎一致,从而实现降低带宽而不牺牲照片质量,并在带宽受限的移动设备上提供清晰锐利的图像。HEVC (H.265)作为最新的视频编码算法,将机器学习引入到编码器优化上,编码速度提升显著(最高达90%以上),在压缩性能上可以再节省40%的码率,
视频编码的处理能力得到显著提升。
五 结束语
关于励志的小故事
以上介绍了目前视频、网络技术发展的情况下,视频编解码器需要在性能上的提升,人工智能在增强编解码器性能方面的探索,以及经过人工智能增强的编解码器对编码效率、图像质量的改善。随着人工智能的发展,未来也许会出现可以自我迭代进化的强人工智能,开发出超越时代的编码方法、传输协议、解码、交互技术。

本文发布于:2023-06-25 02:20:01,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1033078.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图像   视频   编码   技术   人工智能
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图