如何用AI实现视频防抖？还是无需裁剪画面的那种-58码农网

视频防抖技术，尤其是在无需裁剪画面的情况下实现，是视频处理领域的一个挑战。AI在视频防抖中的应用主要通过以下几种方法：
1. "深度学习模型"： - "卷积神经网络（CNN）"：可以用于学习视频帧之间的时空关系，通过预测和补偿视频中的抖动。 - "长短期记忆网络（LSTM）"：LSTM擅长处理序列数据，可以用于捕捉视频帧之间的时间依赖性。
2. "基于特征的方法"： - "特征匹配"：通过识别和匹配视频帧中的关键点或特征，如SIFT、SURF等，来稳定视频。 - "光流法"：计算连续帧之间的像素位移，以此来估计和补偿抖动。
3. "帧间插值"： - "双线性插值"：在抖动视频的相邻帧之间进行插值，以平滑过渡。 - "更高级的插值方法"：如双三次插值或更复杂的插值算法，可以提供更高质量的稳定效果。
以下是一个简化的步骤，说明如何使用AI实现视频防抖：
### 数据准备 1. 收集大量的抖动视频数据，用于训练和测试AI模型。
### 模型训练 1. "数据预处理"：将视频帧进行归一化、调整大小等处理。 2. "特征提取"：从视频帧中提取关键

相关内容：

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI

右边的画面，是不是比左边的画面看上去稳定许多？

这样的效果，大家可能并不陌生。现在，不少手机厂商都为自家手机配备了类似的防抖算法，为你拍摄生活Vlog提供便利。

不过，目前的智能手机在面对复杂的抖动时，主要是通过电子防抖（EIS）的方式来实现画面的稳定。

也就是说，需要对画面的边界进行裁剪，通过“后期处理”，实现画面的稳定：

△图片来自TDK

而现在，一项来自台湾大学、谷歌、弗吉尼亚理工大学和加州大学默塞德分校等研究机构的论文，提出了一种无需裁剪的全帧视频稳定算法。

即使是奔跑中拍摄的画面，也能稳定不少。

那么，这只AI具体是如何做到防抖的？

方法原理

该方法的核心思想，是融合视频中多个相邻帧的信息，来呈现无需裁剪的完整稳定视频。

具体而言，对于输入视频，首先对每一帧图像特征进行编码，并在目标时间戳处将相邻帧翘曲至虚拟相机空间。

这里面主要用到了目标帧到关键帧的翘曲场，以及从关键帧到相邻帧的估计光流两个信息，这样，就可以通过链接流向量，计算目标帧到相邻帧的翘曲场。

然后，融合这些特征。

传统的全景图像拼接算法通常是在图像级别进行融合。这样做的缺点在于，如果估计光流不可靠，就会产生伪影。

而将图像编码为CNN特征，再在特征空间中进行融合的方法更具鲁棒性，但又往往会产生过于模糊的图像（如下图b）。

于是，研究人员提出结合两种策略的优点：首先将图像编码为CNN特征，然后从多个帧中融合翘曲特征。

对于每个源帧，研究人员将融合特征图和各个翘曲特征一起，解码成输出帧和相关的置信度图。

最后，通过使用生成图像的加权平均，来产生最终的输出帧。

实验结果

研究人员在NUS数据集和自拍视频数据集上验证了该方法。

△标红的为最佳结果

在上表中，DIFRINT方法同样是无需裁剪的方法。虽然该方法在失真值（distortion value）上略优于本文方法，但如下图所示，DIFRINT的结果中有明显的局部失真。

总体而言，本文提出的方法优于此前的SOTA方法。

不过，论文也谈到了该方法的局限性，比如对卷帘式快门无效；如果视频帧间亮度变化很大，会导致明显的接缝；预处理阶段的平滑方法可能会导致失真等。

传送门

根据作者介绍，该项目即将开源，如果感兴趣，不妨先mark一下~

论文地址：
https://arxiv.org/abs/2102.06205

项目地址：
https://alex04072000.github.io/NeRViS/

— 完 —

量子位 QbitAI · 号签约

关注我们，第一时间获知前沿科技动态

相关内容：

方法原理

实验结果

传送门

给这篇文章的作者打赏

关于作者: 网站小编

相关文章

[记录] SSMS 20 geometry 支援度

[AI] Azure Document Intelligence自订模型的栏位

苹果手机快捷指令更换“图标”的方式

热门文章

1科氪解读,荣耀MagicOS 10重塑智能生活，AI赋能全品牌互联新纪元

2从工具到伙伴,荣耀MagicOS 10革新智能终端交互体验

3存储涨价狂潮中独树一帜！荣耀惊爆降价600元，8000mAh 256GB版仅售1383元

4荣耀MagicOS 10升级大礼来袭,升级包超3.9GB！你的手机升级名单揭晓

5十年果粉换荣耀,深度解析创作者效率与体验，荣耀如何超越苹果，实现更省心