巨人移动创新突破,申请高质量视频生成音频专利,优化时间对齐与音画质量同步技术

巨人移动创新突破,申请高质量视频生成音频专利,优化时间对齐与音画质量同步技术"/

巨人移动申请的这种高质量视频生成音频方法专利,旨在通过技术创新提高视频与音频的时间对齐效果和质量。以下是对该专利可能包含的技术要点和优势的概述:
1. "时间对齐技术": - 该专利可能采用先进的算法来确保生成的音频与视频内容在时间上精确对齐。这可能包括对视频帧和音频波形进行同步处理,以减少或消除时间偏差。
2. "音频质量提升": - 通过优化音频处理流程,该专利可能能够显著提高生成的音频质量。这可能涉及噪声抑制、回声消除、动态范围压缩等技术。
3. "深度学习应用": - 该专利可能利用深度学习技术,如卷积神经网络(CNN)或循环神经网络(RNN),来分析视频和音频数据,从而实现更精确的时间对齐和音频质量提升。
4. "多模态数据融合": - 该技术可能结合视频和音频数据,通过多模态数据融合技术来提高整体质量。例如,利用视频中的视觉信息来辅助音频的生成和调整。
5. "自适应调整": - 该专利可能具备自适应调整能力,能够根据不同的视频和音频内容自动调整参数,以实现最佳的时间对齐和音频质量。
6. "实时处理": - 为了满足实际应用需求,该专利可能支持实时处理,使得在视频播放过程中能够实时生成高质量的音频。
7

相关内容:

lass="xiangguan" id="content">

金融界2025年5月16日消息,国家知识产权局信息显示,巨人移动技术有限公司申请一项名为“一种高质量视频生成音频方法”的专利,公开号CN119988671A,申请日期为2025年1月。

专利摘要显示,本发明涉及一种高质量视频生成音频方法,包括以下步骤:S1:基于语义预训练模型对视频进行处理,得到语义信息;基于视频理解预训练模型对视频进行处理,得到视频理解特征;S2:根据视频理解特征获取固定长度的视频帧;S3:将固定长度的视频帧输入Seq2Seq模型,Seq2Seq模型输出音频帧的发声预测,音频帧的发声预测为RMS值;S4:将RMS值离散化为64个离散的数值,方式如下:d(r)=math.floor(64*(ln(1+63|r|)/ln(64))),d(r)为64个离散的数值,r为RMS的值;离散化后的RMS值对应256维的embedding向量;S5:基于语义信息和256维的embedding向量训练,引导音频表征生成模块;S6:基于音频表征生成模块,采用声码器还原,生成音频。本发明可以提高生成音频与视频的时间对齐效果和质量。

天眼查资料显示,巨人移动技术有限公司,成立于2017年,位于上海市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本5000万人民币。通过天眼查大数据分析,巨人移动技术有限公司专利信息38条,此外企业还拥有行政许可7个。

本文源自金融界

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章