巨人移动创新突破,申请高质量视频生成音频专利，优化时间对齐与音画质量同步技术-58码农网

巨人移动申请的这种高质量视频生成音频方法专利，旨在通过技术创新提高视频与音频的时间对齐效果和质量。以下是对该专利可能包含的技术要点和优势的概述：
1. "时间对齐技术"： - 该专利可能采用先进的算法来确保生成的音频与视频内容在时间上精确对齐。这可能包括对视频帧和音频波形进行同步处理，以减少或消除时间偏差。
2. "音频质量提升"： - 通过优化音频处理流程，该专利可能能够显著提高生成的音频质量。这可能涉及噪声抑制、回声消除、动态范围压缩等技术。
3. "深度学习应用"： - 该专利可能利用深度学习技术，如卷积神经网络（CNN）或循环神经网络（RNN），来分析视频和音频数据，从而实现更精确的时间对齐和音频质量提升。
4. "多模态数据融合"： - 该技术可能结合视频和音频数据，通过多模态数据融合技术来提高整体质量。例如，利用视频中的视觉信息来辅助音频的生成和调整。
5. "自适应调整"： - 该专利可能具备自适应调整能力，能够根据不同的视频和音频内容自动调整参数，以实现最佳的时间对齐和音频质量。
6. "实时处理"： - 为了满足实际应用需求，该专利可能支持实时处理，使得在视频播放过程中能够实时生成高质量的音频。
7

金融界2025年5月16日消息，国家知识产权局信息显示，巨人移动技术有限公司申请一项名为“一种高质量视频生成音频方法”的专利，公开号CN119988671A，申请日期为2025年1月。
专利摘要显示，本发明涉及一种高质量视频生成音频方法，包括以下步骤：S1：基于语义预训练模型对视频进行处理，得到语义信息；基于视频理解预训练模型对视频进行处理，得到视频理解特征；S2：根据视频理解特征获取固定长度的视频帧；S3：将固定长度的视频帧输入Seq2Seq模型，Seq2Seq模型输出音频帧的发声预测，音频帧的发声预测为RMS值；S4：将RMS值离散化为64个离散的数值，方式如下：d(r)＝math.floor(64*(ln(1+63|r|)/ln(64)))，d(r)为64个离散的数值，r为RMS的值；离散化后的RMS值对应256维的embedding向量；S5：基于语义信息和256维的embedding向量训练，引导音频表征生成模块；S6：基于音频表征生成模块，采用声码器还原，生成音频。本发明可以提高生成音频与视频的时间对齐效果和质量。
天眼查资料显示，巨人移动技术有限公司，成立于2017年，位于上海市，是一家以从事软件和信息技术服务业为主的企业。企业注册资本5000万人民币。通过天眼查大数据分析，巨人移动技术有限公司专利信息38条，此外企业还拥有行政许可7个。
本文源自金融界

巨人移动创新突破,申请高质量视频生成音频专利，优化时间对齐与音画质量同步技术

相关内容：

关于作者: 网站小编

相关内容：

给这篇文章的作者打赏

关于作者: 网站小编

相关文章

HTC One M8 for Windows可升级WP8.1 GDR2系统

如何实现数据中心的自动化运营？

“吃鸡”中的战斗机！红辣椒7X更懂你的心

热门文章

1HUAWEI FreeBuds Pro 2深度拆解,羽沙白新配色亮相，心率体温双测功能升级解析

2网购高端手机惊现偷天换日,偷换主板后退货，维权之路在何方？

3解析“以假换真恶意退货”行为的性质界定标准

4网购27部高端手机疑遭偷换主板，退货风波引关注

5“编造杜撰任正非内部讲话”文章作者被判刑，自媒体转载终审免予刑事处罚