a&s专业的自动化&安全生态服务平台
公众号
安全自动化

安全自动化

安防知识网

安防知识网

手机站
手机站

手机站

大安防供需平台
大安防供需平台

大安防供需平台

资讯频道横幅A1
首页 > 资讯 > 正文

华为AI存储加速多模态大模型进化,助力Open-Sora-Plan复现Sora

面向未来,Open-Sora-Plan团队与华为AI存储计划在多模态视频理解和视频生成场景共同研究KV-Cache以查换算技术。
资讯频道文章B

  12月10日,OpenAI在距其首次发布号称“世界模拟器”的视频生成模型Sora十个月之后,全新发布正式版Sora Turbo,新版本速度和性能都胜过Sora,用户不仅可以通过文字提示生成视频,还能将静态图片转化为动态视频,甚至可以对现有视频进行创意改编。但Sora的闭源路线,使得“Open AI”变成“Closed AI”,国内学术界和科研机构纷纷开始思考如何复现Sora,从而在视频生成领域也能占有一席之地。

  其中由北大-兔展AIGC联合实验室共同发起的Open-Sora-Plan,旨在复现一个“开源版Sora”,目的是通过开源版Sora来推动视频生成技术的发展,为开源社区提供一个Sora模型,用于科研和创作,让全世界的开发者都能参与进来。自2024年3月1日正式公开以来,最新发布的Open-Sora-Plan v1.3.0版本引入了五大新特性:性能更强、成本更低的WFVAE;Prompt refiner;高质量数据清洗策略;引入了全新稀疏注意力模块DiT;以及采用动态分辨率、支持动态时长的训练策略,取得了显著成果。Open-Sora-Plan也是北京大学鲲鹏昇腾科教创新卓越中心支撑的项目之一。

  NLP到Sora多模态,数据量千倍增加,读取带宽百倍增加,AI数据处理复杂度指数级增长,这为AI存储带来了新机会。北大Open-Sora-Plan团队在使用华为AI存储过程中,针对数据处理、训练、推理业务全流程与华为数据存储团队开展联合创新,达成多个技术改进点:

  1、数据清洗阶段-以存代算:多模态数据处理算子下移节省数据处理时长。华为AI存储通过美学评估、光流估计、图文过滤算子等多模态数据处理算子下移,并做到场景域模态补齐无感知,将原始数据提前转化成训练数据,节省数据处理的时长。另外华为AI存储数据智能冷热分级能力既解决了数据清洗过程中数据膨胀数十倍带来的存不下问题,又满足了性能要求,性价比10倍提升。

  2、训练阶段-以存强算:“模态-处理-编码”感知的自适应加载优化提升训练效率。当前业界多模态训练数据加载时未考虑多模态特性,且对编码后的数据未高效复用,而是每轮训练重复处理和计算,造成算力浪费。华为AI存储通过将编码后的数据特征值写入存储并高效复用,消除重复计算,优化Batch分布,提升shuffle效率,训练效率提升大于10%。

  3、推理阶段-以查换算:通过KV-Cache复用,减少重计算,提高长视频理解的性能和精度,提升视频生成效率。面向未来,Open-Sora-Plan团队与华为AI存储计划在多模态视频理解和视频生成场景共同研究KV-Cache以查换算技术。在长视频理解场景,无法将所有帧的表征同时喂给大模型,直接抽帧又会造成重要信息丢失,可考虑构建Visual Memory Bank提前对长视频所有帧的表征建库并统一管理,为以查换算提供了可能。多模态问答场景,用户问题仅聚焦于部分内容中,因此可通过多模态注意力检索取出相关表征,避免冗余信息的干扰,实现对关键帧和关键token的选择,降低多模型序列长度75%,实现多模态KV-Cache以查换算。

参与评论
回复:
0/300
文明上网理性发言,评论区仅供其表达个人看法,并不表明a&s观点。
0
关于我们

a&s传媒是全球知名展览公司法兰克福展览集团旗下的专业媒体平台,自1994年品牌成立以来,一直专注于安全&自动化产业前沿产品、技术及市场趋势的专业媒体传播和品牌服务。从安全管理到产业数字化,a&s传媒拥有首屈一指的国际行业展览会资源以及丰富的媒体经验,提供媒体、活动、展会等整合营销服务。

免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!
© 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法兰克福展览(深圳)有限公司版权所有 粤ICP备12072668号 粤公网安备 44030402000264号
用户
反馈