龙年春节之际,OpenAI旗下的AI视频模型Sora爆火。Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。相较于初代的生成式AI产品,Sora以其“以假乱真”的视觉效果带给科技界新一轮震撼。
伴随着Sora的火爆,主流的AI视频、AI大模型公司在春节期间也收获了一大波关注度,尤其资本市场异常火热。
不少投资机构快速拉出一串AI视频或AI大模型概念股进行宣传,尽管有些个股业务和Sora存在较大差异,只是业务关键词中带有AI、大模型或生成式视频,也被机构推荐在列,比如被多家投资机构提及的海康威视、大华股份等企业。
对于热议,上述企业近期也在公共平台发出回应,说明了公司视频大模型产品和Sora的区别。
海康、大华:解析式和生成式方向相反
2月19日,对于海康威视是否有类似Sora的产品,有记者以投资者身份致电海康威视,相关人士表示,公司的产品与Sora不是同一个范畴的人工智能,公司专注在感知智能方面。公司的视频大模型主要用在智能物联行业,主要用来帮助企业降本增效,“比方说拍了一段视频,然后再去判断视频内有没有发生一些什么事情,是有明确规则的,按照规定去识别某一项东西。Sora是生成式的,其实跟我们的方向是相反的。”
大华股份相关人士也表示,公司拥有视频大模型的能力,目前在两个行业做研发。不一样的点是Sora是生成式的,大华做的是解析式的,方向刚好是反过来的。大华主要拿既有的素材或者客户内容去做解析,告诉客户视频里发生了什么,根据这个发生的事情来做行为判断。
a&s认为,两家企业的回应明确指出了生成式视频和视频解析的差异,严格意义上讲,两者正好相反。
Sora这类生成式视频产品的亮点在于“无中生有”,即脱离实际拍摄,仅靠AI工具生成一段段符合文本描述的视频画面,重要的是这些画面都是虚拟出来,非实物;
而AI视频解析,则是先有一段段真实的视频内容,然后通过AI功能对视频画面内容进行目标(人、车、物)解析。
值得一提的是,两者所需要的底层技术共通,都需要依赖大算力支持,同时需要海量的素材实现对算法的训练,才能实现高精准度的“画面复刻”和“画面解析”。
简而言之,两者底层技术相通,而主要的应用目的和应用场景则大不同。
从发展时间线来看,AI视频解析是伴随着安防进入到智能化时代就已发展起来,其应用早于生成式视频。自2019年开始,因AI落地应用逐渐凸显出的“需求碎片化难题”是催生AI大模型诞生的关键,那个时候,业内还没有构成AI大模型这样的概念,多以AI开放平台命名。2022年,chatGPT的横空出世,掀起了AI大模型热潮,由此,各领域里AI大模型产品随之涌现,文本类、图片类、语音类大模型产品在过去两年时间里成为AI大模型的主流类别。
Sora生成式视频,AI领域新的 “冲击波”
Sora之所以引起科技领域的震撼,有一个点在于它突破了生成式AI当下的极限,如果说2023年是图文生成式AI的元年, 那么2024年应该是视频生成式AI的主题年。当我们还在为chatGPT类产品能够和人类图文互动感到精彩的时候,Sora直接推出逼真的生成式视频,这本身就值得惊叹。
对于 Sora 的出现,大家普遍认为将极大的改变视频制作领域的人工制作模式,比如影视行业,有业内人士表示,一旦视频的准确度、连贯性问题被解决,群演、布景、特效等大量内容则都可以用AI去帮助完成。
其次是广告和短视频行业,如果未来大量的广告和短视频由AI生成,视频创作的门槛和经费会大大降低,对设计师、摄影师、后期制作岗位的需求也会大量减少。
还有游戏行业,有游戏业管理层人士认为Sora将开启AI发展的“牛顿时代”。
当然也有很多AI大模型企业从Sora身上看到了新的机会,比如在视频生成领域,国内公司可以借鉴Sora的技术原理,开发适用于不同场景和需求的视频生成模型,提升视频制作的效率和质量。在自然语言处理领域,国内企业可以借鉴谷歌新模型的处理能力,开发更高效、更智能的自然语言处理系统,为智能客服、智能教育等领域提供更强有力的支持。
解析式大模型,适用To B市场,助力企业降本增效
和生成式视频不同的是,解析式大模型主要面向的是To B 的用户,更偏向实用主义。
如海康威视在公共平台谈到的,“我们的目的是帮助客户解决问题,客户并不太关心我们具体是借助软件、硬件或是算法,对他来说更重要的是结果。从结果的角度来说,我们需要借助什么样的方法,在整体解决方案中都是灵活运用的。”
大华近日也在投资者关系平台上强调,公司结合自身业务理解和实战技术优势,打造面向行业的解析式大模型。以场景化应用为导向,重点专注于视觉解析为核心的多模态行业视觉大模型,持续推进AI产业化和商业成功。
视频解析早期主要应用于安防监控领域,通过对监控中关键目标的识别捕捉分析,助力公共安全预警、交通管理。
自2016年之后,伴随着AI在安防领域应用的逐步深化,视频解析也开始从安防监控拓展到其他应用领域,比如工业领域的AI视觉检测、农业场景中农作物生长监管等等。
AI赋能的工业质检是利用基于深度学习、大模型等AI技术的视觉检测技术,在工业生产过程中对产品图像进行视觉检测,从而帮助发现和消除缺陷。行业用户可以通过大模型技术实现对产品质量问题的实时预测和处理,提高产品质量的检测效率;
人工智能在辅助农作物生长、畜禽养殖过程中发挥着越来越重要的作用。比如在作物病虫害识别方面,可根据植物的叶片等状态,分析出植物的生长情况,通过智能监控设备检测并识别作物病虫害情况;在生猪养殖场,通过“猪脸识别”技术,从而帮助养殖户随时随地对动物的健康状态进行管理。
通过监控+AI算法模型,人工智能可作用于智慧农业多个场景,除动植物生长监测外,还可实现智慧灌溉AI水肥一体化,机械智能采收,农产品分拣过程中果蔬识别等诸多创新应用,可有效替代人力作业,解放人力,提高农业生产作业效率。
可以明显看出,近两年来,智慧物联企业发布的视觉大模型产品,都在持续强化AI大模型的泛化能力,提升大模型产品针对碎片化、多元化场景的适用性,对企业用户而言,采用AI视觉大模型工具的也主要是基于数字化转型,降低生产运营成本、提升管理效率的角度考虑。
结语
伴随着Sora的爆火,关于解析式和生成式AI视频的讨论在智能物联领域或将会成为一个长期的话题,这里我们也尝试分析一下,为什么我们在谈到AI视频、大模型的时候,总是能看到以海康威视、大华股份等为代表的智能物联企业的影子呢?
这主要是因为视觉技术是一个天然跟AI结合的领域。视频监控逐步从安防发展到运用于城市治理、企业管理、社会生活的方方面面,不同场景下也会派生出各种不同应用需求,而技术的进步,特别是大模型算力的爆发式增长,给了这些原本可能还无法实现的需求产生的可能性。伴随着高度差异化、碎片化、个性化的场景需求推动技术变革与演进,AI大模型的出现,也让产业智能更为精准和深入,同时具备很高的泛化性。
近两年来,国内有大批玩家涌入AI大模型赛道,试图在风口之上长出几家“独角兽”企业,但从目前市场情况来看,能够在AI大模型领域站稳脚跟的企业无一例外都在应用市场沉淀多时。因为AI本质就是一项技术工具,脱离了实际应用场景就会变得很难落地。我们在感叹AI技术创新的同时,也需要更多的思考AI产业化和商业化发展演进。