7月15日,2022旷视技术开放日(MegTech 2022)在北京举行。在本次活动上,旷视联合创始人、CEO印奇进行了主题分享,阐述了旷视以AIoT为核心的企业战略以及涵盖从基础研究、算法生产到软硬一体化产品的AI落地全链路的“2+1”AIoT核心技术科研体系,即以“基础算法科研”和“规模算法量产”为两大核心的AI技术体系,和以“计算摄影学”为核心的“算法定义硬件”IoT技术体系。同时,旷视研究院基础科研负责人张祥雨也在现场分享了旷视关于AI基础研究的最新趋势洞察和研究成果。
“大”和“统一”成为视觉AI基础研究新趋势
自2012年AlexNet被提出以来,基于深度学习的神经网络成为AI视觉发展的核心原动力之一。神经网络根据用途、构建方式的不同,大致可以分为CNN、Transformer、基于自动化神经网络架构搜索的模型以及轻量化模型等,这些模型极大地推动了AI发展的历史进程。
旷视研究院基础科研负责人张祥雨认为:基础模型科研是AI创新突破的基石, “大”和“统一”已经成为当今视觉AI系统研究的新趋势。
“大”并不意味好,要借助AI“大”模型持续拓展人工智能认知边界
旷视认为,“大”是以创新的算法充分发挥大数据、大算力的威力,拓展AI认知的边界。即利用大数据、大算力和大参数量,提高模型的表达能力,使得AI模型能够适用于多种任务、多种数据和多种应用场景。
张祥雨认为,“大”是提高AI系统性能的重要捷径之一。但是,但大并不意味好,片面地追求大参数量、大计算量和大数据量,并不一定能够实现更强大的模型,反而会产生更大的计算开销,令整体收益非常有限。
基于这一行业洞察,旷视将其关于“大”的研究进行了更加精细的划分。首先在大模型方面,旷视的研究不仅着眼于如何实现“大”,而是将会聚焦于如何充分发挥大模型背后的威力;其次在大算法方面,如果利用创新的算法将大模型的作用最大化,也将会是旷视未来重点关注的;最后在大应用方面,将重点解决大模型生成后如何进行合力的应用,提升AI模型性能。
用“统一”AI系统的设计思路,促进AI的通用化、规模化应用
AI视觉的研究领域众多,包括CNNs、VL Models、 Transformers等基础模型研发,物体检测、分割等视觉基础应用,优化、自监督、半监督等AI算法演化等,每个研究路径,都会衍生出一系列算法。
近几年,不同研究路径所衍生出的算法逐渐在底层走向统一,旷视借助特定的优化算法,通过在训练过程中增加先验的方式,使得CNNs、VL Models、 Transformers都取得相似的性能,为旷视“统一”AI系统设计奠定了坚实的基础。
此外,围绕“统一”这一趋势,旷视在“基础模型架构”、“算法”和“认知”,进行了全面布局。旷视基础科研的“统一”,集中体现在统一各种基础模型架构,从纷繁的AI算法中提炼其本质特性,使其能支持各种任务、数据和平台,并最终构建统一的、高性能的视觉AI系统。
基础模型科研需要坚持长期主义
围绕“大”和“统一”的研究趋势,旷视基础模型科研聚焦于通用图像大模型、视频理解大模型、计算摄影大模型和自动驾驶感知大模型四个方向,并取得了多项突出的科研成果。比如,在通用大模型方面,旷视提出了一种基于大Kernel的CNN和MLP设计范式。在自动驾驶感知大模型方面,旷视新提出的BEVDepth在权威的Benchmark NuSenses上,目前是Camera赛道上的第一名。此外,去年提出的一个非常简单、通用,且高效的目标检测框架YOLOX的GitHub Star已经超过6000个。
张祥雨强调,基础模型科研需要坚持长期主义,旷视将始终以原创、实用和本质作为基础科研的指导原则,致力于解决人工智能最本质的难题。