旷视张祥雨：“大”和“统一”成为视觉AI基础研究新趋势 - 安防知识网

基础模型科研是AI创新突破的基石， “大”和“统一”已经成为当今视觉AI系统研究的新趋势。

　　7月15日，2022旷视技术开放日(MegTech 2022)在北京举行。在本次活动上，旷视联合创始人、CEO印奇进行了主题分享，阐述了旷视以AIoT为核心的企业战略以及涵盖从基础研究、算法生产到软硬一体化产品的AI落地全链路的“2+1”AIoT核心技术科研体系，即以“基础算法科研”和“规模算法量产”为两大核心的AI技术体系，和以“计算摄影学”为核心的“算法定义硬件”IoT技术体系。同时，旷视研究院基础科研负责人张祥雨也在现场分享了旷视关于AI基础研究的最新趋势洞察和研究成果。

　“大”和“统一”成为视觉AI基础研究新趋势

　　自2012年AlexNet被提出以来，基于深度学习的神经网络成为AI视觉发展的核心原动力之一。神经网络根据用途、构建方式的不同，大致可以分为CNN、Transformer、基于自动化神经网络架构搜索的模型以及轻量化模型等，这些模型极大地推动了AI发展的历史进程。

　　旷视研究院基础科研负责人张祥雨认为：基础模型科研是AI创新突破的基石， “大”和“统一”已经成为当今视觉AI系统研究的新趋势。

　　“大”并不意味好，要借助AI“大”模型持续拓展人工智能认知边界

　　旷视认为，“大”是以创新的算法充分发挥大数据、大算力的威力，拓展AI认知的边界。即利用大数据、大算力和大参数量，提高模型的表达能力，使得AI模型能够适用于多种任务、多种数据和多种应用场景。

　　张祥雨认为，“大”是提高AI系统性能的重要捷径之一。但是，但大并不意味好，片面地追求大参数量、大计算量和大数据量，并不一定能够实现更强大的模型，反而会产生更大的计算开销，令整体收益非常有限。

　　基于这一行业洞察，旷视将其关于“大”的研究进行了更加精细的划分。首先在大模型方面，旷视的研究不仅着眼于如何实现“大”，而是将会聚焦于如何充分发挥大模型背后的威力;其次在大算法方面，如果利用创新的算法将大模型的作用最大化，也将会是旷视未来重点关注的;最后在大应用方面，将重点解决大模型生成后如何进行合力的应用，提升AI模型性能。

　　用“统一”AI系统的设计思路，促进AI的通用化、规模化应用

　　AI视觉的研究领域众多，包括CNNs、VL Models、 Transformers等基础模型研发，物体检测、分割等视觉基础应用，优化、自监督、半监督等AI算法演化等，每个研究路径，都会衍生出一系列算法。

　　近几年，不同研究路径所衍生出的算法逐渐在底层走向统一，旷视借助特定的优化算法，通过在训练过程中增加先验的方式，使得CNNs、VL Models、 Transformers都取得相似的性能，为旷视“统一”AI系统设计奠定了坚实的基础。

　　此外，围绕“统一”这一趋势，旷视在“基础模型架构”、“算法”和“认知”，进行了全面布局。旷视基础科研的“统一”，集中体现在统一各种基础模型架构，从纷繁的AI算法中提炼其本质特性，使其能支持各种任务、数据和平台，并最终构建统一的、高性能的视觉AI系统。

　　基础模型科研需要坚持长期主义

　　围绕“大”和“统一”的研究趋势，旷视基础模型科研聚焦于通用图像大模型、视频理解大模型、计算摄影大模型和自动驾驶感知大模型四个方向，并取得了多项突出的科研成果。比如，在通用大模型方面，旷视提出了一种基于大Kernel的CNN和MLP设计范式。在自动驾驶感知大模型方面，旷视新提出的BEVDepth在权威的Benchmark NuSenses上，目前是Camera赛道上的第一名。此外，去年提出的一个非常简单、通用，且高效的目标检测框架YOLOX的GitHub Star已经超过6000个。

　　张祥雨强调，基础模型科研需要坚持长期主义，旷视将始终以原创、实用和本质作为基础科研的指导原则，致力于解决人工智能最本质的难题。