5月24日,36氪“新质生产力·AI Partner大会”于北京环球贸易中心正式拉开帷幕。大会聚焦AI场景与应用端,分为“AI能为我们做什么”和“我被AI赋能了”两大篇章。现场汇聚来自阿里云、蚂蚁集团、联想、OPPO、百度、英特尔、大华股份等企业的AI领域先锋者,以“赋能者”与“被赋能者”的不同视角,共同探讨AI技术如何“爆改”千行百业。
以下是大华股份先进技术研究院院长殷俊先生主题演讲。
非常感谢36氪给我这个机会,与各位业内同仁共同探讨AI这个话题。人工智能发展到现在,已经为经济社会带来深刻变革,并普及到城市、企业、生活的方方面面。
大华股份是以视觉为核心的智慧物联解决方案提供商和运营服务商,智慧物联作为人工智能最典型的商业价值落地场景之一,我们在技术落地过程中积累了大量的实践与业务经验。以“视频+AI”为牵引,借助先进的视觉智能设备与解决方案,我们致力于整个社会生产效率的提升,赋能城市高效治理和企业的数智化创新与转型。
AI领域发展了很多年,从16年AI在行业的应用到前年大模型应用的兴起,AI生产力工具一直在不断演进的过程中,大模型的出现能够进一步提升AI的能力,能够做好更新型工具链的建设和工具生产力的建设,我们也看到两个大的趋势:第一个是大模型参数规模的持续增长,随着针对大模型能力的不断探索,模型参数量仍在持续增长,scaling law还没有失效;第二个是针对大模型算力的优化,大模型的算力开销非常大,如何优化算力开销,通过更少量的算力来达到同等模型能力,各种降低算力消耗的方式被提出来。
当前大模型应用以文本类、语音类为主,大模型落地过程中仍然面临很多的挑战,尤其是在视觉领域,如可靠性、稳定性、认知能力和成本等。首先可靠性挑战,我们希望能够准确识别一个物体,判定一个事件是否符合安全合规要求,对精度的要求是比较高的;其次是稳定性,视觉场景要求稳定识别物体,而当前通用大模型在效果稳定性方面离实战要求还有差距,特别是幻觉问题会严重影响大模型的稳定性;第三个挑战是认知能力;第四个挑战是成本,也就是如何让客户用得起,只有更低成本才能让更多的客户用得起大模型,进而推动大模型产业化落地。
真实准确描述客观世界是视觉大模型落地的关键,通用大模型对细分业务场景无法做到正确描述。比如煤矿传送带上的异物检测,要区分传送带上的是石头还是矿物;在工业质检环境里,人员是否佩戴安全帽检测,要检测戴的是安全帽、普通帽子或发饰;在粮仓粮面分割时,不同谷物分割线有什么区别,堆放的是什么谷物,这都是在真实场景中要解决的问题。要让模型做到精准识别,需要通过大量参数优化实际应用效果,结合行业领域的专业知识进行调优。在电力行业应用中,我们发现通用模型并不认识绝缘子,不能很好理解什么是绝缘子,因此需要深入行业把绝缘子特征提取出来,让模型能更精准地识别什么是绝缘端子,或者是对“绝缘”两个字与广泛的认知形成差异,并且映射到实物,这就需要有大量行业经验不断调优网络,让网络掌握特定行业或者细分行业的专业术语后,形成对行业更好的理解,精准表述我们面向的业务应用。
第二个是解决知识冲突问题,大模型具备着强大的泛化能力,会对目标理解形成差异。比如在油菜生长过程中,我们用无人机去监测植被生长状态,然而在不同生长阶段油菜的颜色差异很大,如何对油菜进行一致性的识别。又比如最简单的穿戴合规检测,不同行业甚至同一行业的不同场景下,对着装的要求也不一样,例如室外要求穿反光马夹,室内穿简装制服即可,像我们去做电力行业合规检测,需要根据不同作业环境识别不同的着装违规,大模型要区分在不同作业环境下对应的穿戴要求,需要行业领域知识库才能够区分清楚,这也是我们在行业落地里面遇到的挑战。需要大量的行业知识和行业理解来持续匹配模型调优,通过大量知识协同来解决大模型知识冲突的问题。
另一个是幻觉问题,大家听说的也很多,特别是在对话语义理解上一词多义或者多词一义很容易造成误解,这些问题在实际应用过程中需要避免。我们使用高质量的行业数据训练模型进行二次分类,对大模型进行模型监督和后处理,自动检测和修正幻觉问题,部署后定期进行模型再训练,使用新的行业数据和反馈进行优化,让大模型的认知能力与行业匹配性逐步提升,从而让大模型在业务落地中能够更好地跟行业结合,减缓幻觉问题。目前来看幻觉问题相对比较稳定,但是还会有错误发生,我们希望通过与各行业的进一步深耕打磨和融合,能把幻觉问题降到更低的程度或者是转化为能够理解的过程。
在视频序列分析上,大模型对视觉的理解也是一个难题,特别在特征融合后,大模型更多的是对全图的理解,对细节理解的不够,如何把识别范围控制在需要关注的对象上面,这也是我们需要做的工作。在实际业务落地应用上,我们需要更加关注管理对象的行为或者结果,在这个过程我们会把模型调整,将注意力调整到目标物身上,对大量的背景等无效信息进行过滤,才能进行复杂行为的识别。
在部署协同问题上,首先是成本,大模型需要消耗更大的算力,视觉和文本又不一样,仅一张图片可能就是 200k 分辨率,对于文本来说可以变为十几个字符,因此处理视觉需要消耗更大量的算力。所以我们需要把模型做的更小,以有限的算力将视觉大模型跑起来。第二是兼容小模型阶段做的大量成果,比如车牌识别、车辆识别,在小模型阶段车辆识别精度已非常高,不需要再用大模型重新把这个事情做一遍,如何让老的系统和新的系统协同融合,既发挥性价比优势,又发挥出大模型能力,最终满足全系统最佳利用率要求,这是我们已经在重点做的工作。
所以,在实践过程中,我们会想一个问题,是要通用模型还是多模型协同?最终我们选择了多模型协同,它是一个比较好的方式,既能够发挥大模型的能力,又能够相对合理的利旧,通过构建多模型融合系统,快速解决客户实际需求的问题。
去年,基于在视觉领域AI落地的研究与实践,大华股份发布了星汉大模型,它是以视觉为核心、多模态融合的行业大模型。在以视频为核心的智慧物联领域,大华积累了丰富的行业和细分场景业务经验,充分结合行业经验的视觉大模型是商业成功的关键。
星汉大模型具备四个方面的优势:从准确走向精准、从个性走向通用、从识别走向理解、从静态走向动态。其准确率和泛化能力大幅提升,可以通过图文提示满足海量碎片化需求,认知能力提升识别复杂行为,通过全场景解析提升系统智能化水平。构建星汉大模型的基础,是大华构筑的“1+2”的人工智能能力体系。面向海量碎片化需求,通过四层技术架构提升了算法供给能力,把AI嵌入到每个产品和场景,已覆盖超过8000个细分场景。
我认为,大模型未来发展趋势,首先是领域大模型,大模型落地过程中会结合业务场景,发展出更多的领域专精大模型。第二是多模态趋势,多模态融合,感知更全,知识互补,准确性会出现跃升。第三是端边云MOE融合,提升整体模型系统的计算架构,实现整个系统的最优化。