裸手玩VR、线稿变3D人、充电宝上跑AI…旷视大秀
在技术开发日上,旷视联合创始人、CEO印奇与旷视研究院基础科研负责人张祥雨、旷视研究院算法量产负责人周而进、旷视研究院计算摄影负责人范浩强,对这些前沿技术成果背后的探索和理念进行了深入解读。
而本次旷视技术开放日展出的的许多成果,也能在这四个方向中找到归类。这四个方向如下:
值得一提的是,现场除了展出了一些和大众生活息息相关的小发明,旷视还展出了一些视觉AI基础创新。
看完这些前沿视觉AI技术新发明,那么我们如何以此为参考认识当下视觉AI行业发展的水平呢?
这一“极客”场景,是计算机视觉龙头企业旷视科技一年一度的MegTech技术开放日现场。
具体来说,在数据处理环节,AIS平台能够给整个数据标注过程提供30倍以上的效率提升;在模型训练环节,AIS平台有一个强大的推荐系统,能结合客户需求自动化地为客户适配模型进行训练;在性能分析调优环节,AIS平台会为用户提供一个非常系统及标准化的模型诊断过程,自动化地告知用户调优建议;当得到一个性能不错地模型之后,在硬件推理环节,AIS平台则提供标准化的硬件部署工具链,实现AIoT闭环。
关于通用大模型的另一种成果,旷视称之为新型的模型规模化。面对传统增大模型方法边际效应递减的问题,旷视今年提出了一种基于可逆、多column神经网络的Scale Up的范式,通过增加可逆column的数量来扩大化神经网络的参数和计算量。这种方法带来的额外显存消耗非常小。
现场研究员告诉我们,以往的AI模型训练,往往需要云端专用的计算显卡(GPU),价格昂贵、能耗很高,这对于AIoT时代的嵌入式设备并不友好。旷视通过对计算图的设计和混合精度的训练策略,结合旷视天元MegEngine开源深度学习框架,令模型训练脱离昂贵的GPU成为可能。
“统一”是指算法在底层正走向统一。AI视觉研究分CNNs、VL Models、 Transformers等多个基础模型领域,以及检测、分割等多个基础应用领域,每一领域都衍生出一系列算法。现在,通过一些特定的优化算法,这些底层算法能取得相似的性能,从而得到简单、强大、且通用的系统。
在激光雷达感知方面,旷视提出了一种新的神经网络架构,叫LargeKernel3D Network,这是在点云上的一种新型的卷积结构。它可以支持比较稀疏化的点云建模,以及通过参数共享的方式减少了参数的使用,使得网络更为高效。该模型在NuSenses就是激光雷达检测赛道上也是排名第一。
3D人物也是时兴的元宇宙中的一大要素,展台坐落在裸手玩VR展台旁边。
盛夏的北京雨后转晴,下午三点多,旷视技术开放日展区参观的人多了起来。现场展出的AI技术Demo有20多个,涉及产品技术研发、基础算法创新、算法量产等多个方面。智东西来到现场一探究竟,发现了以下多款“黑科技”。
在十年前,2012年“深度学习之父”Hinton和其学生的AlexNet模型提出之后,基于深度学习的神经网络成为AI视觉发展的主要原动力之一。根据神经网络的用途以及构建方式的不同,大体上可以分CNN、Transformer、基于自动化神经网络架构搜索的模型、以及轻量化模型等等,这些模型都在一定时间内极大地推动了当时AI发展的进程。
在一个偏行业应用技术研发的展台区,我们看到AI不仅能文,还能武,充当智能教练、美妆顾问、零售专员等多种角色。
2、视频理解大模型。旷视主要攻克困扰业界已久的长序列建模问题,找到更高效的视频模型训练、监督和应用的方法。
5、充电宝能跑的AI训练
3、计算摄影大模型。旷视主要探索计算摄影大模型研究的新范式,充分从大数据中找到真实图像的先验信息,进而指导生成更高清、高质量的图像。
6、视觉3D检测新算法,点中窥物
那么,作为中国视觉AI技术前沿力量的代表,创立11年的旷视如何打造持续的AI基础技术创新能力圈?
在视觉相机感知方面,今年旷视提出了一种名为BEVDepth的新算法,这在前面提到了,这种算法能在不同数量和型号的相机上,获得精准的深度估计,车辆颠簸、抖动都不会太影响识别精度。BEVDepth在权威的Benchmark NuSenses上,目前是Camera赛道上的第一名。
研究员称,简单来说,这是基于深度学习对图像进行手部检测及关键点提取,通过对手部姿态的实时三维重建、姿态行为分析,实现交互。