裸手玩VR、线稿变3D人、充电宝上跑AI…旷视大秀

来源：生产力研究 【在线投稿】栏目：综合新闻时间：2022-07-18

在技术开发日上，旷视联合创始人、CEO印奇与旷视研究院基础科研负责人张祥雨、旷视研究院算法量产负责人周而进、旷视研究院计算摄影负责人范浩强，对这些前沿技术成果背后的探索和理念进行了深入解读。

而本次旷视技术开放日展出的的许多成果，也能在这四个方向中找到归类。这四个方向如下：

值得一提的是，现场除了展出了一些和大众生活息息相关的小发明，旷视还展出了一些视觉AI基础创新。

看完这些前沿视觉AI技术新发明，那么我们如何以此为参考认识当下视觉AI行业发展的水平呢？

这一“极客”场景，是计算机视觉龙头企业旷视科技一年一度的MegTech技术开放日现场。

具体来说，在数据处理环节，AIS平台能够给整个数据标注过程提供30倍以上的效率提升；在模型训练环节，AIS平台有一个强大的推荐系统，能结合客户需求自动化地为客户适配模型进行训练；在性能分析调优环节，AIS平台会为用户提供一个非常系统及标准化的模型诊断过程，自动化地告知用户调优建议；当得到一个性能不错地模型之后，在硬件推理环节，AIS平台则提供标准化的硬件部署工具链，实现AIoT闭环。

关于通用大模型的另一种成果，旷视称之为新型的模型规模化。面对传统增大模型方法边际效应递减的问题，旷视今年提出了一种基于可逆、多column神经网络的Scale Up的范式，通过增加可逆column的数量来扩大化神经网络的参数和计算量。这种方法带来的额外显存消耗非常小。

现场研究员告诉我们，以往的AI模型训练，往往需要云端专用的计算显卡（GPU），价格昂贵、能耗很高，这对于AIoT时代的嵌入式设备并不友好。旷视通过对计算图的设计和混合精度的训练策略，结合旷视天元MegEngine开源深度学习框架，令模型训练脱离昂贵的GPU成为可能。

“统一”是指算法在底层正走向统一。AI视觉研究分CNNs、VL Models、 Transformers等多个基础模型领域，以及检测、分割等多个基础应用领域，每一领域都衍生出一系列算法。现在，通过一些特定的优化算法，这些底层算法能取得相似的性能，从而得到简单、强大、且通用的系统。

在激光雷达感知方面，旷视提出了一种新的神经网络架构，叫LargeKernel3D Network，这是在点云上的一种新型的卷积结构。它可以支持比较稀疏化的点云建模，以及通过参数共享的方式减少了参数的使用，使得网络更为高效。该模型在NuSenses就是激光雷达检测赛道上也是排名第一。

3D人物也是时兴的元宇宙中的一大要素，展台坐落在裸手玩VR展台旁边。

盛夏的北京雨后转晴，下午三点多，旷视技术开放日展区参观的人多了起来。现场展出的AI技术Demo有20多个，涉及产品技术研发、基础算法创新、算法量产等多个方面。智东西来到现场一探究竟，发现了以下多款“黑科技”。

在十年前，2012年“深度学习之父”Hinton和其学生的AlexNet模型提出之后，基于深度学习的神经网络成为AI视觉发展的主要原动力之一。根据神经网络的用途以及构建方式的不同，大体上可以分CNN、Transformer、基于自动化神经网络架构搜索的模型、以及轻量化模型等等，这些模型都在一定时间内极大地推动了当时AI发展的进程。

在一个偏行业应用技术研发的展台区，我们看到AI不仅能文，还能武，充当智能教练、美妆顾问、零售专员等多种角色。

2、视频理解大模型。旷视主要攻克困扰业界已久的长序列建模问题，找到更高效的视频模型训练、监督和应用的方法。

5、充电宝能跑的AI训练

3、计算摄影大模型。旷视主要探索计算摄影大模型研究的新范式，充分从大数据中找到真实图像的先验信息，进而指导生成更高清、高质量的图像。

６、视觉3D检测新算法，点中窥物

那么，作为中国视觉AI技术前沿力量的代表，创立11年的旷视如何打造持续的AI基础技术创新能力圈？

在视觉相机感知方面，今年旷视提出了一种名为BEVDepth的新算法，这在前面提到了，这种算法能在不同数量和型号的相机上，获得精准的深度估计，车辆颠簸、抖动都不会太影响识别精度。BEVDepth在权威的Benchmark NuSenses上，目前是Camera赛道上的第一名。

研究员称，简单来说，这是基于深度学习对图像进行手部检测及关键点提取，通过对手部姿态的实时三维重建、姿态行为分析，实现交互。