作者简介李安,安思疆科技CEO,硕士毕业于浙江大学光电系,曾就职于华为2012实验室,独立设计了3D结构光系统,主导潜望式镜头光学设计,大规模应用在华为旗舰机,...
作者简介
李安,安思疆科技CEO,硕士毕业于浙江大学光电系,曾就职于华为2012实验室,独立设计了3D结构光系统,主导潜望式镜头光学设计,大规模应用在华为旗舰机,多项核心技术专利(包括美国专利)第一发明人,发表多篇论文,精通几何光学、衍射光学,激光,复杂光电系统设计,熟悉微纳光学、图像处理、3D视觉算法、光电芯片等领域,拥有完整的产品及产业经验和深厚的理论及技术背景。安思疆也是继苹果之后,第2家发布消费级面阵dToF激光雷达的公司。
2022年9月,苹果发布了全新的iPhone 14系列手机,其中Pro和Pro Max均延续了前代配置中的后置dToF Lidar模组,用于手机AR、3D扫描建模、辅助对焦等功能,大幅提升智能手机3D视觉体验。实际上,早在2020年3月苹果发布新款iPad Pro,其后置相机模块中就进行了大幅革新,首次搭载了自研的基于dToF技术的Lidar模块;随后仅隔半年,在10月份发布iPhone 12系列中,也搭载了这一技术;是苹果继2017年发布3D结构光后,迎来的又一重大技术里程碑,同时也是大面阵3D Lidar首次在消费电子产品中的大规模应用。
图1 iPhone后置激光雷达
3D感测技术作为苹果公司近年来重点布局的方向,已应用在生物识别、拍照、游戏、建模、虚拟现实、增强现实等领域,进一步强化了其在3D视觉技术领域的护城河。3D传感技术主流包括结构光技术(Structure Light)和光飞行时间测量技术(ToF, Time of Flight), 后者又分为间接飞行时间测量iToF和直接飞行时间测量dToF。苹果在技术路径上最终选择了结构光技术和dToF技术分别应用在前置相机和后置相机上,形成互补,兼顾前置和后置的各种3D视觉应用。
苹果3D Lidar的核心部件为VCSEL+ Collimator +DOE(组成发射端)、Imaging Lens +Narrow-band Filter +SPAD (组成接收端)、高速高功率激光驱动电路。这些器件之间几乎没有相通之处,每一个器件都是一个独立的领域,集结了几何光学、衍射光学、光电子学、激光、半导体物理、模拟电路、数字电路等领域最前沿的技术,如此多前沿学科的交叉必然使得系统设计异常复杂,然而学科交叉又是最容易产生创新的地方,下面就让我们一起来解读苹果这套Lidar系统的部分亮点。
Spot dToF
为了满足严苛的系统规格要求,苹果采用了一种基于可寻址VCSEL点阵扫描的全固态方案“Spot dToF”,采用了与3D结构光类似的点阵激光,不同于结构光超过3万个激光点阵,Spot dToF仅有576个激光点阵,相差50倍,但其单点功率要远高于结构光。在相同电功率下,其出射的光能量密度要远远高于面阵方案,估算差别甚至可以达到15-30倍,可以解决两大难题:一、在户外使用时阳光干扰的问题;二、手机硬件电路的设计问题。采用这种点阵方案能够维持户外使用的效果,而且由于能量集中,其抗干扰能力也会得到极大的加强;可以完全与当前的设计兼容,在手机这种限制极多的情况下,Spot dToF是手机后置3D视觉的最优解。
超细像素
在这里引入苹果称之为“超像素”(Super pixel)的概念,如下图,把m*n个单元像素通过类似在CIS中常用的Binning方式来合并,变成1个像素,这个像素就称为超像素,而TDC连接的就是这个超像素。
每个超像素就是一个小区域,其中包含了数十个单元像素,在这个超像素工作的时候,对应的激光斑点就落在这个超像素内,从而进行感光测量。关于超像素还有两个问题,一方面由于发射和接收采用的是非同轴设计,会产生视差,必须要综合考虑使用距离、模组尺寸、单元像素大小、组装误差等众多因素,才能最终确定超像素的子单元像素的数量,在苹果方案中此数量大概是50个;另一方面,散斑在SPAD阵列上成像的大小一般只占据超像素其中的几个单元像素,例如9个,但如果把整个超像素的探测深度都定义为同一个深度的话,就会大大降低其空间的横向分辨率,即XY方向的分辨率(假设深度是Z方向)。举个简单例子,这可能会导致最终完全分辨不清手指和整个手,如此低的分辨率是不能接受的,为了解决这一问题,苹果在每个超像素中还划分了更细的像素组合,我们可以把它叫做超细像素,这些超细像素会在测量周期的前段进行扫描,从而准确定位散斑在超像素中的位置,接着再进行全面的测量。这一过程也是十分复杂的,又大大增加了SPAD阵列的设计难度。
3D视觉算法
按照上述的方案,如果所有器件都完美地协同工作,就能得到576=24*24分辨率的精确深度图,这样的分辨率太稀疏,完全没有发挥SPAD阵列30000=150*200分辨率的能力。这就需要通过软件来补齐最后的这一短板,苹果应用了当前AI与机器视觉领域最前沿的研究成果,利用主摄单目RGB生成稠密但不准确的深度,利用Spot dToF生成稀疏但准确的深度,最后利用神经网络引擎将两者进行算法融合,得到一幅既稠密又准确的深度图,也就是我们在手机上最终看到的效果。当然这一过程并不像此处所讲的这么简单,也需要庞大的工程量,安思疆也是经过了2年的研究才有成果。
(a)主摄2D彩色图像;(b)Lidar正常工作时生成的深度图,不同颜色代表不同的距离;(c)只遮挡Lidar Scanner; (d)只遮挡主摄像头
如上图所示,只有当主摄像头、Lidar scanner、AI深度融合算法同时工作时,才能得到理想的结果。苹果在此使用的算法叫“Sparse-to-Dense”,稀疏转稠密算法,是当前AI视觉领域最前沿的课题之一。安思疆也对此进行了深入研究,同样取得了如下图中所示的理想结果。
(a)2D彩色图像;(b)Ground truth;(c)稀疏深度;(d)融合后的深度。
通过安思疆现有的高精度模组可获取大量高质量的3D数据,带来了极大便利,在此基础上采用了一种有监督的深度学习算法,得到高质量的深度融合模型。如图17所示,我们分别在公开数据集和实际模组中对自研的融合算法进行了测试,可以看到很理想的效果呈现。
一颗小小的激光雷达中蕴含了如此精巧的设计,即便复制都很难,其背后的研发投入必定是巨大的,不过这也是其产品定价的底气所在。难,才是价值所在,安思疆立志与产业界一道攻坚克难。