“
为什么我们如今可以议论主动驾驶?
那背后的计算机视觉手艺
起到了十分关键的感化。
”
复旦大学大数据学院青年研究员、2021上海科技青年35人引领方案(35U35)获奖者张力,在2022复旦大学办理学院科创周系列论坛之“科创前锋论坛·将来力量”上,围绕计算机视觉与主动驾驶停止了论述。
“What”和“Where”
一般来说,
人工智能的视觉算法,
次要处理两个根本感知问题:
What 和 Where。
What 即识别物体是什么,而 Where 指答复物体在哪里。“若是我们粗略地框出物体的位置,就是一个比力典范的目的检测问题,若是我们用一个十分精细的像素级标明它的位置,那就是一个图像朋分问题。”张力解释说,“若是我们可以答复那两个最关键的问题,我们就可以处理最底子的视觉感知问题。”
张力的课题组,
努力于答复“What”和“Where”,
不只对图像分类与图像朋分感兴趣,
还存眷主动驾驶场景,
从传统的卷积神经收集,
到自留意力机造神经收集;
从静态的收集到动态的收集,
从静态的图像到动态的视频;
也包罗从二维感知
到三维感知。
计算机视觉关于主动驾驶的胜利起到了十分关键的感化。2012年起头,图像的准确识别让我们可以通过计算机完成视觉感知,并输入到下流帮忙判断下一步的动做。
让计算机看到一只猫
识别到到图片上有一只猫,
那一对人类而言十分简单的使命,
关于计算机却长短常难的。
因为计算机看到的并非一只猫,
而是一个十分高维的矩阵。
图像识别就是计算机将一个高维的矩阵识别成一只猫。张力介绍说,若是相机或者摄像机扭转一个角度,那个矩阵就会发作猛烈的变革,那时人工智能系统或者计算机视觉系统仍然不克不及出错,识别成果必需仍是那只猫。
图像识别分类会细化到那是一只什么猫。“若是猫的布景很嘈杂、有差别光照、或是猫的身体有遮挡,我们都希望计算机仍是能识别出那只猫。”张力说,“高兴的是那个范畴在2012年就打破了那些挑战,计算机老是可以识别出那只猫。”
当然,仅仅识别一只猫是远远不敷的,2012年的一项打破性手艺就是科学家用到神经收集、深度进修手艺,在100万数量级的图像分类角逐中,打败了其时所有非深度进修的办法,那个成就加速了计算机视觉的开展,也间接鞭策了深度进修与人工智能手艺的打破。
不竭驱动手艺立异
鞭策计算机视觉在主动驾驶范畴的落地应用
2021年,张力的科研团队第一次提出处理视觉浓密预测问题的序列到序列收集架构模子 SETR (CVPR 2021) ,而且提出线性复杂度办法 SOFT (NeurIPS 2021) 处理了 Transformer 模子计算复杂度二次增长的难题。他说:“其时我们在 MIT ADE20K 那个数据集获得了世界更好的成就,排名第一”。 目前 SETR 一年多时间 Google scholar 的引用数已经超越了1000次。
纯视觉的主动驾驶只依赖于RGB相机输入,可以推理出物体在三维空间中的位置,那对主动驾驶是一个十分关键性的手艺。“那位同窗离我多远?人类能够很简单地答复出来,但对计算机来说那是一个很难的问题。”张力介绍说,
“我们提出一个纯视觉的处理计划
Ego3RT (ECCV 2022)。
只依靠RGB的输入,
不只能检测到四周物体的三维位置,
并且能间接构建出鸟瞰图(BEV),
就是在一个天主视角感知
哪个是车道线、哪个是行驶路面、哪个是车辆。”
完成鸟瞰图的构建后,张力的科研团队又提出了PolarFormer的办法(AAAI 2023),通过笛卡尔坐标系转化到极坐标系,相当于天主视角不再是一个尺度的矩形,而是一个射线状的表征空间,可以更好地帮忙答复What和Where的感知计算使命。为领会决若何交融RGB相机以及和激光雷达的问题,张力团队又提出了多传感器交融的工做DeepInteraction (NeurIPS 2022),而且获得主动驾驶权势巨子数据集 nuScenes 3D目的检测榜单第一的成就。张力介绍说:
“
在主动驾驶权势巨子数据集nuScenes的
3D目的检测使命中,
我们几乎是独一获得
前列成就的高校团队。
我们的代码也已经全数开源。
”
其时,张力团队把新开发出的手艺SiamMask (CVPR 2019, TPAMI 2022)应用在牛津的生物尝试室的小白鼠尝试中。“他们以前对小鼠的活动记录只能通过人工去标识表记标帜。”张力介绍说,“用了我们的算法以后,AI可以主动地跟踪多个小白鼠的活动并记录下来。”
“生物科研人员的原话是他们看到那项手艺后‘泪流满面’,因为AI改动了他们过去几十年以来繁冗的工做体例,那是一个AI赋能多学科的例子。”张力说。
上海科技按照张力在2022复旦大学办理学院科创周系列论坛上的陈述整理
发表评论