全球首份AR报告第二章:AR的工作原理

2024-10-31上海AR开发专家

  • 腾讯科技“VR次元”出品
    监制:高宇雷 孔令舒
    统筹:孙实
    设计:于春慧
    继智能手机、平板电脑之后,虚拟现实(VR)与
    增强现实
    (AR)有潜力成为下一个重大通用计算平台。
    从当前来看,更多的公司选择从VR领域进行切入,各大研究公司、投行针对VR领域的研究报告也层出不穷,相比之下,AR领域却稍显平淡。
    腾讯科技旗下VR次元发布全球首份AR行业报告,在这份报告中,我们将对AR的发展趋势、未来的挑战、潜在应用领域、可能创造和颠覆的市场进行分析和预测。
    特别提示:微信上搜索“qqtechvr”,关注“VR次元”微信公众号,回复“AR”,即可获得AR报告PDF版。
    以下为AR报告第二章:AR的工作原理
    AR介于VR和真实世界之间,VR创造逼真的虚拟世界,AR则将图形、声音、触感和气味添加到真实的世界中。
    在介绍AR的工作原理之前,我们先通过一个例子,让大家有一个简单的认识。
    在2009年2月的TED大会上,帕蒂梅斯(Pattie Maes)和普拉纳夫米斯特莱(Pranav Mistry)展示了他们研发的
    AR系统
    。该系统属于麻省理工学院媒体实验室流体界面小组的研究成果之,他们称之为SixthSense(第六感)。它依靠众多AR系统中常见的一些基本元件来工作:摄像头、小型投影仪、智能手机和镜子。
    这些元件通过一根类似绳索的仪器串连起来,然后戴在佩戴者的脖子上。用户还会在手指上戴上四个不同颜色的特殊指套,这些指套可以用来操纵投影仪投射的图像。
    SixthSense设备利用简单的、现成的元件来组成AR系统,它的投影仪可以将任何平面变成一个互动的显示屏。SixthSense设备利用摄像头和镜子来捕捉周围的环境,然后将这种图片传给手机(手机处理这种图片,获得GPS坐标以及从互联网上搜索相关信息),然后将这些信息从投影仪投射到用户面前的任何平面上,不管这种平面是一个手腕,一面墙,还是一个人。由于用户将摄像头佩戴在胸前,因此SixthSense设备能够增强他所看到的一切。例如,如果他在一个杂货店里挑选了一罐汤,SixthSense设备将能够搜索这罐汤的相关信息,例如成分、价格和营养价值甚或用户评论,然后将它们投射到平面上。
    利用手指上的指套,用户可以在投射的信息上执行各种操作,这些操作将会被摄像头捕捉到,然后通过手机来处理。如果他希望了解这罐汤的更多信息,例如与之竞争的同类产品,那么他可以用手指与投射画面进行互动,从而获取更多的信息。SixthSense设备还能够识别一些复杂的手势,例如你在手腕上画一个圆圈,SixthSense设备就能够投射一款手表来显示当前的时间。
    AR的系统结构
    一个典型的AR系统结构
    一个典型的AR系统结构由虚拟场景生成单元、透射式头盔显示器、头部跟踪设备和交互设备构成。其中虚拟场景生成单元负责虚拟场景的建模、管理、绘制和其它外设的管理;透射式头盔显示器负责显示虚拟和现实融合后的信号;头部跟踪设备跟踪用户视线变化;交互设备用于实现感官信号及环境控制操作信号的输入输出。
    首先透射式头盔显示器采集真实场景的视频或者图像,传入后台的处理单元对其进行分析和重构,并结合头部跟踪设备的数据来分析虚拟场景和真实场景的相对位置,实现坐标系的对齐并进行虚拟场景的融合计算;交互设备采集外部控制信号,实现对虚实结合场景的交互操作。系统融合后的信息会实时地显示在头盔显示器中,展现在人的视野中。
    AR的关键技术
    目前
    AR技术
    的技术难点在于:精确场景的理解、重构和高清晰度、大视场的显示技术。
    1、对现实场景的理解和重构
    在增强现实系统中,首先要解决“是什么”的问题,也就是要理解、知道场景中存在什么样的对象和目标。第二要解决“在哪里”的问题,也就是要对场景结构进行分析,实现跟踪定位和场景重构。
    物体的检测和识别技术
    物体检测和识别
    物体检测和识别的目的是发现并找到场景中的目标,这是场景理解中的关键一环。广义的物体检测和识别技术是基于图像的基本信息(各类型特征)和先验知识模型(物体信息表示),通过相关的算法实现对场景内容分析的过程。在增强现实领域,常见的检测和识别任务有,人脸检测、行人检测、车辆检测、手势识别、生物识别、情感识别、自然场景识别等。
    目前,通用的物体检测和识别技术,根据不同的思路可以分为两种:一种是从分类和检测的角度出发,通过机器学习算法训练得到某一类对象的一般性特征,从而生成数据模型。这种方法检测或者识别出的目标不是某一个具体的个体,而是一类对象,如汽车、人脸、植物等。这种识别由于是语义上的检测和识别,所以并不存在精确的几何关系,也更适用于强调增强辅助信息,不强调位置的应用场景中。如检测人脸后显示年龄、性别等。另外一种识别是从图像匹配的角度出发,数据库中保存了图像的特征以及对应的标注信息,在实际使用过程中,通过图像匹配的方法找到最相关的图像,从而定位环境中的目标,进一步得到识别图像和目标图像的精确位置,这种识别适用于需要对环境进行精确跟踪的应用场景。
    就现阶段而言,识别检测技术的难点之一是技术的碎片化。这一方面是由于每一类对象都会有其独有的特征,而不同特征的提取和处理都需要实现一一对应,这对识别检测是一个巨大的挑战。另一方面,图像本身还受到噪声、尺度、旋转、光照、姿态等因素的影响。近几年来,随着深度学习技术的不断成熟,检测和识别方法也越来越统一,而性能也在不断提高中。
    跟踪定位技术
    跟踪技术的方法可以分为基于硬件和基于视觉两大类。基于硬件设备的三维跟踪定位方法在实现跟踪定位的过程中使用了一些特殊的测量仪器或设备。常用的设备包括机械式跟踪器、电磁式跟踪器、超声波跟踪器、惯性跟踪器以及光学跟踪等。光学跟踪和惯性跟踪是比较常用的两种硬件跟踪方式,
    HTC Vive
    就是采用了光学跟踪和惯性跟踪两种硬件来定位头部的位置。使用硬件设备构成的跟踪系统大多是开环系统,跟踪精确取决于硬件设备自身的性能,其算法的扩展性要差一些,且成本相对较高。
    HTC
    Vive
    采用光学和惯性跟踪设备
    视觉跟踪方法具备更强的扩展性,其系统多为闭环系统,更依赖于优化算法来解决跟踪精度问题。相比于上述基于硬件设备的跟踪方法,计算机视觉跟踪方法提供了一种非接触式的、精确的、低成本的解决方法,但是基于视觉的方法受限于图像本身,噪声、尺度、旋转、光照、姿态变化等因素都会对跟踪精度造成较大的影响,因此更好地处理这些影响因素,研发鲁棒性强的算法就成为下一步AR技术的研究重点。
    根据数据的生成方式,视觉跟踪技术的算法可以分为两种,一种是基于模板匹配的方式,预先对需要跟踪的target进行训练,在跟踪阶段通过不断的跟预存训练数据进行比对解算当前的位姿。这类方法的好处是速度较快、数据量小、系统简单,适用于一些特定的场景,但不适用于大范围的场景。
    另外一种是SLAM方法,也就是即时定位和地图构建技术。这类技术不需要预存场景信息,而是在运行阶段完成对于场景的构建以及跟踪。其优点是不需要预存场景,可以跟踪较大范围,适用面广,在跟踪的同时也可以完成对于场景结构的重建。但目前这类技术计算速度慢、数据量大、算法复杂度高,对于系统的要求也较高。Hololens和
    Magic Leap
    的宣传视频中都展现了这方面技术,而亮风台对相应的技术也在研发当中。
    SLAM跟踪技术
    为了弥补不同跟踪技术的缺点,许多研究者采用硬件和视觉混合跟踪的方法来取长补短,以满足增强现实系统高精度跟踪定位的要求。
    2、增强现实的显示技术
    透射式头盔显示器
    透射式头盔显示器 Hololens
    目前大多数的AR系统采用透视式头盔显示器实现虚拟环境与真实环境的融合。根据真实环境的表现形式划分,主要有视频透视式头盔显示器和光学透视式头盔显示器两种形式。
    视频透视式头盔显示器通过安装在头盔上的微型摄像头获取外部真实环境的图像,也就是通过摄像头来采集真实场景的图像进行传递。计算机通过场景理解和分析将所要添加的信息和图像信号叠加在摄像机的视频信号上,将计算机生成的虚拟场景与真实场景进行融合,最后通过类似于浸没式头盔显示器的显示系统呈现给用户。
    虽然视频透射式头盔在显示上不受强光的干扰,具有比较大的视场,但由于真实环境的数据来自于摄像头,因此会造成显示分辨率较低的不利因素。另一方面,一旦摄像机与用户视点不能保持完全重合,用户看到的视频景象与真实景象将会存在偏差,因此会造成在某些领域(特别是工业、军事等领域)出现一些安全隐患。
    光学原理的透视式头盔显示器的基本原理则是通过安装在眼前的一对半反半透镜融合呈现出真实场景和虚拟场景。与视频透射式不同的是,光学透视式的“实”来自于真实的光源,经过透视光学系统直接进入眼睛,计算机生成的“虚”则经过光学系统放大后反射进入眼睛,最后两部分信息汇聚到视网膜上从而形成虚实融合的成像效果。
    光学透视式头盔相对来说结构简单,分辨率更高,因其能够直接看到外部,真实感和安全性也更强。其缺点是,在室外强光条件下显示效果会受影响。目前Hololens以及亮风台的HiAR Glasses都采用了光学透射式的成像方案。
    不难看出,两种方案各有优缺点,如何选择最优方案,目前来看,还应基于实际应用场景来进行判断。
    由于光学透射式头盔跟实际场景结合更紧密,真实感更强,大多数厂家会选择这种方案。对于透射式头盔显示器来说,单纯的强调厚薄或者视场大小并没有任何实际意义。这是由于厚度和视场是矛盾的,要做得较薄,方便用户使用佩戴,视场就必然变小;想要拥有大视场,则其厚度就必然增大,设备就目前来说也会显得比较笨重,不易佩戴。因此在目前技术依旧存在障碍的情况下,大家都会采取一些折中的方案。
    数字光场显示
    Magic leap 光场显示
    随着Magic Leap的宣传视频,数字光场这个概念也变得广为人知。这种不采用屏幕来做载体的显示方式,通过记录并复现光场来完成虚拟物体的显示。通过呈现不同深度的图像,使用户在观察近景或远景时,可以实现主动的对焦,这也是光场显示的一大优点。
    同样,光场显示也有不同的显示方案,一种方案是采用多层的显示器,如光场立体镜。如Magic Leap采用的是光导纤维投影仪。这套方案的优势是可以做到很大的视场角,显示更加符合人的真实感受。但这一方案同时也具有比较大的挑战性,光场的显示需要比较大的计算量,并且需要有相应的手段记录或者生成想要叠加的虚拟对象相应位置的光源信息,同时还要精细地控制投影的内容和位置,目前这些技术还都处于研究阶段。
    尽管存在比较多的挑战,光场显示技术仍旧是非常值得期待的一种成像方式。(乐学、风帆参与编译)
    免责声明:
    本文仅代表作者个人观点,与中国AR网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

关于AR

卓越的技术,一流的团队,为您打造专家级AR产品。
Test your infrastructure

什么是AR?

AR(Augmented Reality),即增强现实技术能将虚拟信息(图片,视频, 音频等)融入现实世界,让现实世界更加多元、丰富,为人们带来更加生动有 趣的感官体验。简单来说AR技术给人们带来的是一种信息的增强体验,它也 将成为一种“更新奇、更易传播”的新型信息传递方式。

AR的趋势

在信息技术化的时代趋势下,AR将以一种新型娱乐及信息交互方式融入人们 的生活,而对于企业来说,AR产品的广泛推广及运用也将是一项不可错失的 绝佳商机。

Test your infrastructure

AR运用的困惑

AR技术备受瞩目,然后实际运用上却让人望而止步。
成本上 往往单制作一个AR形式的内容就得花费上万元, 只有高预算的大企业或广告商才能出手
技术上 AR技术总给人一种触不可及的印象,导入AR技术 是否需要高度技术支持。
企划上 AR充满娱乐性,但是好玩之外,如何将AR良性结 合商务是难题。

选择迅速AR的八大优势

迅速AR始终以满足顾客为己任,成就AR领先品牌。

经典案例展示

我们是AR应用的领军者,专注AR技术研究与开发。

新闻动态 · 与日俱进

我们诚心邀您分享我们的成长历程。
更多动态 >

合作伙伴

整合全球产业链资源,服务超过7亿用户