【技术分享】XR技术体系浅析:VR、AR与MR的区别、联系与应用实践
XR技术体系浅析:VR、AR与MR的区别、联系与应用实践
作者:EQ 雪梨蛋花汤
本文是技术分享文档,浅析VR(虚拟现实)、AR(增强现实)、MR(混合现实)的定义、特性、技术演进路线,并分析AR中的OST(光学透视)与VST(视频透视)两大实现路径,及其与MR技术的融合趋势。
第一章:XR概念总览与技术谱系
XR(Extended Reality)是虚拟与现实空间融合的综合技术名,包括VR、AR和MR。其本质是用数字信息扩展或更新现实感知,实现用户与虚拟内容、现实场景的高度融合和交互。
1.1 基本概念介绍
VR(虚拟现实):构建纯虚拟的世界,用户被完全隔绝于现实世界,中心是“深度沉浸”。
AR(增强现实):将虚拟元素、信息、动画在现实环境中加以重新视觉扩展,重点是“现实上的增强”。
MR(混合现实):将虚拟世界与现实世界规划为一个可以相互作用、环境共享的空间,其核心是“虚实融合、物理交互”。
1.2 XR技术联系
XR三类技术(VR、AR、MR)在硬件架构、数据流、显示技术、交互方式方面各有侧重,但又存在强关联性。如下图所示:
1.3 XR发展脉络与趋势
XR并非单一技术进化结果,而是由以下几条技术路径交汇而成:
计算平台:从PC -> 移动端 -> 边缘计算 -> 云渲染;
感知能力:由视觉为主扩展至多模态传感器(IMU、深度、语音);
网络演进:从4G到5G/6G推动了低延迟XR体验;
人机交互:从手柄到裸手再到脑机接口探索。
第二章:AR技术分析:OST与VST方案
增强现实技术的核心是“在现实的基础上进行信息扩展”。根据环境采集和展示方式,分为OST和VST两类基本实现路径。
2.1 OST(Optical See Through)原理与特性
OST通过半透镜直接观看现实世界,将虚拟图像投射于用户眼前。是一种光学线路双路并行的设计。
技术特点
现实图像无需处理,無延迟。
虚拟图像需要出光光路与观感光路完美对齐,否则有错位感。
因光学透明,无法做好虚实遮挡,虚拟物体很难挡住现实物体。
工作流程
应用特征
更适合室外强光场景下的信息提示。
通常使用空间定位技术进行图像锚定。
对显示器亮度与视场角要求较高。
2.2 VST(Video See Through)原理与特性
VST方案采用摄像头拍摄现场环境,通过应用程序进行虚拟图像结合和添加,最后返回到显示屏幕。
技术特点
无光学通道,所有观看内容由数字编辑。
可精确控制虚拟遮挡,进行深度挖掘。
对硬件和后端处理性能要求高,容易造成延迟。
数据流基本流程
应用特征
适合需要复杂交互或遮挡效果的增强现实。
室内场景表现优于OST。
支持与AI视觉分析、SLAM等系统结合。
2.3 OST与VST技术格式对比
组合项
OST(光学透视)
VST(视频透视)
环境观看路径
光学直视
数字转换
虚实遮挡效果
不可精确控制
可完全支持深度遮挡
延迟
极低/无
有延迟(取决于系统效率)
补光、带宽
光影易变
可由后端调整
实现难点
光学对齐、视觉校准
摄像头同步、图像畸变矫正
2.4 AR内容的空间锚定机制
AR体验核心在于“稳定”的虚拟物体放置,这依赖于锚定技术:
图像锚定(Image Anchoring):识别预定义图案,如海报、书本等;
平面锚定(Plane Tracking):自动识别水平/垂直平面;
空间锚定(World Anchors):记录某一三维位置,便于回访。
ARCore 是 Google 推出的用于打造增强现实体验的平台。ARCore 利用不同的 API 让您的手机能够感知其环境、理解世界并与信息进行交互。其中一些 API 在 Android 和 iOS 上提供,以实现共享 AR 体验。
ARCore 的运动跟踪技术使用手机的摄像头来识别兴趣点(称为特征),并跟踪这些点随时间的移动情况。ARCore 会综合考虑这些点的移动和手机惯性传感器的读数,确定手机在空间移动时的位置和方向。 除了识别关键点之外,ARCore 还可以检测平坦的表面(例如桌子或地板),还可以估算周围区域的平均光照强度。这些功能相结合,让 ARCore 可以构建自己对周围世界的理解。
当您的手机在现实世界中移动时,ARCore 会使用视觉SLAM来理解手机相对于周围环境的位置。ARCore 会检测捕获的摄像头图像中视觉上不同的特征(称为特征点),并使用这些点来计算其位置变化。这些视觉信息会与设备 IMU 的惯性测量结果相结合,以估算摄像头相对于周围世界的姿态(位置和方向)。 环境识别:
第三章:VR技术结构与基础实现
虚拟现实是构建一个完全由计算机生成的三维空间,用户沉浸其中,通过交互装置进行导航、交互、观察等操作。该系统核心是“沉浸性”与“交互性”的结合。
3.1 VR系统构成模块
空间追踪系统:负责获取头部和手部的位置变化,实现视角跟踪。
图形渲染模块:由游戏引擎(如Unity)实时生成虚拟世界图像。
音频系统:实现3D空间音效渲染,增强沉浸感。
交互系统:支持控制器输入、手势操作、眼动跟踪等。
3.2 虚拟场景设计原则
一致性:用户行为与视觉反馈之间保持一致。
响应性:快速响应用户操作,避免延迟感知。
沉浸性:通过视觉、听觉、触觉构建完整虚拟空间。
导航性:提供良好的移动与空间感知机制,如传送、摇杆、手势位移等。
3.3 VR交互方式
空间控制器:按键+空间定位。
手势识别:摄像头识别用户手部动作。
语音识别:语义命令驱动行为。
眼动追踪:焦点驱动选择与界面互动。
3.4 VR图形渲染流水线详解
现代VR图像通常由游戏引擎(如Unity/Unreal)根据以下步骤生成:
用户位置更新(传感器);
构建视角投影矩阵;
渲染左右眼视图;
图像畸变矫正;
推送至屏幕显示。
第四章:MR核心机制与VST融合路径
混合现实不仅强调在现实世界中加入虚拟内容,更要求虚拟内容与现实环境的物理属性发生交互,例如遮挡、碰撞、共享空间等。
4.1 MR实现基础
MR通常在VST的基础上增加以下模块:
空间定位与建图(SLAM):实时构建用户所处空间地图。
深度传感与理解:利用结构光、ToF或AI视觉理解环境深度。
虚实遮挡融合:判断虚实物体位置关系实现正确遮挡。
交互管理:响应手势、眼动、语音命令,驱动虚拟物体行为。
4.2 MR与VST的融合逻辑
MR继承VST的图像路径,增强其深度感知能力。
使用空间锚点与真实世界场景构建虚拟映射。
实现双向交互(如“碰撞虚拟墙体”或“用手推动虚拟按钮”)。
4.3 虚实遮挡技术原理
MR核心在于虚拟物体正确“遮挡”现实对象,或被现实对象遮挡。这需要:
精确获取真实世界深度图;
建立真实物体的三维包围盒(bounding box);
在渲染管线中依据Z-buffer处理遮挡优先级。
4.4 MR场景中的物理交互
在MR环境中,虚拟物体不仅要“看上去存在”,还需“行为上真实”。这涉及:
虚拟物体受真实物理世界影响(如地面重力、碰撞);
虚拟与现实的互动(如推门、拿杯子);
跨模态输入:语音控制虚拟助手、手势拖动现实界面。
总结与推荐
本文系统梳理了XR技术的核心内容,重点解析了VR、AR、MR的定义及实现方案,特别是AR的OST与VST技术路线和MR的融合机制。 希望能帮助你全面理解XR技术的全貌与应用趋势。
如果你想深入学习XR相关技术,推荐关注我的专栏:
我的XR开发记录
不定期分享XR开发的原创文档。包含但不限于3D、AR、VR相关内容
VR 360°全景视频开发
专栏内容涵盖安卓原生VR播放器开发、Unity VR视频渲染与手势交互、360°全景视频制作与优化,以及高分辨率视频性能优化等实战技巧。敬请关注每周更新的技术分享!