使用3D跟踪的被动棒的大型显示器交互技术

2023-10-30

VisionWand:使用3D跟踪的被动棒的大型显示器交互技术
.

ABSTRZCT

对一种作为与大型显示器交互的新输入机制—利用计算机视觉技术对被动棒进行三维跟踪的技术进行了研究。我们展示了各种各样利用棒的可供性的交互技术,从而为大规模交互提供了有效的界面。棒上没有任何按钮或其他电子设备,这是一个挑战,我们通过开发一组姿势和手势以跟踪状态和启用命令输入。我们还描述了多个棒的使用,以及未来更复杂的棒的假设设计方案。

Keywords: 视觉跟踪、大显示屏、手势、交互技术、输入设备、无按钮输入

INTRODUCTION

大幅面直立显示器 - 从40“到60”等离子面板到由多台投影仪驱动的超大规模(> 8’)高分辨率显示器 - 使我们能够处理大量同时显示的可视数据,并且使多人能够在一个显示器上更有效地一起工作。事实上,近年来,许多研究人员已经认识到这种大规模显示器的价值,并为其探索了各种应用,包括协作组件[12],电子白板[8,21]和工业设计[3,13],其他如Guimbretière等人[15]研究了更多的一般互动问题。

虽然商用大型显示器的视觉质量已经非常高且还在进一步提高,可用的研究应用范围也相当可观,但在与这种规模的显示器交互时使用什么样的输入技术仍然是一个悬而未决的问题。迄今为止最有前途和广泛采用的输入机制 - 使用各种技术的单手指或笔输入[8] ,[www.smarttech.com]- 要求用户站在显示器附近并且仅限于单点两个自由度交互,就像使用标准鼠标一样。虽然这种约束适用于许多应用[12,15,21],但其他[3,13]受益于用户在远离显示器的同时操作具有更高自由度输入设备的界面。目前用于此类“远距离”交互的输入技术包括各种3D跟踪器[31],激光指针[20,22,23],定制棒[32,33],以及使用计算机视觉跟踪用户的手[6,10,29]。然而,所有这些技术都有各种各样的局限性,我们将在本文后面讨论。

在本文中,我们探讨了使用计算机视觉技术在3D空间中跟踪的被动棒作为与大规模显示器交互的替代输入设备的想法。这款VisionWand是一个带有彩色末端的简单塑料杆(图1a),没有任何嵌入式电子设备,由一对商品(<$ 100)相机跟踪(图1b)。棒的成本可以忽略不计,因此可以随时提供,使用或丢弃多个版本。由于棒的两个末端点在3D中被跟踪,因此得到的输入是3D射线,与2D点输入相比,允许更丰富的动作词汇。然而,因为没有按钮或其他方式直接从设备本身提供状态信息,电子设备的缺乏带来了挑战。我们通过开发一组手势和姿势来实现命令输入来应对这一挑战。使用物理棒而不是自由手势不仅简化了视觉算法,而且允许利用物理工具的可供性的交互技术,从而产生由Rekimoto和Sciammarella定义的“丰富动作”输入[25]。我们提供了一套探索性的交互技术,它们利用了所有这些特性。

1

RELATED WORK

对于大型显示器来说,最常见且商业上可行的输入技术是通过直接触摸、使用笔或两者同时使用来跟踪具有2自由度的单点输入的系统。例如,Liveboard系统[8]使用光学笔,斯坦福交互式壁画(Stanford Interactive Mural)使用无线Ebeam笔[15],而智能板(SmartBoard)系统(www.smarttech.com)支持手指和笔输入。这些系统的优点是高分辨率跟踪和单点输入向后兼容现有的图形用户(GUI)界面。限制包括只有单点2自由度输入,并要求用户靠近显示器工作,降低了用户在交互时可视化整个大显示屏的能力。

另一种方法是使用光学,电磁,声学,惯性或无线电跟踪技术来跟踪3D空间中的一个或多个同时输入的点。见Welch等[31]对各种技术进行优秀的调查。十多年来,虽然这些跟踪器使我们能够对高级交互技术进行原型设计[13,14],但它们的成本仍然相当高(从最便宜的跟踪器几千美元到更复杂的运动跟踪系统几十万美元不等)因此,它们不适用于广泛使用。此外,更便宜的技术通常受到限制,从而降低了用户的移动自由度。

最近,一些研究人员探索了使用标准激光指示器作为大型显示器输入的方法[20,22,23]。它们具有低成本的优点,但是具有一个基本限制,即没有按钮来增加跟踪输入的单点。因此,即使是标准的鼠标操作也是不可能的。为了解决这个问题,Olsen和Nielsen [23]探索了使用停留时间和其他技术来取代按钮按压.Oh和Stuerzlinger [22]增加了带按钮的激光指示器,从而产生了一种“来自远处”的输入技术,该技术可以操作标准GUI中的所有交互技术。使用巧妙的多路复用技术,他们甚至能够同时区分和跟踪多个激光指示器。然而,所需的额外电子元件降低了激光指示器的主要优点:低成本和普遍性。

计算机视觉在人机交互中的应用一直是研究界的一个目标。各种优秀的调查文章[6,10,29]讨论了迄今为止的进展。这一领域中与大规模显示相关的许多研究都集中在使用视觉技术跟踪徒手手势这一相对困难的任务上。例如,Ringel等人[26]描述了一个聪明的系统,该系统将手姿势的视觉跟踪与智能板集成在一起,从而能够与超出单点输入的大型显示器进行直接的手上交互。弗里曼等人[11]描述了一个使用徒手手势控制电视的系统,而Segen和Kumar[28,29]描述了一个虚拟现实系统,该系统使用一小组手势的视觉跟踪进行空间交互。

早期的虚拟现实系统倡导者[17]和其他人[1,2]也探索了使用手势输入与大型显示器交互,通常使用带仪器的手套跟踪手和手指。然而,考虑到戴上手套进行互动带来的巨大不便,这种方法从长远来看不太可能成功。

在用手握手势与计算机交互的过程中,表面上可能会产生吸引力,但在深入分析时,显然他们没有利用人类固有的能力来使用物理工具和由这些工具所能实现的丰富的行动词汇,如Rekimoto和Sciammarella[25]所述。工具的物理形式通常可以作为触觉记忆辅助用户关于他们可以执行什么功能,而使用徒手手势,用户必须完全依赖于从记忆中回忆。有关可抓取[9]和有形[16]界面的大量文献提供了用户界面中物理可操纵实体的价值的进一步证据。虽然一些研究人员(例如,Ringel等人[26])认为他们的非正式观察表明对无实现交互的强烈吸引力,但我们注意到这种偏好是针对显示器表面本身的直接触摸,近距离交互,以及不要“从远处”互动。

一些研究人员已经研究了基于实现的手势界面。克拉克[5]描述了一个使用带按钮的三维棒的三维CAD界面。Deering[7]描述了一个使用3D棒的草图和动画系统。shaw和green[30]描述了一种使用两个带按钮的3D跟踪器进行双手设计的系统,而schkolne等人[27]则采用了一种混合方法:将手势和用于表面绘制的仪器化物理工具结合起来。请注意,所有这些系统都使用某种形式的系绳跟踪技术来跟踪使用的棒和其他工具。威尔逊等人描述了xwand[33]和worldcursor[32]系统,它们使用带有按钮和传感器的无线棒来控制复杂环境中的多个电子设备。但是,它们的棒主要用作指向和命令调用工具,而不是用于基于屏幕的多自由度交互。

总之,我们对文献的分析表明,虽然人们已经研究了各种不同的与大屏幕交互的技术,但它们都有一些缺点,而且还没有一种成为标准的输入机制。第二位作者和同事在开发大型显示器的交互技术方面的经验[3,13,14]也指出需要更简单的输入技术。一个有希望的探索方向是使用计算机视觉跟踪,迄今为止,它的重点是跟踪徒手手势。我们相信,计算机视觉在这一领域的更卓有成效的用途是能够跟踪简单、被动、物理的工具,围绕这些工具可以建立复杂的交互技术。我们的 VisionWand 是朝这个方向的一次尝试。

SYSTEM IMPLEMENTATION

Hardware
visionwand是一个简单的圆柱形塑料体,两端有不同颜色(图1a)。不同魔杖可以通过主体、末端或附加标记的不同颜色来区分,允许使用我们的相机设置来跟踪不同的棒。棒上没有按钮或轮子。一对Logitech QuickCam Pro 3000摄像机用于跟踪。摄像机面对一个后向投影的显示器。用户使用棒与显示器交互。(图1b)。
Tracking procedure
应用标准立体视觉技术来跟踪3D中的棒。通过在显示器上投影校准图像来校准两个相机。
只要相机,投影仪和屏幕是固定的,校准只需要进行一次。在每一帧中,在两个捕获的图像中通过颜色检测棒的主体以及两个端部:在棒体上安装一条直线并且在线的附近搜索有色的末端。如图2所示,从这些观察中重建包括两个末端的空间坐标的3D射线。
2
跟踪结果如图3所示。系统显示红色和蓝色的圆圈,且在屏幕上显示棒末端的正交投影。系统显示的黑色十字表示三维光线与屏幕的交点。这个交叉点表示棒指向的屏幕位置。我们显示这两个彩色圆圈只是为了让用户了解棒是如何被跟踪的,而黑色的十字则是一个指针。除了空间位置之外,我们还利用了两个角度的信息:方向(定义为3d射线在屏幕上的正交投影的倾角)和倾斜(定义为3d射线与屏幕之间的倾角)。

对于单个棒,以大约20Hz实现跟踪。在我们当前的系统设置中,用户的动作被限制在摄像机和屏幕之间的空间中,并且当两个摄像机可以看到大部分的杆体和至少一个端部时跟踪工作良好。我们注意到可以尝试不同的相机配置以减少遮挡,例如,从顶部向下朝向用户的相机。虽然我们的系统可以识别不同的棒,但这会降低我们当前算法的跟踪速度,主要是因为我们在主CPU上进行所有图像处理。专用图像处理硬件将显着提高跟踪速度。为了在进行用户测试时保持高更新率,我们使用键盘开关手动告诉系统要跟踪哪个棒。
3
DESIGN PRINCIPLES
在设计被动,无按钮,3D棒输入系统时,我们考虑了几个重要的设计问题:
推断动作:棒本身缺少任何按钮或其他电子设备意味着设备无法主动将有关其状态的任何信息传达给计算机。相反,状态和动作信息必须由系统间接推断。我们根据棒在空间中的位置和方向推断出一组姿势,同时根据棒运动的动态特征确定一组手势。图4定义了这些姿势和手势。当我们通过论文进展解释各种交互技术和界面小部件时,将描述与这些姿势和手势相关联的系统动作。
易于理解的动作:可以想象使用VisionWand通过将意义分配给感测到的3D射线的位置,方向和运动的每个排列来执行大量功能。然而,除非用户能够轻易地理解并形成可能的一组动作的合适的心理模型,否则该设备将基本上无用。为解决此问题,我们将可能的操作数限制为一小组,并提供适当的视觉反馈以帮助理解这些动作。在需要比这组动作更复杂的界面行为的情况下,我们要么组成一系列基本动作或者使用可由这些基本动作操作的适当的可视界面小部件。

利用触觉记忆:关于有形接口的文献[9,16,25]表明,当使用物理工具时,用户可以充分利用触觉记忆。因此,当选择VisionWand所使用的无数种不同可能性的姿势和手势时,我们故意选择那些具有非常不同的触觉轮廓的姿势和手势。这些更容易被提交到用户的触觉记忆,在经过充分练习后可以实现基本上解放眼睛的操作。
4
【图4. VisionWand姿势和手势。
(a)指向姿势:指向屏幕上的位置;靠近屏幕的一端被定义为活动端。
(b)平行姿势:使棒与屏幕在任意方向大致平行。
(c)倾斜手势:从平行姿势开始,将棒向任一方向倾斜。
(d)轻触手势:迅速将活动端移离屏幕,然后再次移回。
(e)平行轻触手势:从平行姿势开始,快速移动整个棒远离屏幕再返回。
(f)翻转手势:将棒快速进行末端到末端的翻转,方向和倾斜与手势前保持大致相同。
(g,h)推拉手势:改变棒和屏幕之间的距离。
(i)旋转手势:更改笔杆的方向,同时使其保持平行姿势。】

INTERACTION TECHNIQUES and INTERFACE WIDGETS

在以下部分中,我们将介绍我们为VisionWand开发的各种交互技术和界面小部件。我们强调,这是一组探索性技术,旨在尽可能彻底地研究VisionWand交互的设计空间。在某些情况下,我们的技术有意将VisionWand的功能发挥到极致,从而使我们能够确定这种新的交互方法的局限性。我们认识到,任何寻求使用VisionWand的大型显示器的实际应用都必须仔细选择这些技术中最有前景的技术,并且可能会对它们进行进一步的迭代。本文最后给出的初步用户反馈在这方面提供了一些指导。

我们注意到,由2自由度光标操作的许多标准用户图形界面交互技术也可以直接与VisionWand一起使用。但是,控制光标需要一定程度的精度,这可能很难在不受约束的3D空间中进行棒上的操作。因此,在以下技术的设计中,我们故意尝试使用粗粒度(粗粒度:统计的粗细程度)的手势。

虽然我们在图片操作和导航应用程序中演示了这些技术和小部件,但我们的设计显然适用于更广泛的大型显示应用程序。本申请仅用作说明性示例。在此应用程序中,对象是散布在画布上的图片,屏幕显示画布的一部分。我们可以移动对象,缩放/旋转它们,更改对象属性,在画布上导航等。

我们现在描述与VisionWand相关的基本交互和小部件,然后讨论可以通过使用其他棒实现的其他功能。

Basic Interactions
选择,移动&缩放,取消选择

对象具有三种可能的状态:选中,捕获和未选中。捕获的状态类似于在标准图形用户界面中由鼠标拖动的对象。因为我们没有任何按钮来指示VisionWand本身的状态,所以我们使用轻触手势在这些对象状态之间切换。

VisionWand的蓝色末端执行基本操作。在用蓝色末端指向对象的同时,轻触手势捕获它(即,将其切换到捕获状态)。通过将VisionWand指向屏幕上的不同位置,可以移动捕获的对象。

另外,对象的比例因子由棒和屏幕之间的距离控制。我们可以向后拉魔杖以放大对象,并向前推动以缩小对象(图5)。由于棒是在3D模式下跟踪的,因此可以同时执行移动和缩放。
5
第二次轻触手势释放对象(即,将其从捕获切换到选中)。屏幕任何空白区域中的轻触手势都会取消选择所有当前选中的对象。

注意,这里没有实现单独的取消选择。实现这一点的一个简单方法是让对象通过一次又一次的轻触来循环通过这三种状态,但是这将大大降低操纵对象的效率,因为它需要更多的操作来进入所需的状态。解决这个问题的一个可能的办法是定义比我们现在更多的手势。例如,快速推动以捕捉和快速拉动以释放。

Undo

翻转手势用作撤消命令。最近的行动是相反的。

Query

棒的红色末端充当查询镜头。图6说明。当红色端指向对象时,将显示一个属性表,显示有关该对象的一些信息。当棒从屏幕上拉回时,会投射聚光灯。聚光灯内的所有对象都显示其属性表。同样,棒和屏幕之间的距离控制比例因子(即聚光灯的半径)。

顺便说一下,聚光灯也可以用作组选择工具。轻触手势将选择聚光灯内的所有对象。
6

Widgets

为大量功能定义大量手势不仅是系统的负担,也是用户的负担。取而代之的是,我们故意将手势设置为较小,但设计了一组小部件,这些小部件可帮助用户使用基本手势执行复杂的任务,同时仍利用棒提供的丰富3D操作。

Pie Menu

菜单是从大量命令中进行选择的标准小部件。特别是,饼状菜单[4,18]中的项目在一个圆圈内均匀排列,特别适合我们的界面,因为它使我们能够利用棒固有的定向能力。

通过在短时间内将棒保持平行姿势来触发上下文相关的饼状菜单。菜单显示后,我们执行棒的旋转,同时使其平行于屏幕以在不同项目之间移动。当前项目(在视觉上高亮显示)与棒的方向相对应。图7说明了这一点。平行轻触手势会选择当前项目。
7
请注意,菜单项的选择仅使用一维信息:棒的方向。棒的空间位置和倾斜度仍然可供我们用于其他功能。使用基本的饼形菜单,菜单本身可以通过跟随棒的空间位置来移动。这使我们可以定位菜单,使其不会遮挡感兴趣的对象,同时使用棒的旋转来选择项目。菜单定位和选择的这种组合无法通过更传统的2自由度输入技术实现。

棒的承受能力可以得出一些有趣的示例,这些示例可以对连续几个动作进行顺次排序,这些动作具有相似但非常不同的动作类型。例如,用户可以使用棒的蓝色末端通过轻触手势选择一个对象,然后使用平行姿势弹出饼状菜单,将棒旋转到“旋转”菜单项,并通过平行轻触手势选择它,然后继续通过旋转棒来旋转选定的对象。物体将以与棒的旋转相同的相对角度旋转。在该示例中,所涉及的所有步骤可以以连续且流畅的方式执行,而无需暂停或多次点击按钮。Guimbretière等人[15]也使用笔输入探索了类似的流畅技术。

因为菜单项的选择取决于棒的方向,所以肌肉记忆在这里起着重要的作用。我们希望通过一些练习,用户可以记住最常用选项的手势。这样可以减轻视觉注意的负担,甚至可以提高交互效率。用户在实际触发菜单之前将其放在预期的方向,从而避免了进一步旋转以切换到需项目的必要。标记菜单[18]同样利用重复性的实践来创建一个菜单系统,该系统可由专家用户快速操作。

Tilt Widgets

之前描述的饼图菜单交互仅利用了棒的空间位置和方向信息。棒的倾斜信息也可以在饼图菜单中方便地使用。我们设计了两个倾斜小部件,这些倾斜小部件使倾斜可以连续使用以调整参数:倾斜表盘,或离散地从子菜单的一组值中选择:倾斜菜单。

在我们的实现中,倾斜小部件与饼菜单中的项目相关联。如果将棒在特定菜单项内放置一会儿,则会出现关联的倾斜小部件。然后,我们可以向任一方向倾斜棒以更改小部件的值。从该饼形菜单项中旋转魔杖可关闭倾斜小部件并锁定其值。6

图8显示了用于更改图片边框颜色的倾斜菜单示例,图9显示了用于调整图片边框宽度的倾斜转盘示例。
8
饼状菜单和倾斜小部件的组合产生了用于菜单选择和参数调整的统一复合小部件。
最近,其他研究人员也探索了将菜单选择和参数调整相结合的想法,从而产生了几种可使用标准2自由度输入进行操作的技术,例如Flow菜单 [15],Control菜单[24]和FaST滑块[19]。
但是,我们相信我们是第一个对这两个动作使用不同输入模式的—旋转用于菜单选择,倾斜用于参数调整。有趣的是,尽管市场上许多数字化数位板(例如Wacom数位板www.wacom.com)长期以来一直提供有关笔的倾斜度的信息,但据我们所知,在界面中使用倾斜还没有进行过重大探索。因此,我们的工作也在这方面做出了贡献。

我们还注意到,如果在特定的应用程序中需要这样的功能,这些倾斜小部件可以独立于菜单使用。

Dial Panel

尽管可以使用倾斜小部件来调整连续参数,但是倾斜的有效范围相对较小(大约60°至60°),因此使其不适合大范围参数的精细调整。我们设计了一个拨动面板来解决此问题。

保持棒与屏幕平行的同时旋转棒会拨动面板中的指针臂,从而修改参数。与倾斜小部件中的倾斜角和参数值之间的固定映射不同,由拨动面板控制的参数根据方向角的相对变化进行修改。通过这种方式,我们可以在一个接一个的循环中旋转棒,并在理论上达到无限的取值范围。

即便如此,在参数调整的效率和精度之间仍存在权衡。再次,我们利用棒和屏幕之间的距离在不同的调整粒度之间切换。当魔杖离屏幕较远时,将显示一个较大的面板,并且调整速度更快、更粗糙。当魔杖靠近时,会显示一个较小的面板,并且调整会越来越慢。我们可以从最粗的刻度开始,然后向前推一点棒以进入更细的刻度,以此类推。这就产生了一种非常简单的技术,允许用户同时调整参数,并在单个流畅交互中选择速度和精度之间的最佳权衡。图10演示了如何使用拨动面板调整图片亮度。
9
虽然拨动面板的粒度可以连续控制,但在实践中我们发现这很难使用。因此,我们使用一组离散的可能的粒度。同样,还有一个要权衡的:太小的集合不能提供预期的效率,而太大的集合会增加选择粒度并保持在其中的难度。初步实验表明,一组三到四个不同的粒度效果很好。

Layered Menu

在处理需要大量功能的复杂任务时,单级饼式菜单可能不够。简单地增加饼图菜单中的项目数将增加将棒定位到所需方向的难度。我们的解决方案是增加可用菜单项数量的分层菜单。
与标准用户图形界面中子菜单的不同层类似,分层菜单以树状结构组织项目。再次使用棒和屏幕之间的距离,分层菜单使用垂直于屏幕堆叠的几层菜单的比喻。因此,我们首先弹出根菜单,切换到所需的项,稍微向后拉一下棒,进入更深的层(如果当前项有子菜单,用“+”标记),以此类推。我们还可以简单地把棒推进到适当的深度,回到更高的层次。如果当前项是树中的一个叶,则平行轻触手势将执行该项。图11显示了分层菜单的一个示例。在绘制菜单时,我们还应用了透明度和透视图,以增强层次感。注意,我们探索了这种深度推拉以激活不同层的概念,而不是像传统的多级饼图菜单那样简单地将指针从菜单中心移动适当的距离,因为我们已经使用了棒的x-y位置来控制菜单的空间位置。换句话说,我们的visionwand和分层菜单组合在单个手势动作中提供的功能比常规的2自由度输入技术提供的功能要多。
10
当对各种小部件使用几种不同的手势(倾斜,旋转,向后拉)时,引起的一个担忧是,用户可能会困惑在任何给定时间使用哪种手势。为了减轻这种担忧,我们特意提供了截然不同的视觉反馈提示(例如,分层菜单中的“ +”符号表示存在子菜单;带有明确划分的倾斜菜单部分的-截面形状的子小部件)以指示用于给定环境的适当手势。在实践中,我们发现这些提示有效地使用户能够使用正确的手势。

Additional Wands

通过具有一组可以被系统跟踪和区分的棒,我们可以显着扩大交互作用的可能性。一种应用程序是给不同的棒不同的权限,这是支持协作应用程序的自然要求。例如,我们的老师棒可能比学生棒拥有更多特权。或者我们可以通过不同的棒在系统所有权中分配对象。另一个应用是为不同的棒分配不同的功能集,从而丰富了可以实现的任务。这样,棒本身就可以充当不同的物理小部件。在我们当前的系统中,我们部分实现了后一种想法。除了实现了我们已经讨论过的实现交互的基本棒之外,我们还有另外两个具有更特定功能的棒:导航棒和绘图棒。

Navigation Wand
在我们的应用程序中,屏幕仅显示较大画布的一部分。屏幕右下方显示的导航窗口显示整个画布的缩略图,并以蓝色矩形指示正在显示的区域。使用导航棒,我们可以通过两种方式浏览整个画布:使用直接操作和通过指南针小部件。
直接操作:指向屏幕,轻触手势将抓住画布(黑色叉号变为手形图标)。然后可以移动和缩放整个画布,类似于我们用基本棒操作对象。第二次轻触手势将释放画布。
指南针小工具:为了实现更流畅,更精确的导航,我们设计了指南针小工具(图12)。通过将导航棒保持平行状态一会儿,将触发罗盘小部件。在这里,画布不是根据用户的直接拖动而是根据棒的姿势移动。运动的方向与棒的方向相同,并且运动的速度与棒的倾斜度成正比。因此,我们可以仅通过旋转和倾斜棒来导航整个画布。将棒移出屏幕可关闭指南针小部件并锁定画布。

与基本魔杖一样,翻转手势可将画布恢复到初始位置并缩放。
11
Drawing Wand
绘图棒模拟铅笔的标准功能。蓝色端充当笔尖,红色端充当橡皮擦。当蓝色端触摸屏幕时,可以绘制笔划。将红色末端指向笔划一会儿会删除该笔划。
Simultaneous Tracking of Multiple Wands
当前,我们的系统一次只能跟踪一根棒,但是从概念上讲,没有理由不能同时跟踪多个棒,从而进一步丰富交互空间。这个信息的直接应用是用两只手协同工作。例如,使用一根棒指示当前功能和状态,并使用另一根棒执行实际操作。或者,用两只手共同操作大型对象。多个用户的协同工作也是潜在的探索领域,尤其是对于大型显示​​器来说。

INFORMAL USER FEEDBACK

当我们的系统还处于探索阶段时,我们要求我们系的五名研究生试用它,以获得一些非正式的早期反馈。每个参与者都有一个10分钟的演示系统和交互技术是如何工作的。然后他们有20分钟的时间练习手势并尝试所有的系统功能。并且向他们解释了跟踪系统的实际限制,因此他们是协作用户。例如,他们知道在测试期间不要挡住摄像机。

在给定的20分钟练习中,所有用户都习惯了该系统。他们不难在几次尝试中学会基本的手势。在不必触摸屏幕的情况下,他们可以与系统交互的想法被认为是吸引人的。他们还发现深度(棒和屏幕之间的距离)与缩放因子之间的关系易于掌握。他们都在最初的几分钟内熟练掌握了图片的基本操作。

即使以前从未看过饼菜单的人也很容易理解系统中使用的饼菜单。如我们所料,即使在短短20分钟的试用期内,用户也开始记住菜单项。
对于最常用的功能,他们倾向于在实际触发菜单之前将棒置于正确的方向。尽管其中许多人表示需要将最常用的功能放置在最舒适的方向上,但他们并没有在最舒适的方向上达成一致。对于更广泛的用户测试,这可能是一个有趣的话题。一位参与者感到用一只手旋转棒有点别扭。他建议增加一个垂直于棒的小手柄,用户可以通过很小的手指移动来旋转棒。

当使用倾斜调整参数或使用倾斜小部件选择项目时,所有参与者都感到很舒服。他们还喜欢由拨动表盘提供的不同颗粒度,以便对参数进行非常精细的调整。其中一个甚至建议在旋转图片时也有不同的增益比例,尽管这看起来不那么明显。对于分层菜单,参与者可以通过简单地向前或向后移动控制棒,轻松地在不同层之间导航。

与导航棒一起使用的指南针小部件也很受欢迎,部分原因是熟悉标准用户图形界面中类似的小部件。由于跟踪系统中存在噪音,绘图功能尚未令人满意。受试者提出了一个可能有助于改进绘图的小部件列表,但是我们认为,仅仅提高跟踪质量将消除对这些额外小部件的需求。

基于我们对使用我们系统的参与者的观察,我们怀疑我们定义的手势集的大小是合适的。参与者都很容易记住基本的手势,也能完成更复杂的任务。

DISCUSSION

visionwand的一个有趣的特性是,当棒以不同的方式持有时,它会生成不同的功能。例如,用棒的不同末端指向,分别调用操作和查询操作,而棒的平行姿势是激活菜单。通过充分的练习,用户可以开始将这些不同的姿势和姿势提交到触觉记忆,从而允许非常快速的执行。Rekimoto和Sciammarella[25]认为这种“丰富的动作”工具可以显著增强我们与计算系统的交互。

棒和屏幕之间的距离是信息的一个非常重要的方面。在我们的设计中,我们在距离和比例因子之间建立了一致的关联。这种一致性对于用户轻松理解交互非常重要。

在基本的饼形菜单中,仅使用方向来选择项目。在倾斜小部件中,我们演示了方向和倾斜的用法,而在拨动面板和分层菜单中,我们使用了方向和距离。尽管与标准2自由度设备相比,这些双重组合已经增加了输入带宽,但我们可以更进一步。假设棒具有5个自由度:2自由度位置,距离,方向和倾斜度,从理论上讲,这提供了5自由度小部件的可能性。但是,我们怀疑存在一些限制,超出此限制,小部件的复杂性将克服同时使用多个自由度棒的优点。通过实验评估我们可以将棒复杂化的极限是很有趣的。

在我们的系统中,手势识别是连续发生的,用户不必显式进入“识别”模式。这种连续的识别可能引起人们将棒的正常运动误识别为命令的问题,在虚拟现实系统中通常将其称为“抓紧问题”。但是,我们故意将手势/姿势设置得小而简单,并且交互高度依赖于环境。因此,在某种程度上减少了“抓紧问题”。尽管在生产系统中,具有按钮将是用户控制识别发生时的“简便”解决方案,但这将要求棒具有一些活动组件。我们坚持在研究系统使用无按钮棒,这使我们能够突破被动棒设计空间的界限。

除了标准的笔形棒外,其他形状的棒也可以提供不同的交互可能性。有两个以上末端的十字形棒可以被赋予更多的功能,每个功能被赋予一个末端。或者,可以同时使用多个端部。具有可操作元素的棒,如可折叠的臂,或棒内有弹簧桶,也可能是未来探索的有趣的可能性。

最后,可以想象设计具有更多戏剧性触觉功能的棒。例如,我们可以使棒的一半具有粗糙的纹理或更粗。这样一来,用户就可以仅凭触觉来确定棒的方向。但是,我们告诫,在我们的系统中使用的棒的一个不错的征就是它的成本非常低。添加其他物理属性可能会增加成本,这是需要考虑的另一个权衡方案。

CONCLUSIONS

我们的工作探索了各种技术和界面小部件,这些技术和界面小部件使用3D跟踪的无按钮被动棒与大型显示器进行交互。尽管我们的跟踪实施方式可以改善,但探索各种替代方案已绰绰有余。我们自己使用该系统的经验以及我们在非正式用户研究期间的观察表明,基于棒的交互的手势和姿势易于理解和使用,尤其是当此类动作的集合保持相对较小时。随着我们与计算机的互动越来越多地从标准台式机转向其他形式的因素(包括大型显示器),至关重要的是,我们必须继续探索非常适合新媒体的替代输入和互动方式,而不是默认依赖于为上一代技术设计的技术。这里介绍的工作是这一探索的一个步骤。

ACKNOWLEDGEMENTS

我们感谢Michael Wu和Gonzalo Ramos在图像和视频制作方面提供的帮助;感谢Allan Jepson、Joe Laszlo和多伦多大学动态图形项目实验室(www.dgp.toronto.edu)的成员提供了有价值的想法和讨论。

VIDEOS

可以下载演示该系统的视频,来自www.dgp.toronto.edu/research/visionwand

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用3D跟踪的被动棒的大型显示器交互技术 的相关文章

  • 人机交互的困难之一常常在于没有形成有效的你、我、他之间的互换。

    人机交互的困难之一常常在于没有形成有效的你 我 他之间的互换 而要形成交互过程中有效的你 我 他角色的互换 可以考虑以下几个方面 清晰定义角色 在交互开始之前 明确定义每个参与者的角色和身份 机器可以被定义为 你 而用户则为 我 这样可以建
  • Java自学总结之七图形用户接口

    图形用户接口也就是一个人机交互的界面 下面先介绍一下界面的组成 1 JFrame框架 这个是屏幕上的Windows的对象 在创建界面时 这个是首要创建的 如果把设计一个界面比喻为画水彩画 那么它就相当于一个支架 在画画前先安好支架如右图 2
  • 互联网被裁的程序员,未来有什么方向呢?

    互联网行业的职位需求也在不断变化 作为一名被裁程序员 应该积极适应新的趋势和发展方向 以保持竞争力 以下是一些互联网行业的发展趋势和方向 可以供被裁程序员参考 人工智能 AI 和机器学习 人工智能和机器学习是当前互联网行业的热门领域之一 随
  • 小明分享

    小明会定期分享SigmastarSSD201 202相关芯片技术文档 我们也有一个Sigmastar技术沟通群聊 有感兴趣的开发小伙伴也可以留言给小明 小明邀请你进入 SSD20X 平 台 LCD 屏 的 配 置 主 要 涉 及 两 个 结
  • 初试讯飞星火认知大模型

    现在大模型忒火 chatGPT要翻要美刀很麻烦 bing new免费用起也不错 不过也要爬楼梯 国产的讯飞星火开放体验了 赶紧申请一下 很快就通过了 给了4个任务 1 写一首关于南山文峰塔的诗 要求含夜景描述 有点口水打油诗的味道 2 讲解
  • 消费升级,彩屏或将成为家电行业市场新风口

    手机的发展历程估计很多小伙伴们都看在眼里 从一开始没有屏幕到黑白屏 再到彩屏按键手机 最后走到智能手机 现在已经进入全面屏手机时代 彻底从 大哥大 变身 大屏控 因为屏幕将决定手机界面 手机应用操作性等许多重要要素 手机的迭代升级 带动整个
  • 自定义oh-my-zsh主题风格,代码和语法的解释

    自定义oh my zsh主题风格 代码和语法的解释 摘要 简要介绍 zsh theme的代码 不涉及函数 关键词 ohmyzsh zsh theme语法 https github com ohmyzsh ohmyzsh wiki Theme
  • hcaptcha 我是人类验证码怎么跳过怎么验证自动识别

    相信这个验证码很多人都见过 这个叫hcaptcha验证码 在网页上偶尔出现 提示需要你证明 我是人类 这种验证码与谷歌的reCaptcha有异曲同工之处 但是其实hcaptcha与recaptcha是完全不同的产品 不是同一个公司出品的 这
  • ChatGPT引发的人机交互发展历程与升级思考

    ChatGPT自从去年12月火爆以来一直热度不减 最近正好研读了科技之巅 书中详细阐述了人机交互 人工智能 算力算法等技术的发展历史 本文主要围绕ChatGPT引发的人机交互方面的思考 在讨论人机交互之前 首先需要说明的一点 目前计算机发展
  • 人机交互期末复习要点

    文章pdf下载 点击下载pdf 注 我们网上的作业 老师说的考试题目 可能会考的重点 无 可能会考选择题 也可能会考大题 比如 人机交互设备 我们这次期末考试就考了 绪论 什么是人机交互技术 是指关于设计 评价和实现供人们使用的交互式计算机
  • VTK交互器

    VTK交互器定义了用户了与VtkWidget界面的交互方式 结构图如下 交互器类名 功能 vtkInteractorStyle 一个实现大部分动作的基类 对交互只有接口 没有实际功能 vtkInteractorStyle3D 允许用户交互
  • 人机交互-2-交互设计的原则与方法

    交互设计的原则与方法 交互设计中的问题 尽量减少用户需要记忆的部分 缺乏反馈 1 目标Goal vs 意图Intention 单个目标可对应多个意图 举例 删除文档中的部分内容的目标 意图1 通过编辑菜单删除 意图2 通过删除按钮删除 每个
  • 人机交互知识点总结

    人机交互知识点总结 考试题型及分值分布 选择题 10题 20分 填空题 10题 20分 判断题 可选 5题 10分 解答题 5 6题 30分 分析计算题 1 2题 20分 注意 答案有多条时 用1 2 3形式分别列出 考查内容 掌握人机交互
  • 虚拟现实下的手势识别综述

    虚拟现实下的手势识别综述 目录 虚拟现实下的手势识别综述 摘要 关键词 1 引言 2 国内外研究现状 3 手势识别的关键技术 3 1手势分割 3 2手势建模 3 3手势识别 3 4特征提取 4 存在的问题及发展趋势 5 结论 参考文献 摘要
  • 依靠自我

    必读网 http www beduu com 整理 依靠自我 我们需要爱默生式的思想家 当所有的编译工作都完成之后 我突然发现自己在编译过程中经常出现的 为什么要编译爱默生的文章 的疑问都变得多余了 也就是说 我突然认为 在中国重提爱默生是
  • 探索未来的人机交互方式

    在21世纪 人工智能 AI 已成为科技领域的重要焦点 特别是在 生成式AI 这个细分领域中 所谓的 生成式AI 是指能够创造 理解和生成各种形式内容的人工智能系统 本文将重点探讨 生成式AI 报告中的重点词汇或短语 为您解析它的潜力与未来
  • 人机交互-7-交互需求定义

    1 背景 无论取代或更新已有系统 还是开发新产品 需求的建立都是非常重要的 需求获取是项目设计的第一个阶段 确定和记录现有的工作流程 收集 将信息组织起来 整体上涵盖工作的各个方面 描述 产品是不同的 对需求提出了特殊的要求 用户是不同的
  • 人机交互重点知识点

    人机交互重点知识点 1 绪论 1 1什么是人机交互 人机交互是关于设计 评价和实现供人们使用的交互式计算机系统 且围绕这些方面的主要现象进行研究的科学 1 2人机交互的研究内容 1 人机交互界面表示模型与设计方法 2 可用性分析与评估 3
  • 创新生产力的新引擎

    随着科技的飞速发展 人工智能 AI 已成为当今时代的一大热点 近年来 生成式AI的崛起 特别是在自然语言处理 NLP 领域的突破 对传统搜索引擎 推荐系统 语言翻译等领域产生了深远的影响 CHAT GPT作为生成式AI的代表之一 更是引领了
  • yolov5无人机视频检测与计数系统(创新点和代码)

    标题 基于YOLOv5的无人机视频检测与计数系统 摘要 无人机技术的快速发展和广泛应用给社会带来了巨大的便利 但也带来了一系列的安全隐患 为了实现对无人机的有效管理和监控 本文提出了一种基于YOLOv5的无人机视频检测与计数系统 该系统通过

随机推荐

  • 程序员面试题精选100题(43)-n个骰子的点数

    程序员面试题精选100题 43 n个骰子的点数 题目 把n个骰子扔在地上 所有骰子朝上一面的点数之和为S 输入n 打印出S的所有可能的值出现的概率 分析 玩过麻将的都知道 骰子一共6个面 每个面上都有一个点数 对应的数字是1到 6之间的一个
  • strtok函数——通过分隔符对字符串进行分隔操作

    用分隔符分隔字符串 根据该字符串中分隔符的多少 可以使用一个或多个分隔符来对字符串进行操作 两种循环做法 可进行比较 int main 首先定义一个字符串 char str asdfg das da asda char sub strtok
  • 题4:替换空格

    题目 请编写一个方法 将字符串中的空格全部替换为 20 假定该字符串有足够的空间存放新增的字符 并且知道字符串的真实长度 小于等于1000 同时保证字符串由大小写的英文字母组成 给定一个string iniString 为原始的串 以及串的
  • sourcemod修改服务器网址,【创建服务器教程】

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 安装很简单 建议不要安装在C盘 在Region的地方注意下 选择Asia地区 安装完毕后 我们要建立一个批处理 批处理的建立方法 新建一个文本 把命令写进去 然后保存 再将扩展名txt修改为ba
  • 边界值测试及三角形案例分析(Junit5测试)

    黑盒测试主要包括边界值测试 等价类测试 基于判断表的测试 因果图 正交实验设计法 错误推测法等 本文章主要介绍边界值测试 以及介绍边界值测试的实际案例及解析 1 边界值测试 人们从长期的测试工作经验得知 大量的错误都是发生在定义域至于 输出
  • Spark机器学习解析

    源码加数据集 文件源码 Gitee好像只收10M一下的文件类型 所以数据集就只能以链接的形式自己下了 KMeans和决策树KDD99数据集 推荐使用10 的数据集 http kdd ics uci edu databases kddcup9
  • vue H5跳转小程序

    官方链接 目录 微信开放文档 摘要 小程序跳转按钮
  • 基于51单片机和霍尔传感器的测速

    项目代码 链接 https pan baidu com s 1vK3i5r0wnks7lWC4yUP8Jg 提取码 vwu0 1 小项目简介 主要采用stc89c51 52单片机作为主控 由霍尔传感器作为测速的基本模块 采用按键控制速度快慢
  • ffmpeg 中 aresample filter 和 scale filter 的创建

    ffmpeg 中 filter 的创建一般需要外部函数创建 可以参考 filter audio c sample 一般 命令行 中 ffmpeg 和 ffplay 也会有相关的 filter 自动创建 ffmpeg 中 filter 的概念
  • Python实现读取目标文件夹数据,并将目标数据复制到指定文件夹

    前言 本文是该专栏的第34篇 后面会持续分享python的各种干货知识 值得关注 假设工作上遇到这样的需求 需要用python读取目标文件夹里面的数据 数据可能包含各种doc文档 pdf文档以及excel文档数据 甚至其它各种类别的类型数据
  • 【Vulnhub】搭建Vulnhub靶机

    一 Vulnhub介绍 Vulnhub它是一个提供各种网络攻防靶场的平台 里面大部分的环境是要用VMware或者VirtualBox打开运行的 二 下载 去vulnhub的官网 https www vulnhub com可以看到各种镜像 点
  • QueryWrapper常用条件介绍

    标题QueryWrapper常用条件介绍 通用条件 比较大小 lt gt gt gt lt lt eq R column Object val 等价于 例 eq name 老王 gt name 老王 ne R column Object v
  • Pytorch Lightning使用:【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】

    pytorch lightning 官方手册 pytorch lightning 官方手册 Welcome to PyTorch Lightning PyTorch Lightning 2 1 0dev documentationhttps
  • /lib64/libm.so.6: version `GLIBC_2.27‘ not found (required by node)

    目录 1 报错场景 2 解决办法 1 报错场景 在centos7 x上面离线安装Node js的时候报错 node lib64 libm so 6 version GLIBC 2 27 not found required by node
  • 【深入理解C++】函数返回类型前置与后置

    文章目录 1 函数返回类型前置 2 函数返回类型后置 1 函数返回类型前置 函数返回类型前置就是把函数返回类型放到函数名字之前 注意 函数定义时 如果形参在函数体内用不到的话 则可以不给形参变量名字 只给其类型 函数声明时 可以只有形参类型
  • 基于BP神经网络的人口预测

    一 人工神经网络 1 1 人工神经元 人工神经元是对生物神经元的模拟 这种信号传输由输入信号x 突触权重 内部阈值 j和输出信号y来模拟 如图 可见 简单神经元的数学表达式为 y f i
  • 利用canvas制作背景动画(3)

    一 炫酷星空
  • 整理了35个快速开发平台,前后端都有 ,接私活拿来即用,非常方便!

    一个基于 SpringBoot Redis Vue 仿饿了么外卖系统 后台 移动端 可二次开发接私活 从零开始用SpringBoot 搭了一套万能文件在线预览系统 我觉的挺好用 这 9 个 Java 开源项目 yyds 12 个非常适合做外
  • jsp页面ajax用法,在jsp中使用jquery的ajax

    jQuery ajax url getAssessmentStaffEvaluation html type post data userId userid startDate startDate endDate endDate dataT
  • 使用3D跟踪的被动棒的大型显示器交互技术

    VisionWand 使用3D跟踪的被动棒的大型显示器交互技术 ABSTRZCT 对一种作为与大型显示器交互的新输入机制 利用计算机视觉技术对被动棒进行三维跟踪的技术进行了研究 我们展示了各种各样利用棒的可供性的交互技术 从而为大规模交互提