人眼注视检测：识别用户正在看板上的位置[关闭]

2024-04-03

我正在开发一个项目，上面有板和相机。目标是识别正在看黑板的学生，并确定他们视线的位置（在黑板上）。

目前，我计划从以下几个方面来应对挑战：

识别学生面孔
从检测到的面部识别他们双眼的投资回报率
识别他们的眼睛瞳孔/虹膜中心的位置和头部姿势
决定这个人是否在看黑板？
如果是，学生正在看黑板的哪个区域？

到目前为止，我能够做以下事情：

识别面部和眼睛标志以及面部位置向量（X、Y、Z）

下面是代码：

from scipy.spatial import distance as dist
from imutils.video import FileVideoStream
from imutils.video import VideoStream
from imutils import face_utils
from gaze_codefiles import get_head_pose,draw_border,iris_center
import numpy as np
import imutils
import time
import dlib
import cv2

line_pairs = [[0, 1], [1, 2], [2, 3], [3, 0],
              [4, 5], [5, 6], [6, 7], [7, 4],
              [0, 4], [1, 5], [2, 6], [3, 7]]


print("[INFO] loading facial landmark predictor...")
detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor('./shape_predictor_68_face_landmarks.dat')

print("[INFO] camera sensor warming up...")
vs = VideoStream(src=0).start()
(lStart, lEnd) = face_utils.FACIAL_LANDMARKS_IDXS["left_eye"]
(rStart, rEnd) = face_utils.FACIAL_LANDMARKS_IDXS["right_eye"]
# vs = VideoStream(usePiCamera=True).start() # Raspberry Pi
time.sleep(2.0)

while True:
    frame = vs.read()
    frame = imutils.resize(frame, width=400)
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
    rects = detector(gray,0)

    for rect in rects:
        (bx,by,bw,bh) = face_utils.rect_to_bb(rect)
        draw_border(frame,(bx,by),(bx+bw,by+bh),(127,255,255),1,10,20)

        shape = predictor(gray,rect)

        shape = face_utils.shape_to_np(shape)

        leftEye = shape[lStart:lEnd]

        rightEye = shape[rStart:rEnd]



        leftEyeHull = cv2.convexHull(leftEye)

        rightEyeHull = cv2.convexHull(rightEye)

        cv2.drawContours(frame, [leftEyeHull], -1, (127, 255, 255), 1)

        cv2.drawContours(frame, [rightEyeHull], -1, (127, 255, 255), 1)

        reprojectdst, euler_angle = get_head_pose(shape)

        image_points = np.float32([shape[17], shape[21], shape[22], shape[26], shape[36],
                            shape[39], shape[42], shape[45], shape[31], shape[35],
                            shape[48], shape[54], shape[57], shape[8]])

        #for start, end in line_pairs:
            #cv2.line(frame, reprojectdst[start], reprojectdst[end], (0, 0, 255))

        for p in image_points:
            cv2.circle(frame, (int(p[0]), int(p[1])), 1, (0,0,255), -1)

        #p1 = (int(shape[34][0]), int(shape[34][1]))
        #p2 = (int(reprojectdst[0][0]), int(reprojectdst[0][1]))

        #cv2.line(frame, p1, p2, (255,0,0), 2)

        cv2.putText(frame, "X: " + "{:7.2f}".format(euler_angle[0, 0]), (20, 20), cv2.FONT_HERSHEY_SIMPLEX,
                            0.5, (127, 255, 255), thickness=1)
        cv2.putText(frame, "Y: " + "{:7.2f}".format(euler_angle[1, 0]), (20, 50), cv2.FONT_HERSHEY_SIMPLEX,
                            0.5, (127, 255, 255), thickness=1)
        cv2.putText(frame, "Z: " + "{:7.2f}".format(euler_angle[2, 0]), (20, 80), cv2.FONT_HERSHEY_SIMPLEX,
                            0.5, (127, 255, 255), thickness=1)

        #cv2.putText(frame,"Left Eye Center is:{}".format(tuple(lefteyecenter)),(20,100),cv2.FONT_HERSHEY_SIMPLEX,0.75, (127, 255, 255), thickness=2)

        #cv2.putText(frame,"Left Eye Center is:{}".format(tuple(righteyecenter)),(20,100),cv2.FONT_HERSHEY_SIMPLEX,0.75, (127, 255, 255), thickness=2)

    cv2.imshow("Frame", frame)
    key = cv2.waitKey(1) & 0xFF

    if key == ord("q"):
        break

cv2.destroyAllWindows()
vs.stop()

这是相同的输出：

我能够获得双眼的注视方向，现在我只需要将这些矢量投影到现实世界中的 3D 空间（白板或笔记本电脑屏幕）。有人可以指导我吗？

我认为你对这个问题有一个很好的方法：你已经将其分解为子问题。

以 3D 方式定位眼睛。之后，您可以创建一个眼睛所在的平面：眼睛之间的矢量及其法线足以定义该平面。看来您已经找到了面部标志。如果您的检测是二维的，您可以尝试类似的方法this https://docs.opencv.org/4.x/dd/d53/tutorial_py_depthmap.html。有关立体对的更多信息 -> 3D 转换here https://medium.com/@dc.aihub/3d-reconstruction-with-stereo-images-part-1-camera-calibration-d86f750a1ade.

底部图片看起来像GazeML https://github.com/swook/GazeML。了解您使用什么算法进行凝视以及它提供什么样的输出将有所帮助。不管怎样，你应该有两个角度来描述眼睛的方向。这些注视向量从我们在上一步中定义的平面开始。现在您已获得 3D 向量的起点和方向。

如果您只知道 3D 凝视向量的 2D 投影，但知道向量的长度，则可以使用数学来求解 3D 凝视向量。请参阅矢量投影 https://en.wikipedia.org/wiki/Vector_projection.

您可能需要先校准相机，因为它们有不同类型的失真。您可以通过在黑板上放置测试图片（例如直线）并让测试对象用眼睛跟随该图片来校准算法。然后您可以计算误差并进行必要的调整。

祝你好运！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人眼注视检测：识别用户正在看板上的位置[关闭] 的相关文章

使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
ca 证书 Mac OS X

我需要在emacs 上安装offlineimap 和mu4e 问题是配置当我运行 Offlineimap 时我得到 OfflineIMAP 6 5 5 Licensed under the GNU GPL v2 v2 or any la
如何使用 Python 裁剪图像中的矩形

谁能给我关于如何裁剪两个矩形框并保存它的建议我已经尝试过这段代码但效果不佳 import cv2 import numpy as np Run the code with the image name keep pressing spa
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
类型错误：float() 参数必须是字符串或数字，而不是“列表”python

我的 Python 有问题这是我的代码 def calcola a input b float a 0 split c float a 0 split d float a 0 split e float a 0 split j float
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
pandas 中连续数据的平行坐标图

pandas 的 parallel coordinates 函数非常有用 import pandas import matplotlib pyplot as plt from pandas tools plotting import par
PyArmor - 打包为一个可执行文件

当我执行此命令时您好使用 PyArmor pyarmor pack main py 它将它打包到一个名为的文件夹中dist里面包含我的 exe 以及许多 Python 扩展文件据我所知 PyArmor 使用 PyInstaller 来
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
具有多个主键的 SQLAlchemy 不会自动设置任何

我有一个简单的表 class test Base tablename test id Column Integer primary key True title Column String def init self title self
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers

随机推荐

Richfaces 和 Primefaces 彼此兼容吗？

我现在使用 Primefaces 2 1 我尝试将 Richfaces 3 3 3 集成到我的应用程序中以便使用
ListView 项目布局 targetSdkVersion="17" 和 targetSdkVersion="18" 之间不同

我刚刚将 Android SDK 更新到版本 18 并修改了我正在处理的项目以使用它而不是版本 17 事实证明我的 ListView 现在看起来有很大不同然而只需在清单文件中将 targetSdkVersion 从 18 切换到 17
https 客户端使用客户端证书和密码通过 cpp-netlib 获取

我正在尝试使用 cppnetlib 甚至 boost asio 库来连接以执行简单的 url 获取并将结果页面拉下来我已经让它可以与http一起使用甚至可以使用https使用cppnetlib 但我需要提供一个需要密码的客户端证书不幸
Git Bash 是否通过 ssh 密钥确定身份？

已经第三天了我仍然无法解决以下问题我最初在 2 年前创建了一个 GitHub 帐户我相信我为此帐户生成了 SSH 密钥我相信我已将 ssh 密钥加载到我的 ssh agent 程序中然后将公钥放在我的 GitHub 帐户上现在我
当 Html 输入范围“step”不是范围“max”值的倍数时

我遇到的情况是我的范围滑块的步长不是最大值的倍数因此滑块值仅变为 90 因为下一步将大于 100 片段
Windows 上的 PHP realpath 案例问题

我的 Windows 服务器上有一个符号链接其制作方式如下 F gt mkdir link target F gt mklink D link f link target 注意小写f 在符号链接目标中在 PHP 中我运行这个 dir r
PHP SOAP 请求全部小写

我创建了一个 Web 服务并使用 SoapUI 来验证它是否正常工作然而 PHP 客户端在尝试访问它时遇到致命错误我设置了一个 try catch 以便可以查看输出 SOAP 请求并执行var dump 当我查看请求并var dump
Xcode 12.4 React Native 构建在 IOS 中失败显示所有消息命令 PhaseScriptExecution 失败并出现非零退出代码

我是 React Native 的新手我想在 React Native 初始化后在 IOS 中运行 React Native 应用程序应用程序未在 IOS 中运行显示一些错误显示所有消息 bash Native social logi
C# - 初始化器内类字段的闭包？

考虑以下代码 using System namespace ConsoleApplication2 class Program static void Main string args var square new Square 4 Con
怎么转？如何将多行转换为一行多列？

我有两张表想要合并第一张桌子是客户的另一张桌子是产品的目前我有 22 个产品但我想要一个灵活的数据库设计因此产品数据库中不是有 22 列而是每个客户的每个产品有 1 行因此如果我总体添加或删除 1 个产品我不会必须更改数据库
PHP：使用方法作为回调

我试图使用array walk recursive对于某些事情并想使用类的方法之一作为回调所以尝试 array walk recursive TAINTED this gt encode 及其变体都失败了我最终决定 array wal
如何在 main() 之前调试程序崩溃

我在 Windows 8 1 上使用 QtCreator 和 Visual Studio 2015 套件来构建我在 Linux 上开发和测试的程序在 Linux 上它工作正常但在 Windows 上它立即崩溃我不知道要寻找什么除了我
.htaccess 中单个 RewriteCond 的多个 RewriteRules

我的 htaccess 中有以下命令 RewriteCond HTTP HOST www a z0 9 example com NC RewriteRule a z 2 1 2 L RewriteRule 0 9 a z 2 1 3 2 L
pieCSS3：不在本地四舍五入

我正在尝试使用饼图获得圆角 ul li webkit border radius 8px 8px 0 0 moz border radius 8px 8px 0 0 border radius 8px 8px 0 0 color FFFFF
从 API 控制器调用 POST 方法

我有一个名为 MyFIlesController 的 API 控制器在其中我有这个方法 POST api myfiles public void Post FromBody string value 以下是我用 Fiddler 的调用方
有没有java图像库？

我是 java 图像处理新手我的任务是重新调整网站图像的大小和比例有没有一个简单的库可以完成这项任务一个我必须下载 jar 的库添加到我的项目中我不喜欢被迫在 Windows 上安装编解码器和文件我需要该库仅支持基本功能 Lib
Visual Studio 在断点处冻结

自一周前以来我在 VS2010 中看到了一个非常烦人的行为当我正在调试一个项目时调试器在断点处停止 Windows 冻结了近十秒我说 Windows死机是因为这段时间鼠标和键盘没用该问题仅在我调试特定项目时发生并且我在两台不同
使用 Java 在 Mac 上以编程方式发送电子邮件（通过 Mac 邮件客户端）

我对这个问题做了很多研究但似乎无法为我的问题提出可靠的解决方案我正在开发一个 Java 客户端应用程序它应该允许用户从 Mac 地址簿中导入联系人方法是以列表格式获取联系人并允许用户选择一个子集全部然后单击一个按钮将邀
Java中的Goto语句[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我执行了下面的代码Eclipse http en wikipedia org wiki Eclipse 28software 29 但是GO
人眼注视检测：识别用户正在看板上的位置[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我正在开发一个项目上面有板和相机目标是识别正在看黑板的学生并确定他们视线的位置在黑板上目前我计划从以下几个方面来应对挑

人眼注视检测：识别用户正在看板上的位置[关闭]

人眼注视检测：识别用户正在看板上的位置[关闭] 的相关文章

随机推荐

热门标签