查找近似重复和伪造的图像

2024-01-12

我正在使用感知哈希技术来查找接近重复和完全重复的图像。该代码非常适合查找完全相同的重复图像。然而，找到近似重复和略有修改的图像似乎很困难。由于它们的哈希值之间的差异分数通常类似于完全不同的随机图像的哈希差异。

为了解决这个问题，我尝试将几乎重复的图像的像素化减少到 50x50 像素，并使它们成为黑/白，但我仍然没有我需要的东西（分数差异很小）。

这是几乎重复的图像对的示例：

图片 1 (a1.jpg)：

图片 2 (b1.jpg)：

这些图像的哈希分数之间的差异是：24

当像素化（50x50 像素）时，它们看起来像这样：

rs_a1.jpg

rs_b1.jpg

像素化图像的哈希差异分数甚至更大！：26

下面是@ann zen 要求的两个近似重复图像对的示例：

Pair 1

Pair 2

我用来减小图像大小的代码是这样的：

from PIL import Image    
with Image.open(image_path) as image:
            reduced_image = image.resize((50, 50)).convert('RGB').convert("1")

以及比较两个图像哈希的代码：

from PIL import Image
import imagehash        
with Image.open(image1_path) as img1:
            hashing1 =  imagehash.phash(img1)
with Image.open(image2_path) as img2:
            hashing2 =  imagehash.phash(img2)           
print('difference :  ', hashing1-hashing2)

这是一种使用以下方法确定重复和接近重复图像的定量方法：sentence-transformers https://github.com/UKPLab/sentence-transformers库，它提供了一种计算图像的密集矢量表示的简单方法。我们可以使用OpenAI 对比语言-图像预训练（CLIP）模型 https://github.com/openai/CLIP这是一个已经在各种（图像、文本）对上进行训练的神经网络。为了找到图像重复项和近似重复项，我们将所有图像编码到向量空间中，然后找到与图像非常相似的区域相对应的高密度区域。

当比较两个图像时，它们会得到一个分数0 to 1.00。我们可以使用阈值参数来识别两个图像相似或不同。通过设置较低的阈值，您将获得更大的聚类，其中相似图像更少。重复图像的得分为1.00这意味着两个图像完全相同。为了找到接近重复的图像，我们可以将阈值设置为任意值，例如0.9。例如，如果确定的两幅图像之间的分数大于0.9那么我们可以得出结论，它们几乎是重复的图像。

一个例子：

该数据集有 5 张图像，请注意猫 #1 的重复项，而其他的则不同。

查找重复图像

Score: 100.000%
.\cat1 copy.jpg
.\cat1.jpg

cat1 及其副本是相同的。

查找近似重复的图像

Score: 91.116%
.\cat1 copy.jpg
.\cat2.jpg

Score: 91.116%
.\cat1.jpg
.\cat2.jpg

Score: 91.097%
.\bear1.jpg
.\bear2.jpg

Score: 59.086%
.\bear2.jpg
.\cat2.jpg

Score: 56.025%
.\bear1.jpg
.\cat2.jpg

Score: 53.659%
.\bear1.jpg
.\cat1 copy.jpg

Score: 53.659%
.\bear1.jpg
.\cat1.jpg

Score: 53.225%
.\bear2.jpg
.\cat1.jpg

我们得到了不同图像之间更有趣的分数比较结果。得分越高，相似度越高；分数越低，相似度越低。使用阈值0.9或 90%，我们可以过滤掉几乎重复的图像。

仅两个图像之间的比较

Score: 91.097%
.\bear1.jpg
.\bear2.jpg

Score: 91.116%
.\cat1.jpg
.\cat2.jpg

Score: 93.715%
.\tower1.jpg
.\tower2.jpg

Code

from sentence_transformers import SentenceTransformer, util
from PIL import Image
import glob
import os

# Load the OpenAI CLIP Model
print('Loading CLIP Model...')
model = SentenceTransformer('clip-ViT-B-32')

# Next we compute the embeddings
# To encode an image, you can use the following code:
# from PIL import Image
# encoded_image = model.encode(Image.open(filepath))
image_names = list(glob.glob('./*.jpg'))
print("Images:", len(image_names))
encoded_image = model.encode([Image.open(filepath) for filepath in image_names], batch_size=128, convert_to_tensor=True, show_progress_bar=True)

# Now we run the clustering algorithm. This function compares images aganist 
# all other images and returns a list with the pairs that have the highest 
# cosine similarity score
processed_images = util.paraphrase_mining_embeddings(encoded_image)
NUM_SIMILAR_IMAGES = 10 

# =================
# DUPLICATES
# =================
print('Finding duplicate images...')
# Filter list for duplicates. Results are triplets (score, image_id1, image_id2) and is scorted in decreasing order
# A duplicate image will have a score of 1.00
duplicates = [image for image in processed_images if image[0] >= 1]

# Output the top X duplicate images
for score, image_id1, image_id2 in duplicates[0:NUM_SIMILAR_IMAGES]:
    print("\nScore: {:.3f}%".format(score * 100))
    print(image_names[image_id1])
    print(image_names[image_id2])

# =================
# NEAR DUPLICATES
# =================
print('Finding near duplicate images...')
# Use a threshold parameter to identify two images as similar. By setting the threshold lower, 
# you will get larger clusters which have less similar images in it. Threshold 0 - 1.00
# A threshold of 1.00 means the two images are exactly the same. Since we are finding near 
# duplicate images, we can set it at 0.99 or any number 0 < X < 1.00.
threshold = 0.99
near_duplicates = [image for image in processed_images if image[0] < threshold]

for score, image_id1, image_id2 in near_duplicates[0:NUM_SIMILAR_IMAGES]:
    print("\nScore: {:.3f}%".format(score * 100))
    print(image_names[image_id1])
    print(image_names[image_id2])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

查找近似重复和伪造的图像的相关文章

Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
图像梯度角计算

我实际上是按照论文的说明进行操作的输入应该是二进制边缘图像输出应该是一个新图像并根据论文中的说明进行了修改我对指令的理解是获取边缘图像的梯度图像并对其进行修改并使用修改后的梯度创建一个新图像因此在 MATLAB Open
如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块？

我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时也是由 CDK 创建的这是我的 CDK 堆栈代码 fr
python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break

随机推荐

使用Java流合并一对“int”数组[重复]

这个问题在这里已经有答案了这一页 https www javatpoint com how to merge two arrays in java展示了如何组合两个数组Integer对象放入数组中Object对象 Integer firs
Microsoft SQL Server Express：不再支持此版本的安装程序

我正在尝试安装 Microsoft SQL Server 2019 Express 但我不断遇到上述错误消息我最初在尝试安装时遇到了一条单独的错误消息无法下载所需的文件我按照以下线程中的说明进行操作这解决了最初的问题但现在出现了新
我如何扩展 boost Spirit 语法

问题是我编写了一个对某项任务有用的语法但现在任务发生了变化我需要定义新的规则但我不想修改我已有的语法而不是我想要的喜欢创建一个新的语法使用我现有的语法无需代码重复所以我只需要定义我需要的新规则我尝试过一些东西像这样但
如何删除Windows中的长路径。

将项目导入 Eclipse 时它以某种方式开始创建目录的递归版本现在当我尝试删除任何内容时我收到消息您指定的文件名太长我无法从命令 shell 中删除它我无法从资源管理器中删除它我不能用它做任何事我不知道 Eclipse
ss 命令显示 TIME_WAIT 而不是 CLOSE_WAIT，这在逻辑上不符合

我试图理解 TIME WAIT 和 CLOSE WAIT 我已经通过 Chrome 控制台打开了一个套接字连接该连接连接到本地运行的 Java WebSocket 服务器然后将其关闭 var webSocket new WebSocke
将gradle临时目录设置为SSD

我正在使用带有 gradle 的 android studio 当我构建应用程序时我注意到旋转硬盘工作量很大所以我查看并看到 gradle 正在将临时文件写入变量定义的目录在 Windows 8 1 中 TEMP or TMP在我的用
从 Android 上传文件到 wowza

我已经安装了 wowza 服务器并且能够使用 android 中的视频视图从客户端播放文件现在我必须录制视频并且必须将文件上传到 wowza 服务器如何编写服务器端应用程序以及如何从 android 代码连接它有人有这方面的经验吗
Stripe Connect PaymentIntent 错误：没有这样的 payment_intent

我在 API 中使用 stripe connect 并且我想更新和处理现有的 paymentIntent 使用NodeJS stripe包创建 paymentIntent 成功 const paymentIntent await strip
在 PyQt 中，如何将项目和所选项目保存在组合框中

我填充组合框用户选择其中一个选项然后他们关闭一切稍后用户可能会再次打开窗口要求他们重新输入并重新选择选项会很乏味所以我想加载它们我尝试使用 pickle 但显然出现与 Qt 相关的错误 self WordCardsFiel
无法将用户添加到 Hyper-V 管理员组退出代码 2220

我将 Windows 10 LTSB 与 Visual Studio 2015 结合使用启用后Hyper V 我安装了独立的Visual Studio Emulator for Android Hyper V 运行良好因为可以向其中添加
无法获取资源“https://dl.google.com/dl/android/maven2/com/android/tools/build/gradle/3.2.1/gradle-3.2.1.pom”

我最近开始使用 React Native 但是根据伊朗制裁 gradle 无法构建我的第一个项目所以我使用了 VPN 也舍餐服务 https shecan ir 但我收到以下错误我阅读了 React Native 说明并按照它们设置了模
如何清空 Drupal 缓存（无需 Devel）

如何清空 Drupal 缓存 without开发模块无需在新节点等中运行一些 PHP 语句无需进入数据库本身实际上您如何指示最终用户清除其缓存当您以管理员身份登录时显然并非该网站的每个用户都有权清除缓存应该有一个页面管理
将 FontAwesome 5.x 与 PrimeFaces 6.2+ 结合使用

我正在检查这个问题如何将 webjars org 中的 Font Awesome 与 JSF 结合使用 https stackoverflow com q 18891768 811293蚂蚁这个问题 FontAwesome 与 Prime
如何在 HTTP 标头中设置 REMOTE_USER？

我的 Apache 设置有问题我安装了一个部分接受外部身份验证的 Web 应用程序我使用 Apache 来管理对我的应用程序网页的访问如果身份验证成功环境变量 REMOTE USER 将设置为用户名然后用户名通过 HTTP 标头
是否可以在请求中刷新会话？

我使用创建一个会话requests Session 由于某种原因服务器端关闭了此连接所以我必须重新连接问题是这个会话在很多地方都使用所以我想知道是否可以重建 TCP 连接但保留会话对象以便我仍然可以使用它 Example s r
Google javascript API 库 - 日历手表通知

我正在尝试使用 JS 客户端库订阅日历事件通知如下所示 gapi client load calendar v3 function var request gapi client calendar events watch calenda
代码契约[Type]实现接口方法{Interface.Method}，因此无法添加要求

我有以下场景 public interface ISomething void DoStuff public class Something ISomething private readonly ISomethingElse someth
ValueTypes会导致GC吗？

如果我有堆栈分配的值类型什么会清理它们 GC只是堆吧 If这些值位于堆栈上然后当当前堆栈帧被弹出通过返回的方法时这些值将被有效地清理不会调用任何终结器或类似的东西但内存会用完这些值将在下次堆栈达到那么高时重用请注意值类型
使用 PHP 上传到 S3 的 RequestTimeout

我在从我们的一台服务器上将文件上传到 S3 时遇到问题我们使用 S3 来存储备份所有服务器都运行 Ubuntu 8 04 PHP 5 2 4 和 libcurl 7 18 0 每当我尝试上传文件时亚马逊都会返回 RequestTime
查找近似重复和伪造的图像

我正在使用感知哈希技术来查找接近重复和完全重复的图像该代码非常适合查找完全相同的重复图像然而找到近似重复和略有修改的图像似乎很困难由于它们的哈希值之间的差异分数通常类似于完全不同的随机图像的哈希差异为了解决这个问题我尝试将几乎重

查找近似重复和伪造的图像

查找近似重复和伪造的图像 的相关文章

随机推荐

热门标签

查找近似重复和伪造的图像的相关文章