Spark 如何使用图像格式读取我的图像？

2024-01-12

这可能是一个愚蠢的问题，但我无法弄清楚 Spark 如何使用spark.read.format("image").load(....)争论。

导入我的图像后，它给出以下内容：

>>> image_df.select("image.height","image.width","image.nChannels", "image.mode", "image.data").show()
+------+-----+---------+----+--------------------+
|height|width|nChannels|mode|                data|
+------+-----+---------+----+--------------------+
|   430|  470|        3|  16|[4D 55 4E 4C 54 4...|
+------+-----+---------+----+--------------------+

我得出的结论是：

我的图像是 430x470 像素，
我的图像是彩色的（RGB 由于 nChannels = 3），它是 openCV 兼容类型，
my image mode is 16 which corresponds to a particular openCV byte-order.
- 有人知道我可以浏览哪个网站/文档来了解更多信息吗？
the data in the data column is of type Binary but:
- 当我跑步时image_df.select("image.data").take(1)我得到的输出似乎只有一个数组（见下文）。

>>> image_df.select("image.data").take(1)

# **1/** Here are the last elements of the result
....<<One Eternity Later>>....x92\x89\x8a\x8d\x84\x86\x89\x80\x84\x87~'))]

# 2/ I got also several part of the result which looks like:
.....\x89\x80\x80\x83z|\x7fvz}tpsjqtkrulsvmsvmsvmrulrulrulqtkpsjnqhnqhmpgmpgmpgnqhnqhn
qhnqhnqhnqhnqhnqhmpgmpgmpgmpgmpgmpgmpgmpgnqhnqhnqhnqhnqhnqhnqhnqhknejmdilcilchkbh
kbilcilckneloflofmpgnqhorioripsjsvmsvmtwnvypx{ry|sz}t{~ux{ry|sy|sy|sy|sz}tz}tz}tz}
ty|sy|sy|sy|sz}t{~u|\x7fv|\x7fv}.....

接下来的内容与上面显示的结果相关。这些可能是由于我缺乏有关 openCV 的知识（或其他）。尽管如此：

1/我不明白这样一个事实：如果我得到 RGB 图像，我应该有 3 个矩阵，但输出完成.......\x84\x87~'))]。我更多地考虑获得类似的东西[(...),(...),(...\x87~')].
2/这部分有什么特殊含义吗？就像那些是每个矩阵之间的分隔符之类的？

为了更清楚地了解我想要实现的目标，我想处理图像以在每个图像之间进行像素比较。因此，我想知道图像中给定位置的像素值（我假设如果我有 RGB 图像，则给定位置应有 3 个像素值）。

示例：假设我有一个网络摄像头仅在白天指向天空，我想知道与左上角天空部分相对应的位置处的像素值，我发现这些值的串联给出了颜色浅蓝色上面说这张照片是在晴天拍摄的。假设唯一的可能性是晴天带有颜色Light Blue.
接下来，我想将之前的连接与完全相同位置但来自第二天拍摄的照片的像素值的另一个连接进行比较。如果我发现它们不相等，那么我就得出结论，给定的照片是在阴天/雨天拍摄的。如果相等则晴天。

任何有关这方面的帮助将不胜感激。为了更好地理解，我对我的示例进行了庸俗化，但我的目标几乎是相同的。我知道机器学习模型可以实现这些目标，但我很乐意先尝试一下。我的第一个目标是将这一列分成与每个颜色代码相对应的 3 列：红色矩阵、绿色矩阵、蓝色矩阵

我想我有逻辑。我使用 keras.preprocessing.image.img_to_array() 函数来了解值是如何分类的（因为我有一个 RGB 图像，所以我必须有 3 个矩阵：每个颜色 R G B 一个）。如果有人想知道它是如何工作的，我可能是错的，但我认为我有一些东西：

from keras.preprocessing import image
import numpy as np
from PIL import Image

# Using spark built-in data source
first_img = spark.read.format("image").schema(imageSchema).load(".....")
raw = first_img.select("image.data").take(1)[0][0]
np.shape(raw)
(606300,) # which is 470*430*3



# Using keras function
img = image.load_img(".../path/to/img")
yy = image.img_to_array(img)
>>> np.shape(yy)
(430, 470, 3) # the form is good but I have a problem of order since:

>>> raw[0], raw[1], raw[2]
(77, 85, 78)
>>> yy[0][0]
array([78., 85., 77.], dtype=float32)

# Therefore I used the numpy reshape function directly on raw 
# to have 470 matrix of 3 lines and 470 columns:

array = np.reshape(raw, (430,470,3))
xx = image.img_to_array(array)     # OPTIONAL and not used here

>>> array[0][0] == (raw[0],raw[1],raw[2])
array([ True,  True,  True])

>>> array[0][1] == (raw[3],raw[4],raw[5])
array([ True,  True,  True])

>>> array[0][2] == (raw[6],raw[7],raw[8])
array([ True,  True,  True])

>>> array[0][3] == (raw[9],raw[10],raw[11])
array([ True,  True,  True])

因此，如果我理解得很好，spark 会将图像读取为一个大数组 - (606300,) - 实际上每个元素都是有序的并且对应于它们各自的颜色阴影 (R G B)。
经过我的小变换后，我获得了 3 列 x 470 行的 430 矩阵。由于我的图像 (WidthxHeight) 为 (470x430)，因此每个矩阵对应于一个像素高度位置，并且每个矩阵内部：每种颜色 3 列，每个宽度位置 470 行。

希望对某人有帮助:)！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 如何使用图像格式读取我的图像？的相关文章

预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
像素到厘米？

我只是想知道像素单位是否是不变的以及我们是否可以从像素转换为厘米如同这个问题 https stackoverflow com questions 139655 how to convert pixels to points px to
如何使用 Python 裁剪图像中的矩形

谁能给我关于如何裁剪两个矩形框并保存它的建议我已经尝试过这段代码但效果不佳 import cv2 import numpy as np Run the code with the image name keep pressing spa
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
如何在 python 中读取 32 位 TIFF 图像？

我想用 python 读取 32 位浮点图像文件来进行一些图像分析我努力了 import matplotlib pyplot as plt im plt imread path to file tif 但是这仅将数据读取为 8 位整数值
最快的高斯模糊实现

如何以最快的速度实施高斯模糊 http en wikipedia org wiki Gaussian blur算法我要用Java来实现它所以GPU http en wikipedia org wiki Graphics processi
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
使用 ruby 调整动画 GIF 图像的大小？

我正在尝试将 GIF 图像调整为不同的尺寸我在 ruby 中使用 RMagick 库但对于某些 gif 图像即使我缩小 GIF 的大小文件大小似乎也会增加我正在以相同的纵横比调整图像图像的大小这是我的代码 require rma
如何在 C++ BOOST 中像图形一样加载 TIFF 图像

我想要加载一个 tiff 图像带有带有浮点值的像素的 GEOTIFF 例如 boost C 中的图形我是 C 的新手我的目标是使用从源 A 到目标 B 的双向 Dijkstra 来获得更高的性能 Boost GIL load tiif
照片马赛克算法。如何在给定基本图像和瓷砖列表的情况下创建马赛克照片？

Hy 我要做的是创建一个程序使用 C 或 C 它将 24 位像素位图和图像集合作为输入我必须创建一个马赛克图像类似于使用库的输入图像给定的图像创建与输入类似的马赛克照片到目前为止我可以访问输入的图像像素及其颜色但我有点卡住了
将嵌套字典键值转换为 pyspark 数据帧

我有一个 Pyspark 数据框如下所示我想提取 dic 列中的那些嵌套字典并将它们转换为 PySpark 数据帧像这样请让我知道如何实现这一目标 Thanks from pyspark sql import functions a
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row

随机推荐

为 property = "type.id" 选择什么 @JsonTypeInfo.ID 进行反序列化，JsonTypeInfo.Id.CUSTOM？

所以我的 JSON 看起来像这样 ActivityDisplayModel name lunch with friends startTime 12 00 00 type id MEAL description Meal complete
将标志传递给 Matlab 函数的最简洁方法是什么？

我正在设计一个函数它以一个结构和任意数量的标志作为参数该函数将包含几个if检查是否设置了特定标志实现这一目标的最巧妙方法是什么我正在考虑将标志作为单独的字符串参数传递有更简洁的解决方案吗我会像使用那样做varargin and
Spring Batch ChunkRequest 抛出 stackOverflow

我正在挣扎Spring Batch 远程分块使用较新版本的 Spring boot 首先我尝试将 ChunkRequest 作为事件发送这是不可能的因为它没有公共默认构造函数作为解决方案我必须创建自定义序列化器和反序列化器并在
Silverlight 4 中的 System.Data.DataTable？

有谁知道如果系统数据数据表Silverlight 4 beta 现在支持吗过去我在 ASP NET 和 WinForm 项目中使用它进行数据绑定其中 UI 和对象需要在运行时构建如果没有是否在路线图中不这不在 SL4 中
在 React TypeScript 中推断 2 个 props 之间的泛型类型

我相信这是可能的但我不太擅长 TS 中的高级输入还所以我想让 React 组件在一个 prop 中接受任何对象形状的数组然后在不同的事件函数 prop 中发出相同类型 interface Props data AnyGeneri
CGAffineTransform之后转换父/子UIView之间的坐标

在我开始手工做所有事情之前我想问一下框架是否可以提供一些帮助我有一个 UIView 其中包含另一个带有地图的 UIView 父 UIView 包含地图的一些图例最初我在地图视图中定义一些坐标例如 100 40 并在父视图中放置一块图
Javascript-获取悬停元素的背景颜色

我目前正在制作一个 google chrome 扩展并使用此 javascript 动态更改悬停元素的背景颜色 var bindEvent function elem evt cb see if the addEventListener
摄取附件需要更多权限

我有一个应用程序当我进行 apt 升级时它使用elasticsearch Configuring Elasticsearch gt removing ingest attachment gt Downloading ingest att
Flutter：如何流式传输由不带 mp3 扩展名的 http url 提供的实时音频

如何使用 flutter 流式传输由不带 mp3 扩展名的 http url 提供的实时音频它不是远程文件但是像网络广播这样的流媒体网址您可以使用包https pub dev packages url audio stream htt
Wi-Fi Direct UWP 超时（HRESULT 异常：0x800705B4）

我正在使用 UWP API 启动 Wi Fi Direct 接入点服务开始正常我在用着WiFiDirectConnectionListener使用以下命令监视连接到接入点的设备ConnectionRequested事件 var conn
如何为 aws gateway API 创建预签名 URL

我已经看到 S3 对象的预签名 URL 是否可以为 API 网关创建预签名 URL 我已经经历过文档 https docs aws amazon com general latest gr signing aws api requests
类和结构的使用[重复]

这个问题在这里已经有答案了可能的重复在 C 中什么时候应该使用类还是结构 https stackoverflow com questions 54585 when should you use a class vs a struct i
CSS 渐变内部渐变

是否可以使用渐变作为渐变内的颜色之一出于我的特定目的我有一个从左到右的初始渐变 linear gradient to right red darkgray 但我希望深灰色部分实际上是从上到下的渐变 linear gradient to
服务器端只进游标破坏@@IDENTITY

这是一个最小的重现示例数据库 CREATE TABLE temp x int IDENTITY 1 1 y int 代码使用VBA和ADO Public Sub repro Dim cn As New Connection Dim rs
请在服务器编辑器中将部署模式更改为分解存档

我正在尝试在 weblogic10 3 6 应用程序服务器中部署 EAR 我的 Ear 模块包含一个 Web 应用程序模块和一个 jar 模块当我将 Ear 部署到 weblogic 服务器时显示错误 D Workspace test
安装 Visual Studio 2013 后出现 Visual Studio 问题

我有 Windows 8 机器我的计算机上安装了 Visual Studio 2010 和 Visual Studio 2012 我安装了 Visual Studio 2013 预览版和 8 1 WDK 安装 Visual Studio
iOS7 Webview导航栏下初始滚动位置

我有一个网络视图它在导航栏下方根据需要滚动但是当我第一次加载控制器时 Web 视图中加载的页面会滚动以便它与导航栏的顶部对齐当我滚动网页视图时正确的插图出现在顶部以正确放置只是初始位置不正确如何使初始位置完全滚动到顶部包括
Terraform，如何在现有资源上运行配置程序？

我的问题与这个 github 帖子类似 https github com hashicorp terraform issues 745 https github com hashicorp terraform issues 745 这也与我
我可以检查指针是否由 malloc/calloc/realloc 分配吗？ [复制]

这个问题在这里已经有答案了我想知道是否可以检查传递给函数的指针是否由 malloc calloc realloc 分配 int main struct something o struct something a a malloc siz
Spark 如何使用图像格式读取我的图像？

这可能是一个愚蠢的问题但我无法弄清楚 Spark 如何使用spark read format image load 争论导入我的图像后它给出以下内容 gt gt gt image df select image height imag

Spark 如何使用图像格式读取我的图像？

Spark 如何使用图像格式读取我的图像？ 的相关文章

随机推荐

热门标签

Spark 如何使用图像格式读取我的图像？的相关文章