过滤字符串上的 Spark DataFrame 包含

2024-05-12

我在用火花1.3.0 http://spark.apache.org/releases/spark-release-1-3-0.html and 火花阿夫罗1.0.0 https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library。我的工作地点是存储库页面上的示例 https://github.com/databricks/spark-avro。下面的代码运行良好

val df = sqlContext.read.avro("src/test/resources/episodes.avro")
df.filter("doctor > 5").write.avro("/tmp/output")

但如果我需要看看是否doctor字符串包含子字符串？因为我们将表达式写在字符串中。我该怎么做才能做到“包含”？

您可以使用contains（这适用于任意序列）：

df.filter($"foo".contains("bar"))

like（SQL 就像 SQL 简单正则表达式一样_匹配任意字符并且%匹配任意序列）：

df.filter($"foo".like("bar"))

or rlike（就像Java正则表达式 https://docs.oracle.com/javase/tutorial/essential/regex/):

df.filter($"foo".rlike("bar"))

根据您的要求。LIKE and RLIKE也应该与 SQL 表达式一起使用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

apachesparksql

过滤字符串上的 Spark DataFrame 包含的相关文章

Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise
一般处理枚举的 Scala 类

我想创建一个通用类来保存枚举的值并且还允许访问枚举的可能值以属性编辑器为例您需要知道属性的当前值并且还需要能够知道该属性的其他合法值并且枚举的类型不应该提前知道您应该能够使用任何类型的枚举我的第一个想法是这样的 class E
动态添加 pandas 数据框中的列

我有以下代码来加载数据框 import pandas as pd ufo pd read csv csv path print ufo loc 0 1 2 给出以下输出请参阅 csv 的结构 City Colors Reported Sh
Spark 和 Scala 中的文本操作

这是我的数据 review text The product picture and part number match but they together do not math the description review text A
是否有更快的方法根据条件更新数据框列值？

我正在尝试处理数据框这包括创建新列并根据其他列中的值更新其值更具体地说我有一个预定义的源我想对其进行分类该来源可以分为三个不同的类别 source dtp source dtot 和 source cash 我想向数据框中添加三
如何从 Spark 数据框中删除重复项，同时保留最新数据？

我正在使用 Spark 从 Amazon S3 加载 json 文件我想根据保留最新数据帧的两列删除重复项我有时间戳列最好的方法是什么请注意重复项可能分布在多个分区中我可以在不打乱的情况下删除保留最后一条记录的重复项吗我正在处
使一个 sbt 配置依赖于另一个配置

sbt 文档显示了如何仅在项目之间声明依赖关系的示例但我确信有方法可以声明一个配置依赖于另一个配置就像测试配置使用编译配置中的类路径一样如何声明我自己的配置以便它依赖于编译配置生成的类路径我更仔细地研究了建议的解决方案然后又出现
Scala 类型别名破坏了类型兼容性

我始终相信如有必要类型别名总是会扩展为其原始类型但是这里有一个麻烦制造者 def a P a Option P type Res List P result type alias Nil Res Replace this line
如何为每个用户或系统范围配置 Ivy 缓存目录？

我在用SBT http www scala sbt org 作为我构建 Scala 项目的构建工具我的问题是我无法配置 SBT 将依赖项下载到我的用户主目录因此我正在寻找每个用户甚至更好的系统范围设置来告诉 SBT 将 Ivy 缓存
python pandas如何在多个条件下过滤字符串

我有以下数据框 import pandas as pd data 5Star FiveStar five star fiv estar data pd DataFrame data columns columnName 当我尝试用一种条件
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
什么时候有2.13的sbt版本？

我想开发一个sbt插件其依赖项仅适用于斯卡拉2 13 我发现https github com sbt sbt issues 5032 https github com sbt sbt issues 5032这个列表 SBT 0 x 仅在 S
在 Traversable 视图上执行 FoldLeft 时，Scala 中出现类型方差错误

我正在尝试连接一系列TraversableScala 中的视图使用foldLeft运算符并遇到我不明白的类型差异错误我可以用reduce连接列表Traversable像这样的观点 val xs List 1 2 3 4 map Trave
从多个 url 导入表以创建单个数据框和 csv 文件

从多个 URL 导入表并希望创建单个数据框然后存储为 csv 文件我正在努力从表格中删除重复的描述并且无法操作数据框dfmaster创建后 Maybe pd read html是作为列表而不是数据框导入吗我尝试迭代传入的表并使用 fo
使用两列数据分割数据帧并对结果数据帧列表应用通用转换

我想根据两列中的值将一个大数据帧拆分为一个数据帧列表然后我想对结果列表中的所有数据帧应用通用数据转换滞后转换我知道 split 命令但只能让它一次处理一列数据您需要将所有想要分割的因素放在一个列表中例如 split mtcar
Scala 函数作为对象与类

trait MyFunctionTrait extends Int Int gt Double class MyFunction1 extends MyFunctionTrait override def apply a Int b Int
使用不同的阈值替换多列中的值

我有一个包含多个列的数据集其中包含我想要转换为二进制的定量数据为此我想使用每列不同的阈值 Example Input antigen1 antigen2 antigen3 antigen4 1 215 421 2 12 2 1524
替换因子列中的

我想更换
如何根据值扩展数据框？ [复制]

这个问题在这里已经有答案了我有以下输入数据框 df lt data frame x c a b c y c 4 5 6 from c 1 2 3 to c 2 4 6 df x y from to 1 a 4 1 2 2 b 5 2 4
将 str.contains 映射到 pandas DataFrame

python 初学者我正在寻找创建字符串的字典映射以及关联的值我有一个数据框想要创建一个新列如果字符串匹配则会将该列标记为 x df pd DataFrame comp dell notebook dell notebook S3

随机推荐

用 C 更快地读取文件

嗯我想知道是否有一种比使用 fscanf 更快地读取文件的方法例如假设我有这个文本 4 55 k 52 o 24 l 523 i 首先我想读取第一个数字它给出了接下来的行数令这个数称为N N 之后我想读取 N 行其中有一个整数
为 Linux 安装 R 包时出错

我试图在 R 3 3 上安装一个名为 rgeos 的包但是当我输入 install packages rgeos 但它返回给我以下错误其他包也会发生同样的情况但不是所有包 gt installing source package rg
在资源中找到未签名的条目....jar

我正在使用 Netbeans 来编译和签署我的所有 jar 所有这些都使用相同的证书但是当我使用 Sun Java SE 6 运行 Webstart 时出现错误 Found unsigned entry in resource jar
Java中定义类型后同时初始化多个变量？

这里需要一些语法方面的帮助我正在尝试在定义类型后重新初始化多个变量例如 int bonus sales x y 50 这工作正常但是我想稍后在程序中将不同的值放入其中一些变量中但我收到语法错误 bonus 25 x 38 sales
如何运行指定 node.js 版本 8 的 eb init？

I run eb init并部署我得到了node js版本6 如何在执行时指定我想要node js版本8eb init命令这是一个有趣的问题我很想知道是否有更简单的方法但我是这样实现的确定最新的SolutionStack名称如所列
如何在 docker 容器中仅设置 python 2.7？

我有节点应用程序在一个用例中我使用以下命令从节点调用 python 脚本python shell https www npmjs com package python shell 我正在尝试在 docker 上设置这个应用程序我的 D
错误 - AttributeError：“DirectoryIterator”对象在 keras 的自动编码器设计中没有属性“ndim”

我是 Python 3 5 的新手我正在尝试编写一个简单的自动编码器它将在 60 张苹果图像的数据集上进行训练并尝试重建根中给出的图像我使用了以下代码 from keras layers import Input Dense fro
Swagger UI 下载 PDF

我使用 swagger UI 2 1 3 作为 API 文档在后端我使用 spring webmvc 我有一个返回 pdf 文件的 API 如果我在浏览器中输入 URL 它就可以正常工作它会弹出一个下载窗口下载的文件也可以正常工作
Asp.Net Core 挑战返回 Null URI 异常错误

我正在创建 ASP NET Core Web API 并希望集成 Microsoft Azure AD 身份验证服务在编译时一切正常但是当我访问旨在返回挑战的路由时我收到一个 null URI 异常下面的 Stacktrace 我
Onclick 不会在 CardView 上触发

我有一个OnClickListener on a CardView 仅当我点击内容之外的区域 TextViews ImageViews 时侦听器才起作用我的内部也有一个线性布局CardView 我希望当我点击屏幕上的任意位置时它就能工作
在 while 循环之外使用变量（作用域）

关于 PHP 范围的小问题我似乎无法在 while 循环之外调用变量 report 我尝试过各种事情包括return 这不起作用这里唯一起作用的两个函数是如果我echo变量 report在循环内或者如果我print它我不想这样做
在哈希图中存储字符和二进制数

我正在尝试存储字母到二进制数的映射这是我的映射 h 001 i 010 k 011 l 100 r 101 s 110 t 111 为此我创建了一个哈希映射并存储了键值对我现在想显示给定句子的相应二进制值这是我的代码 package
JBoss AS 5 中的共享库应该放在哪里？

我是 Jboss 新手但我有多个 Web 应用程序每个应用程序都使用 spring hibernate 和其他开源库和 portlet 所以基本上现在每个 war 文件都包含这些 jar 文件如何将这些 jar 移动到一个公共位置以
两个日期/时间字段之间的差异 - Lotus Notes

我有三个可编辑的日期时间字段前两个是 field1 和 field2 样式日历时间控件两者都显示时间小时和分钟例如 15 51 第三个字段也是可编辑的我想显示 field1 和 field2 之间的区别例如如果 fie
Image.Save() 对 jpeg 文件使用什么质量级别？

当我加载一个 jpg 文件并转身并以 100 的质量保存它时我感到非常惊讶而且大小几乎是原始文件的 4 倍为了进一步调查我在没有明确设置质量的情况下打开并保存文件大小完全相同我认为这是因为没有任何改变所以它只是将完全相同的位写
使用 R2010b 中的符号工具箱来求解和/或 linsolve

我前几天问了一个问题here https stackoverflow com questions 20317038 matlab linear congruence solver that supports a non prime modu
如何显示 NUL 分隔数据的中间管道结果？

如何组合以下两个命令 find print0 grep z pattern tr 0 n find print0 grep z pattern xargs 0 my command 进入单个管道如果我不需要 NUL 分隔符那么我可以这样做
Jinja：空主后备示例如何工作？

来自 jinja 官方网站的示例代码 if not standalone extends master html endif block body p This is the page body p endblock 据我了解当独立为真时
添加选中的单选按钮的总数

UPDATE 如果您尝试此链接上的表格http jsfiddle net Matt KP BwmzQ http jsfiddle net Matt KP BwmzQ 按下小提琴并选择右上角的 40 英镑单选按钮然后在底部看到订单总额上面
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro

过滤字符串上的 Spark DataFrame 包含

过滤字符串上的 Spark DataFrame 包含 的相关文章

随机推荐

热门标签

过滤字符串上的 Spark DataFrame 包含的相关文章