过滤字符串上的 Spark DataFrame 包含

2024-05-12

我在用火花1.3.0 http://spark.apache.org/releases/spark-release-1-3-0.html and 火花阿夫罗1.0.0 https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library。 我的工作地点是存储库页面上的示例 https://github.com/databricks/spark-avro。下面的代码运行良好

val df = sqlContext.read.avro("src/test/resources/episodes.avro")
df.filter("doctor > 5").write.avro("/tmp/output")

但如果我需要看看是否doctor字符串包含子字符串?因为我们将表达式写在字符串中。我该怎么做才能做到“包含”?


您可以使用contains(这适用于任意序列):

df.filter($"foo".contains("bar"))

like(SQL 就像 SQL 简单正则表达式一样_匹配任意字符并且%匹配任意序列):

df.filter($"foo".like("bar"))

or rlike(就像Java正则表达式 https://docs.oracle.com/javase/tutorial/essential/regex/):

df.filter($"foo".rlike("bar"))

根据您的要求。LIKE and RLIKE也应该与 SQL 表达式一起使用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

过滤字符串上的 Spark DataFrame 包含 的相关文章

  • Pyspark - 一次聚合数据帧的所有列[重复]

    这个问题在这里已经有答案了 我想将数据框分组到单个列上 然后对所有列应用聚合函数 例如 我有一个包含 10 列的 df 我希望对第一列 1 进行分组 然后对所有剩余列 均为数字 应用聚合函数 sum 与此等效的 R 是 summarise
  • 一般处理枚举的 Scala 类

    我想创建一个通用类来保存枚举的值 并且还允许访问枚举的可能值 以属性编辑器为例 您需要知道属性的当前值 并且还需要能够知道该属性的其他合法值 并且枚举的类型不应该提前知道 您应该能够使用任何类型的枚举 我的第一个想法是这样的 class E
  • 动态添加 pandas 数据框中的列

    我有以下代码来加载数据框 import pandas as pd ufo pd read csv csv path print ufo loc 0 1 2 给出以下输出 请参阅 csv 的结构 City Colors Reported Sh
  • Spark 和 Scala 中的文本操作

    这是我的数据 review text The product picture and part number match but they together do not math the description review text A
  • 是否有更快的方法根据条件更新数据框列值?

    我正在尝试处理数据框 这包括创建新列并根据其他列中的值更新其值 更具体地说 我有一个预定义的 源 我想对其进行分类 该来源可以分为三个不同的类别 source dtp source dtot 和 source cash 我想向数据框中添加三
  • 如何从 Spark 数据框中删除重复项,同时保留最新数据?

    我正在使用 Spark 从 Amazon S3 加载 json 文件 我想根据保留最新数据帧的两列删除重复项 我有时间戳列 最好的方法是什么 请注意 重复项可能分布在多个分区中 我可以在不打乱的情况下删除保留最后一条记录的重复项吗 我正在处
  • 使一个 sbt 配置依赖于另一个配置

    sbt 文档显示了如何仅在项目之间声明依赖关系的示例 但我确信有方法可以声明一个配置依赖于另一个配置 就像测试配置使用编译配置中的类路径一样 如何声明我自己的配置 以便它依赖于编译配置生成的类路径 我更仔细地研究了建议的解决方案 然后又出现
  • Scala 类型别名破坏了类型兼容性

    我始终相信 如有必要 类型别名总是会扩展为其原始类型 但是 这里有一个麻烦制造者 def a P a Option P type Res List P result type alias Nil Res Replace this line
  • 如何为每个用户或系统范围配置 Ivy 缓存目录?

    我在用SBT http www scala sbt org 作为我构建 Scala 项目的构建工具 我的问题是 我无法配置 SBT 将依赖项下载到我的用户主目录 因此 我正在寻找每个用户甚至更好的系统范围设置来告诉 SBT 将 Ivy 缓存
  • python pandas如何在多个条件下过滤字符串

    我有以下数据框 import pandas as pd data 5Star FiveStar five star fiv estar data pd DataFrame data columns columnName 当我尝试用一 种条件
  • 如何在 pySpark 数据框中添加行 ID [重复]

    这个问题在这里已经有答案了 我有一个 csv 文件 我在 pyspark 中将其转换为 DataFrame df 经过一番改造后 我想在 df 中添加一列 这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
  • 什么时候有2.13的sbt版本?

    我想开发一个sbt插件其依赖项仅适用于斯卡拉2 13 我发现https github com sbt sbt issues 5032 https github com sbt sbt issues 5032这个列表 SBT 0 x 仅在 S
  • 在 Traversable 视图上执行 FoldLeft 时,Scala 中出现类型方差错误

    我正在尝试连接一系列TraversableScala 中的视图使用foldLeft运算符并遇到我不明白的类型差异错误 我可以用reduce连接列表Traversable像这样的观点 val xs List 1 2 3 4 map Trave
  • 从多个 url 导入表以创建单个数据框和 csv 文件

    从多个 URL 导入表并希望创建单个数据框然后存储为 csv 文件 我正在努力从表格中删除重复的描述 并且无法操作数据框dfmaster创建后 Maybe pd read html是作为列表而不是数据框导入吗 我尝试迭代传入的表并使用 fo
  • 使用两列数据分割数据帧并对结果数据帧列表应用通用转换

    我想根据两列中的值将一个大数据帧拆分为一个数据帧列表 然后 我想对结果列表中的所有数据帧应用通用数据转换 滞后转换 我知道 split 命令 但只能让它一次处理一列数据 您需要将所有想要分割的因素放在一个列表中 例如 split mtcar
  • Scala 函数作为对象与类

    trait MyFunctionTrait extends Int Int gt Double class MyFunction1 extends MyFunctionTrait override def apply a Int b Int
  • 使用不同的阈值替换多列中的值

    我有一个包含多个列的数据集 其中包含我想要转换为二进制的定量数据 为此 我想使用每列不同的阈值 Example Input antigen1 antigen2 antigen3 antigen4 1 215 421 2 12 2 1524
  • 替换因子列中的

    我想更换
  • 如何根据值扩展数据框? [复制]

    这个问题在这里已经有答案了 我有以下输入数据框 df lt data frame x c a b c y c 4 5 6 from c 1 2 3 to c 2 4 6 df x y from to 1 a 4 1 2 2 b 5 2 4
  • 将 str.contains 映射到 pandas DataFrame

    python 初学者 我正在寻找创建字符串的字典映射以及关联的值 我有一个数据框 想要创建一个新列 如果字符串匹配 则会将该列标记为 x df pd DataFrame comp dell notebook dell notebook S3

随机推荐

  • 用 C 更快地读取文件

    嗯 我想知道是否有一种比使用 fscanf 更快地读取文件的方法 例如假设我有这个文本 4 55 k 52 o 24 l 523 i 首先 我想读取第一个数字 它给出了接下来的行数 令这个数称为N N 之后 我想读取 N 行 其中有一个整数
  • 为 Linux 安装 R 包时出错

    我试图在 R 3 3 上安装一个名为 rgeos 的包 但是当我输入 install packages rgeos 但它返回给我以下错误 其他包也会发生同样的情况 但不是所有包 gt installing source package rg
  • 在资源中找到未签名的条目....jar

    我正在使用 Netbeans 来编译和签署我的所有 jar 所有这些都使用相同的证书 但是 当我使用 Sun Java SE 6 运行 Webstart 时 出现错误 Found unsigned entry in resource jar
  • Java中定义类型后同时初始化多个变量?

    这里需要一些语法方面的帮助 我正在尝试在定义类型后重新初始化多个变量 例如 int bonus sales x y 50 这工作正常 但是我想稍后在程序中将不同的值放入其中一些变量中 但我收到语法错误 bonus 25 x 38 sales
  • 如何运行指定 node.js 版本 8 的 eb init?

    I run eb init并部署 我得到了node js版本6 如何在执行时指定我想要node js版本8eb init命令 这是一个有趣的问题 我很想知道是否有更简单的方法 但我是这样实现的 确定最新的SolutionStack名称如所列
  • 如何在 docker 容器中仅设置 python 2.7?

    我有节点应用程序 在一个用例中 我使用以下命令从节点调用 python 脚本python shell https www npmjs com package python shell 我正在尝试在 docker 上设置这个应用程序 我的 D
  • 错误 - AttributeError:“DirectoryIterator”对象在 keras 的自动编码器设计中没有属性“ndim”

    我是 Python 3 5 的新手 我正在尝试编写一个简单的自动编码器 它将在 60 张苹果图像的数据集上进行训练 并尝试重建根中给出的图像 我使用了以下代码 from keras layers import Input Dense fro
  • Swagger UI 下载 PDF

    我使用 swagger UI 2 1 3 作为 API 文档 在后端 我使用 spring webmvc 我有一个返回 pdf 文件的 API 如果我在浏览器中输入 URL 它就可以正常工作 它会弹出一个下载窗口 下载的文件也可以正常工作
  • Asp.Net Core 挑战返回 Null URI 异常错误

    我正在创建 ASP NET Core Web API 并希望集成 Microsoft Azure AD 身份验证服务 在编译时一切正常 但是 当我访问旨在返回挑战的路由时 我收到一个 null URI 异常 下面的 Stacktrace 我
  • Onclick 不会在 CardView 上触发

    我有一个OnClickListener on a CardView 仅当我点击内容之外的区域 TextViews ImageViews 时 侦听器才起作用 我的内部也有一个线性布局CardView 我希望当我点击屏幕上的任意位置时它就能工作
  • 在 while 循环之外使用变量(作用域)

    关于 PHP 范围的小问题 我似乎无法在 while 循环之外调用变量 report 我尝试过各种事情 包括return 这不起作用 这里唯一起作用的两个函数是如果我echo变量 report在循环内 或者如果我print它 我不想这样做
  • 在哈希图中存储字符和二进制数

    我正在尝试存储字母到二进制数的映射 这是我的映射 h 001 i 010 k 011 l 100 r 101 s 110 t 111 为此 我创建了一个哈希映射并存储了键值对 我现在想显示给定句子的相应二进制值 这是我的代码 package
  • JBoss AS 5 中的共享库应该放在哪里?

    我是 Jboss 新手 但我有多个 Web 应用程序 每个应用程序都使用 spring hibernate 和其他开源库和 portlet 所以基本上现在每个 war 文件都包含这些 jar 文件 如何将这些 jar 移动到一个公共位置 以
  • 两个日期/时间字段之间的差异 - Lotus Notes

    我有三个可编辑的日期 时间字段 前两个是 field1 和 field2 样式 日历 时间控件 两者都显示时间 小时和分钟 例如 15 51 第三个字段也是 可编辑的 我想显示 field1 和 field2 之间的区别 例如 如果 fie
  • Image.Save() 对 jpeg 文件使用什么质量级别?

    当我加载一个 jpg 文件并转身并以 100 的质量保存它时 我感到非常惊讶 而且大小几乎是原始文件的 4 倍 为了进一步调查 我在没有明确设置质量的情况下打开并保存 文件大小完全相同 我认为这是因为没有任何改变 所以它只是将完全相同的位写
  • 使用 R2010b 中的符号工具箱来求解和/或 linsolve

    我前几天问了一个问题here https stackoverflow com questions 20317038 matlab linear congruence solver that supports a non prime modu
  • 如何显示 NUL 分隔数据的中间管道结果?

    如何组合以下两个命令 find print0 grep z pattern tr 0 n find print0 grep z pattern xargs 0 my command 进入单个管道 如果我不需要 NUL 分隔符那么我可以这样做
  • Jinja:空主后备示例如何工作?

    来自 jinja 官方网站的示例代码 if not standalone extends master html endif block body p This is the page body p endblock 据我了解 当独立为真时
  • 添加选中的单选按钮的总数

    UPDATE 如果您尝试此链接上的表格http jsfiddle net Matt KP BwmzQ http jsfiddle net Matt KP BwmzQ 按下小提琴并选择右上角的 40 英镑单选按钮 然后在底部看到订单总额 上面
  • 过滤字符串上的 Spark DataFrame 包含

    我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro