NiFi：ExtractText 中的正则表达式获取 CSV 标头而不是数据

2024-04-11

我正在开发一个获取 CSV 文件的流程。我想根据 CSV 记录中的第一个字段将记录放入不同的目录中。

例如，CSV 文件看起来像这样

country,firstname,lastname,ssn,mob_num
US,xxxx,xxxxx,xxxxx,xxxx
UK,xxxx,xxxxx,xxxxx,xxxx
US,xxxx,xxxxx,xxxxx,xxxx
JP,xxxx,xxxxx,xxxxx,xxxx
JP,xxxx,xxxxx,xxxxx,xxxx

我想获取第一个字段（即国家/地区）的字段值。将这些记录放入特定目录中。美国记录转到美国目录，英国记录转到英国目录，依此类推。

我现在的流程是：

GetFile---->SplitText（行分割计数 = 1 & 标题行计数 = 1） ---->ExtractText（行=（.+））---->PutFile（目录 = \tmp\data\${line:getDelimitedField(1)}）。我需要将头文件复制到所有拆分文件中以用于不同的目的。所以我需要他们。

问题是，传入的 CSV 文件被成功分割成多个带有标头的流文件。但是，我给出的正则表达式ExtractText处理器根据分割流文件的 CSV 标头而不是记录对其进行评估。因此，我总是在“线路”属性中输入“国家”，而不是“美国”或“英国”。所以所有文件都转到\tmp\data\country。帮我看看如何解决这个问题。

我相信 getDelimitedField 只能在单行上工作，并且可能不会超出分割文件中的换行符。

我主张采用稍微不同的方法，您可以更改 ExtractText 以通过正则表达式查找国家/地区代码，并避免需要将文件内容作为属性包含在内。

使用正则表达式^.*\n+(\w+)将捕获第一行和第一组单词字符（直到逗号）并将它们放置在您在捕获组 1 中指定的属性名称中（例如country.1）。

我创建了一个模板，应该可以获取您正在寻找的值https://github.com/apiri/nifi-review-collateral/blob/master/stackoverflow/42022249/Extract_Country_From_Splits.xml https://github.com/apiri/nifi-review-collateral/blob/master/stackoverflow/42022249/Extract_Country_From_Splits.xml

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

csv

apachenifi

NiFi：ExtractText 中的正则表达式获取 CSV 标头而不是数据的相关文章

在 shell 中将 ANSI 转换为 UTF-8

我正在制作一个解析器 1 csv 到 3 csv 脚本但遇到问题我是法国人所以用我的语言我有这样的字母一位客户向我发送了一个 csv 文件 Linux 将其识别为 unknown 8bit 我猜是 ansi 在我的脚本中我正在编写
如何以 DD/MM/YYYY 格式（而不是 DD/MM/YYYY HH:MM:SS）将日期输出到 CSV 文件中

非开发人员在这里尝试清除日期格式正在寻找对承包商创建的 C 代码的检查这是新代码用于将 JSON 对象转换为 CSV 格式承包商使用了Newtonsoft和Newtonsoft Linq 还使用了CSVhelper功能 string
将 .xls/.csv 文件中的数据读取到 iOS 中

我是 iOS 新手正在尝试将电子表格的内容读入 iOS 数组我使用的电子表格是一个简单的 3 x 2 数组第一列为数字第二列为文本我尝试在 xls xlsx cdv txt unicode 和分隔符但没有成功该文件称为资金
重新格式化 csv 文件

我有这个 csv 文件其中只有两个条目这里是 Meat One Abattoirs Exporters Food Delivery Butchers Retail Meat Dealers Retail Meat Freezer Mea
Apache NiFi ExecuteScript：通过映射文件替换 Json 值的 Groovy 脚本

我正在 Groovy 脚本上使用 Apache NiFi 0 5 1 以将传入的 Json 值替换为映射文件中包含的值映射文件如下所示它是一个简单的 txt Header1 Header2 Header3 A some text A2
用 Python 重复读取 CSV？

我正在尝试根据我已有的 csv 检查提取的数据的值它只会循环遍历 CSV 的行一次我只能检查 feed items 的一个值我需要在某处重置某个值吗有没有更好更有效的方法来做到这一点谢谢 orig csv reader open
使用 CSV 文件填充下拉列表 - d3

我想在 html 中填充简单的下拉列表使用 csv 文件中存在的值我尝试类似的方法但它不起作用
如何通过电子邮件发送保存的 CSV 文件或在 Android 中使用 Google Drive 上传？

我有一个简单的日志记录应用程序它将数据收集到三个数组列表中我想将其保存到 CSV 文件中然后共享到 Google Drive 电子邮件等这是我保存数据的方法 StringBuilder data new StringBuilder
difflib python 格式化

我使用此代码来查找两个 csv 列表之间的差异并提出一些格式问题这可能是一个简单的解决方法但我是新手正在尝试学习但遇到了很多问题 import difflib diff difflib ndiff open test1 csv rb
比较 2 个 csv 文件之间的列并使用 Python 写入差异

我试图通过比较 2 个 csv 文件之间的列来打印出差异 CSV1 SERVER FQDN IP ADDRESS serverA device1 com 10 10 10 1 serverA device2 com 10 11 11 1 s
将 CSV 文件导入 MySQL 数据库时出现无效的 UTF-8 字符串

我正在尝试使用以下代码将 CSV 导入我的 MySQL 数据库我从帖子中获取了 CSV 文件
如何删除除日期列之外所有行均为 NaN 的位置？

我正在尝试从 csv 文件中删除 NaN 值但我只想删除所有列均为空的行下面附有我要删除的行的图片文件链接 https filebin net ou93iqiinss02l0g https filebin net ou93iqiins
在闪亮的应用程序中选择文件夹或文件夹目录

我在使用闪亮时遇到问题我想选择保存我要在应用程序中使用的所有文件的文件夹方法是 1 将工作目录设置为该文件夹路径或 2 将此文件夹内的所有 csv 数据上传到我的应用程序以进行进一步处理 1 我找到了shinyFiles包但它非常非
在 JSON 转换为 CSV 期间保持 JSON 键的顺序

我正在使用此处提供的 JSON 库http www json org java index html http www json org java index html为了将 json 字符串转换为 CSV 但我遇到的问题是转换后键的顺序
如何确定 CSV 文件字段是制表符分隔还是逗号分隔？

我试图确定 CSV 文件字段是制表符分隔还是逗号分隔我需要 PHP 验证我怎样才能确定这一点现在回答这个问题已经太晚了但希望它能对某人有所帮助这是一个简单的函数它将返回文件的分隔符 function getFileDelimit
导入 csv 文件数据以填充 Prolog 知识库

我有一个 csv 文件example csv其中包含两列标题为 var1 和 var2 我想填充一个最初为空的 Prolog 知识库文件import pl具有重复的事实而每一行example csv处理方式相同 fact A1 A2 f
由于保存之前/之后的 CSV 差异而导致错误解析（Java w/ Apache Commons CSV）

我有一个 37 列的 CSV 文件我正在使用 Apache Commons CSV 1 2 在 Java 中解析该文件我的设置代码如下 initialize FileReader object FileReader fileReader
将 CSV 文件读入 Java 作为数据库表

我发现了很多关于使用 Java 读取 CSV 的帖子并且他们所指向的 API 在读取 CSV 文件时都采用了面向行的方法就像当你得到一行时获取每一列的值我希望有一个更高级别的 API 比如在 Perl 中 DBI 允许您在 CSV
Apache Nifi/Cassandra - 如何将 CSV 加载到 Cassandra 表中

我每天都会收到多次传入的各种 CSV 文件存储来自传感器的时间序列数据这些传感器是传感器站的一部分每个 CSV 均以其来源的传感器站和传感器 ID 命名例如 station1 sensor2 csv 目前数据存储如下 gt cat
CodedUI 测试不从 CSV 输入文件读取数据

我在使用编码 UI 测试方法映射 CSV 文件时遇到困难这很可能是一个愚蠢的问题但我似乎找不到解决我的问题的方法至少没有一个有效的方法我已确保将 CSV 文件的属性设置为始终复制我还通过在测试方法上方写入以下行来导入 CSV 文件

随机推荐

Symfony 2 加载自定义配置文件

我想在 Bundle Resources config 中添加一个新的配置文件我试过以下http symfony com doc current cookbook bundles extension html http symfony c
Swing 模式对话框有时会拒绝关闭！

This is supposed to show a modal dialog and then hide it again In practice this works about 75 of the time and the other
postgres 和 docker-compose：无法创建自定义角色和数据库

我正在尝试使用自定义用户和数据库创建一个简单的 postgreSQL 容器这是我的 docker compose 文件 version 2 services db postgres container name db postgres i
rvm 确定并安装最新版本的 ruby

到目前为止我只知道如何执行类似的命令 rvm 2 0 0 幸运的是谷歌告诉我当前的稳定版本是2 0 0 p247 但我不应该能够使用 rvm 为我执行该步骤吗我不知道如何告诉 rvm 安装最新版本的 ruby 而不手动指定它足以 rv
ios safari输入文字消失

我在 ios safari 中的输入遇到一个奇怪的问题如此处所示 https i stack imgur com ZHQSm png 输入是 Angular 应用程序的一部分并对 ng length 和 ng pattern 进行一些基本
uint32_t vs uint_fast32_t vs uint_least32_t

我在中看到了不同类型的整数定义stdint h 我将以无符号 32 位整数为例 uint32 t显然意味着 32 位无符号整数这是我经常使用的 uint fast32 t and uint least32 t 和有什么区别uint32 t
FormGroup 中的禁用控件（表单自定义表单控件的一部分）被父级中的 .getRawValue() 排除

拥有一个实现的组件ControlValueAccessor 与内部FormGroup维护自定义表单控件的状态当任何字段时这就是其中的一部分FormGroup被禁用调用时该字段不可见 getRawValue 父窗体中的方法按规格 ge
如何将此原始查询转换为活动记录查询接口或区域？

我想找到courses其中至少有 1variant with variant type 1 并且没有任何variant with variant type 2 所以我的查询如下 Course where id IN SELECT cours
如何检索 Neo4j 图形数据库中的关系

请耐心等待我对此很陌生我目前正在使用 Net neo4jClient 目前我有一个Share节点和一个Customer节点我正在建立一种关系客户拥有分享他们之间并坚持下去这是我的关系课程 public class CustomerO
OS X：如何使命令行脚本显示为帮助应用程序来处理 mailto？

当用户单击 mailto 链接时我尝试将 Emacs 配置为我的首选应用程序 Emacs 有这方面的设施 OS X 上的 emacs 23 mailto 链接和调用撰写邮件 https stackoverflow com question
在与标准“生产”或“开发”不同的数据库上使用 Rails Migration

我有一个正在运行的 Rails 项目它在 config database yml 中定义了标准生产开发和测试数据库连接另外我有一个 quiz development 和 quiz product 定义指向不同的主机数据库用户
从 JSON 字符串中删除空数组成员

我有一个 JSON 字符串如下所示我想以编程方式从中删除空数组对象以便我可以将其转换为DataTable 这是我的 JSON 的示例 result id 1 name Temp property id 2 name Temp2 pro
iOS 7 完成处理程序永远不会被调用

在以下代码中没有任何完成处理程序被执行我能找到的唯一解释是这样的使用 UIManagedDocument 的 Xcode 4 5 中的 iPhone Simulator 5 1 中的错误 https stackoverflow com
将WPF窗口背景设置为资源字典画笔用户设置

我在 ResourceDictionary 中声明了两个画笔我希望用户选择他们想要在主窗口上看到的背景资源词典画笔 x Key LightBlueMainWindow x Key DarkBlueMainWindow Window Ba
使用curl下载时如何跳过已经存在的文件？

我想要curl下载链接但我希望它跳过已经存在的文件现在无论如何我的代码行都会继续覆盖它 curl url o home outputfile gt dev null 如何实现这一目标您可以使用curl选项 C 此选项用于恢复中断的下
PDFsharp 与 MigraDoc 支持 HTML 语法吗？

PDFsharp 与 MigraDoc 支持 HTML 语法吗 a strong etc 如果是的话我该如何在文档中实现它不它不直接支持 HTML 您必须编写一段代码来读取 HTML 并使用 MigraDoc 或 PdfSharp 创
以最少的磁盘空间开销进行版本控制

我一直在考虑使用像 SVN 这样的版本控制系统作为我使用的几台 PC 之间的通用备份和同步工具这适用于各种数据包括 MP3 和翻录 DVD 大量数据 120GB 我的主要问题是 SVN 创建每个版本化文件的副本 svn目录虽然我可以看
如何使用List.fold_left？

我仍在尝试了解如何fold left完全有效它是否像这样迭代列表List iter 或者我的代码还有其他问题吗我认为 e 是列表中的元素所以它是一个元组并且fst e获取元组的第一个元素并且snd e获取元组中的第二个元素 let
如何将 JToken 转换为 string[]？

我正在尝试将 JObject 中的数组读取到 string 中但我不知道如何操作代码非常简单如下所示但不起作用失败并出现错误无法将 JToken 转换为 string JObject Items jsonSerializer De
NiFi：ExtractText 中的正则表达式获取 CSV 标头而不是数据

我正在开发一个获取 CSV 文件的流程我想根据 CSV 记录中的第一个字段将记录放入不同的目录中例如 CSV 文件看起来像这样 country firstname lastname ssn mob num US xxxx xxxxx x

NiFi：ExtractText 中的正则表达式获取 CSV 标头而不是数据

NiFi：ExtractText 中的正则表达式获取 CSV 标头而不是数据 的相关文章

随机推荐

热门标签

NiFi：ExtractText 中的正则表达式获取 CSV 标头而不是数据的相关文章