CSV 解析返回“未加引号的字段不允许 \r 或 \n”，但在源文件中找不到错误？

2024-04-22

我在 Rails 应用程序中使用 Ruby 中的内置 CSV 函数。我正在调用一个 URL（通过 HTTParty）来解析它，并尝试将结果保存到我的数据库中。

问题是，我收到错误Unquoted fields do not allow \r or \n这通常表明输入数据有问题，但在检查数据时，我找不到任何问题。

以下是我检索数据的方法：

response = HTTParty.get("http://" + "weather.com/ads.txt", limit: 100, follow_redirects: true, timeout: 10)

（此数据可在网址weather.com/ads.txt 上公开获取）

然后，我尝试解析数据，并应用一些正则表达式来忽略 a 之后的所有内容#，忽略空行等。

if response.code == 200 && !response.body.match(/<.*html>/) active_policies = []

CSV.parse(response.body, skip_blanks: true, skip_lines: /(^\s*#|^\s*$|^contact=|^CONTACT=|^subdomain=)/) do |row|
    begin
     #print out the individual ads.txt records 
     puts ""
     print row[0].downcase.strip + " " + row[1].strip + " " + 
     row[2].split("#").first.strip
            active_policies.push(
                publisher.policies.find_or_create_by(ad_partner: row[0].downcase.strip, external_seller_id: row[1].strip, seller_relationship: row[2].split("#").first.strip) do |policy|
                    policy.deactivated_at = nil
                end 
                )

                rescue => save
                #Add error event to the new sync status model
                puts "we are in the loop"
                puts save.message, row.inspect, save.backtrace
                    next
                end
                end
            #else
                #puts "Too many policies.  Skipping " + publisher.name
            #end
            #now we are going to run a check to see if we have any policies that are outdated, and if so, flag them as such.
            deactivated_policies = publisher.policies.where.not(id: active_policies.map(&:id)).where(deactivated_at: nil)
            deactivated_policies.update_all(deactivated_at: Time.now)
            deactivated_policies.each do |deactivated_policy|
                puts "Deactivating Policy for " + deactivated_policy.publisher.name
            end

         elsif response.code == 404 
            print 
            print response.code.to_s + " GET, "  + response.body.size.to_s + " body, "
            puts response.headers.size.to_s + " headers for " + publisher.name

         elsif response.code == 302
            print response.code.to_s + " GET, "  + publisher.name
         else 
            puts response.code.to_s +  " GET ads txt not found on " + publisher.name
         end

    publisher.update(last_scan: Time.now)

    rescue => ex
        puts ex.message, ex.backtrace, "error pulling #{publisher.name} ..." 
        #publisher.update_columns(active: "false")
    end
end`

我的一些想法/调查结果：

我尝试逐行查看此内容，并确定第 134 行是破坏扫描的原因。我通过手动检查来做到这一点，如下所示：CSV.parse(response.body.lines[140..400].join("\n"), skip_blanks: true, skip_lines: /(^\s*#|^\s*$|^contact=|^CONTACT=|^subdomain=)/)但这对我没有帮助，因为即使我将第 134 行识别为违规行，我也不知道如何检测或处理它。
1. 我注意到源文件（位于weather.com/ads.txt）有不寻常的字符，但甚至通过强制它为utf-8response.body.force_encoding("UTF-8")仍然抛出错误。
2. 我尝试添加next到救援块，所以即使它发现错误，它也会移动到 csv 中的下一行，但这不会发生 - 它只是出错并停止解析 - 所以我得到前 130~ 条目，但是不是剩下的。
3. 与页面类型类似，我不确定页面类型是 HTML 而不是文本文件是否会产生问题。

我很想知道如何检测和处理此错误，因此非常欢迎这里的任何想法！

以供参考，#PBS显然是源文件中给我带来麻烦的第 134 行，但我不知道我是否完全相信这就是问题所在。

#canada

google.com, pub-0942427266003794, DIRECT, f08c47fec0942fa0
indexexchange.com, 184315, DIRECT
indexexchange.com, 184601, DIRECT
indexexchange.com, 182960, DIRECT
openx.com, 539462051, DIRECT, 6a698e2ec38604c6

#spain

#PBS
google.com, pub-8750086020675820, DIRECT, f08c47fec0942fa0
google.com, pub-1072712229542583, DIRECT, f08c47fec0942fa0
appnexus.com, 3872, DIRECT
rubiconproject.com, 9778, DIRECT, 0bfd66d529a55807
openx.com, 539967419, DIRECT, 6a698e2ec38604c6
openx.com, 539726051, DIRECT, 6a698e2ec38604c6
google.com, pub-7442858011436823, DIRECT, f08c47fec0942fa0

该文本中存在不一致的行结尾，并且 CSV 解析器无法处理它们。一个非常快速的解决方法是删除所有\r字符：

response.body.gsub!("\r", '')

如果您好奇，查看错误字符的一种方法是使用以下代码，将每个字符的 Ruby 数组表示法写入文本文件：

response = HTTParty.get("http://" + "weather.com/ads.txt", limit: 100, follow_redirects: true, timeout: 10)
characters = response.chars.inspect
output = File.open( "outputfile.txt","w" )
output << characters
output.close

Open up outputfile.txt并搜索\r人物。我在行结尾处发现了其中的几个，尽管所有其他行都以\n alone.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

rubyonrails

ruby

csv

Parsing

errorhandling

CSV 解析返回“未加引号的字段不允许 \r 或 \n”，但在源文件中找不到错误？的相关文章

使用 Fetch 和 FormData API 上传多个文件

我正在尝试使用本机Fetch https developer mozilla org en US docs Web API Fetch API and FormData https developer mozilla org en US d
如何向 Time.now 添加两周？

如何在 Ruby 中向当前 Time now 添加两周我有一个使用 DataMapper 的小型 Sinatra 项目在保存之前我有一个字段填充了当前时间加上两周但未按需要工作任何帮助是极大的赞赏我收到以下错误 NoMethod
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
Watir 更改 Mozilla Firefox 首选项

我正在使用 Watir 运行 Ruby 脚本来自动执行一些操作我正在尝试自动将一些文件保存到某个目录因此在我的 Mozilla 设置中我将默认下载目录设置为桌面并选择自动保存文件然而当我开始运行脚本时这些更改并未反映出来似乎
在rails中，如何将记录作为csv文件返回

我有一个名为 Entries 的简单数据库表 class CreateEntries lt ActiveRecord Migration def self up create table entries do t t string firs
创建一个简单的 Rails 3 文本助手 Gem [重复]

这个问题在这里已经有答案了我一直在开发我的第一个 Rails 3 插件以打包一个我喜欢在ApplicationHelper我所有的应用程序你可以看到整个代码在 Github 上 https github com burlesona s
Ruby 枚举器中的“break”与“raise StopIteration”

如果我使用 Ruby Enumerators 来实现生成器和过滤器 generator Enumerator new do y x 0 loop do y lt lt x x 1 break if x gt CUTOFF end end l
批量插入不适用于 NULL 数据

当我从 CSV 文件将批量数据插入到表中时它不起作用显示错误第 2 行第 9 列的批量加载数据转换错误类型不匹配或指定代码页的字符无效 csv 文件中的第 9 列值为空我该如何处理这个问题根据这些信息我认为目标表的特定字段被定
Rails 3 + angularjs + 缩小在生产中不起作用：未知提供者：eProvider

我已遵循我能找到的所有修复缩小的说明例如 var MyController function renamed scope renamedGreeter MyController inject scope greeter and someM
无论如何要抓取重定向的链接吗？

无论如何我可以让 python 单击一个链接例如 bit ly 链接然后抓取生成的链接吗当我抓取某个页面时我唯一可以抓取的链接是重定向的链接它重定向到的位置就是我需要的信息所在的位置重定向有 3 种类型 HTTP 作为响应标头
如何从 Ruby 程序发送邮件？

我想从 Ruby 应用程序发送电子邮件核心语言中是否有调用来执行此操作或者是否有我应该使用的库最好的方法是什么如果你不想使用行动邮递员 http wiki rubyonrails org rails pages ActionMail
Rails 控制台无法运行

rbenv 红宝石版本 2 6 6 导轨版本 5 1 4 我正在较旧的代码库中工作 ruby 2 6 6 rails 5 4 1 这是我每天使用的代码库我必须通过 rbenv 下载一个新的 ruby 版本作为单独的存储库这样做在我的旧代
为什么我不能将左大括号放在下一行？

当我尝试编译以下代码时遇到奇怪的错误 package main import fmt fmt func main var arr 3 int for i 0 i lt 3 i fmt Printf d arr i 错误如下 unexpect
Rails 5.1 CORS - 如何为不同环境设置不同来源

我正在使用带有 Rail 5 1 API 的rack cors gem 根据文档我有以下初始化程序配置初始化器 cors rb module Api Rails application config middleware insert
Rails 3 在 Ruby 1.9.2 上初始化非常慢

我使用 RVM 来管理环境安装了 Ruby 1 9 2 p136 我认为是最新版本和 Rails 3 创建了 gemset 并运行捆绑器到目前为止一切正常但 Rails 在运行命令即生成销毁 rake 等时初始化速度非常慢完
Rails、REST 架构和 HTML 5：带有预检请求的跨域请求

在致力于使我们的网站 HTML 5 友好的项目时我们渴望采用跨域请求的新方法不再通过隐藏的 iframe 发布使用访问控制 http www w3 org TR access control 根据规范我们开始设置一些测试来验证各种浏
用于遇到 [...] 的 Haskell Parsec 解析器

我正在尝试使用 Parsec 在 Haskell 中编写一个解析器目前我有一个可以解析的程序 test x 1 2 3 end 执行此操作的代码如下 testParser do reserved test v lt identifier
多重要求和允许强参数rails 4

在下面的情况下我尝试使用强参数我想要求email address password并允许remember me fields 但像下面这样使用它只允许最后一行在方法示例中在下面的情况下它只需要params permit rememb
有一种简单的方法可以忽略时间戳来区分日志文件吗？

我需要比较两个日志文件但忽略每行的时间戳部分确切地说是前 12 个字符有没有一个好的工具或者一个聪明的 awk 命令可以帮助我根据您使用的 shell 您可以改变方法 Blair https stackoverflow com
Rails：named_scope、lambda 和块

我认为以下两个是等效的 named scope admin lambda company id conditions gt company id company id named scope admin lambda do company

随机推荐

JQuery 对话框在关闭时冻结

termSheetPrinted dialog autoOpen false resizable true height 800 width 950 position center title Term Sheet close functi
在 Spark SQL 中将结构转换为映射

我正在尝试转换一个数据集该数据集声明一列具有特定的struct类型例如struct
React 中的 Map 函数（错误：TypeError：e.map 不是函数）

我想从道具渲染项目我可以使用初始状态来完成但不能使用服务器的响应来完成我的渲染函数 const data this props return div data map item index gt div span item id sp
修复颠覆中犯下的错误

这似乎是人们可能想要用颠覆做的最基本的事情之一但我使用版本控制系统的时间并不长不知怎的我似乎无法弄清楚这一点而且我不知道在哪里svn文档看看基本上修订版 167 工作得很好但我犯了一个错误并将其提交为修订版 168 而且我不
无法在 mac osx 上的 QT 中创建新项目

过去几天我一直坚持这个问题我已经安装了 QT 4 8 并且也安装了库但是当我开始创建一个新项目时我只能选择使用 CMake 创建一个普通的 C 项目我没有使用自动 qmake 的选项我不知道为什么如果有人可以帮忙我们将不胜感激
Haskell 中的 Futamura 投影的证明

我读了 Dan Piponi 的优秀博客文章二村博士的三个投影 http blog sigfpe com 2009 05 three projections of doctor futamura html 在文章的最后他有一个附录其中包
使用实体管理器时，没有为该名称定义查询

我有以下实体 package com server models Entity Table name users NamedQueries NamedQuery name User QUERY FIND USER query SELECT
如何使用 PyQt5 在 QWidget 上设置 numpy 数组图像

我正在将相机中的图像作为 numpy 数组读取我的目标是将其放入 pyqt5 的 Qwidget 中并在我的 mainwindow gui 程序上打印但我收到以下错误 TypeError QPixmap argument 1 has u
Font Awesome 图标不能用作链接

我的字体很棒的图标没有链接到我在 a 标签上设置 href 的位置事实上当我检查它们时 a 标签上没有 href 我有一些演示代码供您查看但是在演示代码中它在检查时确实显示了 href 只是没有链接到页面也许如果修复了此代码它就
如何使用 SparkR 计算数据框每列的缺失值数量？

我正在处理一个 2 5 GB 的 csv 文件其中包含 110 万行和 1000 个似乎稀疏的数字列我目前在具有 8 GB RAM 的 1 核 VM 上执行 Spark 数据已分为 16 个分区我尝试了类似以下的方法但需要很长时间
如何将 PriorityQueue 恢复到方法调用之前的初始状态？

我正在做一道练习题这个问题基本上是你传入一个 PriorityQueue 和某个 k 并且你要返回该 PriorityQueue 中的第 k 个最小值您还可以将 PriorityQueue 恢复到其初始状态并可以使用一个堆栈或队列作为
如何将我的 C 代码与 PCRE 库链接？（当前抛出链接器错误。）

问题 Note 我最初在一个更大的项目中遇到了这个问题所以我将代码缩减为您在下面看到的测试用例我不知道如何编译以下测试代码具体来说链接器似乎无法找到 PCRE 库有关 PCRE 的配置方式请参阅下文尽管有明确的 L usr l
webview无法加载的问题

我对 webview 的体验很差它无法加载我请求的网页我无法加载谷歌或任何其他带有网络视图的页面我已经放入了xml
zsh 无法在 ~/bin 中找到或执行自定义用户脚本，尽管它们是可执行的并且位于 $PATH 环境变量中

Problem 我最近从 macOS Mojave 10 14 6 升级到 macOS Catalina 10 5 5 现在zsh是默认的 shell 我迁移了我的 bashrc to zshrc 别名工作正常 But for some u
pandas 数据框中的唯一字符串

我有以下示例数据框d由两列 col1 和 col2 组成我想找到整个 DataFrame d 的唯一名称列表 d col1 Pat Joseph Tony Hoffman Miriam Goodwin Roxanne Padilla Ju
for...of 循环。我应该使用 const 还是 let？

当使用 for of 循环时这两种情况都是允许的并且有效 const numbers 1 2 3 works for let number of numbers console log number also works for cons
未找到 Azure Flask 路由

我正在使用 Visual Studio 创建一个空白的 Flask 应用程序当我在本地运行该应用程序时我得到了预期的 hello world 当我发布到 Azure 应用服务时我得到了这个丑陋的蓝色主页这不是我制作的在我的项目中
Zend Framework：发布到不同的操作，如果验证失败并保留表单字段，则返回到原始操作

这听起来像是一个奇怪的场景但我在一页上有两个表格一个只是发回给自己我在另一个动作中发布了第二篇文章以保持代码简洁也许不是正确的选择我现在遇到的问题是如果第二个表单未验证我将重定向回包含该表单的页面但我不知道如何让表单字段填
datepicker 不是 bootstrap 4.1 中的函数

我正在研究一个domain http ferhan ferohost com 我想在其中单击搜索输入框时使日历可见我用来放置输入框的 HTML 代码是 div class dates div class start date div di
CSV 解析返回“未加引号的字段不允许 \r 或 \n”，但在源文件中找不到错误？

我在 Rails 应用程序中使用 Ruby 中的内置 CSV 函数我正在调用一个 URL 通过 HTTParty 来解析它并尝试将结果保存到我的数据库中问题是我收到错误Unquoted fields do not allow r o

CSV 解析返回“未加引号的字段不允许 \r 或 \n”，但在源文件中找不到错误？

CSV 解析返回“未加引号的字段不允许 \r 或 \n”，但在源文件中找不到错误？ 的相关文章

随机推荐

热门标签

CSV 解析返回“未加引号的字段不允许 \r 或 \n”，但在源文件中找不到错误？的相关文章