我有一个 txt 文件,我试图将其作为平面文件导入 SQL2008,如下所示:
“123456”,”some text”
“543210”,”some more text”
“111223”,”other text”
etc…
该文件有超过 300.000 行,文本很大(通常为 200-500 个字符),因此手动扫描文件非常耗时且容易出错。其他类似(甚至更复杂的文件)已成功导入。
这个问题的问题是,“某些行”在文本中包含引号...(这来自旧的 SuperBase DB 的导出,该数据库不允许您指定文本量词,除了清除它并尝试导入它)。
所以“有问题的”行看起来像这样:
“123456”,”this text “contains” a quote”
“543210”,”And the “above” text is bad”
etc…
你可以在这里看到问题。
现在,如果我可以使用可以使用正则表达式的文本编辑器执行搜索,300.000 并不算太多,我会手动删除每行中的引号。问题不在于违规行的数量,而在于无法通过简单的搜索找到它们。我确信少于 500 个,但是将它们分散在一个 300.000 行的 txt 文件中,你就知道我的意思了。
基于此,我可以用来识别这些行的最佳正则表达式是什么?
我的第一个想法是:告诉我哪个lines包含more than 4引号 (”)。
但我想不出任何办法(除了基础知识之外,我不擅长正则表达式)。