CSV文件简介及C++实现

2023-11-13

逗号分隔值(Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号)：其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列，不含必须象二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。

CSV文件格式的通用标准并不存在，但是在RFC 4180中有基础性的描述。使用的字符编码同样没有被指定，但是7-bit ASCII是最基本的通用编码。

CSV是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据，而这些程序本身是在不兼容的格式上进行操作的(往往是私有的和/或无规范的格式)。因为大量程序都支持某种CSV变体，至少是作为一种可选择的输入/输出格式。

“CSV”并不是一种单一的、定义明确的格式(尽管RFC 4180有一个被通常使用的定义)。因此在实践中，术语”CSV”泛指具有以下特征的任何文件：

(1)、纯文本，使用某个字符集，比如ASCII、Unicode、EBCDIC或GB2312(简体中文)等；

(2)、由记录组成(典型的是每行一条记录)；

(3)、每条记录被分隔符分隔为字段(典型分隔符有逗号、分号或制表符；有时分隔符可以包括可选的空格)；

(4)、每条记录都有同样的字段序列。

在这些常规的约束条件下，存在着许多CSV变体，故CSV文件并不完全互通。然而，这些变异非常小，并且有许多应用程序允许用户预览文件(这是可行的，因为它是纯文本)，然后指定分隔符、转义规则等。如果一个特定CSV文件的变异过大，超出了特定接收程序的支持范围，那么可行的做法往往是人工检查并编辑文件，或通过简单的程序来修复问题。因此在实践中，CSV文件还是非常方便的。

CSV格式最好被用来表现记录集合或序列，其中的每条记录都有完全相同的字段序列。CSV格式没有被限定于某个特定字符集。不管用Unicode还是用ASCII，都没有问题(尽管特定程序支持的CSV可能会有它们自己的局限性)。甚至从一个字符集翻译到另一个字符集，CSV文件都不会有问题(不象几乎所有的私有数据格式)。然而，CSV不提供任何途径来表明使用的是什么字符集。

“CSV”格式中大量变体的存在说明并没有一个”CSV标准”。在常见用法中，几乎任何定界符分隔的文本数据都可以被统称为”CSV”文件。不同的CSV格式可能不会兼容。

以上内容介绍主要来自：维基百科

以下code 是参考 https://stackoverflow.com/questions/1120140/how-can-i-read-and-parse-csv-files-in-c ，可以实现对简单csv文件的解析：

如果csv文件比较复杂，可以试试github上的一个开源库： https://github.com/ben-strasser/fast-cpp-csv-parser

parse_csv.hpp:

#ifndef FBC_CPPBASE_TEST_PARSE_CSV_HPP_
#define FBC_CPPBASE_TEST_PARSE_CSV_HPP_

// reference: https://stackoverflow.com/questions/1120140/how-can-i-read-and-parse-csv-files-in-c?page=1&tab=votes#tab-top

#include <iterator>
#include <iostream>
#include <fstream>
#include <sstream>
#include <vector>
#include <string>

class CSVRow {
public:
	std::string const& operator[](std::size_t index) const { return m_data[index]; }
	std::size_t size() const { return m_data.size(); }

	void readNextRow(std::istream& str)
	{
		std::string line;
		std::getline(str, line);

		std::stringstream lineStream(line);
		std::string cell;

		m_data.clear();
		while (std::getline(lineStream, cell, ',')) {
			m_data.push_back(cell);
		}
		// This checks for a trailing comma with no data after it.
		if (!lineStream && cell.empty()) {
			// If there was a trailing comma then add an empty element.
			m_data.push_back("");
		}
	}

private:
	std::vector<std::string>  m_data;
};

std::istream& operator>>(std::istream& str, CSVRow& data)
{
	data.readNextRow(str);
	return str;
}

class CSVIterator {
public:
	/*typedef std::input_iterator_tag iterator_category;
	typedef CSVRow value_type;
	typedef std::size_t difference_type;
	typedef CSVRow* pointer;
	typedef CSVRow& reference;*/

	CSVIterator(std::istream& str) :m_str(str.good() ? &str : nullptr) { ++(*this); }
	CSVIterator() :m_str(nullptr) {}

	// Pre Increment
	CSVIterator& operator++() { if (m_str) { if (!((*m_str) >> m_row)){ m_str = nullptr; } }return *this; }
	// Post increment
	CSVIterator operator++(int) { CSVIterator tmp(*this); ++(*this); return tmp; }
	CSVRow const& operator*() const { return m_row; }
	CSVRow const* operator->() const { return &m_row; }

	bool operator==(CSVIterator const& rhs) { return ((this == &rhs) || ((this->m_str == nullptr) && (rhs.m_str == nullptr))); }
	bool operator!=(CSVIterator const& rhs) { return !((*this) == rhs); }

private:
	std::istream* m_str;
	CSVRow m_row;
};

#endif // FBC_CPPBASE_TEST_PARSE_CSV_HPP_

test_parse_csv.cpp:

#include "test_parse_cvs.hpp"
#include <iostream>
#include <string>
#include <fstream>
#include <vector>
#include "parse_csv.hpp"

namespace parse_cvs_ {

int test_parse_cvs_1()
{
	std::ifstream file("E:/GitCode/Messy_Test/testdata/test_csv.csv");

	std::vector<std::vector<std::string>> data;
	CSVIterator loop(file);
	for (; loop != CSVIterator(); ++loop) {
		CSVRow row = *loop;
		std::vector<std::string> tmp(row.size());
		for (int i = 0; i < row.size(); ++i) {
			tmp[i] = row[i];
		}
		data.emplace_back(tmp);
	}

	for (int i = 0; i < data.size(); ++i) {
		for (int j = 0; j < data[i].size(); ++j) {
			fprintf(stdout, "%s\t", data[i][j].c_str());
		}
		fprintf(stdout, "\n");
	}

	return 0;
}

} // namespace parse_cvs_

test_csv.csv测试数据如下：

执行结果如下：

GitHub： https://github.com/fengbingchun/Messy_Test

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CSV文件简介及C++实现的相关文章

在 Shiny 的压缩文件夹中下载多个 csv 文件

有人可以指出我如何使这个下载 zip 功能在 server R 中工作吗当我运行这个时我收到以下错误 1 var folders 00 1dk1r000h01000cxqpysvccm005p87 T Rtmps3T6Ua write
LOAD DATA LOCAL INFILE 给出错误：此 MySQL 版本不允许使用命令

我有一个调用 MySQL 的 PHP 脚本LOAD DATA INFILE从 CSV 文件加载数据但是在生产服务器上我最终遇到了以下错误用户访问被拒绝使用密码是作为快速解决方法我将命令更改为LOAD DATA LOCAL I
当存在多个字段分隔符时使用 AWK 忽略字段内的逗号

我想像下面这样解析 CSV 记录awk or gawk 这些字段以逗号分隔但最后一个字段 6 很特殊因为它确实由子字段组成这些子字段由作为字段分隔符或者准确地说分隔这本身不是问题我可以使用awk F 设置替代字段分隔符但
在另一列中查找重复值时，如何将列数据存储为逗号分隔值？ [复制]

这个问题在这里已经有答案了如果任何公司的产品都相同我必须组合或内爆子数组值预期输出应该类似于 0 gt array company gt 1 6 product gt 5 我的数组是 array 0 gt array company
csv格式是常规语法还是上下文无关语法？

我目前正在编写一个 csv 解析器 csv 格式的定义由下式给出RFC4180 https www rfc editor org rfc rfc4180这是由 ABNF 定义的所以csv的定义绝对是上下文无关语法不过我想知道csv是否是
CSV、Python：正确使用 DictWriter（ValueError：dict 包含不在字段名中的字段）

我在掌握 csv 模块 Python 2 7 中的 DictWriter 时遇到困难我有这个哦我正在使用 unicodecsv 库因为我读到存在问题 f object instance return a dictionary key
可以写入 csv 文件但不能追加

string pathDesktop Environment GetFolderPath Environment SpecialFolder Desktop string filePath pathDesktop mycsvfile csv
在VBA中将字符串文本拆分为单独的行

我的 excel 或 csv 文件中有 2 个文本框如下所示文本框 1 包含 11111 22222 33333 文本框 2 包含 55555 11111 22222 33333 55555 我希望之间的文本位于 3 个不同的行上
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
批量插入不适用于 NULL 数据

当我从 CSV 文件将批量数据插入到表中时它不起作用显示错误第 2 行第 9 列的批量加载数据转换错误类型不匹配或指定代码页的字符无效 csv 文件中的第 9 列值为空我该如何处理这个问题根据这些信息我认为目标表的特定字段被定
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
SQL Server - 将行连接到逗号分隔的列表中

假设我有一个临时表如下所示 Id Value 1 1 1 2 1 3 2 1 2 2 我希望我的桌子是这样的 Id ValueList 1 1 2 3 2 1 2 所以基本上我需要将我的值分组为逗号分隔的列表我已经尝试过以下操作 SEL
如何使用 R 将每个文件的数据添加为附加行，从而将不同的 .csv 文件合并为一个完整的文件？

我有几个不同的文件夹它们都包含一个 csv 文件所有这些 csv 文件都有一个单独的列其中包含实验的一种条件的数据我想以将每个文件的数据添加为新列的方式合并这些 csv 文件目前它看起来像这样 C1 csv 102 106 15
将大型 CSV 加载到 Google BigQuery 时出错

将大型 CSV 加载到 bigquery 时出现错误我在网上阅读的所有地方都发现压缩文件有 5GB 大小限制但 CSV 没有限制加载操作中的 BigQuery 错误处理作业 bqjob r3016bbfad3037f 0000015
使用 dtypes read_csv 但列中没有值[重复]

这个问题在这里已经有答案了我使用以下代码来读取 csv 通过指定每个列的类型 clean pdf type pd read csv table updated csv usecols col names dtype col types 但
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
使用Python批量编辑csv文件

我需要编辑几个 csv 文件实际上大多数文件都很好只是最后第 41 列需要更改对于该列中特定字符串的每次出现我需要将其替换为不同的字符串具体来说每次出现的 S D 都需要替换为 S 我尝试使用 Python 来完成此操作但
如何将一行分成多行？

我有一个 CSV 文件看起来像这样 Column1 Column2 Column3 John Smith AA AH CA NI PB Reginald Higginsworth AA AH CA NI PB SN ZS 您会注意到其中有
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave

随机推荐

c语言程序延时参数500,C语言精确延时设计

我现在就用两种方法来实现一种是while 语句另一种是for 语句这两种语句均可产生汇编语句中的DJNZ语句以12MHZ晶振为例说明在编写C程序时变量尽量使用unsigned char 如满足不了才使用unsigned int
Spark学习笔记:OutOfMemoryError-Direct buffer memory (OOM)

之前也遇到过几次关于OOM 堆外内存溢出的问题但都只是大体上看了看没有细致的总结目前了解的还不是特别清楚只好总结一下我觉得可行的处理方案另外贴一些原理首先是当时的一些处理方案第一次OOM 第一次遇到这个问题时上网查发现很
磁盘格式化了怎么恢复里面文件

磁盘格式化了怎么恢复里面文件磁盘格式化了数据能恢复吗电脑磁盘是我们生活中经常打交道的一种存储介质我们的电脑每天在工作和学习中都要读写大量的数据因此我们经常要清理电脑磁盘保证电脑的运行速度和内存充足那么如果电脑磁盘被格式化了该怎么恢
yocto编译linux社区5.10版本的坎坷

作为菜鲲的我基于meta intel的bsp进行修改精简后的linux intel 5 10 bb内容如下 require recipes kernel linux linux yocto inc FILESEXTRAPATHS pre
add_subdirectory(子文件夹名)用法

add subdirectory 子文件夹名表示对子文件夹项目进行cmake编译
redis命令之哈希表类型hdel命令用法详情

哈希表 HDEL命令命令 hdel key field field field 同时删除N个field 对于不存在的field会被忽略并返回被删除的field的个数当在该key下的最后一个field也被删除掉的话再通过hget ke
设计模式(2)之单例模式

外链图片转存失败源站可能有防盗链机制建议将图片保存下来直接上传 img AHenjiIs 1610326440502 https img shields io badge link 996 icu red svg 单例模式顾名思义就是
数据库表结构设计

数据库表结构设计一数据库二数据库类型三设计步骤四表设计本来最近不想写东西的奈何平台给推了个流量券一数据库简而言之就是存储数据的一个容器常见的数据库软件有MySQL Oracle SQL Server Postg
python的下载和安装步骤,python下载安装教程3.10.0

大家好给大家分享一下python下载安装教程3 10 0 很多人还不知道这一点下面详细解释一下现在让我们来看看第一步下载Python安装包在Python的官网 www python org 中找到最新版本的Python安装包点
企业级springboot项目架构模板V2.0，开箱即用

此次 2 0 更新点 1 优化 Controller 接口入参 post 和 put 接口使用 json 格式入参 2 日志服务 quick log serve 增加查询操作日志列表接口 3 quick log serve 服务会记录需要鉴
Linux命令_lsof & 网络/文件监控

官方描述一个打开的文件可以是一个常规文件一个目录一个块特殊文件一个字符特殊文件一个执行文本引用一个库一个流或一个网络文件 Internet套接字 NFS文件或UNIX域套接字可以通过路径选择文件系统中的某个文件也可以选择文
Python数据可视化的例子——条形图（bar）

1 matplotlib模块应用matplotlib模块绘制条形图需要调用bar函数关于该函数的语法和参数含义如下 bar x height width 0 8 bottom None color None edgecolor Non
Axure RP 9软件安装步骤

1 官网下载软件第一步点击安装文件建议安装到D盘请记住具体安装位置后续汉化需要用到本人实际位置 D Program Files x86 Axure Axure RP 9 第二步激活打开软件中的激活第三步汉化复制汉化文件
discuz数据库密码修改

在源码config目录下找到这两个文件然后打开修改密码
[开发过程]＜软件设计＞UML建模初体验

0 引言前文提到UML的相关工具前文链接如下开发过程软件设计关于统一建模语言UML 崭蓝码农的博客 CSDN博客从某一个需求出发开发中有4个重点问题 1 业务逻辑 2 程序逻辑 3 各进程之间的关系 4 物理实现为了根据需求
【AI工具】一款多SOTA模型集成的高精度自动标注工具（直接安装使用，附源码）

目录高精度自动标注工具简介及其特性标注工具的安装开启自动标注简介 X AnyLabeling 是一款全新的交互式自动标注工具其基于AnyLabeling进行构建和二次开发在此基础上扩展并支持了许多的模型和功能并借助Segmen
java--基础--21.2--注解--案例

java 基础 21 2 注解案例 1 类注解可以在运行时获取类方法或字段的注解下面是获取类注解的示例 Class aClass TheClass class Annotation annotations aClass getAnn
jar包快速启动和远程监听

jar包快速启动制作bat文件设置窗口背景和字体颜色设置窗口大小设置启动内存大小设置依赖lib文件路径设置远程debug 制作bat文件 if root set root d root cd root jar bat color
STM32的12位ADC过采样实现16位分辨率

1 什么是过采样过采样技术是一种以牺牲采样速度来提高ADC分辨率的技术部分STM32单片机是支持硬件过采样的如STM32G0系列通过过采样可以将12位的ADC提升到16位非常实用根据过采样技术每提高1位ADC分辨率需要增加
CSV文件简介及C++实现

逗号分隔值 Comma Separated Values CSV 有时也称为字符分隔值因为分隔字符也可以不是逗号其文件以纯文本形式存储表格数据数字和文本纯文本意味着该文件是一个字符序列不含必须象二进制数字那样被解读的数据 CSV文

CSV文件简介及C++实现

CSV文件简介及C++实现 的相关文章

随机推荐

热门标签

CSV文件简介及C++实现的相关文章