从 csv 文件复制 cassandra 表

2024-03-29

我正在我的 Mac（带有 Oracle jdk1.7.0_55 的 Mac OS X Yosemite）上为 Cassandra、Apache Spark 和 Flume 设置演示环境。该景观应作为新分析平台的概念证明，因此我需要在我的 cassandra 数据库中提供一些测试数据。我正在使用卡桑德拉2.0.8。

我在 Excel 中创建了一些演示数据并将其导出为 CSV 文件。结构是这样的：

ProcessUUID;ProcessID;ProcessNumber;ProcessName;ProcessStartTime;ProcessStartTimeUUID;ProcessEndTime;ProcessEndTimeUUID;ProcessStatus;Orderer;VorgangsNummer;VehicleID;FIN;Reference;ReferenceType
0F0D1498-D149-4FCC-87C9-F12783FDF769;AbmeldungKl‰rfall;1;Abmeldung Kl‰rfall;2011-02-03 04:05+0000;;2011-02-17 04:05+0000;;Finished;SIXT;4278;A-XA 1;WAU2345CX67890876;KLA-BR4278;internal

然后，我使用以下命令在 cqlsh 中创建了一个键空间和一个列族：

CREATE KEYSPACE dadcargate 
WITH REPLICATAION  = { 'class' : 'SimpleStrategy', 'replication_factor' : '1' };

use dadcargate;

CREATE COLUMNFAMILY Process (
  ProcessUUID uuid, ProcessID varchar, ProcessNumber bigint, ProcessName varchar, 
  ProcessStartTime timestamp, ProcessStartTimeUUID timeuuid, ProcessEndTime timestamp, 
  ProcessEndTimeUUID timeuuid, ProcessStatus varchar, Orderer varchar,
  VorgangsNummer varchar, VehicleID varchar, FIN varchar, Reference varchar,
  ReferenceType varchar, 
PRIMARY KEY (ProcessUUID))
WITH COMMENT='A process is like a bracket around multiple process steps';

列族名称和其中的所有列都是用全小写创建的 - 有一天也必须对此进行调查，但目前并不那么相关。

现在，我获取 CSV 文件，其中包含大约 1600 个条目，并希望将其导入到名为process像这样：

cqlsh:dadcargate> COPY process (processuuid, processid, processnumber, processname, 
processstarttime, processendtime, processstatus, orderer, vorgangsnummer, vehicleid,
fin, reference, referencetype) 
FROM 'Process_BulkData.csv' WITH DELIMITER = ';' AND HEADER = TRUE;

它给出以下错误：

Record #0 (line 1) has the wrong number of fields (15 instead of 13).
0 rows imported in 0.050 seconds.

这基本上是正确的，因为我的 cvs-export 中没有 timeUUID 字段。

如果我在没有像这样的显式列名的情况下尝试 COPY 命令（事实上，我实际上确实错过了两个字段）：

cqlsh:dadcargate> COPY process from 'Process_BulkData.csv' 
WITH DELIMITER = ';' AND HEADER = TRUE;

我最终遇到了另一个错误：

Bad Request: Input length = 1
Aborting import at record #0 (line 1). Previously-inserted values still present.
0 rows imported in 0.009 seconds.

嗯。有点奇怪，但还好。也许 COPY 命令不喜欢缺少两个字段的事实。我仍然认为这很奇怪，因为缺失的字段当然存在（从结构的角度来看），但只是空的。

我还有另一个镜头：我删除了 excel 中丢失的列，再次将文件导出为 cvs 并尝试在我的 csv 中导入没有标题行但明确的列名称，如下所示：

cqlsh:dadcargate> COPY process (processuuid, processid, processnumber, processname, 
processstarttime, processendtime, processstatus, orderer, vorgangsnummer, vehicleid, 
fin, reference, referencetype) 
FROM 'Process_BulkData-2.csv' WITH DELIMITER = ';' AND HEADER = TRUE;

我收到此错误：

Bad Request: Input length = 1
Aborting import at record #0 (line 1). Previously-inserted values still present.
0 rows imported in 0.034 seconds.

谁能告诉我我在这里做错了什么？根据复制命令的文档 http://www.datastax.com/documentation/cql/3.0/cql/cql_reference/copy_r.html，我设置命令的方式，应该至少适用于其中两个。或者说我是这么认为的。

但是不，我显然在这里遗漏了一些重要的东西。

cqlsh's COPY命令可能很敏感。然而，在COPY文档 http://www.datastax.com/documentation/cql/3.1/cql/cql_reference/copy_r.html是这一行：

CSV 输入中的列数与 Cassandra 表元数据中的列数相同。

记住这一点，我确实设法让您的数据通过COPY FROM，通过命名空字段（processstarttimeuuid and processendtimeuuid，分别）：

aploetz@cqlsh:stackoverflow> COPY process (processuuid, processid, processnumber, 
processname, processstarttime, processstarttimeuuid, processendtime, 
processendtimeuuid, processstatus, orderer, vorgangsnummer, vehicleid, fin, reference, 
referencetype) FROM 'Process_BulkData.csv' WITH DELIMITER = ';' AND HEADER = TRUE;

1 rows imported in 0.018 seconds.
aploetz@cqlsh:stackoverflow> SELECT * FROM process ;

 processuuid                          | fin               | orderer | processendtime            | processendtimeuuid | processid         | processname        | processnumber | processstarttime          | processstarttimeuuid | processstatus | reference  | referencetype | vehicleid | vorgangsnummer
--------------------------------------+-------------------+---------+---------------------------+--------------------+-------------------+--------------------+---------------+---------------------------+----------------------+---------------+------------+---------------+-----------+----------------
 0f0d1498-d149-4fcc-87c9-f12783fdf769 | WAU2345CX67890876 |    SIXT | 2011-02-16 22:05:00+-0600 |               null | AbmeldungKl‰rfall | Abmeldung Kl‰rfall |             1 | 2011-02-02 22:05:00+-0600 |                 null |      Finished | KLA-BR4278 |      internal |    A-XA 1 |           4278

(1 rows)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 csv 文件复制 cassandra 表的相关文章

如何以 Express 方式传输响应？

我一直在尝试让一个快速应用程序以流形式发送响应 var Readable require stream Readable var rs Readable app get report function req res res statusC
CSV 损坏，如何修复？

我正在尝试解析 CSV 我想将它放入数据库或只是用 JavaScript 解析它但由于语法损坏任何一种方法都会失败我的整个 CSV 文件在这里 https gist github com 1023560 https gist gith
Objective-C 复制视图

所以我在这里有一个简短的问题我有一个视图控制器对象的实例让我们调用它viewCon1 并且它上面放置了几个子视图每个子视图都具有独特的属性让我们称呼他们吧sub1 sub2 and sub3 现在我以编程方式添加每个子视图执行以
读取 CSV 文件单列的更快方法

我正在尝试阅读一个列CSV文件至R尽快我希望将标准方法将列放入 RAM 所需的时间减少 10 倍我的动机是什么我有两个文件一个叫Main csv这是 300000 行和 500 列其中一个称为Second csv即 300000
TaskSchedulerImpl：初始作业尚未接受任何资源；

这就是我正在尝试做的事情我创建了DataStax企业集群的两个节点在其上创建了一个java程序来获取一张表 Cassandra数据库表的计数该程序是在 eclipse 中构建的实际上是来自 windows 盒子从 Windows
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
Python-从Excel文件读取时间时未获得正确的日期时间

我有一个 Excel 文件其中有 3 列作为日期时间或日期或时间字段我正在通过阅读它xlrd包裹我有时间milliseconds我想当我尝试将其转换回日期时间时我得到了错误的结果我尝试将文件转换为csv以及这也没有帮助我得到了我
在 JSON 转换为 CSV 期间保持 JSON 键的顺序

我正在使用此处提供的 JSON 库http www json org java index html http www json org java index html为了将 json 字符串转换为 CSV 但我遇到的问题是转换后键的顺序
在 Shiny 的压缩文件夹中下载多个 csv 文件

有人可以指出我如何使这个下载 zip 功能在 server R 中工作吗当我运行这个时我收到以下错误 1 var folders 00 1dk1r000h01000cxqpysvccm005p87 T Rtmps3T6Ua write
LOAD DATA LOCAL INFILE 给出错误：此 MySQL 版本不允许使用命令

我有一个调用 MySQL 的 PHP 脚本LOAD DATA INFILE从 CSV 文件加载数据但是在生产服务器上我最终遇到了以下错误用户访问被拒绝使用密码是作为快速解决方法我将命令更改为LOAD DATA LOCAL I
将 csv 写入谷歌云存储

我试图了解如何将多行 csv 文件写入谷歌云存储我只是没有遵循文档 https googlecloudplatform github io google cloud python stable storage blobs html hig
如何确定 CSV 文件字段是制表符分隔还是逗号分隔？

我试图确定 CSV 文件字段是制表符分隔还是逗号分隔我需要 PHP 验证我怎样才能确定这一点现在回答这个问题已经太晚了但希望它能对某人有所帮助这是一个简单的函数它将返回文件的分隔符 function getFileDelimit
Mac 监听事件：复制到粘贴板

我正在阅读 NSPasteboard 然后想找到我试图找到正确的通知方法来侦听数据复制到剪贴板的事件我还试图找到复制到剪贴板的数据的文件路径这将是一个粘贴板对象如果我从浏览器中的页面复制文本我会尝试找出如何获取复制文本的页面的 U
引起原因：com.datastax.driver.core.exceptions.InvalidQueryException：日期长度应为 8 或 0 字节 (13)

我正在尝试使用 spring data cassandra 插入数据但是当我的应用程序使用 Spring Boot 版本是 1 5 3 运行时我遇到了以下错误我在spring data中添加了一个实现CrudResposity的自定义
使用csv文件-PHP创建表到mysql时添加反引号

我有一个 php 代码它将使用 csv 文件创建一个到 mysql 数据库的表然而某些列标题没有被 mysql 读取 mysql 唯一一次读取查询是当我添加反引号您能帮助我在查询中的何处添加反引号吗这是我的代码 file C Us
如何使用 javascript 从 UUID v1 (TimeUUID) 中提取时间戳？

我使用 Cassandra DB 和 Nodejs 的 Helenus 模块来操作它我有一些包含 TimeUUID 列的行如何在javascript中从TimeUUID获取时间戳这个库 UUID 至今 https github com
无法使用 OpsCenter 5.2.1 备份到 S3

我将 OpsCenter 从 5 1 3 升级到 5 2 0 然后升级到 5 2 1 我在升级之前配置了到本地服务器的计划备份和 S3 位置这与 OpsCenter 5 1 3 配合良好在升级期间或升级之后我没有对计划备份进行任何更改
将数据从 Google Drive 中的 CSV 文件导入到 Google Sheet

我使用 SAS 每 24 小时生成两个 CSV 文件我使用 bat 脚本将生成的 CSV 文件保存在 Google Drive 的文件夹中 CSV 文件被替换因此文件夹中始终只有这两个文件 CSV 文件以分隔并且仅包含三列或四列我
Cassandra 和二级索引，它们内部如何工作？

Cassandra 二级索引内部如何运作文档指出它是某种哈希索引鉴于我有专栏username foobar 列用户名将是 CF 中的辅助索引 User with RandomOrderingPartitioner 我的假设是否正确 ca

随机推荐

MVC5 上的 ReactJS.Net 无法解决依赖关系

我正在尝试设置一个 ASP Net MV5 应用程序来使用ReactJS Net http reactjs net 包括服务器端渲染和捆绑不幸的是它因以下异常而失败 React dll 中发生 React TinyIoC TinyIoC
通过另一个对象数组过滤对象数组

我想通过另一个对象数组过滤对象数组我有 2 个这样的对象数组 const array id 1 name a1 sub id 6 name a1 sub id 2 name a2 sub null id 3 name a3 sub id
传单自定义图标在缩放时调整大小。性能图标与 divicon

我试图在放大传单时调整自定义图标的大小我为此想出了两种解决方案一个使用L Icon标签另一个使用L divIcon 在这两个示例中为了便于阅读我仅设置了 1 个标记和组 Method 1 using L Icon 用标记进行分组
无法使用 jQuery.load 将外部页面加载到我页面的 div 中

我无法将外部 html 页面加载到我页面的 div 中我的 Jquery 代码是 document ready function var url http www google com get url function response
Pandas：根据更复杂的标准选择和修改数据框

我在看this https stackoverflow com questions 38802675 create bool mask from filter results in pandas and this https stackov
如何更改默认的 Google Cloud 用户名？

我是 Google Cloud Platform GCP 的新手我尝试创建一个新的虚拟机但默认用户名很烦人比如说我的 Gmail 是电子邮件受保护 cdn cgi l email protection 用户名将为 example
Recyclerview水平扑克牌效果

我正在尝试制作简单的纸牌游戏我需要展示桌子上的一副纸牌水平地用户可以通过单击选择任意数量的卡片理想情况下当使用单击任何卡时卡应比其他卡稍微抬高一点另外卡片不是完全可见的它们是部分可见的例如this https d2gg9evh
PHP 计数数组中的值

我有这样的代码 span Mali Oglasi span p p 如何计算数组内的特定值例如我想计算有多少结果i
递归赋值

def swap aList if len aList 0 return 0 elif len aList 1 print aList 0 return aList 0 return aList 0 swap aList 2 aList a
创建并使用 Babel 插件而不将其设为 npm 模块

在我的项目中我使用带有 require 钩子的 Babel 6 我需要加载我编写的自定义 babel 插件但是我真的需要先使用 npm 发布我的插件然后将插件名称包含在我的主项目中吗 babelrc 有没有办法直接加载插件代码换句话
将SQL Server 2005查询结果导出到SQL INSERT语句？

SQL Server 2005 中有没有一种简单的方法可以将查询结果导出到 SQL INSERT 语句我正在考虑如何使用数据库资源管理器将现有存储过程编写到新查询窗口中我们希望将一些数据从开发数据库转移到生产数据库我了解链接服务器但
Maven 构建错误 - 无法执行目标 org.apache.maven.plugins:maven- assembly-plugin:2.5.5

我正在尝试使用 Maven 构建项目不幸的是我没有使用maven的经验所以我有点无助这很可能是由 riak 子模块引起的这是带有代码的 github 存储库 YCSB https github com LordFazole YCSB
如何将网格设置为 Items 控件的模板？

我正在尝试创建一个ItemsControl使用网格作为其ItemsPanel以这样的方式它有两列其中第一列宽度是该列中最宽项目的宽度并且具有显示所有项目所需的尽可能多的行基本上我想要以下内容但不知何故在一个ItemsContro
使用 Rails 更新附加到 Postgresql 中的文本列

预先感谢您对此提供的任何帮助我有一个 Rails 模型其中包含 postgresql 文本列我想追加即mycolumn mycolumn newdata 数据添加到现有列我想要生成的 sql 如下所示 update MyOjbs
Akka 2：如何暂停消息处理？

在我使用 Akka 掌握 Actor 模型的过程中出现了很多问题这是另一张假设我们有一个 Actor 由于某些业务逻辑或可用资源它必须在给定时间内停止处理消息可能发生这种情况的情况可能是节流可能有一个发送电子邮件的 Actor
gcc 可以配置为不打印警告/错误消息中的完整路径吗？

当 gcc 打印出警告或错误时它会显示包含错误的文件的完整路径是否有一个标志可以将输出缩短为仅文件名这仅取决于您如何调用 gcc tmp c gcc Wall bad c bad c 1 warning return type def
如何在 BigQuery 中通过每个用户的线性插值来填充不规则缺失的时间序列值？

我有丢失的数据时间序列价值观不规律对于每个用户我想使用 BigQuery 标准 SQL 通过线性插值以一定的间隔对其进行转换 name time value Jane 2020 11 14 09 01 00 3 Jane 2020 11
Django 无法加载模板标签

我创建了一个templatetags我的应用程序内的文件夹和名为的文件内posts py 我写了以下代码 from django template import Library Node from advancedviews models
如何检查 Jetpack Compose 中列表项的可见性

FlatList of React Native有财产viewabilityConfigCallbackPairs您可以在其中设置 viewabilityConfig itemVisiblePercentThreshold 50 waitF
从 csv 文件复制 cassandra 表

我正在我的 Mac 带有 Oracle jdk1 7 0 55 的 Mac OS X Yosemite 上为 Cassandra Apache Spark 和 Flume 设置演示环境该景观应作为新分析平台的概念证明因此我需要在我的 c

从 csv 文件复制 cassandra 表

从 csv 文件复制 cassandra 表 的相关文章

随机推荐

热门标签

从 csv 文件复制 cassandra 表的相关文章