largedata

在关键服务器上对字符串进行内存受限的外部排序，并合并和计算重复项（数十亿个文件名）

我们的服务器生成如下文件 c521c143 2a23 42ef 89d1 557915e2323a sign xml在其日志文件夹中第一部分是GUID 第二部分是名称模板我想计算具有同名模板的文件的数量例如我们有 c521c143

c Algorithm Sorting Dictionary largedata

优化Python：大数组、内存问题

我在运行 python numypy 代码时遇到速度问题我不知道如何让它更快也许其他人假设有一个表面有两个三角剖分一个是细三角剖分 fine 有 M 个点一个是粗剖分有 N 个点此外还有每个点的粗网格数据 N 个浮点数我正

python Arrays performance NumPy largedata

多处理中的共享内存

我有三个大清单第一个包含位数组模块位数组 0 8 0 另外两个包含整数数组 l1 bitarray 1 bitarray 2 bitarray n l2 array 1 array 2 array n l3 array 1 array

python multiprocessing sharedmemory largedata

基于多列值的重复键的两个大型 Pandas DataFrame 的条件合并/连接 - Python

我来自 R 老实说这是使用 R data tables 在一行中完成的最简单的事情并且对于大型数据表来说该操作也相当快但是我真的很难用Python实现它前面提到的用例都不适合我的应用程序当前的主要问题是 Python 解决方案中

python pandas MERGE conditionalstatements largedata

在 PowerShell 中解析大型 JSON 文件

Context 在这篇文章中 ConvertFrom Json 大文件 https stackoverflow com q 76784490 268581 我询问有关反序列化 1 2GB JSON 文件的问题这个答案发布在那里 https

json PowerShell largedata

如何处理来自 S3 的大文件并在 Spring Batch 中使用它

我有一个 CSV 文件其中包含数百万条记录大小约为 2GB 我的用例是从 S3 读取 CSV 文件并对其进行处理请在下面找到我的代码在下面的代码中我从 S3 存储桶读取文件并使用inputStream直接在 Spring 批处理中

Java amazons3 SpringBatch largedata largefiles

计算大数据的分位数

我有大约 300 个文件每个文件包含 1000 个时间序列实现每个文件约 76 MB 我想计算全套 300000 个实现中每个时间步的分位数 0 05 0 50 0 95 我无法将 1 个文件中的实现合并在一起因为它会变得太大做到这

r quantile largedata

D3：如何显示大数据集

我有一个包含 10 5 个数据点的大型数据集现在我正在考虑以下与大数据集相关的问题有没有有效的方法来可视化非常大的数据集就我而言我有一个用户集每个用户有 10 3 个项目总共有 10 5 项我想一次显示每个用户的所有项目以便

d3js largedata

使用 dask 合并大型数据集

我有两个数据集一个约为 45GB 包含 1 年的日常交易第二个数据集为 3 6GB 包含客户 ID 和详细信息我想将两者合并到一个公共列上以创建一个数据集这超出了服务器的内存因为每个客户可能有多个交易我正在开发一个具有 16 个

pandas Dask largedata

有效地广播具有多个变量的大型数据集

我在尝试着dcast大型数据集数百万行我有一行用于到达时间和出发地另一行用于出发时间和目的地有一个id识别这两种情况下的单位它看起来类似于 id time movement origin dest 1 10 06 2011 15

r reshape2 largedata Bigdata

R程序中非常大矩阵的svd

我的 txt 文件中有一个矩阵 60 000 x 60 000 我需要获取该矩阵的 svd 我使用R 但我不知道R是否可以生成它我认为可以计算部分 svd使用irlba包装和bigmemory and bigalgebra无需使用大量内

r matrix SVD largedata

H2 数据库表上的 SQL 查询抛出 ArrayIndexOutOfBoundsException

我有一个 H2 数据库一些查询在该数据库上工作而其他查询则抛出一个ArrayIndexOutOfBoundsException 例如 SELECT COLUMN 1 FROM MY TABLE works fine SELECT COU

sql H2 indexoutofboundsexception DBvisualizer largedata

将 Excel 表数据传输到 SQL 2008R2 的最快方法

有谁知道从 Excel 表 VBA 数组获取数据到 SQL 2008 上的表的最快方法without使用外部实用程序即 bcp 请记住我的数据集通常有 6500 15000 行大约 150 250 列我最终在自动 VBA 批处理脚

Excel vba sqlserver2008 import largedata

Apache solr 频繁添加/编辑/删除记录

我正在考虑使用 Apache Solr 在我的数据库中我将有大约 10 000 000 条记录我将使用它的最坏情况有大约 20 个可搜索可排序字段我的问题是这些字段在一天中可能会频繁更改值例如在我的数据库中我可能会同时更改 1

Indexing Solr largedata

根据列值分割大型 csv 文本文件

我的 CSV 文件有多列已排序例如我可能有这样的行 19980102 PLXS 10032 Q A 15 12500 15 00000 15 12500 2 19980105 PLXS 10032 Q A 14 93750 14 750

csv Text split largedata

C#中复制大量数据的方法

我正在使用以下方法将目录的内容复制到不同的目录 public void DirCopy string SourcePath string DestinationPath if Directory Exists DestinationPath

c directoryservices filecopying largedata

适用于超大时间序列的最佳索引数据结构

我想询问 SO 们关于用于索引时间序列又名按列数据又名平面线性的最佳数据结构的意见根据采样离散化特征存在两种基本类型的时间序列常规离散化每个样本都以共同频率采集不规则离散化任意时间点采样需要的查询时间范围 t0 t1

c Algorithm Indexing datastructures largedata

R 中用于大型复杂调查数据集的方法？

我不是调查方法学家或人口统计学家但我是 Thomas Lumley 的 R 调查包的狂热粉丝我一直在处理一个相对较大的复杂调查数据集即医疗保健成本和利用项目 HCUP 国家急诊室样本 NEDS https www hcup us ah

r Survey largedata

绘制大规模的networkx图：数组太大

我正在尝试绘制带有加权边的网络图但现在我遇到了一些困难正如标题所示这张图确实很大节点数量 103362 边数 1419671 当我尝试使用以下代码绘制该图时 pos nx spring layout G nx draw G node

python networkx largedata

使用转换表替换大表中的值

我正在尝试替换大型空格分隔文本文件中的值但无法找到针对此特定问题的合适答案假设我有一个文件 OLD FILE 其中包含标题和大约 200 万行 COL1 COL2 COL3 COL4 COL5 rs10 7 92221824 C A r

bash unix awk sed largedata