Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在关键服务器上对字符串进行内存受限的外部排序,并合并和计算重复项(数十亿个文件名)
我们的服务器生成如下文件 c521c143 2a23 42ef 89d1 557915e2323a sign xml在其日志文件夹中 第一部分是GUID 第二部分是名称模板 我想计算具有同名模板的文件的数量 例如 我们有 c521c143
c
Algorithm
Sorting
Dictionary
largedata
优化Python:大数组、内存问题
我在运行 python numypy 代码时遇到速度问题 我不知道如何让它更快 也许其他人 假设有一个表面有两个三角剖分 一个是细三角剖分 fine 有 M 个点 一个是粗剖分 有 N 个点 此外 还有每个点的粗网格数据 N 个浮点数 我正
python
Arrays
performance
NumPy
largedata
多处理中的共享内存
我有三个大清单 第一个包含位数组 模块位数组 0 8 0 另外两个包含整数数组 l1 bitarray 1 bitarray 2 bitarray n l2 array 1 array 2 array n l3 array 1 array
python
multiprocessing
sharedmemory
largedata
基于多列值的重复键的两个大型 Pandas DataFrame 的条件合并/连接 - Python
我来自 R 老实说 这是使用 R data tables 在一行中完成的最简单的事情 并且对于大型数据表来说 该操作也相当快 但是我真的很难用Python实现它 前面提到的用例都不适合我的应用程序 当前的主要问题是 Python 解决方案中
python
pandas
MERGE
conditionalstatements
largedata
在 PowerShell 中解析大型 JSON 文件
Context 在这篇文章中 ConvertFrom Json 大文件 https stackoverflow com q 76784490 268581 我询问有关反序列化 1 2GB JSON 文件的问题 这个答案发布在那里 https
json
PowerShell
largedata
如何处理来自 S3 的大文件并在 Spring Batch 中使用它
我有一个 CSV 文件 其中包含数百万条记录 大小约为 2GB 我的用例是从 S3 读取 CSV 文件并对其进行处理 请在下面找到我的代码 在下面的代码中 我从 S3 存储桶读取文件并使用inputStream直接在 Spring 批处理中
Java
amazons3
SpringBatch
largedata
largefiles
计算大数据的分位数
我有大约 300 个文件 每个文件包含 1000 个时间序列实现 每个文件约 76 MB 我想计算全套 300000 个实现中每个时间步的分位数 0 05 0 50 0 95 我无法将 1 个文件中的实现合并在一起 因为它会变得太大 做到这
r
quantile
largedata
D3:如何显示大数据集
我有一个包含 10 5 个数据点的大型数据集 现在我正在考虑以下与大数据集相关的问题 有没有有效的方法来可视化非常大的数据集 就我而言 我有一个用户集 每个用户有 10 3 个项目 总共有 10 5 项 我想一次显示每个用户的所有项目 以便
d3js
largedata
使用 dask 合并大型数据集
我有两个数据集 一个约为 45GB 包含 1 年的日常交易 第二个数据集为 3 6GB 包含客户 ID 和详细信息 我想将两者合并到一个公共列上以创建一个数据集 这超出了服务器的内存 因为每个客户可能有多个交易 我正在开发一个具有 16 个
pandas
Dask
largedata
有效地广播具有多个变量的大型数据集
我在尝试着dcast大型数据集 数百万行 我有一行用于到达时间和出发地 另一行用于出发时间和目的地 有一个id识别这两种情况下的单位 它看起来类似于 id time movement origin dest 1 10 06 2011 15
r
reshape2
largedata
Bigdata
R程序中非常大矩阵的svd
我的 txt 文件中有一个矩阵 60 000 x 60 000 我需要获取该矩阵的 svd 我使用R 但我不知道R是否可以生成它 我认为可以计算 部分 svd使用irlba包装和bigmemory and bigalgebra无需使用大量内
r
matrix
SVD
largedata
H2 数据库表上的 SQL 查询抛出 ArrayIndexOutOfBoundsException
我有一个 H2 数据库 一些查询在该数据库上工作 而其他查询则抛出一个ArrayIndexOutOfBoundsException 例如 SELECT COLUMN 1 FROM MY TABLE works fine SELECT COU
sql
H2
indexoutofboundsexception
DBvisualizer
largedata
将 Excel 表数据传输到 SQL 2008R2 的最快方法
有谁知道从 Excel 表 VBA 数组 获取数据到 SQL 2008 上的表的最快方法without使用外部实用程序 即 bcp 请记住 我的数据集通常有 6500 15000 行 大约 150 250 列 我最终在自动 VBA 批处理脚
Excel
vba
sqlserver2008
import
largedata
Apache solr 频繁添加/编辑/删除记录
我正在考虑使用 Apache Solr 在我的数据库中 我将有大约 10 000 000 条记录 我将使用它的最坏情况有大约 20 个可搜索 可排序字段 我的问题是这些字段在一天中可能会频繁更改值 例如 在我的数据库中 我可能会同时更改 1
Indexing
Solr
largedata
根据列值分割大型 csv 文本文件
我的 CSV 文件有多列已排序 例如 我可能有这样的行 19980102 PLXS 10032 Q A 15 12500 15 00000 15 12500 2 19980105 PLXS 10032 Q A 14 93750 14 750
csv
Text
split
largedata
C#中复制大量数据的方法
我正在使用以下方法将目录的内容复制到不同的目录 public void DirCopy string SourcePath string DestinationPath if Directory Exists DestinationPath
c
directoryservices
filecopying
largedata
适用于超大时间序列的最佳索引数据结构
我想询问 SO 们关于用于索引时间序列 又名按列数据 又名平面线性 的最佳数据结构的意见 根据采样 离散化特征 存在两种基本类型的时间序列 常规离散化 每个样本都以共同频率采集 不规则离散化 任意时间点采样 需要的查询 时间范围 t0 t1
c
Algorithm
Indexing
datastructures
largedata
R 中用于大型复杂调查数据集的方法?
我不是调查方法学家或人口统计学家 但我是 Thomas Lumley 的 R 调查包的狂热粉丝 我一直在处理一个相对较大的复杂调查数据集 即医疗保健成本和利用项目 HCUP 国家急诊室样本 NEDS https www hcup us ah
r
Survey
largedata
绘制大规模的networkx图:数组太大
我正在尝试绘制带有加权边的网络图 但现在我遇到了一些困难 正如标题所示 这张图确实很大 节点数量 103362 边数 1419671 当我尝试使用以下代码绘制该图时 pos nx spring layout G nx draw G node
python
networkx
largedata
使用转换表替换大表中的值
我正在尝试替换大型空格分隔文本文件中的值 但无法找到针对此特定问题的合适答案 假设我有一个文件 OLD FILE 其中包含标题和大约 200 万行 COL1 COL2 COL3 COL4 COL5 rs10 7 92221824 C A r
bash
unix
awk
sed
largedata
1
2
3
»