2TB CSV 中的帐号匿名化

2024-02-16

我有大约 2TB 的 CSV，其中第一个2 列包含两个身份证号码。这些数据需要匿名，以便数据可用于学术研究。匿名化可以（但不一定）是不可逆的。这些不是医疗记录，所以我不需要最奇特的加密算法。

问题：

标准哈希算法会生成很长的字符串，但我必须进行大量 ID 匹配（即“对于包含 ID XXX 的数据中的行子集，执行...）”来处理匿名数据，因此这并不理想。有没有更好的办法？

例如，如果我知道有大约 1000 万个唯一帐号，是否有使用整数集 [1:10million] 作为替换/匿名 ID 的标准方法？

计算限制是数据可能会在 32 核 ~500GB 服务器机器上进行匿名化。

我假设您想要进行一次传递，一个带有 ID 的 CSV 数字作为输入，另一个带有匿名数字的 CSV 作为输出。我会还假设唯一 ID 的数量约为 10 万元以下。

我认为最好使用一些完全任意的从一组 ID 号 (N) 到一组的一对一函数去识别化号码 (D)。这样会更安全。如果你用过一些某种哈希函数，对手知道哈希是什么， N 中的数字可以通过 a 来恢复，而不需要太多麻烦字典攻击。相反，我建议使用一个简单的查找表：ID 1234567 映射到去识别号码 4672592 等。对应关系是存储在另一个文件中，没有该文件的对手将无法能够做很多事。

在您描述的机器上，有 1000 万条或更少的记录，这不是什么大问题。伪 Python 中的 sketch 程序：

mapping = {}
unused_numbers = list(range(10000000))

while data:
    read record
    for each ID number N in record:
        if N in mapping:
            D = mapping[N]
        else:
            D = choose_random(unused_numbers)
            unused_numbers.del(D)
            mapping[N] = D
        replace N with D in record
    write record

write mapping to lookup table file

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

2TB CSV 中的帐号匿名化的相关文章

从多个大型 NetCDF 文件中提取数据的快速/高效方法

我只需要从全局网格中提取特定节点集的数据由纬度经度坐标按 5000 10000 的顺序给出这些数据是水力参数的时间序列例如波高全局数据集很大因此分为许多 NetCDF 文件每个 NetCDF 文件大小约为 5GB 包含整个
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
批量插入不适用于 NULL 数据

当我从 CSV 文件将批量数据插入到表中时它不起作用显示错误第 2 行第 9 列的批量加载数据转换错误类型不匹配或指定代码页的字符无效 csv 文件中的第 9 列值为空我该如何处理这个问题根据这些信息我认为目标表的特定字段被定
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
当有很多列时，使用 readr::read_csv() 导入数据时覆盖列类型

我正在尝试使用 R 中的 readr read csv 读取 csv 文件我导入的 csv 文件大约有 150 列我只包含示例的前几列我希望将第二列从默认类型我执行 read csv 时为日期覆盖为字符或其他日期格式 GIS Jo
iOS 中的 CSV 逐行解析

我正在 Objective c 中解析 CSV 文件该文件包含如下内容 line 40 Rising searches line 41 nabi avc Breakout line 42 stonewall 700 line 43 med
下载 csv 文件 node.js

我正在使用 node js 构建一个应用程序并尝试将数据下载为 csv 文件我正在使用 json2csv https www npmjs com package json2csv https www npmjs com package j
SuperCSV 附加而不是覆盖？

是否可以向 CSV 文件添加新行而不是覆盖最后一行这是当我想添加新行时调用的方法 private static void writeWithCsvMapWriter throws Exception final String heade
是否可以使用 csv.DictReader 保持列顺序？

例如我的 csv 有如下列 ID ID2 Date Job No Code 我需要以相同的顺序写回各列这dict立即打乱了顺序所以我相信这更多是读者的问题蟒蛇的dicts 在 3 6 之前不维持顺序但是无论如何在该版本中csv
如何使用 aerospike 加载器在 aerospike 中加载嵌套的 csv 文件？

我已将 JSON 文件转换为 CSV 格式现在使用 aerospike 加载器将 CSV 加载到 Aerospike 中我可以为简单的结构执行此操作但如何修改 allDatatype json 的内容以在 Aerospike 中加载嵌
将字典写入 csv 时遇到问题，其中键作为标题，值作为列

我有一本字典看起来像 mydict foo 1 2 bar 3 4 asdf 5 6 我正在尝试将其写入 CSV 文件使其看起来像 foo bar asdf 1 3 5 2 4 6 我花了最后一个小时寻找解决方案我发现的最接近的解决方
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
将查询结果作为 CSV 文件从 Docker PostgreSQL 容器导出到本地计算机

我不确定这是否可能或者我是否做错了什么因为我对 Docker 还很陌生基本上我想将 PostgreSQL docker 容器内的查询结果作为 csv 文件导出到本地计算机这就是我到目前为止所得到的首先我使用以下命令运行 Pos
在 R 中执行 read.csv 时未读取所有行

这是输入文件 http www yourfilelink com get php fid 841283 http www yourfilelink com get php fid 841283 我执行了 options stringsAsF
用于读取csv写入数组的c++程序；然后操作并打印到文本文件中（已经用 matlab 编写）

我想知道是否有人可以帮助我我正在尝试构建一个程序从 csv 文件中读取大小未知的浮点数大数据块我已经在 MATLAB 中编写了此代码但想要编译和分发此代码因此转向 C 我只是在学习并尝试阅读本文以开始 7 5 19892 4 23
如何在 R 中编写 csv 文件，其中我的输入作为行写入文件？

这是一个非常简单的问题令我惊讶的是网上没有例子我有一个向量 vector lt c 1 1 1 1 1 我想将其写为 csv 作为一个简单的行 write csv vector file myfile csv row names FAL
带有未转义引号的Java CSV解析器[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
PowerShell 解锁/卸载导入的 CSV

早晨我想问题就在标题里我有一个脚本它通过导入 CSV 的文件夹结构运行与每个脚本一起工作然后在完成后尝试删除它们遗憾的是其中很多都锁定在 PowerShell 上而我删除它们的唯一方法就是关闭 PS 有什么方法可以卸载csv
使用 IFS bash 进行 CSV 解析：选择“;”作为分隔符

我有一个包含 130 列的 CSV 我需要用它来做 3 个 csv 我用 while 和 IFS 循环因为我需要对每一行的变量进行一些处理这是我所做的 while IFS read my 130 vars what i do with
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例

随机推荐

为 iOS 应用程序提交开放图操作？

对于 App Store 中尚不存在的 iOS 应用程序当我提交 Facebook Open Graph Api 的操作时我应该为重现操作的步骤编写什么当您拥有这样的本机移动应用程序时您可以提交应用程序流程的屏幕截图作为可接受的
将文件读取为元组列表

我想使用 Python 读取文本文件我的清单必须是这样的 mylist 34 968398 6 487265 34 969448 6 488250 34 967364 6 492370 34 965735 6 582322 我的文本文件是
动态选中/取消选中树中的复选框

我有一个类似的问题如果在 JQuery 中未选中所有子节点则取消选中父节点 https stackoverflow com questions 6556446 uncheck parent node if all children unc
写入 Visual Studio 的输出窗口

我正在尝试向输出窗口写入一条消息以进行调试我搜索了一个类似Java的函数system out println 我试过Debug Write Console Write and Trace Write 它不会给出错误但也不会打印任何内容
devise 和 Rails 3 中的 http 身份验证

我有一个使用 devise on Rails 3 的应用程序我想启用 http 身份验证以便我可以从 iPhone 应用程序对我的 Web 应用程序进行身份验证如何通过我的 iPhone 应用程序进行身份验证以进行设计这是安全的还是
升级.net紧凑框架版本后出现异常

我已通过 Visual Studio 将项目从 NET 2 0 升级到 NET 3 5Project gt Upgrade Project 升级后当我编译项目时出现错误 The type System Windows Forms Dat
Undertow 中的图像/媒体 MIME 类型响应

我一直在努力寻找一种在 Undertow 中传递 jpeg png 或其他内容的方法发送 byte 不起作用并且由于 Undertow 是非阻塞的我不想通过执行通常的操作在输出上写入文件 exchange getOutputStrea
Spring Data JPA - JpaRepository 中的自定义排序

我正在将 Spring Data JPA 与 Spring Data REST 一起使用并且我已经为我的 JpaRepository 创建了一个 JpaRepositoryThing entity Repository public in
如何设置 Angular2 url 的查询参数？

我需要设置一个带有查询参数的网址例如 Questions id 1234 pageid 0 我尝试通过router Navigate Questions id 1234 pageid 0 但没有运气导航后浏览器显示如下 Question
wkhtmltopdf 尝试从 http 而不是文件加载

这是一个奇怪的小问题导致我在 SO 上发布我的第一个问题我正在使用 wkhtmltopdf 将 HTML 文档转换为 PDF 作为 Rails 应用程序的一部分为此我将 Rails 网页渲染为临时目录中的静态 HTML 文件将静态
UInt64 和“在检查模式下编译时操作溢出” - CS0220

这感觉像是一个愚蠢的问题但我似乎看不到答案我有一个 UInt64 它的最大值应该是 UInt64 MaxValue 18446744073709551615 但是当我尝试分配一个适度大小的数字时我收到在检查模式下编译时操作溢出的
func 在 R-Format 指令集中意味着什么？

I am very new to Assembly language I was reading about MIPS architecture and I am stuck with the last field of the Regis
如何确保java8流中的处理顺序？

我想处理里面的列表XMLjava 对象我必须确保处理所有元素才能收到它们因此我应该打电话给sequential在各个stream I use list stream sequential filter forEach 或者只要我不使用并
在 Three.js 中使用 renderOrder

我想在场景中有两个重叠的对象但我想定义应该首先绘制哪个对象我这里有一个代码示例 http jsfiddle net sg02e5sm 1 http jsfiddle net sg02e5sm 1 我在用着renderOrder 1对于第
iPhone 应用程序在 didFinishLaunchingWithOptions 之前崩溃

我的 iPhone 应用程序工作正常但每当我在设备或模拟器上运行它时它就会突然崩溃并且它不会在日志中向我报告任何有用的信息它只会记录以下无用的信息 2014 02 05 17 09 34 069 TeacherAssistant 7
如何对Dataframe的多列执行单一操作

我有以下数据框 df gt gt gt TSLA MSFT 2017 05 15 00 00 00 00 00 320 68 2017 05 16 00 00 00 00 00 319 69 2017 05 17 00 00 00 00 0
contenteditable .execCommand() 未触发？

我正在尝试使用 contenteditable 自定义所见即所得编辑器我使用以下代码使所选文本变为粗体 wysiwyg b click function document execCommand bold false true alert
Python C 互操作性

我希望将现有的 C 纯 C 即非 C 库包装到 Python 中以便我可以从 Python 脚本中调用它各种可用的方法 C Api SWIG 等中哪种方法最合适与 Ctypes 一起使用它是标准发行版的一部分并且运行良好基本上你
CSS - 翻转一个元素，并使另一个元素可见

在CSS中当我滚动一个元素时是否有可能使另一个元素可见我有一个图标当有人将鼠标悬停在它上面时我希望它显示一个描述该图标功能的文本元素这是我一直使用的纯 CSS 工具提示效果很好即使在 IE 中也是如此 a hover bac
2TB CSV 中的帐号匿名化

我有大约 2TB 的 CSV 其中第一个2 列包含两个身份证号码这些数据需要匿名以便数据可用于学术研究匿名化可以但不一定是不可逆的这些不是医疗记录所以我不需要最奇特的加密算法问题标准哈希算法会生成很长的字符串但我必须进行

2TB CSV 中的帐号匿名化

2TB CSV 中的帐号匿名化 的相关文章

随机推荐

热门标签

2TB CSV 中的帐号匿名化的相关文章