包含电话号码的海量数据集的哈希和加密技术

2024-03-15

问题描述:我正在处理一个高度敏感的数据集,其中包含人员的电话号码信息作为其中一列。我需要应用(对它们进行加密/哈希函数)将它们转换为一些编码值并进行分析。它可以是单向哈希 - 即,在使用加密数据进行处理后,我们不会将它们转换回原始电话号码。本质上,我正在寻找一个匿名器,它可以获取电话号码并将其转换为一些我可以进行处理的随机值。建议执行此过程的最佳方法。欢迎就最佳使用算法提出建议。

更新:数据集的大小我的数据集非常巨大,有数百 GB。

更新:敏感通过敏感,我的意思是电话号码不应该成为我们分析的一部分。所以,基本上我需要一个单向哈希函数,但没有冗余 - 每个电话号码应该映射到唯一的值 - 两个电话号码不应该映射到相同的值。

更新:实施?

感谢您的回答。我正在寻找详细的实现。我正在通过 python 的 hashlib 库进行哈希处理,它是否必须执行您建议的相同步骤?链接在这里 http://docs.python.org/2/library/hashlib.html

您能给我一些实现该过程的示例代码吗?最好是用 Python 编写的?


为您的数据集生成密钥(16 或 32 字节)并保密。使用Hmac-sha1 http://en.wikipedia.org/wiki/Hash-based_message_authentication_code使用此密钥对您的数据进行 Base 64 编码,并且每个电话号码都有一个随机的唯一字符串,该字符串不可逆(没有密钥)。

使用示例(具有 256 位密钥的 Hmac-Sha1)Keyczar https://pypi.python.org/pypi/python-keyczar:

创建随机密钥:

$> python keyczart.py create --location=path_to_key_set --purpose=sign
$> python keyczart.py addkey --location=path_to_key_set --status=primary

匿名电话号码:

from keyczar import keyczar

def anonymize(phone_num):
  signer = keyczar.Signer.Read("path_to_key_set");
  return signer.Sign(phone_num)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

包含电话号码的海量数据集的哈希和加密技术 的相关文章

随机推荐

  • sql 将单行转换为键/值列

    我有一个返回 1 行的 SQL 查询 其中包含多个列标题 Col 1 Col 2 Col 3 val 1 Val 2 Val 3 有没有办法将此行转换为 2 列 即 Col 1 Val 1 Col 2 Val 2 Col 3 Val 3 这
  • 严格别名警告,创建对 unsigned char 数组 + 偏移量的 uint32_t 引用

    在 GNU GCC 4 7 0 中 我收到了一些严格的别名警告 我想解决这些警告 我有一个有效负载 来自硬件 unsigned char payload davidlt PAYLOAD SIZE 我有这一行 uint32 t payload
  • 新类型的一个覆盖如何显示?

    我想重写 Haskell 中的默认整数构造函数 以便它们生成字符串 主要是出于好奇 但暂时为 LaTeX 的 frac 不便提供一个很好的输入替代方案 我希望能够使用语言本身 而不是特殊的解析器 但我想这可能行不通 module Main
  • 如何使用 Python 和 MySQLdb 检索 mysql 数据库中的表名?

    我有一个 SQL 数据库 想知道您使用什么命令来获取该数据库中的表名列表 更完整一点 import MySQLdb connection MySQLdb connect host localhost user myself passwd m
  • 关于访问 Tuple2 内的字段时发生错误

    我正在尝试访问 Tuple2 中的字段 但编译器返回错误 该软件尝试在 kafka 主题中推送一个案例类 然后我想使用 Spark Streaming 恢复它 这样我就可以提供机器学习算法并将结果保存在 mongo 实例中 Solved 我
  • 简单的数值表达式求解器

    首先 抱歉我的英语不好 对于我的算法和数据结构类的最后一个项目 我需要用 C 创建一个简单的数值表达式求解器 它需要解决简单的表达式 例如3 12 4 6 我设法拆分表达式并将运算符与数字分开 但我无法继续下去 诀窍是将运算符放在二叉树上
  • ELMAH:Elmah 页面未设计样式,使其难以阅读

    Setup 我通过 NuGet 在 ASP NET MVC 4 站点上安装了 ELMAH 在开发机器上 应用程序安装在根目录下 一切正常 并且样式与 ELMAH 页面通常一样 它总是这样做 我的意思是在开发机器上工作 不是吗 但在服务器上
  • PDFView printWithInfo:autoRotate: 失败

    我正在尝试打印一个由一系列图像构建的 PDF 文档 如果重要的话 我会在 Mozilla 插件中完成所有这些工作 我创建 PDFDocument 并将其放入 PDFView 然后调用 printView printWithInfo NSPr
  • Map.keySet 和 Map.values 上的迭代顺序相同吗?

    对于这样的地图 Map
  • dotfuscator并行优化?

    我的公司使用 Dotfuscator 进行 NET 应用程序混淆 它工作得很好 但是我注意到在我们的构建过程中它是一个单线程操作 Dotfuscator exe 始终在我们 8 核构建机器的单个核心上运行 这让我内心有些哭泣 有什么魔法可以
  • Gunicorn 内存使用量和线程不断增长

    我正在 Kubernetes 环境中使用 Gunicorn 运行 Django 应用程序 几周以来 Pod 的内存使用量持续增长 查看进程列表后 我注意到有许多 Gunicorn 进程看似已死 但仍在使用内存 我启动 Gunicorn 的命
  • android - 以编程方式将 ID 设置为视图

    我正在添加Buttons以编程方式和数量Buttons取决于一些条件 添加规则相对布局 LayoutParams that Buttons彼此顶部对齐我需要设置它们IDs 2 3年前的所有答案都说设置 ID int 没问题 例如setId
  • 如何在 Django 中使用 Matplotlib?

    根据网上的一些例子 我编写了下面的测试代码 有用 但是如果我重新加载页面 饼图将使用相同的图像自行绘制 每次重新加载页面时 某些部分都会变得更暗 当我重新启动开发服务器时 它被重置 我该如何正确绘画Matplotlib http en wi
  • 用户通知:自定义振动模式

    是否可以为用户通知警报创建自定义振动模式 例如 我们可以选择为用户通知使用不同的音频 是否也可以有自定义振动模式 我的意思是使用 swift 在 iOS 上以编程方式执行此操作 用于在 iOS 中创建自定义振动 使用 AudioServic
  • ruby 编码::未定义转换错误

    大家好 我正在尝试运行我的第一个 ror 应用程序 并得到以下错误 C Sites myapp gt rails server Could not find gem tzinfo data gt 0 x86 mingw32 in the g
  • 用于修改 machine.config 文件的 API - 每个配置文件中“DbProviderFactories”部分只能出现一次

    我最近在客户端计算机上遇到以下错误 DbProviderFactories 部分在每个配置文件中只能出现一次 计算机配置似乎包含重复的 DbProviderFactories 元素
  • 在使用 IE9 的 Windows 7 上运行 watir-webdriver 时出现问题

    我正在尝试在 64 位 Windows 7 上将 watir webdriver 与 IE9 一起使用 当我尝试打开新浏览器时收到以下错误消息 有什么解决方案吗 C watir gt irb irb main 001 0 gt requir
  • 为什么 np.compress 比布尔索引更快?

    What is np compress内部做的事情使它比布尔索引更快 在这个例子中 compress速度提高了约 20 但节省的时间因数据大小而异a和数量True布尔数组中的值b 但是在我的机器上compress总是更快 import nu
  • 是否可以在 @BeforeClass 带注释的方法中运行 Android Espresso 单元测试?

    我在使用时遇到问题JUnit4 BeforeClass仪器化 Android 单元测试中的注释 我正在使用EspressoGUI 测试库 一旦我添加一个测试 BeforeClass注解 安卓工作室1 5 1根本不运行任何测试 而只是打印 空
  • 包含电话号码的海量数据集的哈希和加密技术

    问题描述 我正在处理一个高度敏感的数据集 其中包含人员的电话号码信息作为其中一列 我需要应用 对它们进行加密 哈希函数 将它们转换为一些编码值并进行分析 它可以是单向哈希 即 在使用加密数据进行处理后 我们不会将它们转换回原始电话号码 本质