在 pandas dataframe python 中使用 pii 对特定列进行匿名化

2024-02-28

我已经加载了一个带有 json 文件的 s3 存储桶，并将其解析/压平到 pandas 数据帧中。现在我有一个包含 175 列的数据框，其中 4 列包含个人身份信息。

我正在寻找一种快速解决方案，对这些列（名称和地址）进行匿名化。我需要保留多个信息，以便同一个人的姓名或地址多次出现时具有相同的哈希值。

pandas 或其他一些软件包中是否有现有的功能可以用于此目的？

Using a Categorical将是执行此操作的有效方法 - 主要警告是编号将仅基于数据中的顺序，因此如果需要跨多个列/数据集使用此编号方案，则需要小心。

df = pd.DataFrame({'ssn': [1, 2, 3, 999, 10, 1]})

df['ssn_anon'] = df['ssn'].astype('category').cat.codes

df
Out[38]: 
   ssn  ssn_anon
0    1         0
1    2         1
2    3         2
3  999         4
4   10         3
5    1         0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

privacy

anonymize

pii

在 pandas dataframe python 中使用 pii 对特定列进行匿名化的相关文章

Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
在linux上安装python ssl模块，无需重新编译

是否可以在已经安装了 OpenSSL 的 Linux 机器上安装 python 的 SSL 模块而无需重新编译 python 我希望它就像复制几个文件并将它们包含在库路径中一样简单 Python版本是2 4 3 谢谢是否可以在已经安装了
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA

随机推荐

获取Android上所有应用程序的运行时间

嗨我正在开发一个应用程序我必须在其中获取running time设备上安装的所有应用程序那么是否可以知道别人的应用程序在手机上运行了多长时间呢例如 gmail 应用程序在手机上运行了多长时间有没有API为此或者我们必须开发自己
为什么 JMX 报告的 JVM 堆使用最大值会随时间变化？

我的一个 hadoop 集群的名称节点上的 JVM 堆最大值配置为 8GB 当我使用 JMX 监控 JVM 时报告的最大值不断波动如附图所示 http highlycaffeinated com assets images heapma
Python 可以识别交互运行的文件的更改吗？

我正在做一些故障排除我很好奇是否可以交互地运行 Python 脚本更改脚本中定义的函数保存文件然后让交互式 shell 识别更改这是我目前正在做的一个例子 my script py def dummy func print Som
使用 @parameters 的 T-SQL 动态分组

我想实现 SELECT param1 param2 param3 t field1 sum t amount FROM table t WHERE t field 2 IS NOT NULL AND t field3ID 12345 GRO
scipy PchipInterpolator 实现问题

我正在尝试基于链接实现 PchipInterpolator http docs scipy org doc scipy 0 14 0 reference generated scipy interpolate PchipInterpolat
pdf.js 与本地 pdf 文件

我正在尝试 pdf js 库只想在我的服务器上显示本地 pdf 文件而不是示例提供的 pdf 文件
带有构建优化器的 AOT 和 JIT

我正在关注解决方案here https github com Alekcei AotAndJit使用的JitCompilerFactory加载运行时编译器和自定义装饰器以保留组件和模块元数据但是有了 Angular cli build o
golang中如何通过引用传递结构体类型的接口？

我需要通过引用传递结构类型的接口如下所示由于我不能使用接口指针来构造类型变量我应该如何更改以下代码来修改te价值10 package main import fmt func another te interface te check
获取使用 Chart.js 渲染的折线图 y 轴的最大值

我使用 Chart js 渲染分散折线图效果非常好对于渲染算法我需要找出 y 轴上显示的最高值因此假设数据集中的最大点为 y 248 因此 y 轴显示 250 作为最大值我需要知道它是250 我尝试在运行时检查图表对象如下所
Material UI 主题覆盖：如何全局覆盖子样式？

我正在构建一个应用程序材质UI库 https material ui com 对于 ReactJS 使用主题覆盖 API https material ui com customization overrides global theme
MongoDB C# 2.0 超时异常

我们最近将 Web 应用程序升级到 MongoDB C Driver 2 0 并部署到生产环境在一定负载以下应用程序运行良好一旦生产服务器上的负载超过一定限制应用程序的CPU立即降至0 大约30秒后该异常会被记录多次 System
轮播图像未填充 bootstrap 3 中的宽度

我对这种响应式的东西太陌生了我正在尝试使用新 bootstrap 3 中的轮播但由于某种原因图像没有填充轮播的宽度所有图像的尺寸完全相同 1000x395 无论我做什么它都不会完全填满非常感谢任何和所有的帮助这是我正在使用的代
获取当前的 jQuery 选择器字符串？

调用自定义插件时如何获取当前选择器字符串 my selector p my plugin 想要输出my selector p在我的脚本中我怎样才能访问这个字符串您可以使用selector https api jquery com se
Kubernetes客户子域动态绑定

我有以下用例我们的客户经常在其 K8s 集群上发布新服务这些新服务可以通过负载平衡和 Ingress 从外部访问以便在部署服务后动态配置此负载平衡这对于我们客户的开发团队来说非常容易因为他们不必等到有人手动配置负载平衡他们只需在
点之间的角度？

我有一个三角形 A B C 我试图找到每对三个点之间的角度问题是我可以在网上找到的算法是用于确定向量之间的角度使用向量我可以计算从 0 0 到我所拥有的点的向量之间的角度但这并不能给出三角形内的角度好的这是在维基百科页面上的方法
使用 Python 在文件行中搜索列表条目

我有一个包含数万行 ASCII 文本的文本文件我有一个包含数百个要搜索的关键字的列表单独考虑每一行最初如果有任何匹配项我想返回打印到屏幕或文件该行但最终我想根据匹配数对返回的行进行排名或排序所以我的清单是这样的 keyw
无法使用接口确定 i => i.Id 的序列化信息

首先我知道这个错误消息已经存在问题但我还没有找到任何与使用此类查询的接口相关的问题我目前正在尝试使用 C 驱动程序 2 0 更新 MongoDB 实体但是当我尝试构建查询时出现错误我假设它是Builders
.replace() 之后恢复光标位置

我最大的问题是替换后光标默认位于文本区域的末尾如果我正在打字那没有问题但如果我要返回并编辑那就真的很烦人了这是我尝试过的文本区域的 id 是区域 var el e area position el selectionSta
实体框架默认连接工厂

我最近使用实体框架 4 3 创建了一个新的 Web 项目我正在使用数据库优先设计实体框架将此部分添加到我的 web config 中它提供了一些信息性错误消息我在某处读到此代码与代码优先设计相关我是否需要它我是否只需删除它
在 pandas dataframe python 中使用 pii 对特定列进行匿名化

我已经加载了一个带有 json 文件的 s3 存储桶并将其解析压平到 pandas 数据帧中现在我有一个包含 175 列的数据框其中 4 列包含个人身份信息我正在寻找一种快速解决方案对这些列名称和地址进行匿名化我需要保留多

在 pandas dataframe python 中使用 pii 对特定列进行匿名化

在 pandas dataframe python 中使用 pii 对特定列进行匿名化 的相关文章

随机推荐

热门标签

在 pandas dataframe python 中使用 pii 对特定列进行匿名化的相关文章