使用Python实现公司地址的（3-4级）标准化

2023-10-30

这个博客的目的是实现公司地址的模糊匹配与3-4级标准化，也可以迁移到房产信息、电话号码之类的字段上。本来的应用场景是反团伙欺诈以及失联客户的修复，大概的意思就是说多个相同公司的同事都在我公司借贷的欺诈可能性要高于其他客户，以及造假的房产信息和电话号码可能不完全相同，但有一定的相似性，我们需要把这些客户找出来，但是又不能用精确匹配。因为存在问题的房产信息和电话可能只是相似，而不是完全相同；对于公司地址来说，即使是真实的信息，但同一个公司的地址也有差别，公司可能会多种多样，如果麻烦一些，还要建一个同义词库。而我做的工作还没有那么全面，只是提取出了公司名中的关键词。

而做评分卡模型也需要用到这个思想。因为评分卡的其中一个字段就是所在城市等级，这就需要从原始数据的地址中提取出城市信息，但地址的格式又不够标准，因为信息是客户人工填写的，例如，“河北省石家庄市长安区广安街道”也有可能被写成“石家庄广安街道”或“石家庄长安广安街道”或“河北石家庄长安广安街道”等，所以单纯正则表达式就不足以解决这个字段提取的问题了。

我这里进行地址处理的基本思路就是建立一个标准库，对非标准进行分词，然后逐级对地址进行匹配，返回一个标准的三级或者四级的地址（根据需要也可以精确到五级甚至以上），所以地址分词与标准库的建利是进行地址处理的关键。

一、标准库建立：

实现地址处理的关键就是先建立一个标准的地址库，地址库一般到四级就可以了，标准地址库形式如下：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

地址标准化

使用Python实现公司地址的（3-4级）标准化的相关文章

使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？

我正在着手一个用于情感分析的 NLP 项目我已经成功安装了Python的NLTK 看起来是一个很棒的软件但是我无法理解如何使用它来完成我的任务这是我的任务我从一长条数据开始假设来自他们的网络服务的数百条关于英国大选主题的推文我
Python 3 和 NLTK 与 WordNet 2.1 - 这可能吗？

我将 Python 3 和 NLTK 3 0 0 与 WordNet 3 0 结合使用我想用该数据 semval2007 https github com alvations pywsd tree master pywsd data se
在哪里可以找到英语短语列表？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我的任务是搜索文本中陈词滥调和常见短语的用法这些短语与您在财富之轮的短语谜题中可能看到的短语类似这
doc2vec 获得良好性能所需的最小数据集大小是多少？

在不同大小的数据集上进行训练时 doc2vec 的表现如何原始语料库中没有提到数据集大小所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少有很多东西被称为 doc2vec 但它似乎最常指的是 Le 和 Mikolov
SGDClassifier 每次为文本分类提供不同的准确度

我使用 SVM 分类器将文本分类为好文本和乱码我正在使用 python 的 scikit learn 并按如下方式执行 Created on May 5 2017 import re import random import numpy
SpaCy 的相似度是如何计算的？

初学者 NLP 问题在这里 similarity 方法如何运作哇 spaCy 太棒了它的tfidf模型可以更容易预处理但w2v只有一行代码 token vector 惊人的 In his spaCy 上的 10 行教程 https g
使用我自己的训练示例训练 spaCy 现有的 POS 标记器

我正在尝试在我自己的词典上训练现有的词性标注器而不是从头开始我不想创建一个空模型在spaCy的文档中它说加载您想要统计的模型下一步是使用add label方法将标签映射添加到标记器但是当我尝试加载英文小模型并添加标签图时
将单引号替换为双引号并排除某些元素

我想用双引号替换字符串中的所有单引号但出现的情况除外例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
将复数名词转换为单数名词

如何使用 R 将复数名词转换为单数名词我使用 tagPOS 函数来标记每个文本然后提取所有标记为 NNS 的复数名词但是如果我想将这些复数名词转换为单数该怎么办 library openNLP library tm acq o lt
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
阻止斯坦福核心 NLP 服务器输出它收到的文本

我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
如何在Python中使用多处理来加速循环执行

我有两个清单列表 A 包含 500 个单词列表 B 包含 10000 个单词我正在尝试为列表 A 找到与 B 相关的相似单词我正在使用 Spacy 的相似函数我面临的问题是计算需要很长时间我是多处理使用的新手因此请求帮助如何
斯坦福 CoreNLP：使用部分现有注释

我们正在尝试利用现有的代币化句子分割和命名实体标记同时我们希望使用斯坦福 CoreNlp 额外为我们提供词性标注词形还原和解析目前我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert
验证 Transformer 中多头注意力的实现

我已经实施了MultiAttention head in Transformers 周围有太多的实现所以很混乱有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org

随机推荐

cpu.h-栈的宏定义-满减栈

常常两两相对的东西整一起后有点记不住就写下来 cpu h中有宏定义使用哪种栈 define OS STK GROWTH 1 Stack grows from HIGH to LOW memory on ARM 栈的四种满栈满字表示
错误解决：Clipping input data to the valid range for imshow with RGB data ([0..1] for floats or [0..255]

今天又是快乐改错误的经历在做k means进行图片压缩的实战项目中我遇到了这样一个pyplot显示图像报错问题 Clipping input data to the valid range for imshow with RGB dat
Python中的字典用法

文章目录一字典的定义二字典的创建 2 1 一个简单的字典 2 2 字典的嵌套三字典的特性 3 1 字典不支持切片 3 2 成员操作符 3 3 for循环遍历四字典元素的增加五字典元素的删除六字典元素的查看七字典的
制作最简单的Git Server

网上看到的Git Server部署方法一大堆一会儿搞什么SSH 还要弄私钥公钥复杂无比其实有一个办法非常简单如果是在公司内网环境下需要将某台机器部署为Git Server 我们称该机器为服务器假设IP为192 168 0 111
uni-app前端用户登录实现

从0开始开发SpringBoot vue前后端分离项目后端 Springboot简单实现用户登录操作文章目录从0开始开发SpringBoot vue前后端分离项目后端 1 HBuildX uni app创建项目一项目目录结构二
LinearLayer

线性层的作用类似于这边荧光绿的两层就是fully connected layer 将1 1 4096的向量变成1 1 1000的向量代码示例 import torch import torchvision from torch im
dwr 使用 callback 多个参数（间接方法）

dwrInvokeDataClaimAction findSupplierByName payee callback function returnData bringOutSupplierCallback returnData arg1
【Redis】List类型和底层原理

文章目录 List类型 1 List介绍 1 1常用命令 2 List底层实现 3 ziplist剖析 3 1ziplist结构 3 2创建一个空的ziplist 3 3ziplist的元素节点结构 3 4ziplisqt的连锁更新 3 5
Java 集合(List与LinkedList)接口详解

List接口 List接口的定义 List interface List extends Collection 通过观察List接口的定义发现其继承得是Collection接口 List Set Queue接口继承的都是Collection
[持续开源中]用2000元左右做水下机器人

1 水下机器人功能 1 平稳的运动控制 2 高清视频 3 定深悬停巡航 2 相关技术 2 1 PC上位机 1 C Winform MVC 现有 2 C MAUI MVVM Socket 开发中 2 2 下位机水下机器人 2 2 1 So
最长连续子序列的起始位置

用结构体保存结果注意的是最长连续子序列需要的是连续所以dp的状态方程别写错了 include
inotify_init使用

用于监控文件目录的修改创建删除等操作也可以配合epoll使用 include
Upload-Labs-Windows Pass-01

题目解题步骤1 上传文件上传一句话木马编辑文件a php 内容为直接上传的话会提示错误题目要求选择图片格式上传文件名改为a jpg 内容为然后通过burp suite来修改上传文件名字步骤2 改文件名把a jpg改为a
组件库技术选型总结

Monorepo Multirepo 架构 Multirepo指的是将模块分为多个仓库每个团队都拥有自己的仓库他们可以使用自己的构建流程代码规范等但是同时也会存在很多问题比如模块中间如果存在相互依赖就必须到目标仓库里进行bug修
android动态权限的源码解析

android 动态权限 android权限的类型在android9 0中定义了很多权限如下
LeetCode-七进制数、最小高度二叉搜索树

只是为了记录每天的练习要好好加油啊呜呜呜现在的我还太拉了思路很直接啊就是转进制数字转字符串 class Solution public string convertToBase7 int num if num 0 特殊情况 retu
HelloSpring---第一个spring项目

1 Spring概述 1 1 简介 Spring 春天 gt 给软件行业带来了春天 2002年 Rod Jahnson首次推出了Spring框架雏形interface21框架 2004年3月24日 Spring框架以interface21框
websocket php连接数,swoole websocket协程服务端因为客户端连接数量过多崩溃

问题描述 websocket 携程风格的服务端同时300多个客户端连接的时候 PHP Fatal error Uncaught Error Maximum function nesting level of 256 reached abo
ARM汇编多寄存器寻址

原文转自 http hi baidu com mugua item c43f37cc55a75d35ee4665e6 多寄存器和堆栈寻址的用法多寄存器寻址 LDMIA LDMIB STMIA STMIB LDMDA LDMDB STMDA
使用Python实现公司地址的（3-4级）标准化

这个博客的目的是实现公司地址的模糊匹配与3 4级标准化也可以迁移到房产信息电话号码之类的字段上本来的应用场景是反团伙欺诈以及失联客户的修复大概的意思就是说多个相同公司的同事都在我公司借贷的欺诈可能性要高于其他客户以及造假的房产信息

使用Python实现公司地址的（3-4级）标准化

使用Python实现公司地址的（3-4级）标准化 的相关文章

随机推荐

热门标签

使用Python实现公司地址的（3-4级）标准化的相关文章