识别人名与字典单词

2024-01-02

有什么方法可以识别一个单词可能是/不可能是一个人的名字吗？

因此，如果我看到“understanding”这个词，我会得到 0.01 的概率，而“Johnson”这个词会返回 0.99 的概率，而像 Smith 这样的词会返回 0.75，而像 Apple 这样的词会返回 0.15。

有什么办法可以做到这一点吗？

目标是，如果有人搜索，比如说Charles Darwin galapagos，搜索引擎猜测它应该搜索作者字段Charles and Darwin以及标题和摘要字段galapagos.

我的快速技巧是这样的：

从人口普查局获取按受欢迎程度排列的姓名列表，该列表是免费提供的。为每个名称指定一个标准化的受欢迎程度得分（1.0 = 最受欢迎，0.0 = 最不受欢迎）。

然后，获取一本开源词典，并进行一些研究以汇总每个单词的频率得分。你可以找到一个在这里，在维基词典 http://en.wiktionary.org/wiki/Wiktionary:Frequency_lists#English。为每个单词分配一个流行度分数，1.0 到 0.0。方便的是，如果您在频率列表中找不到某个单词，您就可以假设它是一个非常不常见的单词。

在两个列表中查找一个单词。如果仅在其中之一上，那么您就完成了。如果两者都存在，则使用公式计算加权概率...类似于（名称受欢迎度）/（名称受欢迎度 + 其他受欢迎度）。如果它不在任何一个列表中，那么它可能是一个名字。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

识别人名与字典单词的相关文章

为什么使用 no-op 来填补 paxos 事件之间的空白是合法的？

我正在学习Paxos算法 http research microsoft com en us um people lamport pubs paxos simple pdf http research microsoft com en us
替换 Python 列表/字典中的值？

好的我正在尝试过滤传递给我的列表字典并稍微清理它因为其中有某些值我需要删除所以如果它看起来像这样 records key1 AAA key2 BBB key3 CCC key4 AAA 我如何快速轻松地运行所有内容并将 AAA
查找数组中 2 个缺失数字的最快方法

这个问题的存在只是出于纯粹的好奇心不是作业找到在数组 1 n 中找到两个缺失数字的最快方法因此在相关帖子中查找数字数组中缺失数字的最快方法 https stackoverflow com questions 2113795 qui
将 Python 字典中的键替换为唯一值

a 0 PtpMotion 1 PtpMotion 2 LinMotion 3 LinMotion 4 LinMotion 5 LinMotion 6 LinMotion 7 LinMotion 8 LinMotion 9 PtpMotio
确定相关词的编程方式？

使用网络服务或软件库我希望能够识别与词根相关的单词例如座位和安全带共享词根座位但西雅图不会被视为匹配简单的字符串比较对于这类事情似乎是不可行的除了定义我自己的字典之外是否有任何库或 Web 服务不仅可以返回单词定义
广度优先搜索：检查访问状态的时机

在有向图的广度优先搜索中可能循环当一个节点出队时其所有尚未访问的子节点都会入队并且该过程将继续直到队列为空有一次我以相反的方式实现它将节点的所有子节点排队并在节点出队时检查访问状态如果正在出队的节点之前已被访问过则该节
RNG 技术的可移植性和可重复性

我可以使用两种方法之一来创建一个伪随机数序列该序列具有两个重要特征 1 它可以在不同的机器上重现 2 该序列永远不会重复范围内的数字直到所有数字都被发出我的问题是这两种方法在可移植性操作系统 Python 版本等方面是否存在潜在
如何从列中创建对称矩阵？

例如我想转动以下列 90 175 600 650 655 660 代入矩阵 90 175 600 650 655 660 175 600 650 655 660 655 600 650 655 660 655 650 650 655 66
插入排序 - 如何接受输入并打印排序后的数组

我试图做一个插入排序程序它接受任何数据类型 Int Double String 然后打印排序后的数组我知道我的代码可以工作但我无法找出真正的问题 import java util public class MyInsertionSor
如何以最小化每个分区总和的最大值的方式对整数数组进行分区？

输入是正整数或空整数的数组 A 和另一个整数 K 我们应该将 A 划分为 K 个连续元素块我所说的划分是指 A 的每个元素都属于某个块并且 2 个不同的块不包含任何共同元素我们将块的总和定义为该块的元素的总和目标是在 K 个块中
创建将 n 个用户放入 k 个组的所有可能方法

给定 n 个用户 u 1 u 2 u n 和 k 个组 g 1 g 2 g k 创建所有组的所有可能组合基本上最后每个组合都是一个Map 其中第一个Integer是用户ID 第二个Integer是组ID 例如 u 1 g 1 u 2 g
为什么 n 按位和 -n 总是返回最右边的位（最后一位）

这是Python代码片段 1 1 1 2 2 2 3 3 1 看来任何n n总是返回最右边最后位我真的不知道为什么有人可以帮助我理解这一点吗这是由于负数以二进制表示的方式称为二进制补码表示创建某个数字 n 的补码换句话说创
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切
在 ggplot2 上绘制世界地图

我一直在尝试在 ggplot2 上绘制世界地图我跟踪了电子邮件的线索带 l 的 ggplot 地图 https stackoverflow com questions 9558040 ggplot map with l但我确实遇到了同样
单词预测算法

我确信有一篇关于此问题的帖子但我找不到提出这个确切问题的帖子考虑以下我们有字典可供使用我们收到了许多单词段落我希望能够根据此输入预测句子中的下一个单词假设我们有几个句子例如你好我的名字是汤姆他的名字是杰瑞他去了没有水的
地形/山地算法未按预期工作

我想使用一个非常基本的原理创建一个上面有山的地形如以下高度图所示 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 2 1 0 0 0
如何在 JavaScript 中构建一个计算数组中出现次数的对象？

我想计算数组中某个数字出现的频率例如在Python中我可以使用Collections Counter创建一个字典记录某个项目在列表中出现的频率据我所知 JavaScript 是这样的 var array 1 4 4 5 5 7 va
Python，将字典存储在数据库中

在数据库中存储和检索 python 字典的最佳方法是什么如果您对使用传统 SQL 数据库例如 MySQL 不是特别感兴趣您可以研究非结构化文档数据库其中文档自然映射到 python 字典例如MongoDB http www mon
iOS：从非图像数据生成图像（Godus，如风景）

所以看到图像后Godus http www kickstarter com projects 22cans project godus我想知道如何生成简单的非交互式的 2D 图像 with 不同高度或层数的颜色不同就像下面的图片一样我只
在c#中遍历对象树

我有一棵由多个对象组成的树其中每个对象都有一个名称 string id int 以及可能是同一类型的子数组如何遍历整个树并打印出所有 id 和名称我是编程新手坦率地说我很难理解这个问题因为我不知道有多少个级别现在我正在使用fo

随机推荐

Qt/C++：如何获取远程PC（通信对端）MAC地址？

我在 Windows 7 上使用 Qt5 在我的应用程序中 TCP服务器我目前正在使用 QTcpSocket 类中的一些方法 QAbstractSocket peerAddress 为了得到对等地址 QAbstractSocket pee
在Entity Framework4中捕获Sql异常？最佳实践是什么？

您在数据层中使用什么实践来捕获 sql 异常有人编写了一个通用 Sql 异常处理程序来捕获最常见的错误吗你是怎么做到的有什么例子吗 Thanks 仅由底层处理意外异常数据层在本例中为实体框架的异常应仅由业务层处理然后业务层可
如何在 TypeScript 中通过导入使用命名空间

我在两个单独的文件中有两个类一个从另一个文件扩展基类包含一些import使用节点模块的语句我不清楚为什么派生类位于单独的文件中无法识别基类有人可以澄清一下吗 UtilBase ts
如何让 ZK webfragment 与嵌入式 Jetty 9 一起工作？

这个最小的嵌入式 Jetty 项目可以正确启动扫描注释并查找并映射带注释的 TestServlet 项目结构 src main java test Test java webapp test zul pom xml 测试 java pac
为什么 IIS 不支持分块传输编码？

我正在与 IIS Web 服务器建立 HTTP 连接并使用使用 Transfer Encoding chunked 编码的数据发送 POST 请求当我这样做时 IIS 只是关闭连接没有错误消息或状态代码根据HTTP 1 1 规范 h
当应用程序部署到 JBoss 时显示一条消息

当我通过 JBoss AS 7 1 1 部署应用程序时如何显示消息来提醒用户我正在使用的技术四郎1 2 3 莫贾拉2 1 7 PrimeFaces 5 1 JDK 1 7 JBoss 7 1 1 在 JBoss AS 前面放置一个准系
java中什么时候应该使用finalize()方法？

我们什么时候应该真正使用java中的finalize 方法如果我们想在finalize 方法中关闭连接那么最好使用下面的代码因为等待GC调用finalize 方法然后释放连接是没有意义的 try Connection creation
GWT 设计器不适用于 Maven-GWT 项目

我刚刚启动了一个 GWT 项目环境如下日食赫利俄斯 Eclipse 3 6 的谷歌插件 eclipse 的 maven2 插件 Eclipse 3 6 的 Gwt 设计器该项目是由 gwt maven plugin 创建的该项目可以
如何在Android中为长度不超过屏幕尺寸的较小文本创建跑马灯效果？

我一直试图在我的应用程序中为 HELLO 一词提供选框效果但 Android 不允许这样做除非文本的长度超过屏幕尺寸有解决办法吗 PS 这看起来很简单我还没有得到任何解决方案我使用了我在早期 Android 时代开发的简单的轻量级
我可以为我的 RDS 实例使用 Amazon ELB 来实现负载均衡吗？

我有两个问题我可以在 RDS 实例上使用 ELB 来实现负载均衡吗我可以在 EC2 实例上安装多个服务器并为所有服务器运行单个 ELB 实例吗 1 如果您的意思是只有一个 RDS 实例那么在它前面的负载均衡请求就没有意义如果您的意思
django mysql 强制使用索引

我正在使用 django orm 和 mysql 由于某种原因 mysql 使用了错误的索引我想手动覆盖使用的索引我看到 django 团队出于跨平台原因决定阻止使用 with hints 扩展来强制建立索引有没有人有任何解决方案建
在 ggplot 上显示两个平行轴 (R)

假设我们有以下类型的简单情节 library ggplot2 df data frame y c 0 1 1 2 3 3 1 2 9 5 8 6 7 4 8 2 9 1 x seq 1 100 length out 10 ggplot df
Java 中的复选框列表？ [复制]

这个问题在这里已经有答案了我正在设计一个用户界面我想让用户可以选择为特定课程选择一名或多名培训师有没有这样的事情Checkboxlist在Java中我正在使用 Netbeans 您推荐什么作为最佳 UI 解决方案发现这个 http
Django 邮递员不工作

我尝试实施Django postman用于用户到用户的消息传递系统我克隆了存储库并在我的settings py and URLs py文件也 In URLs py我包含的主文件 re path r messages include pos
selenium.common.exceptions.InvalidArgumentException：消息：使用 Selenium Python 从文本文件读取的 url 调用 get() 时出现无效参数错误

我在 txt 文件中有一个 URL 列表我想使用 selenium 运行它假设文件名为 b txt 其中包含 2 个 url 格式如下 https www google com https www bing com https www
使用 Roslyn 查找所有不继承 C# 类并更改为从基础对象继承（类似 java）

我正在开发一个小型 Roslyn 项目其中包括更改解析树并将更改写回文件我从独立的代码分析器开始希望将其构建为命令行应用程序不过我遇到了挑战与以下人员合作使用 Roslyn 查找从特定基类派生的类 https stackove
我必须将 Pandas DataFrame 的每一行的数据与其余行的数据进行比较，有没有办法加快计算速度？

假设我有一个具有以下结构的 pandas DataFrame 从 csv 文件加载 var 和 err 列的数量不固定并且因文件而异 var 0 var 1 var 2 32 9 41 47 22 41 15 12 32 3 4 4 10
如何在 VB6 中复制打开的文件？ [复制]

这个问题在这里已经有答案了使用VB6 当文件被其他人打开时如何将文件从另一台计算机复制到我的计算机如果尝试对当前打开的文件使用 FileCopy 语句则会发生错误但是 FileSystemObject 的 CopyFile 函数没
oct2py 没有看到 OCTAVE_EXECUTABLE 环境变量 (Windows)

所以我尝试在 Windows 上使用 oct2py 如下所示 from oct2py import octave 这实际上是我重现错误所需的唯一代码当我执行这个时我得到OSError Octave Executable not fou
识别人名与字典单词

有什么方法可以识别一个单词可能是不可能是一个人的名字吗因此如果我看到 understanding 这个词我会得到 0 01 的概率而 Johnson 这个词会返回 0 99 的概率而像 Smith 这样的词会返回 0 75 而像

识别人名与字典单词

识别人名与字典单词 的相关文章

随机推荐

热门标签

识别人名与字典单词的相关文章