给定一个搜索词列表，我如何知道我的字符串包含哪些搜索词？

2024-01-22

有很多软件会采用搜索字符串并查找数据库中包含该字符串的所有文本（MySQL 的WHERE MATCH('searchterm', string_column)、谷歌等），但是有没有一个好的算法可以反其道而行之呢？

假设我有一个搜索词列表：

丰田普锐斯、丰田塔科马、本田思域、雪佛兰 Nova、雪佛兰 Volt

我有一个字符串，例如：

1962 年雪佛兰 Nova 敞篷车

有没有一个好的算法，我可以将列表和字符串放入其中，然后得到Chevy Nova out?

如果它们都很容易标记化，我可以标记它们并进行内部连接，但我对无法判断输入字符串的哪一部分是“重要”部分的情况感兴趣。

如果您要标记“1962 Chevy Nova 敞篷车”[原文如此]，您最终会得到四个非常重要或有趣的标记，值得关注。如果您正在跟踪您的语言中所有可能的单词，那么您将为每个单词都有一个索引。

另一方面，您已经获得了搜索词。在每种情况下，您都对有趣的单词进行了标记和索引。其中每一个都可以被视为一对两个令牌索引。

然后，如果您接受输入并查找匹配的搜索词，您会问哪些搜索词包含输入的任何单词？

因为我本质上是一个数据库人员，所以我可以想象像这样创建令牌列表：

CREATE TABLE aa_tokens (
  id INT NOT NULL AUTO_INCREMENT PRIMARY KEY ,
  word VARCHAR( 40 ) NOT NULL 
);

insert into aa_tokens (word) values
  ('1962'),           -- 1
  ('Chevy'),          -- 2
  ('Civic'),          -- 3
  ('Honda'),          -- 4
  ('Nova'),           -- 5
  ('Prius'),          -- 6
  ('Tacoma'),         -- 7
  ('Toyota'),         -- 8
  ('Volt'),           -- 9
  ('convertable');    -- 10

和一个搜索表，以便每个搜索都有一个 id：

CREATE TABLE aa_search (
  id INT NOT NULL AUTO_INCREMENT PRIMARY KEY ,
  text VARCHAR( 255 ) NOT NULL
);

insert into aa_search (text) values
  ('Toyota Prius'),   -- 1
  ('Toyota Tacoma'),  -- 2
  ('Honda Civic'),    -- 3
  ('Chevy Nova'),     -- 4
  ('Chevy Volt');     -- 5

然后是一个组合搜索和标记的表：

CREATE TABLE aa_searchToks (
  search INT NOT NULL,
  token INT NOT NULL
);

insert into aa_searchToks (search, token) values
  (1, 8),
  (1, 6),
  (2, 8),
  (2, 7),
  (3, 4),
  (3, 3),
  (4, 2),
  (4, 5),
  (5, 2),
  (5, 9);

现在，如果我们将输入字符串“1962 Chevy Nova Convertible”并将其转换为标记 (1, 2, 5, 10)，我们可以进行一个查询来查看搜索词的标记：

select search, count(*) from aa_searchToks
  where token in (1, 2, 5, 10) group by search;

其结果是：

+--------+----------+
| search | count(*) |
+--------+----------+
|      4 |        2 |
|      5 |        1 |
+--------+----------+

或者查询有点不同：

select search, (select text from aa_search s where st.search = s.id) as text, 
  count(*) from aa_searchToks st where token in (1, 2, 5, 10) group by search;

导致：

+--------+------------+----------+
| search | text       | count(*) |
+--------+------------+----------+
|      4 | Chevy Nova |        2 |
|      5 | Chevy Volt |        1 |
+--------+------------+----------+

我们可以看到“Chevy Nova”匹配两个标记，并且是最佳匹配，当然，确实如此。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

string

Search

给定一个搜索词列表，我如何知道我的字符串包含哪些搜索词？的相关文章

如果值已经是字符串，我是否应该避免转换为字符串？

有时您必须使用列表理解将所有内容转换为字符串包括字符串本身 b str a for a in l 但我必须这样做 b a if type a str else str a for a in l 我想知道是否str在字符串上已经足够优化no
从字符串中删除单个字符？

如何从字符串中删除单个字符 string string Remove 3 但它删除了第三个字符和其他所有内容根据删除方法签名 http msdn microsoft com en us library d8d7z2kk aspx publ
使用 System.out.println 显示特殊字符

我在将带有特殊字符的文本从网络服务发送或显示到数据库时遇到问题在我的 Eclipse 上我已将字符编码设置为 UTF 8 但它仍然不允许我显示字符例如像下面的代码一样简单的打印 String test System out prin
在自记录 f 字符串中的等号后插入换行符[重复]

这个问题在这里已经有答案了在python3 8中一个新特性是自记录格式字符串 https docs python org 3 whatsnew 3 8 html f strings support for self documentin
C++：获取注册表值仅给出第一个字符[重复]

这个问题在这里已经有答案了我试图从注册表中获取字符串值但我只得到第一个字母 HKEY hKey char gamePath MAX PATH if RegOpenKeyEx HKEY CURRENT USER L Software Bl
从txt文件java中删除一行[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个大文件我只需要删除其中的几行有没有办法在不打开新文件并复制整个文本的情况下执行此操作编辑主要问题是当它在多个带有大 t
在 numpy 数组中查找满足条件的大量连续值

我在 numpy 数组中加载了一些音频数据我希望通过查找静音部分即一段时间内音频幅度低于特定阈值的部分来对数据进行分段一个非常简单的方法是这样的 values join 1 if abs x lt SILENCE THRESHOLD
每 n 个字符后插入连字符，末尾不添加连字符

我在用着chunk split 每第四个字母后添加一个但它也会在字符串末尾添加一个这是我不想要的代码如下 function GenerateKey input generated strtoupper md5 input uniqid
Java中如何将Object[]转换为String[]？

我有一个关于 Java 的问题我有一个Object Java默认的不是用户定义的我想将它转换为String 谁能帮我谢谢这是转换 for int i 0 i lt objectArr length i try strArr i o
将 ASCII 字符转换为“”unicode 表示法的脚本

我正在对 Linux 区域设置文件进行一些更改 usr share i18n locales like pt BR 并且需要格式化字符串例如 d m Y H M 必须以 Unicode 指定其中每个在本例中为 ASCII 字符表示为
在大文件中查找重复字符串

一个文件包含大量例如100亿字符串您需要查找重复的字符串您有 N 个可用系统您将如何找到重复项埃里克森的答案可能是提出这个问题的人所期望的您可以将 N 台机器中的每台机器用作哈希表中的一个存储桶对于每个字符串按顺序说出字符
Twitter Bootstrap 行过滤器/搜索框

我无法找到有关如何为 Twitter Bootstrap 创建简单搜索查询或行过滤器的教程我已经尝试了很多我不确定是否我做错了什么或者插件与 Bootstrap 不兼容如果可以的话请帮忙我试过了 document ready fun
JavaScript 中的字符串基元和字符串对象有什么区别？

取自字符串文字用双引号或单引号表示和字符串从非构造函数上下文中的 String 调用返回即没有使用 new 关键字是原始字符串自动 JavaScript 将基元转换为 String 对象以便可以使用原始字符串的字符串对
使用带有可变参数字符串的函数

我正在研究带有可变参数的函数并决定创建一个函数来创建带有参数的向量我的功能是创建一个int矢量工作 vector
类型错误：translate() 只接受一个参数（给定 2 个参数）[重复]

这个问题在这里已经有答案了我的代码在 python 2 x 版本上运行良好但是当我尝试在 python 3 x 版本上运行它时出现错误主题需要缩写短信编码中的任何消息 Code def sms encoding data star
Nothing = String.Empty （为什么它们相等？）

为什么第一个 if 语句的计算结果为 true 我知道如果我使用 is 而不是那么它的计算结果不会为 true 如果我将 String Empty 替换为 Foo 它的计算结果不会为 true String Empty 和 Foo 都具有
给定一个字符串，如何删除所有重复的连续字母？

如何从字符串中删除两个连续的字母例如 a str hii thherre 应该成为 hi there 我尝试这样做 a str join sorted set a str key a str index 但是我得到 hi ter 是的
如何从 python 中的字符串中删除 ANSI 转义序列

这是包含我的字符串的片段 ls r n x1b 00m x1b 01 31mexamplefile zip x1b 00m r n x1b 01 31m 该字符串是从我执行的 SSH 命令返回的我无法使用当前状态下的字符串因为它包含 A
std::vector 的复制构造函数如何运行？

一个如何std vector
当“”可以分配给std::string时，为什么有“clear”方法？

一个可以用string clear函数清空字符串也可以使用空双引号来执行此操作有什么不同当您分配一个空字符串时编译器必须在数据部分存储一个空的 C 字符串并创建代码以将指向它的指针传递给赋值运算符然后赋值运算符必须从数据部分

随机推荐

理解列表推导式的语法

我不明白列表理解的语法 newList expression element for element in oldList if condition 我不明白的是 element 假设您有以下代码 List character for ch
Monotouch：UITableViewCell 高度

我一直在网上冲浪以弄清楚如何使我的表格单元格高度适合其内容我的内容具有不同的高度我试着看看这个样本 http simon nureality ca simon says project d uitableviewcells autosi
如何制作响应式表格[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个表来表示 html 页面中的一些数据我正在尝试使该表具有响应能力我怎样才能做到这一点这里是Demo http jsfid
如何在Android中的DatePicker中仅阻止过去的日期

如何在Android中的DatePicker中仅阻止过去的日期我正在使用过去日期和当前日期被阻止的示例代码我只需要阻止过去的日期而不是当前日期这是我的代码 private DatePickerDialog OnDateSetList
向 React Native WebView 添加 CSS 样式

所以我对此有点困惑我在应用程序的一部分中使用了 WebView 使用 WebView 的原因是因为我们从返回给我们 HTML 字符串的 API 端点拉取此 HTML 字符串中的字体大小和其他内容的样式不是为了在移动应用程序中使用而设计的
即使使用 TLSHandshakeTimeShift 选项，TLS 过期的 Hyperledger Fabric orderer 也无法启动

我的 Hyperledger Fabric 网络的 TLS MSP 密钥已在 500 多小时前过期由于过期我的订单在停止后无法重新启动我的订购者设置是超级账本 Fabric 版本 2 2 RAFT共识根据文档我设置了TLSHan
WebElement.equals() 方法如何检查相等性？

我有超过 1 个 XPath 指向一个 Web 元素并且我想确定这两个元素是否等效即如果我在两个 Web 元素上执行操作 sendKeys 或 click 则该操作将在同一个 Web 元素上执行目前我正在使用以下方法检查相等性 We
重定向到带有 auth 标头的 url

我正在尝试重定向到受保护的资源当我按下登录按钮时它会发送到我未受保护的登录 api 并返回一个令牌其他路由期望标头授权不记名令牌类型的交易但我不知道当我重定向到受保护资源时如何设置标头 console log success
TFS 2018 以编程方式创建代理池

是否可以以编程方式最好通过 PowerShell 在 TFS 2018 中创建代理池我在 REST API 中找不到类似的东西我不知道为什么它没有详细记录但这对我来说对 VSTS 有效 token myPAT base64AuthI
获取 UITextView 中滚动后可见文本的 NSRange

我正在尝试将滚动文本的位置保存在UITextView这样我就可以在加载时返回到该位置ViewController再次我有很长的字符串所以我希望用户能够滚动到特定位置然后稍后返回到该位置我正在使用UITextView scrollRa
有没有办法让 json.Unmarshal() 根据“type”属性选择结构类型？

我有一些以下形式的 JSON type car color red hp 85 doors 4 type plane color blue engines 3 我有类型car and plane满足车辆接口我希望能够写 var v veh
如何在开始其他活动时保留 Tabhost

我的 TabHost 有问题我的 TabBarActivity 类流程为公共类 TabBarActivity 扩展 TabActivity 实现 OnTabChangeListener non Javadoc see android a
IdentityServer - AD 用于身份验证，其余部分在 DB 中

我已经设置了一个已启动并运行的基本 IdentityServer 我使用 Identity Manager 和 Identity Admin 将所有内容用户角色声明客户端范围保存在数据库中下一步是将身份验证与 AD 集成我的
Tensorflow 计算图像中的对象[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案机器学习新手因此正在寻找如何入门的方向最终目标是能够使用 Tensorflow 训练模型来计算图像中的对象数量我最初的重点是训练
使用 psql 时获取错误代码

当我使用 psql exe 运行 SQL 脚本时发生错误时没有收到错误代码有什么方法可以获取 psql 错误代码吗我尝试将 VERBOSITY 设置为详细如下所示但没有用 set VERBOSITY verbose 我正在使用
SecurityTokenInvalidAudienceException：IDX10214：受众验证失败

我正在使用 Identity 和 Sustainsys Saml2 用于 SAML 身份验证开发 ASP NET Core 2 应用程序我已在 Startup cs 文件中进行了必要的配置现在当我运行该项目并尝试使用 SAML2 登
如何在 C# 中获取当前用户的 Active Directory 详细信息

我正在开发一个使用 Windows 身份验证的 C 和 ASP Net 应用程序即在 Web config 中
powershell远程安装msi失败

我正在尝试使用 powershell 在远程服务器上安装 msi 文件服务器 1 是我的构建服务器服务器 2 是我的应用程序服务器当构建服务器完成构建后我想触发一个 powershell 脚本以将最新版本安装到我的应用程序服务器我
获取列表中的项目

我有以下列表项 public List
给定一个搜索词列表，我如何知道我的字符串包含哪些搜索词？

有很多软件会采用搜索字符串并查找数据库中包含该字符串的所有文本 MySQL 的WHERE MATCH searchterm string column 谷歌等但是有没有一个好的算法可以反其道而行之呢假设我有一个搜索词列表丰田普锐斯丰

给定一个搜索词列表，我如何知道我的字符串包含哪些搜索词？

给定一个搜索词列表，我如何知道我的字符串包含哪些搜索词？ 的相关文章

随机推荐

热门标签

给定一个搜索词列表，我如何知道我的字符串包含哪些搜索词？的相关文章