如何在 sql 中创建查询以将句子切分成单词并将它们及其频率添加到新表中

2024-04-06

我正在尝试执行一个查询，但不确定是否可行我有一张桌子叫句子其中包含IS、句子和验证，如下图所示。

我还有另一张桌子叫字数其中包含 ID、单词和出现频率。所以我希望每当一个句子输入更新或删除时，该表都会相应更新或每天更新，因为可能有很多句子

我的预期输出如下图所示。

任何想法都是可行的，任何人都可以帮忙。

如果您运行的是 MySQL 8.0，我建议您使用递归公用表表达式。这个想法是迭代地遍历每条消息，并将其分解为单词。然后剩下要做的就是聚合。

with recursive cte as (
    select 
        substring(concat(sent, ' '), 1, locate(' ', sent)) word,
        substring(concat(sent, ' '), locate(' ', sent) + 1) sent
    from messages
    union all
    select 
        substring(sent, 1, locate(' ', sent)) word,
        substring(sent, locate(' ', sent) + 1) sent
    from cte
    where locate(' ', sent) > 0
)
select row_number() over(order by count(*) desc, word) wid, word, count(*) freq
from cte 
group by word
order by wid

在早期版本中，您可以使用数字表模拟相同的行为。

样本数据：



sent                       | verif
:------------------------- | ----:
hello my name is alex      |  null
hey alin and alex I'm tom  |  null
hello alex my name is alin |  null

Results:



wid | word   | freq
--: | :----- | ---:
  1 | alex   |    3
  2 | alin   |    2
  3 | hello  |    2
  4 | is     |    2
  5 | my     |    2
  6 | name   |    2
  7 | and    |    1
  8 | hey    |    1
  9 | I'm    |    1
 10 | tom    |    1

当涉及到在单独的表中维护查询结果时，它可能比您想象的更复杂：您需要能够根据原始表中的更改来插入、删除或更新目标表，而这是不可能的在 MySQL 中用一条语句完成。此外，在原始表中保持标志为最新会产生竞争条件，在更新目标表时可能会发生更改。

一个更简单的选择是将查询放在视图中，这样您就可以获得有关数据的始终最新的视角。为此，您可以将上面的查询包装在create view声明，如：

create view words_view as < above query >;

如果性能成为问题，那么您还可以定期截断并重新填充单词表。

truncate table words;
insert into words < above query >;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mysql

sql

string

recursivequery

如何在 sql 中创建查询以将句子切分成单词并将它们及其频率添加到新表中的相关文章

C 中的指针、数组、字符串和 Malloc

我目前正在学习 C 语言中的字符串指针和数组我尝试编写一个程序其中数组保存三个指向字符串地址的指针这一切似乎都有效但程序的行为很奇怪这是代码 char getUserDetails char host localhost cha
需要 SQL 查询澄清[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个由以下列组成的表 billid patientid doctorid fees 如何显示治疗多名患者的医生尝试了以下代码并得到了
在C#中的某个单词之后/之前过滤字符串中的值

我有很长的字符串它们是 IMAP 请求的响应我想从中提取一些值它通常的格式类似于 x someword 或 someword x 如何获取某个单词已知的x 它可以超过一位数字响应的每一行如下所示 x someword r n
正则表达式查找字符串中的整数和小数

我有一个像这样的字符串 str1 12 ounces str2 1 5 ounces chopped 我想从字符串中获取金额无论它是否是小数 12 或 1 5 然后获取紧邻的前一个测量值盎司我能够使用一个非常基本的正则表达式来获取测量
Laravel 5.4 升级 - 违反完整性约束 - 列不能为空

奇怪的是所有这些都在 5 2 中工作但我不知道可以改变什么来实现这一点下面是错误和正在插入的数组 SQLSTATE 23000 Integrity constraint violation 1048 Column gender can
用于开始和/或包含搜索的最快字符串集合结构/算法是什么

我有以下情况我有一个大的字符串集合比如说 250 000 平均长度可能是 30 我要做的就是在这些搜索中进行许多搜索大多数搜索都是 StartsWith 和 Contains 类型的该集合在运行时是静态的这意味着选择的集合的初始读
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
PHP使用auto_increment生成短唯一ID？

我想生成一个简短的唯一的 ID 而不必检查冲突我目前正在做类似的事情但是我当前生成的 ID 是随机的并且在循环中检查冲突很烦人并且如果记录数量显着增加将会变得昂贵通常担心冲突不是问题但我想要生成的唯一 ID 是一个由 5 8
将两个表合并为一个输出

假设我有两张表已知营业时间 ChargeNum CategoryID Month Hours 111111 1 2 1 09 10 111111 1 3 1 09 30 111111 1 4 1 09 50 222222 1 3 1 09
3 个表的 SQL 查询（或联接）

第一次在 Stack Overflow 上问问题很棒的资源但是只有一件事真正让我作为 SQL 新手感到困惑我有三个表我想获取与鲍勃的学生相关的所有导师的姓名表 1 教师 ID Name 1 Bob 表 2 学生 STUDENT I
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
Rust 编程竞赛中最快的惯用 I/O 例程？

我的问题已部分得到解答因此我根据从评论和其他实验中学到的知识对其进行了修改总之我想要一个用于编程竞赛的快速 I O 例程其中使用单个文件解决问题无需外部包它应该从一个以空格分隔的标记序列中读取BufRead 标准输入或文件标记
从 Grib 天气模型中提取数据

我已经下载了grib1模型数据来自GFS http en wikipedia org wiki Global Forecast System 我使用的是 Mac OS X 并且能够构建wgrib2文件来自NOAA http en wikip
PLSql 返回值

我再次使用一些 PLSql 我想知道是否有任何方法可以像选择一样使用以下函数而不必将其转换为函数或过程这样我就可以从包含它的脚本中看到代码代码如下 DECLARE outpt VARCHAR2 1000 flow rI VARCHA
SQL - 需要查找重复记录但排除反向事务

我有一张交易表偶尔会有重复条目如果当管理员发现这些重复条目时他们将撤销交易从而创建负值但由于监管要求原始重复条目仍然保留我想创建一个 SQL 查询并使用 Crystal Reports 来制作报告以便管理员轻松查找重复
AWS RDS MySql - 如何在设置“公开可用”后允许访问

刚刚使用默认设置和用户密码创建了新的 AWS RDS MySql 实例我也将其设置为publicly available并在此过程中创建新的 VPC 目前无法从我的笔记本电脑连接到此 RDS mysql h endpoint u myu
无法在 mysql-apt-config [Ubuntu 14.04] 中选择“确定”

我使用的是 Ubuntu 14 04 sudo apt get update总是给我这个选项来配置 mysql apt config 我尝试选择版本按 tab gt 在确定上突出显示的键按 Enter 但没有任何反应它再次返回并突
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
在同一查询中选择 Count of ip 和 Count of DISTINCT ip

我有一个这样的表结构 TABLE NAME counter id datetime url ip 1 2013 04 12 13 27 09 url1 ip01 2 2013 04 13 10 55 43 url2 ip02 3 2013
如何在查询语句之外从mysql查询中获取值？

这是下面的函数console log function quo value value connection query SELECT role from roles where id 1 function error results fi

随机推荐

如何在 R CMD 构建中使用 Makefile

我正在开发一个 R 包它基于一个仅使用 Makefile 的项目其中大部分很容易翻译成R CMD build工作流程然而我需要创建的 pdf 有点复杂除非我修补否则我无法正确地创建它们到目前为止我想出了如何使用 Makefi
如何让 valgrind 忽略某些行？

例如 26460 2 bytes in 1 blocks are still reachable in loss record 2 of 105 26460 at 0x4C28BE3 malloc vg replace malloc c 2
禁用输出缓冲

Python 解释器中默认启用输出缓冲吗sys stdout 如果答案是肯定的有哪些方法可以禁用它到目前为止的建议 Use the u命令行开关 Wrap sys stdout在每次写入后刷新的对象中 Set PYTHONUNBUFFE
如何在 WinForms 中使用依赖注入

如何在 Winforms C 中定义依赖注入接口IC类别 public interface ICategory void Save 类类别存储库 public class CategoryRepository ICategory priv
如何创建一对一关系 SQL Server 图表

有谁知道如何从 SQL Server 数据库图表创建一对一关系你需要放一个unique key constraint on top of the foreign key 因此它仅限于一对一的关系
R 中的错误：要替换的项目数不是替换长度的倍数

此代码向我显示此错误要替换的项目数不是替换长度的倍数我不知道问题出在哪里所以这是代码 k lt c 0 0 0 0 x lt 30 t lt c 10 20 30 35 x1 lt x t for i in 1 4 k i lt 0
Spring 4.3.7 抛出 java.lang.NoClassDefFoundError: com/fasterxml/jackson/core/util/DefaultIndenter

当我从 spring 4 3 4 迁移到 4 3 7 时添加 Jackson core 依赖项后遇到 NoclassDefined 错误引起 org springframework beans BeanInstantiationExce
GWT 应用程序的内存使用情况

我目前正在开发 GWT 应用程序作为未来项目的技术证明我喜欢用 Java 而不是 JavaScript 构建 AJAX 代码的方式但当我重复调用 RPC 服务时我似乎遇到了内存问题浏览器内存使用量不断增长当我搜索 Google
iphone、ipad 重复 UIView - 克隆视图

如何复制 UIView 要求是一个视图内应该有两个视图例如视图 A 和视图 B 更改一个视图也应该更改另一个视图例如考虑在视图 A 中添加一个 mpmediaplayer 意味着视图 B 应该显示与视图 A 中相同的视频如果我在视图
我如何在R中读取MTL文件

我对 R 编程非常陌生请有人告诉我如何读取用陆地卫星数据存档的 MTL 文件对于随 Landsat 场景提供的标准 MTL 文件该文件来自地球探索号 http earthexplorer usgs gov or Glovis http
如何再次启动外部 JavaFX 程序？即使 JavaFX 程序以 Platform.Exit 结束，Launch 也会阻止这种情况发生

从我的 MainProject Java 8 开始我启动了一个 JavaFX 8 类 public void startFX if isRestartPrintModul true fxMain init else setRestartP
Android：发送数据短信时出现问题

我已经编写了发送加密消息的代码但加密数据 SMS 未发送因为 onreceive 方法未调用我认为接收器部分有问题现在我是 android 新手任何人都可以帮助我以下代码有什么问题我正在使用 RSA 算法提前致谢发送 pu
使用 Javascript 循环将 Leaflet GeoJSON 层从 GeoServer 添加到数组

我正在尝试使用循环将 GeoJSON 图层添加到数组中然后将它们显示在我的地图上我的目标是拥有一个像这样的变量场景 json 1 第 1 层场景 json 2 第 2 层等等 myURL http localhost 8080 g
按位非运算符解释

为什么按位非运算符在大多数语言中会像这样转换以下值 2 gt 1 1 gt 0 0 gt 1 1 gt 2 不应该 2转换成2 1转换成 1 etc See 二进制补码 http en wikipedia org wiki Two 27
如何按名称查找 Eclipse 项目和文件夹？

有没有办法在 Eclipse 工作区中按名称搜索文件夹项目结果最好在我可以执行批量操作例如关闭打开分配工作集的视图中返回手动点击数百个项目的列表实在是太麻烦了这个看似微不足道的任务让我感到悲伤在我经历了这么多年的日食之后
如何停止后台运行的 PHP 脚本

我开始这个过程 time php
取消 handler.postdelayed 进程

我在用handler postDelayed 在我的应用程序的下一阶段发生之前创建一个等待期在等待期间我显示一个带有进度条的对话框 cancel button 我的问题是我找不到办法取消帖子延迟时间过去之前的任务我这样做是为了发布延迟
VS Code 远程 SSH 连接不起作用

我正在尝试在第二台电脑上使用远程开发扩展设置 vscode 虽然它适用于我的主要一台但不适用于第二台尝试重新安装 vscode 扩展并使用旧版本但没有任何效果尝试连接时选择操作系统后会取消所以我什至无法输入密码我的设置方式与另
为什么“导入模块”然后“从包导入模块”再次加载模块？

我的 PYTHONPATH 中有一个包看起来像这样 package init py module py print Loading module 如果我从以下位置运行 Pythonpackage 目录或在此目录中写入另一个模块并输入
如何在 sql 中创建查询以将句子切分成单词并将它们及其频率添加到新表中

我正在尝试执行一个查询但不确定是否可行我有一张桌子叫句子其中包含IS 句子和验证如下图所示我还有另一张桌子叫字数其中包含 ID 单词和出现频率所以我希望每当一个句子输入更新或删除时该表都会相应更新或每天更新因为可能有很多句子

如何在 sql 中创建查询以将句子切分成单词并将它们及其频率添加到新表中

如何在 sql 中创建查询以将句子切分成单词并将它们及其频率添加到新表中 的相关文章

随机推荐

热门标签

如何在 sql 中创建查询以将句子切分成单词并将它们及其频率添加到新表中的相关文章