从没有空格/组合词的文本中检测最有可能的单词

2023-12-21

如何从组合字符串中检测和拆分单词？

Example:

"cdimage" -> ["cd", "image"]
"filesaveas" -> ["file", "save", "as"]

这是一个动态编程解决方案（作为记忆函数实现）。给定一个单词字典及其出现频率，它会将输入文本分割到给出总体最有可能的短语的位置。您必须找到一个真正的单词列表，但我包含了一些虚构的频率以进行简单的测试。

WORD_FREQUENCIES = {
    'file': 0.00123,
    'files': 0.00124,
    'save': 0.002,
    'ave': 0.00001,
    'as': 0.00555
}

def split_text(text, word_frequencies, cache):
    if text in cache:
        return cache[text]
    if not text:
        return 1, []
    best_freq, best_split = 0, []
    for i in xrange(1, len(text) + 1):
        word, remainder = text[:i], text[i:]
        freq = word_frequencies.get(word, None)
        if freq:
            remainder_freq, remainder = split_text(
                    remainder, word_frequencies, cache)
            freq *= remainder_freq
            if freq > best_freq:
                best_freq = freq
                best_split = [word] + remainder
    cache[text] = (best_freq, best_split)
    return cache[text]

print split_text('filesaveas', WORD_FREQUENCIES, {})

--> (1.3653e-08, ['file', 'save', 'as'])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

split

cpuword

从没有空格/组合词的文本中检测最有可能的单词的相关文章

PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name

随机推荐

PyCharm 中的 Python 错误消息：无法附加到共享内存段

我开始在 Ubuntu 15 04 中使用 PyCharm 和 Python 2 7 编写代码同时我已经安装了Ubuntu 15 10和PyCharm 4 5 4 CE 现在当我运行我的代码时我收到此错误 QNativeImage
一旦我的应用程序进程被终止，什么会保持我的活动状态？

我一直在通过运行一个消耗内存的应用程序来测试我的程序的行为该应用程序会强制杀死我的应用程序阅读完以下问题的答案后onSaveInstanceState的bundle保存在哪里 https stackoverflow com questi
启用 MSAA 时，iPhone 中的 openGL 纹理渲染失败

我的 iPhone 纹理渲染代码仅在禁用 MSAA 时才有效否则我得到的只是黑色纹理问题的原因可能是什么这是我的代码 glViewport 0 0 target gt Width target gt Height glClear GL
在 vba msgbox 中不使用 goto 循环的方法

我正在尝试找到一种方法来避免在 VBA 中使用 GoTo 循环因为我知道它们可能会导致严重的混乱和问题我有一个用户InputBox 其中用户定义变量目前if语句上有3个选项 if Y ElseIf N和else GoTo Start
Postgresql 函数中的“$$”是什么意思？

CREATE OR REPLACE FUNCTION increment i integer RETURNS integer AS BEGIN RETURN i 1 END LANGUAGE plpgsql 上面的代码取自Postgresq
获取使用泛型的函数的返回类型

免责声明以下是过于简化的功能我知道它们是无用 function thinger
如何在 Team Foundation Server 中解锁其他人的文件

我们有一个项目存储在我们的 TFS 服务器中并且我从另一台计算机和另一个用户两者都不再使用签出了一些文件有没有办法强制解锁文件没有对其进行任何更改因此如果我只能这样做那么这样做是安全的这是我在 Visual Studio 2
无法编译的源代码 - 错误的符号类型：

第 14 行发生错误线程 main 中的异常 java lang RuntimeException 无法编译源代码错误的符号类型很难找到解决方案 package example public class Num public sta
从realm.io读取并添加到listview

我想用Realm io保存数据然后在列表视图中显示每个项目这是我创建数据库的方式我认为 config new RealmConfiguration Builder this name timeLog schemaVersion 42
MacOS 上的 DotNet core 2.0 在使用 couchbase dotnet sdk 时出现由 httpclient 触发的 libcurl 和 ssl 错误

我正在开发一个Dotnet core 2 x 实际上使用2 1 4 我写这篇文章时的最新版本 Web api项目为了使用couchbase作为我的数据库服务器我需要使用couchbase SDK sdk 声明它支持 DotNet cor
连接主报表和子报表 - 将对象列表传递到子报表

我正在使用报表4 5 1我在连接主报告和子报告时遇到了问题我有两个对象 Account accountID date listOfParagraphs 所有字段均在主报告中定义段落 account paragraphNo someObj
使用 XDebug + PHPStorm 进行调试迫使我始终要进入

我正在尝试调试我的密码接收 tests 我的调试平台使用PHPStorm X调试从正确的浏览器使用时效果很好IDE KEY作为饼干但是当尝试使用以下命令调试 codecept 时CLI我遇到以下问题如果我在 Cest 类中放置断点行
为什么我无法在 Apache 中禁用 .htaccess？

这与我读过的大多数问题相反我在使用 Apache 2 2 8 的 Amazon 实例上运行 Ubuntu 8 04 我不明白为什么将 root 的 AllowOverride 设置为 None 不会阻止包含我的 htaccess 文件我
为什么Object类是java中的超类[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案为什么object Class是java中的超类昨天我参加了一次面试面试官问了我一些问题因为 java lang 包中的 Object 类位
R 中 Arules 序列挖掘的主序列

如何从 R 中 arulesSequence 包中的 cspade 算法中删除子序列例如如果我的数据 Sample txt 如下列名称 sequenceID EventID 大小项目 1 1 1 A 1 2 1 B 1 3 1 C
用C编写命令行shell；第一次尝试使用 ncurses/C

我正在开发一个类项目在该项目中我必须编写一个具有以下要求的命令行 shell shell 必须能够读取缓冲的输入缓冲区应为 64 个字符 Error conditions should be handled 超出缓冲区大小中断当信号
需要检测多条线的 RANSAC

这是一个有点理论问题但我想知道当图像中检测到多条线时如何随机选择点到目前为止在我见过的大多数示例中似乎只检测到一行而且看起来很容易但是我不确定它如何扩展以检测具有更多点的多条线我认为你是在一个基本的误解下运作的 RANSAC
如何覆盖 TortoiseSVN 中的本地更改？

假设我进行了检查编辑了一些内容并意识到我想重新下载存储库代码并覆盖我的本地更改而不提交它们我下载了一个项目进行了一些编辑然后我意识到我不喜欢我的本地更改我尚未提交如何在不删除文件夹的情况下恢复到存储库的当前状态我该怎么做呢
为购物车应用程序设计数据库？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我从未从头开始设计数据库数据模型模式尤其是对于 Web 应用程序在最近的一些工作面试中我被要求为购物车应用程序设计一个数
从没有空格/组合词的文本中检测最有可能的单词

如何从组合字符串中检测和拆分单词 Example cdimage gt cd image filesaveas gt file save as 这是一个动态编程解决方案作为记忆函数实现给定一个单词字典及其出现频率它会将输入文本分割到给

从没有空格/组合词的文本中检测最有可能的单词

从没有空格/组合词的文本中检测最有可能的单词 的相关文章

随机推荐

热门标签

从没有空格/组合词的文本中检测最有可能的单词的相关文章