python 中没有空格的分割句子（nltk？）

2024-01-29

我有一组连接的单词，我想将它们分成数组

例如：

split_word("acquirecustomerdata")
=> ['acquire', 'customer', 'data']

I found pyenchant，但它不适用于 64 位 Windows。

然后我尝试将每个字符串拆分为子字符串，然后将它们与 wordnet 进行比较以找到等效的单词。例如：

from nltk import wordnet as wn
def split_word(self, word):
    result = list()
    while(len(word) > 2):
        i = 1
        found = True
        while(found):
            i = i + 1
            synsets = wn.synsets(word[:i])
            for s in synsets:
                if edit_distance(s.name().split('.')[0], word[:i]) == 0:
                    found = False
                    break;
        result.append(word[:i])
        word = word[i:]
   print(result)

但这个解法不确定，而且太长。所以我正在寻求你的帮助。

谢谢

Check - 分词任务 http://nbviewer.jupyter.org/url/norvig.com/ipython/How%20to%20Do%20Things%20with%20Words.ipynb from Norvig http://norvig.com/'s work.

from __future__ import division
from collections import Counter
import re, nltk

WORDS = nltk.corpus.brown.words()
COUNTS = Counter(WORDS)

def pdist(counter):
    "Make a probability distribution, given evidence from a Counter."
    N = sum(counter.values())
    return lambda x: counter[x]/N

P = pdist(COUNTS)

def Pwords(words):
    "Probability of words, assuming each word is independent of others."
    return product(P(w) for w in words)

def product(nums):
    "Multiply the numbers together.  (Like `sum`, but with multiplication.)"
    result = 1
    for x in nums:
        result *= x
    return result

def splits(text, start=0, L=20):
    "Return a list of all (first, rest) pairs; start <= len(first) <= L."
    return [(text[:i], text[i:]) 
            for i in range(start, min(len(text), L)+1)]

def segment(text):
    "Return a list of words that is the most probable segmentation of text."
    if not text: 
        return []
    else:
        candidates = ([first] + segment(rest) 
                      for (first, rest) in splits(text, 1))
        return max(candidates, key=Pwords)

print segment('acquirecustomerdata')
#['acquire', 'customer', 'data']

为了获得比这更好的解决方案，您可以使用二元组/三元组。

更多示例请参见：分词任务 http://nbviewer.jupyter.org/url/norvig.com/ipython/How%20to%20Do%20Things%20with%20Words.ipynb

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLTK

spellchecking

WordNet

python 中没有空格的分割句子（nltk？）的相关文章

使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
Tipfy：如何在模板中显示blob？

鉴于在 gae 上使用tipfy http www tipfy org python 以下模型 greeting avatar db Blob avatar 显示 blob 此处为图像的模板标签是什么在这种情况下斑点是一个图像这很棒
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet

随机推荐

当使用“using namespace std”时，std::isgraph 不明确

我尝试使用std isgraph from
javascript中矩形边缘中心到任意点之间的距离

如上图所示假设有一条光线从中心发出并在矩形边缘发生碰撞所以我想计算它在哪一点发生碰撞这样我就可以计算边缘点和中心点之间的距离 What we know 矩形的宽度和高度 a 学位 b 学位如上图所示 X 中心 Y 中心中心为 0
如何在我的 xhtml 页面中重新激活代码辅助（eclipse 3.5、jboss 工具 3.1、jsf 1.2）

我使用facelets开发jsf xhtml页面并且我总是为我在我的xhtml根元素中声明的所有标签库提供代码帮助 h f等但是因为大约 30 分钟当我按 ctrl space 时我只有常规的 html 和 ui 提案我没有改变
通过在 qt 中从 c++ JNI 发送字符串来在 Android 中显示 Toast

我正在尝试在 C 端的 Java 方法调用上显示 toast 我已经设法调用该方法甚至获取字符串但 Toast 不起作用我已经尝试了几乎所有与上下文相关的内容 C Side JavaVMAttachArgs args JNI VERSI
excel vba 我需要将数据从列转置为行

我正在寻找一个 VBA 解决方案来转换类似于下图的场景中的数据从Sheet1仅当它们左侧的任何单元格 D3 E3 中存在值时才复制前三个单元格值 A3 B3 C3 Sheet2过去前 3 个单元格值 A2 B2 C2 以及之后的第一个单
Javah：错误：无法访问android.support.v7.app.ActionBarActivity

我遇到了 java 问题我读过大约 4 或 5 个 stackoverflow 帖子其中包含错误已解决但任何东西都对我有用我的问题当我执行 javah 命令时出现此错误 Error cannot access android s
ORMLITE 按另一个表中的列排序

我想通过这样的 sql 获取信息但在 ORMLITE 中 SELECT FROM tableA a INNER JOIN tableB b on a fieldA b fieldB ORDER BY a fieldZ b fieldX 我
Imagemagick 执行并转换

我最近开始使用 imagemagick 和 php 我对 IM 和 PHP 都比较陌生所以我来这里寻求一些帮助建议 First 如果假设用户上传 gif 或 png 图像我的网站我想将其转换为 jpg 有吗例如命令 image
将新值分配给多索引数据帧中的切片

我想修改数据帧中某一列的一些值目前我有一个view通过我原来的多重索引进行选择df 并且修改确实会改变df 这是一个例子 In 1 arrays np array bar bar baz qux qux bar np array one
使用 jasmine-node 监视全局函数

我正在使用 jasmine node 对 javascript 代码进行单元测试我有许多全局函数我想监视它们并允许调用使其达到原始实现请参阅下面的代码作为示例由于我无法解释的原因我看到错误 globalFunction 方法不存在
用 C# 与网页交互

有一个使用 ColdFusion 创建的网站不确定这是否重要我需要与该网站进行交互我需要做的主要事情是导航到不同的页面并单击按钮关于如何做到这一点我提出了两个想法第一种是使用WebBrowser 控件有了这个我当然可以导航页
Flutter - 如何在 firebase 动态链接中传递自定义参数以实现应用程序邀请功能？

您能告诉我如何使用 flutter 插件 firebase dynamic links 发送和获取参数吗 https pub dev packages firebase dynamic links readme tab https pub
如何从内容的代码隐藏页面调用母版页中的方法？

我的 ASP NET 母版页中有一个公共方法是否可以从内容页面调用它如果可以步骤语法是什么从内部Page你可以投射Master页面到特定类型您自己的类型Master公开所需的功能使用as回避类型不匹配的任何异常 var mas
如何在 stdout 上显示 Linux 命令的输出并将其通过管道传递给另一个命令？ [复制]

这个问题在这里已经有答案了可能的重复如何在将标准输出保持在屏幕上的同时通过管道传输而不是输出文件 https stackoverflow com questions 5677201 how to pipe stdout while k
如何在com.android.support中实现2级以上导航：leanback-v17

在常规的 Android 应用程序中我可以使用导航抽屉在顶级视图应用程序的各个部分之间导航电视应用程序中应该使用什么我只看到两级内容组织的可能性类别 gt 电影但在我们的应用程序中我们有几个部分直播频道点播电影录制节目
Django“ValueError：无法批量创建多表继承模型”

Problem 我正在使用 django model utils InheritanceManager 我有一个超级通知 models Model 类我用它来创建许多通知子类例如PostNotification Notification
绘制连音符列表的直方图 matplotlib

我有一个连音列表 k 8 8 10 10 8 8 8 8 12 12 7 7 8 8 9 9 10 10 10 10 8 8 9 9 13 13 10 10 8 8 8 8 7 7 我想制作每个连音频率的简单直方图一个人会怎样做呢标准p
bash 进程替换和尾部结果不正确？

使用 bash 进程替换我想同时在一个文件上运行两个不同的命令在此示例中这不是必需的但想象一下 cat usr share dict words 是一个非常昂贵的操作例如解压缩 50gb 文件 cat usr share dict
使用 TeamCity 修复 YouTrack 中来自 SubVersion 提交评论的问题

我有一个 TeamCity 服务器和一个与 SubVersion 一起使用的 YouTrack 服务器我已启用两个 JB 应用程序中的集成是否可以通过 SubVersion 提交评论中的评论更改 YT 问题的状态 IE TC 将相应更新
python 中没有空格的分割句子（nltk？）

我有一组连接的单词我想将它们分成数组例如 split word acquirecustomerdata gt acquire customer data I found pyenchant 但它不适用于 64 位 Windows 然后我

python 中没有空格的分割句子（nltk？）

python 中没有空格的分割句子（nltk？） 的相关文章

随机推荐

热门标签

python 中没有空格的分割句子（nltk？）的相关文章