tokenize

如何查找列表中句子列表中每个单词的引理和频率计数？

我想使用 WordNet Lemmatizer 找出引理并且还需要计算每个词频我收到以下错误轨迹如下类型错误不可散列的类型列表注语料库可在nltk包装本身到目前为止我已经尝试过如下 import nltk re impo

python python3x NLTK tokenize WordNet

在 Javascript 中使用正则表达式对字符串进行标记

假设我有一个包含换行符和制表符的长字符串 var x This is a long string n t This is another one on next line 那么我们如何使用正则表达式将该字符串拆分为标记呢我不想用 spli

javascript regex string tokenize stringtokenizer

如何使用 Node.js 标记 Markdown？

我正在构建一个 iOS 应用程序该应用程序的视图将从 Markdown 中获取其来源我的想法是能够将 MongoDB 中存储的 markdown 解析为 JSON 对象如下所示 h1 This is the heading p Her

javascript ios nodejs markdown tokenize

在 Python 中标记一个保留分隔符的字符串

有没有相当于str split在Python中也返回分隔符在处理一些标记后我需要保留输出的空白布局 Example gt gt gt s tthis is an example gt gt gt print s split this i

python string split tokenize

Java 中使用分隔符“.”的分词问题

我需要使用分隔符分割文本例如我想要这个字符串 Washington is the U S Capital Barack is living there 分为两部分 Washington is the U S Capital Barack

Java string tokenize stringtokenizer

在 PL/SQL 存储过程中拆分逗号分隔的字符串

我有 CSV 字符串 100 01 200 02 300 03 我需要将其传递给 Oracle 中的 PL SQL 存储过程在过程中我需要将这些值插入表中的数字列中为此我从这里得到了一个工作方法如何在 oracle 9i 中最好地

Oracle plsql tokenize

用于生成唯一链接的 Rails 插件？

我的应用程序中有很多地方需要生成带有唯一标记的链接 foo com g6Ce7sDygw 或其他每个链接可能与一些会话数据相关联并将用户带到一些特定的控制器操作有谁知道有一个 gem 插件可以做到这一点它很容易实现但会更干净无

rubyonrails ruby Plugins tokenize

Python 中 C++ 的简单分词器

努力寻找一个Python脚本库来标记找到特定的标记如函数定义名称变量名称关键字等我已经设法使用类似的方法找到关键字空格等this https docs python org 3 library re html writing a

python tokenize

正则表达式/“正则表达式”中的正则是什么意思？

正则表达式中的正则是什么意思我听说正则表达式曾经是常规的但现在不再了 The regular正则表达式中来自于它匹配常规语言 http en wikipedia org wiki Regular language 的概念形式语言理

regex perl Parsing tokenize

Python 中的 Flesch-Kincaid 可读性测试

我需要帮助解决我遇到的这个问题我需要编写一个从文本返回 FRES Flesch 阅读轻松测试的函数给出公式换句话说我的任务就是把这个公式变成一个Python函数这是来自的代码我之前的问题 https stackoverflow

python python3x NLTK tokenize fleschkincaid

如何提高词法分析效率？

在解析一个 3 GB 的大文件时DCG https www metalevel at prolog dcg 效率很重要我的词法分析器的当前版本主要使用 or 谓词 2 http www swi prolog org pldoc doc f

performance Prolog tokenize lexicalanalysis

RegEx Tokenizer：将文本拆分为单词、数字、标点符号和空格（不要删除任何内容）

I almost找到了这个问题的答案这个线程 https stackoverflow com questions 5214177 regex tokenizer to split a text into words digits and p

python regex NLTK tokenize

如何标记 Perl 源代码？

我有一些合理的未混淆的 Perl 源文件我需要一个标记生成器它将其分割为标记并返回每个标记的标记类型例如对于脚本 print Hello World n 它会返回这样的内容关键字5字节空白 1 字节双引号字符串 17 字节

perl tokenize

将中文文档拆分成句子[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我必须将中文文本分成多个句子我尝试了斯坦福文档预处理器它对于英语来说效果很好但对于中文则不然请

NLP tokenize stanfordnlp sentence

将分隔字符串拆分为 R 数据框中的不同列

我需要一种快速而简洁的方法将数据框中的字符串文字拆分为一组列假设我有这个数据框 data lt data frame id c 1 2 3 tok1 c a b c a a d b d e tok2 c alpha bravo alpha

r Substring tokenize tm

字符串分词器、分隔符

我正在使用这段代码 StringTokenizer tokenizer new StringTokenizer line 分割以下字符串 hi my name is visghal what is yor name name being t

Java string tokenize

使用 escaped_list_separator 和 boost split

我正在使用 boost 字符串库刚刚发现 split 方法非常简单 string delimiters string str string with comma delimited tokens and delimiters inside

c boost split tokenize

如何实现XSLT tokenize功能？

EXSLT tokenize 函数似乎不适用于 PHP XSLTProcessor XSLT 1 0 我尝试用纯 XSL 实现它但无法使其工作

php xml XSLT tokenize

类似 Google 的搜索查询标记化和字符串分割

我正在寻找类似于谷歌的做法来标记搜索查询例如如果我有以下搜索查询 the quick brown fox jumps over the lazy dog 我想要一个包含以下标记的字符串数组 the quick brown fox jum

c Search tokenize

单词标记化与传统词形还原？

我正在研究 NLP 预处理在某些时候我想实现一个上下文相关的词嵌入作为辨别词义的一种方式并且我正在考虑使用 BERT 的输出来实现这一点我注意到 BERT 使用 WordPiece 标记化例如 playing gt play i

NLP tokenize lemmatization