Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何查找列表中句子列表中每个单词的引理和频率计数?
我想使用 WordNet Lemmatizer 找出引理 并且还需要计算每个词频 我收到以下错误 轨迹如下 类型错误 不可散列的类型 列表 注 语料 库可在nltk包装本身 到目前为止我已经尝试过如下 import nltk re impo
python
python3x
NLTK
tokenize
WordNet
在 Javascript 中使用正则表达式对字符串进行标记
假设我有一个包含换行符和制表符的长字符串 var x This is a long string n t This is another one on next line 那么我们如何使用正则表达式将该字符串拆分为标记呢 我不想用 spli
javascript
regex
string
tokenize
stringtokenizer
如何使用 Node.js 标记 Markdown?
我正在构建一个 iOS 应用程序 该应用程序的视图将从 Markdown 中获取其来源 我的想法是能够将 MongoDB 中存储的 markdown 解析为 JSON 对象 如下所示 h1 This is the heading p Her
javascript
ios
nodejs
markdown
tokenize
在 Python 中标记一个保留分隔符的字符串
有没有相当于str split在Python中也返回分隔符 在处理一些标记后 我需要保留输出的空白布局 Example gt gt gt s tthis is an example gt gt gt print s split this i
python
string
split
tokenize
Java 中使用分隔符“.”的分词问题
我需要使用分隔符分割文本 例如我想要这个字符串 Washington is the U S Capital Barack is living there 分为两部分 Washington is the U S Capital Barack
Java
string
tokenize
stringtokenizer
在 PL/SQL 存储过程中拆分逗号分隔的字符串
我有 CSV 字符串 100 01 200 02 300 03 我需要将其传递给 Oracle 中的 PL SQL 存储过程 在过程中 我需要将这些值插入表中的数字列中 为此 我从这里得到了一个工作方法 如何在 oracle 9i 中最好地
Oracle
plsql
tokenize
用于生成唯一链接的 Rails 插件?
我的应用程序中有很多地方需要生成带有唯一标记的链接 foo com g6Ce7sDygw 或其他 每个链接可能与一些会话数据相关联 并将用户带到一些特定的控制器 操作 有谁知道有一个 gem 插件可以做到这一点 它很容易实现 但会更干净 无
rubyonrails
ruby
Plugins
tokenize
Python 中 C++ 的简单分词器
努力寻找一个Python脚本库来标记 找到特定的标记 如函数定义名称 变量名称 关键字等 我已经设法使用类似的方法找到关键字 空格等this https docs python org 3 library re html writing a
python
tokenize
正则表达式/“正则表达式”中的正则是什么意思?
正则表达式 中的 正则 是什么意思 我听说正则表达式曾经是常规的 但现在不再了 The regular正则表达式中来自于它匹配常规语言 http en wikipedia org wiki Regular language 的概念形式语言理
regex
perl
Parsing
tokenize
Python 中的 Flesch-Kincaid 可读性测试
我需要帮助解决我遇到的这个问题 我需要编写一个从文本返回 FRES Flesch 阅读轻松测试 的函数 给出公式 换句话说 我的任务就是把这个公式变成一个Python函数 这是来自的代码我之前的问题 https stackoverflow
python
python3x
NLTK
tokenize
fleschkincaid
如何提高词法分析效率?
在解析一个 3 GB 的大文件时DCG https www metalevel at prolog dcg 效率很重要 我的词法分析器的当前版本主要使用 or 谓词 2 http www swi prolog org pldoc doc f
performance
Prolog
tokenize
lexicalanalysis
RegEx Tokenizer:将文本拆分为单词、数字、标点符号和空格(不要删除任何内容)
I almost找到了这个问题的答案这个线程 https stackoverflow com questions 5214177 regex tokenizer to split a text into words digits and p
python
regex
NLTK
tokenize
如何标记 Perl 源代码?
我有一些合理的 未混淆的 Perl 源文件 我需要一个标记生成器 它将其分割为标记 并返回每个标记的标记类型 例如对于脚本 print Hello World n 它会返回这样的内容 关键字5字节 空白 1 字节 双引号字符串 17 字节
perl
tokenize
将中文文档拆分成句子[关闭]
Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我必须将中文文本分成多个句子 我尝试了斯坦福文档预处理器 它对于英语来说效果很好 但对于中文则不然 请
NLP
tokenize
stanfordnlp
sentence
将分隔字符串拆分为 R 数据框中的不同列
我需要一种快速而简洁的方法将数据框中的字符串文字拆分为一组列 假设我有这个数据框 data lt data frame id c 1 2 3 tok1 c a b c a a d b d e tok2 c alpha bravo alpha
r
Substring
tokenize
tm
字符串分词器、分隔符
我正在使用这段代码 StringTokenizer tokenizer new StringTokenizer line 分割以下字符串 hi my name is visghal what is yor name name being t
Java
string
tokenize
使用 escaped_list_separator 和 boost split
我正在使用 boost 字符串库 刚刚发现 split 方法非常简单 string delimiters string str string with comma delimited tokens and delimiters inside
c
boost
split
tokenize
如何实现XSLT tokenize功能?
EXSLT tokenize 函数似乎不适用于 PHP XSLTProcessor XSLT 1 0 我尝试用纯 XSL 实现它 但无法使其工作
php
xml
XSLT
tokenize
类似 Google 的搜索查询标记化和字符串分割
我正在寻找类似于谷歌的做法来标记搜索查询 例如 如果我有以下搜索查询 the quick brown fox jumps over the lazy dog 我想要一个包含以下标记的字符串数组 the quick brown fox jum
c
Search
tokenize
单词标记化与传统词形还原?
我正在研究 NLP 预处理 在某些时候 我想实现一个上下文相关的词嵌入 作为辨别词义的一种方式 并且我正在考虑使用 BERT 的输出来实现这一点 我注意到 BERT 使用 WordPiece 标记化 例如 playing gt play i
NLP
tokenize
lemmatization
1
2
3
4
»