tokenize

Flex 默认规则

如何自定义 Flex 的默认操作我发现类似的内容但当我运行它时它显示柔性扫描仪卡住还有规则仅添加一条规则因此它也不起作用我想要的是 comment comment return 1 default return 0 lt

c tokenize Lex flexlexer

在 word2vec Gensim 中获取二元组和三元组

我目前在我的 word2vec 模型中使用 uni gram 如下所示 def review to sentences review tokenizer remove stopwords False Returns a list of se

python tokenize Word2Vec gensim NGram

如何使用 NLTK 分词器去除标点符号？

我刚刚开始使用 NLTK 不太明白如何从文本中获取单词列表如果我使用nltk word tokenize 我得到单词和标点符号的列表我只需要文字我怎样才能摆脱标点符号还word tokenize不适用于多个句子点被添加到最后一个单

python NLP tokenize NLTK

nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同？

我无法理解两者之间的区别不过我知道 word tokenize 使用 Penn Treebank 来进行标记化但 TweetTokenizer 上没有任何可用的内容对于哪种类型的数据我应该使用 TweetTokenizer 而不是

python NLP artificialintelligence NLTK tokenize

使用 Pandas 和 spaCy 进行标记化

我正在开发我的第一个 Python 项目并且拥有相当大的数据集数十万行我需要对 5 个文本列每个单元格有多个文本句子进行一些 nlp 聚类分类并且一直在使用 pandas 来组织构建数据集我希望对所有 nlp 使用 s

python python3x pandas tokenize spacy

将名字和姓氏标记为一个标记

是否可以对标记中的文本进行标记以便将名字和姓氏组合在一个标记中例如如果我的文本是 text Barack Obama is the President Then text split 结果是 Barack Obama is the P

python NLP tokenize

解析 PHP 中的类、函数和参数

我想创建一个函数它接收一个参数该参数保存 PHP 文件的路径然后解析给定的文件并返回如下所示的内容 class NameOfTheClass function Method1 arg1 arg2 arg2 private functi

php Parsing tokenize codeanalysis

在Python中分割字符串

我有一个像这样的字符串这是括号测试和引号测试我正在尝试用 Python 编写一些内容将其按空格分开同时忽略方括号和引号内的空格我正在寻找的结果是 this is 括号测试和引号测试这是一个适用于您的测试输入的简单解决方案

python string split Parsing tokenize

C++ 模板尖括号陷阱 - C++11 修复是什么？

在 C 11 中现在这是有效的语法 vector

c Parsing templates tokenize

在 C++ 中使用正则表达式对字符串进行标记并保留分隔符

我想修改给定的正则表达式以生成以下匹配列表我很难用语言描述这个问题我想使用正则表达式来匹配一组标记具体我想要要匹配任何不包含这些字符的字符串都应该是匹配的我遇到的问题是区分一根管道和两根管道我怎样才能产生所需的匹配非常感谢

c regex tokenize

C++ 中的令牌及其使用方式

在 Bjarne Stroustrup 的使用 C 编程原理与实践一书中他解释了如何使用标记来阻止 C 自动使用简单计算器上的运算顺序他在书中给出的代码不起作用要么是因为我的愚蠢要么是因为我遗漏了一些东西我知道令牌本质上是将代

c Token tokenize

根据所需长度分割字符串

有没有一种简单的方法可以根据所需的长度分割字符串例如我有一个字符串

XSLT xslt10 xslt20 tokenize

Python 标记化

我是 Python 新手我有一个标记化作业输入是一个包含句子的 txt 文件输出是带有令牌的 txt 文件当我说令牌时我的意思是简单的单词我有这个功能输入 Elemnt 是一个带或不带标点符号的单词可以是这样的单词嗨或说

python tokenize

如何在不同的分隔符上拆分字符串，但保留某些所述分隔符的输出？（标记字符串）

更具体地说我想在任何非字母数字字符上拆分字符串但如果分隔符不是空格我想保留它也就是说对于输入 my string Hey I m 9 11 7 11 我想得到 Hey I m 9 11 7 11 没有空格作为列表元素我已经尝试过

python regex string split tokenize

正在寻找“分词器”、“解析器”和“词法分析器”的明确定义以及它们如何相互关联和使用？

我正在寻找分词器解析器和词法分析器的明确定义以及它们如何相互关联例如解析器是否使用分词器反之亦然我需要创建一个程序将通过 c h 源文件来提取数据声明和定义我一直在寻找示例并且可以找到一些信息但我真的很难掌握语法规则

Parsing lexer tokenize

C++中如何在字符串中每N个字符插入一个字符

我怎样才能插入一个char角色变成string恰好在 1 个字符之后我需要插入进入每隔一个字符之后的字符串换句话说 C Tokens all around 变成 T o k e n s a l l a r o u n d 不那不是

c string tokenize

如何在 Lucene 中仅标记某些单词

我在我的项目中使用 Lucene 并且需要一个自定义分析器 Code is public class MyCommentAnalyzer extends Analyzer Override protected TokenStreamComp

Java Dictionary Lucene tokenize

无法在 Solr 中使用 ICUTokenizerFactory

我正在尝试在 Solr 模式中使用 ICUTokenizerFactory 这就是我的定义field and fieldType

Solr Lucene schema tokenize analyzer

Elasticsearch 自定义分析器，带有 ngram，连字符上没有单词分隔符

我正在尝试索引包含连字符但不包含空格句点或任何其他标点符号的字符串我不想根据连字符分割单词而是希望连字符成为索引文本的一部分例如我的 6 个文本字符串是杂志播放马杂志在线杂志最佳杂志杂志之友杂志玩游戏我希望能够在这些

elasticsearch tokenize Analysis analyzer

如何使用 NLTK nltk.tokenize.texttiling 将文本拆分为段落？

我找到了这个将文本拆分为段落 NLTK nltk tokenize texttiling 的用法解释如何将文本输入到文本平铺中但是我无法实际返回按段落主题更改标记的文本如文本平铺下所示http www nltk org api nl

python NLTK tokenize paragraph