Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Flex 默认规则
如何自定义 Flex 的默认操作 我发现类似 的内容 但当我运行它时 它显示 柔性扫描仪卡住 还有 规则仅添加一条规则 因此它也不起作用 我想要的是 comment comment return 1 default return 0 lt
c
tokenize
Lex
flexlexer
在 word2vec Gensim 中获取二元组和三元组
我目前在我的 word2vec 模型中使用 uni gram 如下所示 def review to sentences review tokenizer remove stopwords False Returns a list of se
python
tokenize
Word2Vec
gensim
NGram
如何使用 NLTK 分词器去除标点符号?
我刚刚开始使用 NLTK 不太明白如何从文本中获取单词列表 如果我使用nltk word tokenize 我得到单词和标点符号的列表 我只需要文字 我怎样才能摆脱标点符号 还word tokenize不适用于多个句子 点被添加到最后一个单
python
NLP
tokenize
NLTK
nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同?
我无法理解两者之间的区别 不过 我知道 word tokenize 使用 Penn Treebank 来进行标记化 但 TweetTokenizer 上没有任何可用的内容 对于哪种类型的数据 我应该使用 TweetTokenizer 而不是
python
NLP
artificialintelligence
NLTK
tokenize
使用 Pandas 和 spaCy 进行标记化
我正在开发我的第一个 Python 项目 并且拥有相当大的数据集 数十万行 我需要对 5 个文本列 每个 单元格 有多个文本句子 进行一些 nlp 聚类 分类 并且一直在使用 pandas 来组织 构建数据集 我希望对所有 nlp 使用 s
python
python3x
pandas
tokenize
spacy
将名字和姓氏标记为一个标记
是否可以对标记中的文本进行标记 以便将名字和姓氏组合在一个标记中 例如 如果我的文本是 text Barack Obama is the President Then text split 结果是 Barack Obama is the P
python
NLP
tokenize
解析 PHP 中的类、函数和参数
我想创建一个函数 它接收一个参数 该参数保存 PHP 文件的路径 然后解析给定的文件并返回如下所示的内容 class NameOfTheClass function Method1 arg1 arg2 arg2 private functi
php
Parsing
tokenize
codeanalysis
在Python中分割字符串
我有一个像这样的字符串 这是 括号测试 和引号测试 我正在尝试用 Python 编写一些内容 将其按空格分开 同时忽略方括号和引号内的空格 我正在寻找的结果是 this is 括号测试 和引号测试 这是一个适用于您的测试输入的简单解决方案
python
string
split
Parsing
tokenize
C++ 模板尖括号陷阱 - C++11 修复是什么?
在 C 11 中 现在这是有效的语法 vector
c
Parsing
templates
tokenize
在 C++ 中使用正则表达式对字符串进行标记并保留分隔符
我想修改给定的正则表达式以生成以下匹配列表 我很难用语言描述这个问题 我想使用正则表达式来匹配一组 标记 具体我想要 要匹配 任何不包含这些字符的字符串都应该是匹配的 我遇到的问题是区分一根管道和两根管道 我怎样才能产生所需的匹配 非常感谢
c
regex
tokenize
C++ 中的令牌及其使用方式
在 Bjarne Stroustrup 的 使用 C 编程原理与实践 一书中 他解释了如何使用标记来阻止 C 自动使用简单计算器上的运算顺序 他在书中给出的代码不起作用 要么是因为我的愚蠢 要么是因为我遗漏了一些东西 我知道令牌本质上是将代
c
Token
tokenize
根据所需长度分割字符串
有没有一种简单的方法可以根据所需的长度分割字符串 例如 我有一个字符串
XSLT
xslt10
xslt20
tokenize
Python 标记化
我是 Python 新手 我有一个标记化作业 输入是一个包含句子的 txt 文件 输出是带有令牌的 txt 文件 当我说令牌时 我的意思是 简单的单词 我有这个功能 输入 Elemnt 是一个带或不带标点符号的单词 可以是这样的单词 嗨或说
python
tokenize
如何在不同的分隔符上拆分字符串,但保留某些所述分隔符的输出? (标记字符串)
更具体地说 我想在任何非字母数字字符上拆分字符串 但如果分隔符不是空格 我想保留它 也就是说 对于输入 my string Hey I m 9 11 7 11 我想得到 Hey I m 9 11 7 11 没有空格作为列表元素 我已经尝试过
python
regex
string
split
tokenize
正在寻找“分词器”、“解析器”和“词法分析器”的明确定义以及它们如何相互关联和使用?
我正在寻找 分词器 解析器 和 词法分析器 的明确定义以及它们如何相互关联 例如 解析器是否使用分词器 反之亦然 我需要创建一个程序将通过 c h 源文件来提取数据声明和定义 我一直在寻找示例并且可以找到一些信息 但我真的很难掌握语法规则
Parsing
lexer
tokenize
C++中如何在字符串中每N个字符插入一个字符
我怎样才能插入一个char角色变成string恰好在 1 个字符之后 我需要插入 进入 每隔一个字符之后的字符串 换句话说 C Tokens all around 变成 T o k e n s a l l a r o u n d 不 那不是
c
string
tokenize
如何在 Lucene 中仅标记某些单词
我在我的项目中使用 Lucene 并且需要一个自定义分析器 Code is public class MyCommentAnalyzer extends Analyzer Override protected TokenStreamComp
Java
Dictionary
Lucene
tokenize
无法在 Solr 中使用 ICUTokenizerFactory
我正在尝试在 Solr 模式中使用 ICUTokenizerFactory 这就是我的定义field and fieldType
Solr
Lucene
schema
tokenize
analyzer
Elasticsearch 自定义分析器,带有 ngram,连字符上没有单词分隔符
我正在尝试索引包含连字符但不包含空格 句点或任何其他标点符号的字符串 我不想根据连字符分割单词 而是希望连字符成为索引文本的一部分 例如 我的 6 个文本字符串是 杂志播放 马杂志 在线杂志 最佳杂志 杂志之友 杂志玩游戏 我希望能够在这些
elasticsearch
tokenize
Analysis
analyzer
如何使用 NLTK nltk.tokenize.texttiling 将文本拆分为段落?
我找到了这个将文本拆分为段落 NLTK nltk tokenize texttiling 的用法 解释如何将文本输入到文本平铺中 但是我无法实际返回按段落 主题更改标记的文本 如文本平铺下所示http www nltk org api nl
python
NLTK
tokenize
paragraph
«
1
2
3
4
»