Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
类似 Google 的搜索查询标记化和字符串分割
我正在寻找类似于谷歌的做法来标记搜索查询 例如 如果我有以下搜索查询 the quick brown fox jumps over the lazy dog 我想要一个包含以下标记的字符串数组 the quick brown fox jum
c
Search
tokenize
单词标记化与传统词形还原?
我正在研究 NLP 预处理 在某些时候 我想实现一个上下文相关的词嵌入 作为辨别词义的一种方式 并且我正在考虑使用 BERT 的输出来实现这一点 我注意到 BERT 使用 WordPiece 标记化 例如 playing gt play i
NLP
tokenize
lemmatization
C Tokenizer(当字段丢失时它也会返回空。耶!)
也可以看看 对于 C 来说 这是一个好的 substr 吗 https stackoverflow com questions 874015 updated is this a good substr for c strtok 和朋友跳过空
c
Substring
tokenize
substr
使用 Lucene 和 Java 进行分词、删除停用词
我正在尝试使用 Lucene 从 txt 文件中标记并删除停用词 我有这个 public String removeStopWords String string throws IOException Set
Java
Lucene
NLP
tokenize
stopwords
C - 确定使用哪个分隔符 - strtok()
假设我正在使用strtok 像这样 char token strtok input 有没有办法确定实际使用了哪个令牌 例如 如果输入类似于 Hello there How are you I m good End 我可以找出每个标记使用了哪
c
tokenize
strtok
Android 和 CommaTokenizer
我需要一个 Tokenizer 用于 AutoCompleteTextview 它可以执行以下操作 当两个单词以空白字符分隔时 必须按原样进行识别 当用换行符分隔时 两个单词也必须被识别 按下 Enter 键 1 正在工作 但我怎样才能完成
Android
tokenize
在 Ruby 中解析 URL 字符串
我有一个非常简单的字符串 我想在 ruby 中解析并尝试找到最优雅的解决方案 该字符串的格式为 xyz mov exdaf daeed mov arg1 blabla arg2 3bla3bla 我想要的是 字符串1 xyz mov exd
ruby
string
URL
uri
tokenize
Spacy 中有二字母组和三字母组功能吗?
下面的代码将句子分成单独的标记 输出如下 cloud computing is benefiting major manufacturing companies import en core web sm nlp en core web s
python3x
NLP
tokenize
spacy
NGram
如何标记扩展宏(local :dir )?
我知道我的标题令人困惑 因为tokenize命令被指定为一个字符串 我有许多文件夹 其中包含大量 独立的 命名不当的 Excel 文件 其中大部分是从网站上抓取的 手动选择不方便 需要依赖Stata扩展宏功能local dir阅读它们 我的
stata
tokenize
statamacros
Scanner vs. StringTokenizer vs. String.Split
我刚刚了解了 Java 的 Scanner 类 现在我想知道它如何与 StringTokenizer 和 String Split 进行比较 竞争 我知道 StringTokenizer 和 String Split 只适用于字符串 那么为
Java
javautilscanner
tokenize
split
Solr:使用 EdgeNGramFilterFactory 进行精确短语查询
在 Solr 3 3 中 是否可以通过EdgeNGramFilterFactory并且对短语查询也敏感 例如 我正在寻找一个字段 如果包含 contrat informatique 则在用户键入以下内容时将找到该字段 contrat 信息学
Solr
tokenize
phrase
ANTLR 4 令牌规则匹配任何字符,直到遇到 XYZ
我想要一个标记规则 它会吞噬所有字符 直到它到达字符XYZ 因此 如果输入是这样的 helloXYZ 那么令牌规则应该返回这个令牌 hello 如果输入是这样的 Blah Blah XYZ 那么令牌规则应该返回这个令牌 Blah Blah
ANTLR
grammar
tokenize
antlr4
lexicalanalysis
用于复杂数学表达式的高级分词器
我想标记一个由整数 浮点数 运算符 函数 变量和括号组成的字符串 下面的例子应该能说明问题的本质 当前状态 String infix 4 x 5 2024 Log x y z 300 12 期望的状态 String tokBuf 0 4 S
Java
string
tokenize
在Java中迭代字符串的字符最简单/最好/最正确的方法是什么?
Java 中迭代字符串字符的一些方法是 Using StringTokenizer 转换String to a char 并对此进行迭代 最简单 最好 最正确的迭代方法是什么 我使用 for 循环来迭代字符串并使用charAt 让每个角色都
Java
string
Iteration
character
tokenize
超级能力:仅当字符串以行开头时才将其与分词器匹配
在超级能力中进行标记时 仅当字符串是一行中的第一件事时 如何匹配字符串 注意 这是一个与this one https stackoverflow com questions 52706549 superpower match a strin
c
tokenize
superpower
当名称可以是任何语言时,如何按名称索引 postgres 表?
我有一个很大的 postgres 表 其中包含位置 商店 地标等 用户可以通过各种方式进行搜索 当用户想要搜索某个地点的名称时 系统当前会执行以下操作 假设搜索是在咖啡馆 lower location name LIKE cafe 作为查询
postgresql
Localization
Indexing
tokenize
stringcomparison
如何在Python中拆分数学表达式的字符串?
我制作了一个在 python 中将中缀转换为后缀的程序 问题是当我介绍论点时 如果我引入这样的内容 这将是一个字符串 73 34 72 33 3 56 95 28 它会用 split 分割它 程序将正常工作 但我希望用户能够介绍这样的内容
python
string
python3x
split
tokenize
将 nlp.pipe() 与 spaCy 的预分段和预标记化文本结合使用
我正在尝试标记和解析已经分成句子并且已经被标记化的文本 举个例子 sents I like cookies Do you 处理批量文本的最快方法是 pipe 但是 我不清楚如何将其与预标记和预分段的文本一起使用 性能是这里的关键 我尝试了以
python
NLP
batchprocessing
tokenize
spacy
正则表达式不允许使用字符,除非转义
下面是我的正则表达式来解析逗号分隔的键值对 function extractParams str var result str replace s s s s g function a b result a trim b trim retu
javascript
regex
Parsing
arguments
tokenize
词法分析器的工作就是解析数字和字符串吗?
解析数字和字符串是词法分析器的工作吗 这可能听起来很愚蠢 也可能不愚蠢 因为我问的是lexer should parse输入 但是 我不确定这实际上是词法分析器的工作还是解析器的工作 因为为了正确地进行词法分析 词法分析器需要首先解析字符串
Parsing
lexer
tokenize
«
1
2
3
4
»