tokenize

类似 Google 的搜索查询标记化和字符串分割

我正在寻找类似于谷歌的做法来标记搜索查询例如如果我有以下搜索查询 the quick brown fox jumps over the lazy dog 我想要一个包含以下标记的字符串数组 the quick brown fox jum

c Search tokenize

单词标记化与传统词形还原？

我正在研究 NLP 预处理在某些时候我想实现一个上下文相关的词嵌入作为辨别词义的一种方式并且我正在考虑使用 BERT 的输出来实现这一点我注意到 BERT 使用 WordPiece 标记化例如 playing gt play i

NLP tokenize lemmatization

C Tokenizer（当字段丢失时它也会返回空。耶！）

也可以看看对于 C 来说这是一个好的 substr 吗 https stackoverflow com questions 874015 updated is this a good substr for c strtok 和朋友跳过空

c Substring tokenize substr

使用 Lucene 和 Java 进行分词、删除停用词

我正在尝试使用 Lucene 从 txt 文件中标记并删除停用词我有这个 public String removeStopWords String string throws IOException Set

Java Lucene NLP tokenize stopwords

C - 确定使用哪个分隔符 - strtok()

假设我正在使用strtok 像这样 char token strtok input 有没有办法确定实际使用了哪个令牌例如如果输入类似于 Hello there How are you I m good End 我可以找出每个标记使用了哪

c tokenize strtok

Android 和 CommaTokenizer

我需要一个 Tokenizer 用于 AutoCompleteTextview 它可以执行以下操作当两个单词以空白字符分隔时必须按原样进行识别当用换行符分隔时两个单词也必须被识别按下 Enter 键 1 正在工作但我怎样才能完成

Android tokenize

在 Ruby 中解析 URL 字符串

我有一个非常简单的字符串我想在 ruby 中解析并尝试找到最优雅的解决方案该字符串的格式为 xyz mov exdaf daeed mov arg1 blabla arg2 3bla3bla 我想要的是字符串1 xyz mov exd

ruby string URL uri tokenize

Spacy 中有二字母组和三字母组功能吗？

下面的代码将句子分成单独的标记输出如下 cloud computing is benefiting major manufacturing companies import en core web sm nlp en core web s

python3x NLP tokenize spacy NGram

如何标记扩展宏（local :dir ）？

我知道我的标题令人困惑因为tokenize命令被指定为一个字符串我有许多文件夹其中包含大量独立的命名不当的 Excel 文件其中大部分是从网站上抓取的手动选择不方便需要依赖Stata扩展宏功能local dir阅读它们我的

stata tokenize statamacros

Scanner vs. StringTokenizer vs. String.Split

我刚刚了解了 Java 的 Scanner 类现在我想知道它如何与 StringTokenizer 和 String Split 进行比较竞争我知道 StringTokenizer 和 String Split 只适用于字符串那么为

Java javautilscanner tokenize split

Solr：使用 EdgeNGramFilterFactory 进行精确短语查询

在 Solr 3 3 中是否可以通过EdgeNGramFilterFactory并且对短语查询也敏感例如我正在寻找一个字段如果包含 contrat informatique 则在用户键入以下内容时将找到该字段 contrat 信息学

Solr tokenize phrase

ANTLR 4 令牌规则匹配任何字符，直到遇到 XYZ

我想要一个标记规则它会吞噬所有字符直到它到达字符XYZ 因此如果输入是这样的 helloXYZ 那么令牌规则应该返回这个令牌 hello 如果输入是这样的 Blah Blah XYZ 那么令牌规则应该返回这个令牌 Blah Blah

ANTLR grammar tokenize antlr4 lexicalanalysis

用于复杂数学表达式的高级分词器

我想标记一个由整数浮点数运算符函数变量和括号组成的字符串下面的例子应该能说明问题的本质当前状态 String infix 4 x 5 2024 Log x y z 300 12 期望的状态 String tokBuf 0 4 S

Java string tokenize

在Java中迭代字符串的字符最简单/最好/最正确的方法是什么？

Java 中迭代字符串字符的一些方法是 Using StringTokenizer 转换String to a char 并对此进行迭代最简单最好最正确的迭代方法是什么我使用 for 循环来迭代字符串并使用charAt 让每个角色都

Java string Iteration character tokenize

超级能力：仅当字符串以行开头时才将其与分词器匹配

在超级能力中进行标记时仅当字符串是一行中的第一件事时如何匹配字符串注意这是一个与this one https stackoverflow com questions 52706549 superpower match a strin

c tokenize superpower

当名称可以是任何语言时，如何按名称索引 postgres 表？

我有一个很大的 postgres 表其中包含位置商店地标等用户可以通过各种方式进行搜索当用户想要搜索某个地点的名称时系统当前会执行以下操作假设搜索是在咖啡馆 lower location name LIKE cafe 作为查询

postgresql Localization Indexing tokenize stringcomparison

如何在Python中拆分数学表达式的字符串？

我制作了一个在 python 中将中缀转换为后缀的程序问题是当我介绍论点时如果我引入这样的内容这将是一个字符串 73 34 72 33 3 56 95 28 它会用 split 分割它程序将正常工作但我希望用户能够介绍这样的内容

python string python3x split tokenize

将 nlp.pipe() 与 spaCy 的预分段和预标记化文本结合使用

我正在尝试标记和解析已经分成句子并且已经被标记化的文本举个例子 sents I like cookies Do you 处理批量文本的最快方法是 pipe 但是我不清楚如何将其与预标记和预分段的文本一起使用性能是这里的关键我尝试了以

python NLP batchprocessing tokenize spacy

正则表达式不允许使用字符，除非转义

下面是我的正则表达式来解析逗号分隔的键值对 function extractParams str var result str replace s s s s g function a b result a trim b trim retu

javascript regex Parsing arguments tokenize

词法分析器的工作就是解析数字和字符串吗？

解析数字和字符串是词法分析器的工作吗这可能听起来很愚蠢也可能不愚蠢因为我问的是lexer should parse输入但是我不确定这实际上是词法分析器的工作还是解析器的工作因为为了正确地进行词法分析词法分析器需要首先解析字符串

Parsing lexer tokenize