Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
需要知道如何在c中按空格解析单词。还需要知道我是否正确分配内存?
我正在用 c 编写一个程序 它从文本文件中读取文本 然后从文件中随机选择单词 如果单词大于或等于 6 它将单词附加在一起 删除空格 最后打印新单词 我在linux上使用重定向 Example input cheese and cracker
c
pointers
malloc
tokenize
dynamicarrays
用空格填充多个字符 - python
In perl 我可以使用 will pad 标点符号来执行以下操作 s 1 g In Python 我试过这个 gt gt gt p u gt gt gt text u this is a sentence with weird symb
python
regex
perl
tokenize
substitution
使用 cfprocparam 将数组或列表导入 Oracle
我有一个值列表 想通过存储过程插入到表中 我想我会将一个数组传递给 Oracle 并循环访问该数组 但我不知道如何将数组传递给 Oracle 我会传递一个列表 但我不知道如何使用该列表将其转换为使用 PL SQL 的数组 我对 PL SQL
Oracle
storedprocedures
coldfusion
tokenize
cfstoredproc
用于连字符、下划线和数字的 Elasticsearch 自定义分析器
诚然 我对ES的分析部分不太熟悉 这是索引布局 mappings event properties ipaddress type string hostname type string analyzer my analyzer fields
elasticsearch
tokenize
Analysis
C++/Boost 将字符串拆分为多个字符
一旦我看到一个示例 这可能真的很简单 但是如何概括 boost tokenizer 或 boost split 来处理由多个字符组成的分隔符 例如 用 这些标准分割解决方案似乎都不起作用 boost tokenizer
c
string
Parsing
boost
tokenize
Android 上的 SQLite 是否使用支持 FTS 的 ICU 标记生成器构建?
就像标题说的 我们可以使用 USING fts3 tokenizer icu th TH 如果可以的话 有谁知道支持哪些区域设置 以及它是否因平台版本而异 不 只有 tokenizer porter 当我指定 tokenizer icu 时
Android
SQLite
locale
tokenize
fulltextsearch
WhitespaceTokenizerFactory 和 StandardTokenizerFactory 之间的区别
我是 Solr 的新手 通过阅读Solr的wiki 我不明白WhitespaceTokenizerFactory和StandardTokenizerFactory之间的区别 他们真正的区别是什么 它们的不同之处在于如何将分析的文本拆分为标记
Solr
tokenize
如何将字符串拆分为标记?
如果我有一个字符串 x 13 5 10x 4e1 我怎样才能将它分成以下令牌列表 x 13 5 10 x 4 e 1 目前我正在使用 shlex 模块 str x 13 5 10x 4e1 lexer shlex shlex str tok
python
Token
tokenize
equation
shlex
Python - 用于将文本拆分为句子的正则表达式(句子标记化)[重复]
这个问题在这里已经有答案了 我想从字符串中列出句子 然后将其打印出来 我不想使用 NLTK 来执行此操作 因此 它需要在句子末尾的句点上分割 而不是在小数点或缩写或名称标题上分割 或者如果句子有 com 这是对正则表达式的尝试 但不起作用
python
regex
NLP
tokenize
ParserError:标记数据时出错。 C 错误:第 4 行应有 7 个字段,但读取 csv 文件时出现 10 个错误
我正在尝试阅读csv使用 pandas 文件 df1 pd read csv panda error csv header None sep 但我收到此错误 ParserError Error tokenizing data C error
python
pandas
DataFrame
tokenize
在非单一维度 1 处,张量 a (707) 的大小必须与张量 b (512) 的大小匹配
我正在尝试使用预训练的 BERT 模型进行文本分类 我在我的数据集上训练了模型 并在测试阶段 我知道 BERT 只能接受 512 个标记 因此我编写了 if 条件来检查数据帧中测试语句的长度 如果它比 512 长 我将句子分成序列 每个序列
python
tensorflow
Pytorch
tokenize
bertlanguagemodel
NLTK 正则表达式标记生成器在正则表达式中不能很好地处理小数点
我正在尝试编写一个文本规范化器 需要处理的基本情况之一是像3 14 to three point one four or three point fourteen 我目前正在使用该模式 d d with nltk regexp tokeni
python
regex
NLTK
tokenize
C++ tokenize std string [重复]
这个问题在这里已经有答案了 可能的重复 如何在 C 中标记字符串 您好 我想知道如何使用 strtok 标记 std 字符串 string line hello world bye char pch strtok line c str 我收
c
tokenize
strtok
为什么 n+++n 有效而 n++++n 无效?
在Java中 表达式 n n 似乎评估相当于 n n 尽管事实上 n是一个有效的一元运算符 其优先级高于算术运算符 运算符在n n 因此编译器似乎假设该运算符不能是一元运算符并解析该表达式 然而 表达式 n n 无法编译 即使有一个有效的可
Java
syntax
tokenize
如何使用 Java 的 Scanner 类和正则表达式对输入进行标记?
出于我自己的目的 我尝试在 Java 中构建一个分词器 我可以在其中定义常规语法并让它基于该语法对输入进行分词 StringTokenizer 类已被弃用 我在 Scanner 中发现了几个函数暗示我想要做什么 但还没有运气 有人知道解决这
Java
regex
compilerconstruction
tokenize
是否可以更改 Spacy 分词器的分词规则?
默认情况下 德语 spacy 分词器不会按斜杠 下划线或星号进行拆分 这正是我所需要的 因此 der die 会生成单个标记 然而 它确实在括号上拆分 因此 dies und das 被拆分为 5 个标记 有没有一种 简单 方法告诉默认标记
python
regex
Token
tokenize
spacy
如何从 Lucene TokenStream 获取 Token?
我正在尝试使用 Apache Lucene 进行标记化 但我对从某个地方获取标记的过程感到困惑TokenStream 最糟糕的是我正在查看 JavaDocs 中解决我的问题的评论 http lucene apache org java 3
Java
attributes
Lucene
Token
tokenize
在 Java 中标记中缀字符串
我正在实施调车场算法Java 语言 作为我的 AP 计算机科学课程的一个副项目 我用 Javascript 实现了一个简单的 只有基本的算术表达式 加法 减法 乘法 除法 取幂 为了将其拆分为一个数组 我所做的就是找到每个运算符 以及数字和
Java
regex
tokenize
shuntingyard
在 PL/SQL 中将逗号分隔的字符串转换为数组
如何将逗号分隔的字符串转换为数组 我有输入 1 2 3 我需要将其转换为数组 这是另一个更简单的选择 select to number column value as IDs from xmltable 1 2 3 4 5
Oracle
plsql
tokenize
«
1
2
3
4