textclassification

Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c

NLP Pytorch textclassification lossfunction huggingfacetransformers

在java中使用朴素贝叶斯（weka）进行简单的文本分类

我尝试在我的java代码中使用朴素贝叶斯weka库进行文本分类但我认为分类的结果不正确我不知道问题是什么我使用 arff 文件作为输入这是我的训练数据 relation hamspam attribute text string a

Java Weka textclassification naivebayes arff

从多类分类算法输出前 2 个类

我正在研究文本的多类分类问题其中我有很多不同的类 15 我训练了一个 Linearsvc svm 方法方法只是示例但它只输出概率最高的单个类有没有一种算法可以同时输出两个类我正在使用的示例代码 from sklearn svm i

python3x scikitlearn textclassification multiclassclassification

改进现有的基本 GloVe 模型

我正在使用 GloVe 作为我研究的一部分我已经从以下位置下载了模型here https nlp stanford edu projects glove 我一直在使用 GloVe 进行句子分类我正在分类的句子特定于特定领域例如某些 S

NLP textclassification GloVe

BERT 问答中长文本的滑动窗口

我读过解释滑动窗口如何工作的帖子但我找不到有关其实际实现方式的任何信息据我了解如果输入太长可以使用滑动窗口来处理文本如果我错了请纠正我说我有一条短信 2017 年 6 月 Kaggle 宣布注册用户突破 100 万给定一些s

如何在 scikit-learn 中正确地将数字特征与文本（词袋）结合起来？

我正在为网页编写一个分类器因此我混合了数字特征并且我还想对文本进行分类我正在使用词袋方法将文本转换为大数值向量代码最终是这样的 from sklearn feature extraction text import CountV

python scikitlearn Classification textclassification

多标签分类中的 Spacy TextCat 分数

在spacy的文本分类中火车文本猫 https github com explosion spaCy blob master examples training train textcat py例如指定了两个标签Positive and

spacy textclassification multilabelclassification

如何使用 Spark Naive Bayes 分类器通过 IDF 进行文本分类？

我想使用 tf idf 将文本文档转换为特征向量然后训练朴素贝叶斯算法对它们进行分类我可以轻松加载没有标签的文本文件并使用 HashingTF 将其转换为向量然后使用 IDF 根据单词的重要性对单词进行加权但如果我这样做我就会去

python apachespark tfidf textclassification apachesparkmllib

R：将 LIME 应用于 Quanteda 文本模型的问题

这是我的修改版本上一个问题 https stackoverflow com q 50273919 6327771 我正在尝试在我的设备上运行 LIMEquanteda依赖的文本模型特朗普和克林顿推文数据 https www kaggle c

r Text textclassification quanteda lime

FastText 使用预先训练的词向量进行文本分类

我正在研究文本分类问题也就是说给定一些文本我需要为其分配某些给定的标签我尝试过使用 Facebook 的快速文本库它有两个我感兴趣的实用程序 A 带有预训练模型的词向量 B 文本分类实用程序然而这些似乎是完全独立的工具因为我

NLP Word2Vec textclassification fasttext

无法恢复 TextVectorization 类的图层 - 文本分类

系统信息谷歌合作实验室当我运行官方张量流基本文本分类提供的示例时一切运行良好直到模型保存但是当我加载模型时它给了我这个错误运行时错误无法恢复 TextVectorization 类的图层 TextVectorization

python tensorflow Keras tensorflow20 textclassification

FastText 0.9.2 - 为什么召回是“nan”？

我使用 Python 接口在 FastText 中训练了一个监督模型并且在精确度和召回率方面得到了奇怪的结果首先我训练了一个模型 model fasttext train supervised train txt wordNgrams

python3x NLP textclassification precisionrecall fasttext

使用 TensorFlow 进行多标签文本分类

文本数据被组织为具有 20 000 个元素的向量例如 2 1 0 0 5 0 第 i 个元素表示文本中第 i 个单词的频率真实标签数据也表示为具有 4 000 个元素的向量例如 0 0 1 0 1 0 第 i 个元素指示第 i 个标签

python tensorflow textclassification multilabelclassification

如何使用单词的向量表示（从 Word2Vec 等获得）作为分类器的特征？

我熟悉使用 BOW 特征进行文本分类其中我们首先找到语料库的词汇量这将成为我们特征向量的大小对于每个句子文档及其所有组成词我们根据该句子文档中该词的不存在存在来放置 0 1 但是现在我尝试使用每个单词的向量表示创建全局词汇

Text vector NLP textclassification Word2Vec

可扩展或在线核外多标签分类器

在过去的两三周里我一直在为这个问题绞尽脑汁我有一个多标签不是多类问题其中每个样本可以属于多个标签我有大约 450 万个文本文档作为训练数据大约 100 万个文本文档作为测试数据标签约为 35K 我在用scikit学习对于特

如何使用tensorflow进行文本分类？

我是张量流和机器学习的新手我在编写张量流代码时遇到问题该代码的文本分类类似于我尝试使用 sklearn 库进行的文本分类我在对数据集进行矢量化并向张量流层提供输入方面面临着重大问题我确实记得对标签进行了一次热编码但前面的张量流层不

python tensorflow machinelearning scikitlearn textclassification

HuggingFace 评估微调的零样本模型

我正在微调 HuggingFacefacebook bart large mnli为了满足我的需要我使用以下参数 training args TrainingArguments output dir model directory out

R：当情况并非如此时，LIME 在不同的特征编号上返回错误

我正在构建克林顿和特朗普推文的文本分类器数据可以在Kaggle 我正在使用 EDA 和建模quanteda包裹 library dplyr library stringr library quanteda library lime dat

r textclassification quanteda lime

R 中用于文本分类的 SVM

我正在使用支持向量机对我的文本进行分类但实际上我并没有得到结果而是得到了数值概率数据框 1 20 训练集 21 50 测试集 Updated ou lt structure list text structure c 1L 6L 1L

r SVM textclassification datascience

如何根据Python中最近的聚类质心逻辑将新的观察值分配给现有的Kmeans聚类？

我使用下面的代码通过 Scikit learn 创建 k means 集群 kmean KMeans n clusters nclusters n jobs 1 random state 2376 max iter 1000 n init

python scikitlearn clusteranalysis kmeans textclassification