如何使用tensorflow进行文本分类？

2023-12-15

我是张量流和机器学习的新手。我在编写张量流代码时遇到问题，该代码的文本分类类似于我尝试使用 sklearn 库进行的文本分类。我在对数据集进行矢量化并向张量流层提供输入方面面临着重大问题。

我确实记得对标签进行了一次热编码，但前面的张量流层不接受创建的数组。请注意，我已经阅读了 stackoverflow 上大部分文本分类回答的问题，但它们太具体或需要解决的复杂需求。我的问题案例太窄，需要非常基本的解决方案。

如果有人能告诉我类似于我的 sklearn 机器学习算法的步骤或张量流代码，那将会有很大帮助。

使用的数据集可在以下位置获得：https://www.kaggle.com/virajgala/classifying-text


from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline

#Reading the csv dataset
df = pd.read_csv(('/Classifyimg_text.csv'), index_col=False).sample(frac=1)

#Splitting the dataset
train_data, test_data, train_labels, test_labels = train_test_split(df['sentence'], df['label'], test_size=0.2)

#Vectorization and Classification 
streamline = Pipeline([('vect', TfidfVectorizer(max_features=int(1e8))),
                           ('clf', SGDClassifier())]).fit(train_data, train_labels)

#Prediction
Output = streamline.predict(["This is my action to classify the text."])

如果你想获得开创性的分数，我宁愿使用一些嵌入器。自然语言是相当超维的。如今有很多预训练的架构。因此，您只需将文本编码到潜在空间，然后根据这些特征训练您的模型。一旦有了数值特征向量，应用重采样技术也会容易得多。

我自己主要使用 Facebook 的激光嵌入机。了解更多相关信息here。有非官方的pypi包，效果很好。此外，您的模型将可以开箱即用地处理数十种语言，这非常可爱。

还有BERT来自谷歌，但预训练模型相当简单，所以你必须先进一步推动它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用tensorflow进行文本分类？的相关文章

根据另一个数据框中找到的范围填充数据框中的列

我试图根据该记录的索引值是否落在另一个数据框中的两列定义的范围内来填充数据框中的列 df1 看起来像 a 0 4 1 45 2 7 3 5 4 48 5 44 6 22 7 89 8 45 9 44 10 23 df2 是 START ST
UnicodeDecodeError：“utf-8”编解码器无法解码位置 14 中的字节 0xb9：起始字节无效

我正在使用 Django REST 进行文件上传测试 Python3 6 2Django1 11djangorest框架 3 6 4Excel OSX 15 38 170902 操作系统 10 12 6 过去使用普通照片文件可以成功完成此操
python blpapi安装错误

我试图根据 README 中的说明为 python 安装 blpapi 3 5 5 但是在运行时 python setup py install 我收到以下错误 running install running build running b
从 Python 将分层 JSON 数据写入 Excel xls？

我想将一些数据从 python 写入 xlsx 我目前将其存储为 JSON 但它从 Python 中输出什么并不重要单个文章的 JSON 如下所示 Word Count 50 Key Words Blah blah blah Foo Fr
如何使用 python http.server 运行 CGI“hello world”

我使用的是 Windows 7 和 Python 3 4 3 我想在浏览器中运行这个简单的 helloworld py 文件 print Content Type text html print print print print h2 H
为什么反向传播神经网络中必须使用非线性激活函数？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我一直在阅读一些有关神经网络的内容并且了解单层神经网络的一般原理我理解需要额外的层但为什么要使用非线性激活函数这个问题后面跟着这个
将相同的 Patch 实例添加到 matplotlib 中的多个子图中

我正在尝试将补丁的相同实例添加到 matplotlib 中的多个轴这是最小的例子 import matplotlib pyplot as mpl plt import matplotlib patches as mpl patches f
在Python中清理属于不同语言的文本

我有一个文本集合其中的句子要么完全是英语印地语或马拉地语每个句子附加的 id 为 0 1 2 分别代表文本的语言无论任何语言的文本都可能有 HTML 标签标点符号等我可以使用下面的代码清理英语句子 import HTMLPars
从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方
如何在每次运行 python 程序时添加新列

我希望我的表的第一列作为卷号第二列作为名称每当我运行 python 程序时我想在表中添加一列日期在这个新列中我想填充从 user list 获得的列表将包含值 P A P P 等如何处理我尝试首先通过 alter 命令添加一列
为什么在 __init__ 函数中声明描述符类会破坏描述符功能？

在下面的 B 类中我想要 set 每当您赋值给 A 类中的函数时就会调用该函数B a 相反将值设置为B a覆盖B a与价值 C类分配给C a工作正常但我想为每个用户类都有一个单独的 A 实例即我不想在 C 的一个实例中更改 a 来
检查列表是否已排序的 Pythonic 方法

有没有一种Python式的方法来检查列表是否已经排序ASC or DESC listtimestamps 1 2 3 5 6 7 就像是isttimestamps isSorted 返回True or False 我想输入一些消息的时间戳列
如何在python中访问矩阵每个元素的相邻单元格？

这里如果两个单元共享边界则它们被认为是相邻的例如 A 5 6 4 2 1 3 7 9 8 这里索引 0 0 的相邻元素位于索引 0 1 和 1 0 处索引 1 1 的相邻元素位于索引 0 1 1 0 2 1 处和 1 2 假设你
Pandas 中的数据透视表小计

我有以下数据 Employee Account Currency Amount Location Test 2 Basic USD 3000 Airport Test 2 Net USD 2000 Airport Test 1 Basic
列表中的“u”是什么意思？

这是我第一次遇到这种情况刚刚打印了一个列表每个元素似乎都有一个u在它前面即 u hello u hi u hey 它是什么意思为什么列表的每个元素前面都会有这个由于我不知道这种情况有多常见如果您想了解我是如何遇到它的我会很乐意
给定一个字符串，如何删除所有重复的连续字母？

如何从字符串中删除两个连续的字母例如 a str hii thherre 应该成为 hi there 我尝试这样做 a str join sorted set a str key a str index 但是我得到 hi ter 是的
Django 按小时过滤

我找到了那个链接 http code djangoproject com attachment ticket 8424 time filters diff http code djangoproject com attachment tic
gnuplot：第 1 行：无效命令

stackoverflow 上可爱的人们大家好我正在尝试使用 gnuplot 绘制数据我首先阅读表格并提取我想要的数据我将此数据写入 dat 文件截至目前我只是尝试通过命令行绘制它但会添加必要的代码以在 python 脚本工作后
如何对每一行进行 value_counts 并创建一些列，其值是每个值的计数

我得到一个数据框如下 df c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 c11 c12 r1 0 1 1 1 1 0 0 0 0 0 0 0 r2 1 2 2 2 2 1 1 1 1 0 0 0 r3 1 0 2 0 0
Pandas 2 个字段中唯一值的数量

我正在尝试查找覆盖 2 个字段的唯一值的数量例如一个典型的例子是姓氏和名字我有一个数据框当我执行以下操作时我只获取每列的唯一字段数在本例中为最后一个和第一个不是复合体 df Last Name First Name nu

随机推荐

在哪里可以找到 os.urandom() 的源代码？

我想调查和研究python 3 7的代码os urandom 功能我查看了各自的标准库os py 但它既没有在那里定义也没有在那里导入我还尝试 grep 查找定义 usr lib python3 7 grep rFl def uran
Java 录制/混合两个音频流

我有一个java应用程序它记录来自混音器的音频并将其存储在字节数组中或将其保存到文件中我需要的是同时从两个混音器获取音频并将其保存到音频文件我正在尝试使用 wav 问题是我可以获得两个字节数组但不知道如何合并它们合并我并不是
Scala 编译器不使用 case 类的 unapply 方法来进行模式匹配，这是为什么？

abstract class Animal case class Cat name String extends Animal case class Dog name String extends Animal 假设我定义了 Cat 和 D
jqGrid添加项目复选框字段默认为选中

这是一个简单的问题我有一个运行良好的 jqGrid 但我想设置一个复选框的默认值以便在用户添加新项目时进行检查这是一段代码 name Active index active width 80 align center sortable
Symfony 4、如何实现通用控制器即服务？

我有这个控制器 Controller1 php
如何使用applescript以编程方式获取最新下载的文件名？

我需要在 Mac 上以编程方式获取文件名我使用 Selenium 下载文件并从下载文件夹中选择相同的文件以编程方式安装我使用 Applescript 执行相同的操作我被困在运行时获取文件名而且我的下载页面 url 不包含下载文件的
dart FFI 中“char*”的“本机类型”是什么？

我有一个这样的功能C语言 char getString return SOME STRING 现在我想通过调用它FFI in dart 这是我的代码 import dart io import dart ffi void main List
为什么Java接口可以在这些代码中实例化呢？ [复制]

这个问题在这里已经有答案了可能的重复创建接口的对象我是 Java 新手根据我的理解我们无法实例化一个Interface 我们只能实例化一个class它实现了一个interface The new关键字用于从类创建对象但是当我
SceneKit：内存过多

我已经没有想法了 SceneKit 正在堆积内存而我才刚刚开始我正在显示SNCNodes它们存储在数组中这样我就可以分离分子的组成部分以进行动画这些树模型分子我最终可能会展示 50 个比如说每章一个问题是当我转到另一章时
与“PropTypes.element”相对应的“defaultProp”的正确值是什么？

我有一个组件我希望接受另一个组件作为道具并渲染它我希望传递的组件是可选的并且在这种情况下不渲染任何内容下面的代码可以完美运行 const Component Inner gt div div
有没有办法生成单元测试来测试我的语法

我使用 antlr4 创建了语法但我想测试稳健性有没有自动工具或快速完成此操作的好方法谢谢由于很难找到 ANTLR 的真正单元测试我写了两篇关于它的文章 Lexer 的单元测试解析器的单元测试 A 词法分析测试检查给定文本是否被读
如何使 ImageButtons 边界环绕图像？

我正在为 Android 应用程序制作 GUI 该 GUI 包含四个方向ImageButtons 看下图但是当试图做到这一点时总是失败因为为每个图像保留了一个正方形这就是我所达到的那是我的XML code
我现在可以将使用 WatchKit 的应用程序上传到 App Store 吗？

我制作了一个应用程序包括一个iOS应用程序和一个WatchKit应用程序每个部分都可以独立运行我现在可以将此应用程序上传到 App Store 以便在发布时可以在 Apple Watch 上使用吗还是必须等待如果答案是肯定的我是
如何将 CreateObject("Wscript.shell") 转换为 C# [重复]

这个问题在这里已经有答案了我怎样才能用 C 翻译这个 Set WshShell WScript CreateObject WScript Shell 谢谢这个用在什么场合呢还有我必须在 C 中包含什么库才能工作使用用于脚本编写的 S
如何在 iPhone 的图像上添加文字？

我需要在 iPhone 中将文本放在图像上它就像 Eurosport iPhone 应用程序 source mzstatic com 以同样的方式我需要在我的应用程序中添加文本我怎样才能做到这一点 Thanks 我找到了两种方法 1
我可以使用 WinApi Deploy Cmd 在电脑上安装、更新吗

我的 appx 文件安装在文件夹中我可以通过双击该文件来安装它但我正在寻找一种使用 WinAppDeployCmd 进行安装和更新过程来安装它的方法 WinAppDeployCmd install file C release file
Hadoop：JPS 找不到已安装的 Java

我的配置是 hduser worker1 usr local hadoop conf jps The program jps can be found in the following packages openjdk 6 jdk open
如何使用外部 JSON...？

花了几个小时试图解决这个问题但我无法弄清楚出了什么问题我想做的就是加载这个 https recruit zoho com ats EmbedResult hr jodigest 2cV Sr2As6VxhLMxQGuTNij g Fb3
通过 cron 执行的 Google Cloud SDK 代码

我正在尝试实现一个自动代码来通过 Crontab 关闭和启动我的 Google Cloud 帐户中的 VM 实例操作系统是 Ubuntu 12 lts 并安装了 Google 服务帐户因此它可以处理我的 Google 云帐户上的读写
如何使用tensorflow进行文本分类？

我是张量流和机器学习的新手我在编写张量流代码时遇到问题该代码的文本分类类似于我尝试使用 sklearn 库进行的文本分类我在对数据集进行矢量化并向张量流层提供输入方面面临着重大问题我确实记得对标签进行了一次热编码但前面的张量流层不

如何使用tensorflow进行文本分类？

如何使用tensorflow进行文本分类？ 的相关文章

随机推荐

热门标签

如何使用tensorflow进行文本分类？的相关文章