将分类数据从 CSV 加载到 Scikit-Learn 以进行机器学习

2024-02-21

我正在学习 Scikit-Learn 对推文进行一些分类。我有一个 csv,其中一列包含推文,下一列包含 0-11 的班级。我经历了本教程来自 Scikit-Learn 网站 http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#tutorial-setup我想我理解实际的分类是如何完成的,但我不认为我真正理解数据格式。在教程中,材料位于文件夹中的文件中,其中文件夹名称充当分类标签。

就我而言,我应该从 csv 文件加载该数据,显然我需要构建手动输入矢量化器和分类器的数据结构。我应该如何处理这个问题?我认为本教程在这方面有点含糊,因为数据加载是自动完成的,让我对自定义数据的结构和加载一无所知。


通常你会使用pandas.read_csv http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html或者如果你不想依赖 pandasnumpy.load http://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html或者甚至使用标准库将 cvs 加载到列表中。它看起来像这样:

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

df = pd.read_csv('example.csv', header=None, sep=',', 
                 names=['tweets', 'class'])   # columns names if no header
vect = TfidfVectorizer()
X = vect.fit_transform(df['tweets']) 
y = df['class']

一旦你有了你的X and y您可以将它们输入分类器。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将分类数据从 CSV 加载到 Scikit-Learn 以进行机器学习 的相关文章

随机推荐

  • 如何使用 hooks 处理异步 firebase 调用

    我想创建一个用于将数据添加到 firestore 数据库的钩子 我不确定我是否误解了 hooks 的工作原理或 firestore 的工作原理 我对两者都是新手 警告 无法对已卸载的组件执行 React 状态更新 这是一个空操作 但它表明应
  • 算术表达式作为 c 中宏的参数

    使用宏和预处理器指令 define 我编写了以下两个代码 第一个代码传递表达式 例如a b valid pagesize a b 在第二个代码中 c a b 然后将此 c 作为参数传递给宏 valid pagesize c 第二个代码可以完
  • Android 通过后退按钮关闭应用程序

    该应用程序看起来像这样 主活动 gt 用户活动 gt 详细信息活动 活动的大致顺序 我想在DetailsActivity 行中的第三个活动 中单击后退按钮时关闭应用程序 想知道这样做是否是好的做法以及最好的方法是什么 如果我理解正确的话 即
  • Git:如何将现有的“merge”转换为“merge --squash”?

    我表演了多次merge承诺但他们应该是merge squash反而 解决冲突花了一天多的时间 所以我无法手动重新进行合并 有没有办法转换merge to merge squash 这里值得注意的是git merge and git merg
  • pandas 和 matplotlib:将两个图合并为一个图例项

    我有以下代码 from pandas import DataFrame import matplotlib pyplot as plt if name main lower bound 0 1 2 3 value 1 2 3 4 upper
  • 如何使用 span 设置 PHP echo 输出的样式

    我正在尝试设计每个回声的输出 理想情况下我想使用 span class span 对于每个回声 但我不太确定如何实现这一点 result mysql query SELECT FROM Blog while row mysql fetch
  • 如何在 Notepad++ 中自动更改 XHTML 结束标签

    如果之前有人问过这个问题 我深表歉意 但我不相信有人明确提出过这个问题 导致 stackoverflow 上出现很多混乱 我正在使用 Notepad v6 6 9 我正在寻找自动更改结束语的方法当我想 稍后 更改我的开始元素标签时 例如 如
  • Django 和项目/应用程序组织

    我刚刚开始学习 Django 对布局和组织项目和应用程序的最佳方式有点困惑 根据我的理解 项目是您的整个网站 应用程序是组成该网站的各个部分 对于第一个项目 我正在制作一个小型电子商务类型的网站 其中将包含用户 项目等 那么我应该有 用户
  • 使用 DATETIME mysql 查询日期之间的时间范围

    我有一个数据库表 其中包含如下字段 TIME Datetime Update ID 2013 11 25 05 00 14 XC3 2013 11 25 06 00 13 XC4 2013 11 25 06 00 19 XC5 2013 1
  • AngularJS 在哪里存储缓存数据

    我正在使用 AngularJS 构建一个应用程序 我需要跨会话存储一些数据 我以为 cacheFactory可能是一个选择 但是 我不知道在哪里缓存对象 http docs angularjs org api ng type 24cache
  • 如何使用 Tippy.js 在 mouseenter 上显示工具提示并在单击时隐藏

    我在用Tippy js https atomiks github io 我想在 mouseenter 上显示工具提示 但在单击时隐藏它 当您click在一个元素上 tippy并保持打开状态 直到您点击离开 tippy tippy trigg
  • 无限滚动一次加载所有项目?

    我正在使用一个名为自动浏览 https github com msjolund jquery esn autobrowse它代表一种无限滚动类型的脚本 可从 JSON 文件中提取数据 当我将脚本设置为重复 循环 这些项目几次时 它的工作原理
  • 错误:OID 未增加:SNMPv2-SMI::dod,如何增加 OID?

    我正在尝试实现具有两个不同上下文名称的 snmp 代理 我得到了一些示例程序 这是我的代理端代码 我从snmplabs com http snmplabs com 我尝试实现它 但在执行 snmpwalk 时遇到一些错误 snmpwalk
  • 在centos 6.4上安装numpy&scipy

    我在虚拟环境中工作 安装 numpy 和 scipy 时遇到问题 据我了解 在使用 scipy 之前我必须完全安装 numpy 但是我在安装 numpy 时遇到了问题 I usedpip install numpy并将 numpy 安装到我
  • 具有多个查找字段的 Rest 调用以进行反向查找

    在Django Rest框架中 有没有办法拥有多个查找字段 我知道这听起来不太好REST友好的 我有一个Company模型 我想首先通过国家 地区列出它们 然后通过 slug 字段列出它们 例如 companies
  • Restore_best_weights 问题 keras 提前停止

    我正在将 Keras 的 EarlyStopping 用于我的深度学习项目 文档here https keras io callbacks earlystopping提到了一个非常有用的恢复最佳体重的想法 但不知何故我还无法使用它 我使用的
  • 使用 lambda 表达式来避免使用“魔术字符串”来指定属性

    我正在编写一项服务来获取特定类型的对象集合输出其原始类型 字符串类型和日期时间类型 https stackoverflow com questions 3161959 in c is there a way retrieve only bu
  • C++ 使用 .o 链接和使用 .a 文件链接之间存在差异:行为不同,为什么?

    我期望 与 o 文件链接和与从 o 文件存档的 a 文件链接应该没有区别 但事实并非如此 我有2个源文件 每个都声明1个类 1个静态对象 1个函数 以及一个调用其中一个函数的main cpp cat First cpp include
  • 改变rgba颜色的色调

    我使用 RGBA 颜色在 matplotlib 中将一堆数据绘制为对数刻度上的散点图 以防万一介质相关 我希望能够做的是 一旦绘制了所有内容 我想挑选出各个散点并将其色调更改为某种 RGB 颜色的色调 但保留旧的 alpha 值 我目前的做
  • 将分类数据从 CSV 加载到 Scikit-Learn 以进行机器学习

    我正在学习 Scikit Learn 对推文进行一些分类 我有一个 csv 其中一列包含推文 下一列包含 0 11 的班级 我经历了本教程来自 Scikit Learn 网站 http scikit learn org stable tut