特征提取-特征工程

2023-11-11

1.定义

将任意数据（如⽂本或图像）转换为可⽤于机器学习的数字特征

2.字典特征提取

from sklearn.feature_extraction import DictVectorizer
data = [{'city': '北京','temperature':100}, 
    {'city': '上海','temperature':60}, 
    {'city': '深圳','temperature':30}]
    transfer=DictVectorizer(sparse=False)
    new_data=transfer.fit_transform(data)
    print(new_data)
    #获取属性名
    names=transfer.get_feature_names()
    print("属性的名字：\n",names)

结果：[[ 0. 1. 0. 100.] #0.1.0代表北京
[ 1. 0. 0. 60.]
[ 0. 0. 1. 30.]]

['city=上海', 'city=北京', 'city=深圳', 'temperature']

data = [{'city': '北京','temperature':100}, 
    {'city': '上海','temperature':60}, 
    {'city': '深圳','temperature':30}]
    transfer=DictVectorizer(sparse=True) #节省空间，读取效率提高
    new_data=transfer.fit_transform(data)
    print(new_data)
    #获取属性名
    names=transfer.get_feature_names()
    print("属性的名字：\n",names)

(0, 1) 1.0
(0, 3) 100.0
(1, 0) 1.0
(1, 3) 60.0
(2, 2) 1.0
(2, 3) 30.0 #描述一的位置

3.英文⽂本特征提取

    from sklearn.feature_extraction.text import CountVectorizer
    data=["life is short,i like like python", "life is too long,i dislike python"]
    transfer=CountVectorizer(stop_words=["is"]) #不统计is
    new_data=transfer.fit_transform(data)
    print(new_data.toarray()) #单个单词和符号不做统计
    print("特征名字：\n",transfer.get_feature_names())

结果：[[0 1 2 0 1 1 0]
[1 1 0 1 1 0 1]]

['dislike', 'life', 'like', 'long', 'python', 'short', 'too']

4.中文⽂本特征提取

from sklearn.feature_extraction.text import CountVectorizer
import jieba

def cut_word(text):
    """
    对中文进行分词
    "我爱北京天安门"————>"我 爱 北京 天安门"
    :param text:
    :return: text
    """
    # 用结巴对中文字符串进行分词
    text = " ".join(list(jieba.cut(text)))

    return text

def text_chinese_count_demo2():
    """
    对中文进行特征抽取
    :return: None
    """
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    # 将原始数据转换成分好词的形式
    text_list = []
    for sent in data:
        text_list.append(cut_word(sent))
    print(text_list)

    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = CountVectorizer() #这块可以查看停用词，来限制
    # 2、调用fit_transform
    data = transfer.fit_transform(text_list)
    print("文本特征抽取的结果：\n", data.toarray())
    print("返回特征名字：\n", transfer.get_feature_names())

    return None

if __name__ == '__main__':
    text_chinese_count_demo2()

结果：['一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。', '我们看到的从很远
星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。', '如果只用一种方式了解某样事物，你就不会真正
了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。']
文本特征抽取的结果：
[[2 0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 1
0]
[0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 3 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 0
1]
[1 1 0 0 4 3 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0
0]]

返回特征名字：
['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '还是', '这样']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数学建模

机器学习

python

人工智能

特征提取-特征工程的相关文章

Python 和 Numpy 是 nan 和 set

我在使用 Python 的 Numpy set 和 NaN 非数字时遇到了不可预测的行为 gt gt gt set np float64 nan np float64 nan set nan nan gt gt gt set np flo
2d 图像点和 3d 网格之间的交点

Given 网格源相机我有内在和外在参数图像坐标 2d Output 3D 点是从相机中心发出的光线穿过图像平面上的 2d 点与网格的交点我试图找到网格上的 3d 点 This is the process From Multip
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
如何在python中附加两个字节？

说你有b x04 and b x00 你如何将它们组合起来b x0400 使用Python 3 gt gt gt a b x04 gt gt gt b b x00 gt gt gt a b b x04 x00
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
numpy：高效执行数组的复杂重塑

我正在将供应商提供的大型二进制数组读入 2D numpy 数组 tempfid M N load data data numpy fromfile file dirname fid dtype numpy dtype i4 convert
将 pandas 剪切操作转换为常规字符串

我明白了 pandas cut 操作的输出 0 0 20 1 0 20 2 0 20 3 0 20 4 0 20 5 0 20 6 0 20 7 0 20 8 0 20 9 0 20 如何将 0 20 转换为 0 20 我正在这样做 str
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
在 Mac OSX 上从 Python 3.6 运行 wine 命令

我正在尝试用 Python 编写一个打开的脚本wine然后发送代码到wine终端打开一个 exe程序这 exe程序也是命令驱动的我可以打开wine 但我无法进一步 import shlex subprocess line usr bin
Python“非规范化”unicode 组合字符

我正在寻找标准化 python 中的一些 unicode 文本我想知道是否有一种简单的方法可以在 python 中获得组合 unicode 字符的非规范化形式例如如果我有序列u o xaf i e latin small lette
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt
如何绘制更大的边界框和仅裁剪边界框文本 Python Opencv

我正在使用 easyocr 来检测图像中的文本该方法给出输出边界框输入图像如下所示 Image 1 Image 2 使用下面的代码获得输出图像 But I want to draw a Single Bigger bounding bo
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

已安装 MySQL，但执行 mysql 命令提示命令找不到！

因个人需要在阿里购买了一个轻量应用服务器服务器配好 LAMP 环境但奇怪是的我想登录 MySql 却提示命令找不到查看 MySQL 运行状态却是 Active running 提交了阿里工单可是感觉客服是答非所问我也是很无奈
Windows Terminal 和 WSL 安装及配置

一打开开发者选项和传递优化二在Microsoft Store安装Windows Terminal和Ubuntu子系统三配置 Windows Terminal配置打开settings json配置文件修改如下此项用来配置打开W
重磅！瞄准 Web 3.0，谷歌云推出专为区块链服务的 Blockchain Node Engine！

本文由 Cloud Ace 整理发布更多内容请访问 Cloud Ace 官网区块链技术正在为世界各地的消费者和企业带来巨大的创新和价值创造随着技术变得越来越主流公司需要可扩展安全和可持续的基础设施来发展业务并支持他们的网络谷歌云
LeetCode-1124. 表现良好的最长时间段【哈希表，前缀和，单调栈】

LeetCode 1124 表现良好的最长时间段哈希表前缀和单调栈题目描述解题思路一查字典 cur是当前的前缀和劳累与不劳累天数之差向前遍历有两种情况情况一若cur大于0则是 0 i 的劳累与不劳累天数之差一定最大记
Angular知识整合一：Angular中的组件和一些基本概念

什么是Angular Angular是一个基于TypeScript构建的开发平台它包括一下三个部分一个基于组件的库一组涵盖路由表单管理客户端服务端通信等各种功能继承的库一套开发构建测试更新代码的工具 Angular中的知识
matlab练习程序（渲染三原色）

这里我用的空间是x向右为正 y向下为正 z向屏幕里面为正相当于标准右手系绕x轴旋转了180度将三个点光源放在 r 0 3 0 0 5 g 0 3 0 5 cos pi 6 0 5 sin pi 6 b 0 3 0 5 cos pi 6
练习-Java继承和多态之接口

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档题目任务编写一个学校接待方面的程序招待不同身份的人的食宿问题编程要求仔细阅读右侧编辑区内给出的代码框架及注释在 Begin End 中编写一个学校接待方面的程序
什么是电力系统的功率平衡?为什么在任何时候要保持电力系统的功率平衡?

什么是电力系统的功率平衡为什么在任何时候要保持电力系统的功率平衡答电力系统的功率平衡是指电力有功功率和无功功率的平衡这种功率平衡也就是电力供需平衡要求电力系统发送的功率与系统的负荷需要随时保持平衡电能的一个最重要特点就是不能储存
关于Vue.js中数据模型的绑定以及方法事件的绑定与调用

在vue js中我们可以将事件方法写在methods属性中数据模型在data中定义 Vue的基本结构如下只写最常用的将数据与vue实例绑定通过v bind标签这里绑定的是sourceId这个值基于vue的双向绑定如果要取vue
蓝桥杯：整除序列

整除序列 15分题目描述有一个序列序列的第一个数是 n 后面的每个数是前一个数整除 2 请输出这个序列中值为正数的项输入格式输入一行包含一个整数 n 输出格式输出一行包含多个整数相邻的整数之间用一个空格分隔表示答案评测用
虚拟环境安装和操作

文章目录安装相应库和配置查看已安装虚拟环境创建虚拟环境切换进入虚拟环境退出虚拟环境虚拟环境 linux创建Python虚拟环境及配置 Django Flask项目中如何创建Python虚拟环境呢汇总环境迁移安装相应库和配
攻防世界MISC刷题1-50

目录 1 ext3 2 base64stego 3 功夫再高也怕菜刀 4 easycap 5 reverseMe 6 Hear with your Eyes 7 What is this 8 normal png 9 something i
idea 添加 VUE 的语法支持和开发

一 VUE的开发分两种一种是直接在HTML文件中使用一种是VUE文件的形式开发 1 首先我们先让 HTML 文件支持 VUE 的语法指令提示 2 File gt Setting gt Edit gt Inspections gt htm
父类A a = new 子类B

父类名 a new 子类名子类名 b new 子类名比较上面两种创建实例的区别 a只能调用父类的函数和子类重写父类的方法不能调用父类中不存在的子类的函数因为它没有继承 a是父类的引用指向了一个子类对象好处如果一旦发现该B对象无
Jetson Orin NX install Fastdeploy

FastDeploy jetson md at develop PaddlePaddle FastDeploy GitHub sudo apt get install gcc sudo apt get install cmake git c
postman-token的作用

Postman生成的代码中的postman token是什么 What is the postman token in generated code from Postman 这主要用于绕过Chrome 等其他浏览器中的错误如果XMLH
QEMU/KVM PCI Passthrough(i350) & DPDK 网络性能测试

QEMU KVM PCI Passthrough i350 DPDK 网络性能测试硬件要求 CPU必须支持硬件虚拟化 Intel VT d or AMD Vi 和 IOMMU 原图链接主机配置设置iommu IOMMU kernel
kmp算法(最简单最直观的理解，看完包会）

本文将以特殊的方式来让人们更好地理解kmp算法不包括kmp算法的推导接下来我们将从朴素算法出发在这之前我们先设主串为S 模式串为T 我们要解决的询问是主串中是否包含模式串即T是否为S的子串版权声明本文为原创文章转载请标明出
c++ 继承学习总结1 继承的基本语法

前言继承的作用是减少程序中重复的代码段如果程序中有很多重复的代码段可以考虑一下能否使用继承继承的语法 class 子类继承方式父类 include
特征提取-特征工程

目录 1 定义 2 字典特征提取 3 英文本特征提取 4 中文本特征提取 1 定义将任意数据如本或图像转换为可于机器学习的数字特征 2 字典特征提取 from sklearn feature extraction import

特征提取-特征工程

1.定义

2.字典特征提取

3.英文⽂本特征提取

4.中文⽂本特征提取

特征提取-特征工程 的相关文章

随机推荐

热门标签

特征提取-特征工程的相关文章