RapidMiner简单入门教程——入门必看超详细

2023-11-05

RapidMiner使用指南

01工具简介

02数据准备、导入、导出

数据清理:处理缺失数据、约简数据、处理不一致的数据、约简属性

  • 处理缺失数据:移除观察项、集中趋势算数度量代替缺失值等ReplaceMissingValue

  • 约简数据:屏蔽不需要的数据

  • 处理不一致的属性:与期望值不同

  • 属性约简:p维度数据–>数据集x’,维度小于p,消除冗余和不相关的数据

导入数据库

Tool->available database drivers 驱动的数据库

propoties文件与数据库的添加

管理数据库连接:

Connections->Legacy connections->Manage Database Connections可在其中配置连接信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7cLwi7R1-1660987669996)(RapidMiner教程(更新ing)].assets/image-20200418182005056.png)

Name:连接名字 Host:(MySQL)服务器的地址 Port:MySQL服务器的端口号

Database scheme:数据库的实例名字 User Password用户名(好像是root)和密码

Localrepository:本地资源库(将流程保存在process中) data:数据目录

03关联分析和关联规则

Part1关联分析

关联一种统计指标,用于衡量统计量之间的关系强度

数据理解

Insulation 每个家庭的保温层厚度

temperature 每个家庭最近一年的户外平均环境温度

Heating_Oil 最近一年来热燃油用量

Num_Occupants 家庭人口数

Avg_Age 平均年龄

Home_Size 房屋大小

导入数据

File–>import data (演示中的csv文件选择列用逗号分割)

建模

Correlation Matrix 关联矩阵(反应属性值之间的关系强度)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SqUP4SVi-1660987669998)(RapidMiner教程(更新ing)].assets/image-20200418194027781.png)

模型评估和部署

评估:0~1 正关联; -1~0 负关联

部署:根据模型的结果进行

关联关系不等于因果关系,且关联系数并不表示一个属性变化对另一个属性带来的变化值

用于分类、发现趋势(问题中的因素如何相互关联)

Part2关联规则

关联规则是一种数据挖掘方法,旨在寻找数据集内的属性之间的频繁关联

eg. 哪些产品最经常在一起被购买,电商网站推荐

Elapsed_Time 每个调查对象完成调查所用的时间,精确到0.1分钟

Time_in_Community 用于调查对象在区域居住时的时间是0-2年,3-9年还是10年以上(三类)

Gender Working Age 性别,工作,年龄–>个人属性

Family 是否为家庭导向型的社团组织成员

Hobbies 是否为兴趣爱好导向型的社团组织成员

Social_Club 是否为社区社会组织的成员

Political 是否为政治组织成员

Professional 是否为专业组织成员

Religious 是否为社区教会的成员

Support_Group 是否为援助导向型的社团组织成员

导入数据

一般在均值和两个标准差之外的成为离群点

有些属性和社团没有什么影响

模型

Select Attributes:选择属性操作符(选择需要进行到下一步的操作符)

​ 在attribute filter type中可以选择属性子集,在attributes选择需要包含的内容

Numerical to Binomina:数值到二值转换 此时表格属性全为integer,属性过滤类型可选全部

FP-Growth :找到上个操作返回值的关联关系,生成关联矩阵 ( 平凡项模式

​ 属性会伴随着其他属性以什么样的支持度出现

​ min support最小支持度 :前键为True时后键也为True的概率 前提-结论规则

Create Assotiation Rules:可以通过调整建立关系的参数

​ min confidence 例如最小置信度

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4ZXpODot-1660987670000)(RapidMiner教程(更新ing)].assets/image-20200418204119371.png)

模型评估和部署

置信度:有多大信心在一个属性被标记为T是,其关联实行也被标记为T

支持度:规则发生的次数除以数据集中观察项的数量

支持度没有逆值,支持度属性相反不会变化,但置信度的属性相反会会发生变化

  • 将置信度从0.8改为0.5

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uzM55LfP-1660987670001)(RapidMiner教程(更新ing)].assets/image-20200418204457262.png)

  • 修改后关联规则Graph可视化(规则/置信度/支持度)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rVSw0q8T-1660987670002)(RapidMiner教程(更新ing)].assets/image-20200418204721844.png)

相反规则支持度不变,置信度改变

模型部署:通过积极调动家庭组织,宗教组织,兴趣爱好组织可以找到城市中可以开展项目合作的团体。让宗教团体的人改善当地自行车道(Hobbies),清扫公园(Family)等…

04K-means分析和辨别分析

06决策树和神经网络

Part1决策树

  • 决策树的生成:训练集;
  • 决策树的剪枝:测试数据集(校验,修正);
User_ID Gender Age Marital_Status Website_Activity
唯一标识符 性别MF 年龄 婚姻状况(M已婚S未婚丧偶) 活跃程度(分成类别)
Browsed_Electronics_12Mo Bought_Electronics_12Mo
1年内是否在公司网站上浏览电子产品Yes/No 1年内是否在公司网站上购买电子产品Yes/No
Bought_Digital_Media_18Mo Bought_Digital_Books Payment_Method
是否上购买过某种形式数字媒体Yes/No 购买电子阅读器;可能最佳 付款方式

eReader_Adoption:训练集中的标签值

tips:决策树可以处理非数据类型 多类型数据

模型

用户id只是唯一表示符,与分类依据无关

Set Role : attribute name选择User_id,target role选择id

​ 对于训练集还有一个label属性也要进行上述操作,设置角色target role为laebl

​ 想要删除掉标记可以在edit list中remove entry

输出后可以发现被set role后的列会高亮

Decision Tree:决策树模型(不同算法criterion中选择,复杂的精度也高/maximal depth决策树最多拓展几 层/叶子大小等等)

  • 节点:不同属性。敏感程度自上而下降低。
  • 叶子节点:鼠标靠近出现点击图标,可以看出各种结果所占的比例

Apply Model:连接训练集与测试集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C3YtzH9O-1660987670003)(RapidMiner教程(更新ing)].assets/image-20200418232957601.png)

模型评估

交叉验证Cross Validation:显示感叹号–>未配置好,运行后返回每个类别的precision和recall

双击进入进行配置:绘制子流程

performance:连接在测试集上进行评价

点击process回到主流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PLRBJxht-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000101482.png)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K9tYHMvy-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000235258.png)

模型部署

对较早购买者不用促销和广告投放

对较早期购买者可以重点投放,促成购买

对中期主体购买者可以提供一定的优惠政策

对晚期购买者可以放弃广告投放

07 文本挖掘

导入数据

数据与处理

分词处理process Documents from Data :处理关系型数据。exa端口输出单词矢量矩阵;wor单词词频列表

​ 对比:process Document

在“Process Documents from Data”操作符参数设置里,如下图我们可以进行许多的参数调整,例如vector creation中除了可以选择“TF-IDF”以外,我们还可以选择“Term Occurrences”单词出现的频率统计,或者“Binary Term Occurrences”二值属性作为输出结果的统计形式。

  • 通过百分比的范围来约简单词数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dveZAkI7-1660987670006)(RapidMiner教程(更新ing)].assets/image-20200617170616113.png)

  • 进入分词处理操作器中:

在上述操作符中需要添加英文分词的操作符号tokenize:把输入的text型字段处理成document类型

其他功能:

转换大小写:Transform Cases 词根处理:Stem(Porter)

过滤停用词:Filter Stepword 处理短语:Generate n-Grams(Terms)

预测分析

617170616113.png)

  • 进入分词处理操作器中:

在上述操作符中需要添加英文分词的操作符号tokenize:把输入的text型字段处理成document类型

其他功能:

转换大小写:Transform Cases 词根处理:Stem(Porter)

过滤停用词:Filter Stepword 处理短语:Generate n-Grams(Terms)

预测分析

贝叶斯算法:对于大量的稀疏矩阵做分类效果好

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

RapidMiner简单入门教程——入门必看超详细 的相关文章

  • 在 Laravel 5.2 中按 id 显示图像文件

    我有一个名为 files 的表 它保存与属性表相关的图像的名称 我试图使这些图像显示为以下关系 这是属性表的一部分 这是表文件及其与属性表的关系 我可以在控制器 PropertyController 的 show 方法中传递什么参数 目前我
  • 尝试使用 PHP / Html 从注册表单将数据输入到 SQL 表中

    我尝试了很多不同的事情并进行了很多搜索但没有解决方案 我正在尝试使用 html 表单将数据提交到 sql 表 这是我的 register php 文件的代码 con mysqli connect localhost database nam
  • 在php中循环多维数组并执行mysql插入(股票数据)

    我有一个多维数组 我希望循环遍历它并为数组中的值执行 mysql 数据库插入 我需要插入到 sql 查询中的数组值是 candles 0 complete candles 0 volume candles 0 mid h candles 0
  • Mysql - 如何搜索26条以字母开头的记录?

    基本上 我正在尝试创建一个查询 该查询可以根据英语字母表中的字母 26 个字母 从表中检索 26 个单词 所以 苹果 香蕉 椰子 等等 我一直在使用 like a 所以 SELECT from word WHERE word name li
  • NodeJS MySQL - 如何知道连接是否释放

    我正在开发 NodeJS MySQL Web API 我在用mysql https www npmjs com package mysqlnpm 模块 我想知道连接是否已释放 是否有任何函数或变量 喜欢 if connection isRe
  • 如何从准备好的语句中获取标量结果?

    是否可以将准备好的语句的结果设置为变量 我正在尝试创建以下存储过程 但失败了 第 31 行出现错误 1064 42000 您的 SQL 语法有错误 检查与您的 MySQL 服务器版本相对应的手册 了解在 stmt USING m c a 附
  • Mysql 中的 MD5 和 Salt

    如何 解密 各种电商存储的密码添加 盐 我不是密码专家 所以 在过去 我使用过类似的东西 SELECT FROM mytable WHERE email email AND passwd MD5 pwd MySql MD5 函数只接受一个参
  • MySQL 多索引与多列索引进行搜索

    在我正在编写的软件中 它能够搜索给定的表以获取信息 搜索表单有 5 个字段 当然所有字段都对应于表中的不同列 但所有字段都是可选的 我的问题是关于多列索引是否有效以及为其构建查询的正确方法 如果我有一个跨 5 列的索引 并且我构建了一个查询
  • 无法将代码优先迁移应用到 mysql 数据库

    我正在使用 EF 代码优先模型开发 asp net mvc 我正在尝试首先使用 EF 代码将迁移应用到我的项目中 我正在使用 MySql 数据库 目前我使用的是 EF 4 3 1 版本和 6 6 4 0 版本的 mysql Connecto
  • mysql utf8_general_ci 区分大小写

    我有一个 mysql 数据库 我使用 utf8 general ci 不区分大小写 在我的表中 我有一些列 例如 ID 和区分大小写的数据 例如 iSZ6fX 或 AscSc2 为了区分大写和小写 最好只在这些列上设置 utf8 bin 如
  • PHP PDF生成问题

    我使用 FPDF 在 PHP 中创建 pdf 我使用会话变量将变量在一种表单之间传递到另一种表单 当我提供一个值时 Report php
  • 排除任何字段中具有 NULL 值的行结果?

    我有一个像这样的简单选择 SELECT FROM table WHERE fk id 10020 它可以工作 但有一些字段为 NULL 没有模式所以做了 SELECT FROM table WHERE fk id 10020 AND NOT
  • 保存用户的身高和体重

    我应该如何将用户的身高和体重存储在MySQL数据库中 以便我可以使用这些信息来查找特定身高或体重内的用户 另外 我需要能够以英制或公制显示此信息 我的想法是存储以厘米为单位的身高和以公斤为单位的体重信息 我更喜欢公制而不是英制 我什至可以让
  • 工厂模式数据库连接

    我正在尝试使用 MySQL 实现数据库连接上的工厂模式 SQL Server 面临奇怪的错误 你调用的对象是空的 在 SQL 命令对象上 internal class SqlServerDB IDatabase private SqlCon
  • PHP/MySQL:检索邻接列表模型中的单个路径

    有没有什么有效的方法可以在不限制深度的情况下根据节点的ID检索邻接列表模型中的单个路径 就像如果我有一个名为 Banana 的节点的 ID 我可以获得以下路径 Food gt Fruits gt Banana 如果不可能的话也不是什么大问题
  • 使用 JOIN 和 UNION 合并不同表中的记录

    我需要创建一个查询来组合两个表中的数据 我认为可能是 JOIN 和 UNION 的组合 在此示例中 我需要列出状态处于活动状态的所有姓名 仅一次 并将他们的葡萄酒 苏打水 晚餐 甜点和水果偏好组合起来 按姓名排序 我不确定单独的 JOIN
  • 使用 Hibernate Dialect 设置表字符集/排序规则?

    我使用 Hibernate MySQLInnoDB Dialect 来生成 DDL hibernate cfg xml
  • 无效的 PDO 查询不会返回错误

    下面的第二条 SQL 语句在 phpMyAdmin 中返回错误 SET num 2000040 INSERT INTO artikel artikel nr lieferant nr bezeichnung 1 bezeichnung 1
  • 如何将另一列的整数值添加到日期列?

    我试图将整数添加到日期 但出现以下错误 1064 你的 SQL 语法有错误 检查与您的 MySQL 服务器版本相对应的手册 了解在第 6 行的 wp OrderDate INTERVAL WPProduct Duration DAY AS
  • 如何获取mysql中一条记录的大小

    如果表包含 TEXT 或 BLOB 类型的字段 如何获取 MySql 中记录的大小 是否可以使用sql语句获取记录或表的大小 要计算字符串或 blob 的大小 以字节为单位 请使用LENGTH YourColumn http dev mys

随机推荐

  • 如何使android应用开机时自动启动,如何使APP开机自启动

    方案一 将app做成系统应用 直接安装在 system app 目录下 具体步骤为 1 在AndroidManifest文件中 添加 android sharedUserId android uid system 例如 image png
  • 万字长文详述ClickHouse在京喜达实时数据的探索与实践

    1 前言 京喜达技术部在社区团购场景下采用JDQ Flink Elasticsearch架构来打造实时数据报表 随着业务的发展 Elasticsearch开始暴露出一些弊端 不适合大批量的数据查询 高频次深度分页导出导致ES宕机 不能精确去
  • 利用555定时器的双电源电路原理

    参考电工天下电路原理图 致敬 555单电源变双电源电路 以下是电路图 时基电路555接成无稳态电路 3脚输出频率为20KHz 占空比为1 1的方波 3脚为高电平时 C4被充电 低电平时 C3被充电 由于VD1 VD2的存在 C3 C4在电路
  • Android/Linux EAS优化-schedtune

    Linux cgroups机制中的cpu cpuset schedtune子系统 跟linux android进程调度策略有关 记录下各项功能参数的用法 SchedTune SchedTune是一项与CPU调频相关的性能提升技术 它实现为一
  • matlab如何保存csv文件,Matlab:将输出写入csv文件

    我有一些数据 包括我想将它们存储在csv文件中的字符串和数字 作为函数输出的数字存储在1x20的数组中 所以在csv文件中 我希望有21列 因此 csv文件中的第一列应该是字符串 接下来的20列具有1x20数组中的信息 我怎么能这样做 我使
  • 使用InitializingBean实现策略模式

    1 创建SpringBoot项目 2 创建抽象类AbstractThreeHandler public abstract class AbstractThreeHandler implements InitializingBean Auto
  • 静态功耗与动态功耗

    文章目录 0 功耗源 1 动态功耗 1 1 翻转功耗 1 2 短路功耗 2 静态功耗 2 1 亚阈值泄漏电流 2 2 栅泄漏电流 2 3 结泄漏电流 2 4 竞争电流 2 5 降低静态功耗办法 0 功耗源 功耗的本质是能量耗散 由能量守恒定
  • 变电站仪器仪表检测图像数据集

    数据集中 总共包含8307张图像及对应的VOC格式标签 数据集下载链接 https download csdn net download ncusz 85003005
  • 清华镜像网站

    这里写自定义目录标题 欢迎使用Markdown编辑器 新的改变 功能快捷键 合理的创建标题 有助于目录的生成 如何改变文本的样式 插入链接与图片 如何插入一段漂亮的代码片 生成一个适合你的列表 创建一个表格 设定内容居中 居左 居右 Sma
  • 浅谈UML中常用的几种图——鲁棒图

    什么是鲁棒图 鲁棒图包含 3 种元素 如图 8 2 所示 它们分别是边界对象 控制对象 实体对象 边界对象对模拟外部环境和未来系统之间的交互进行建模 边界对象负责接收外部输入 处理内部内容的解释 并表达或传递相应的结果 控制对象对行为进行封
  • Hive的概念及基本语法

    HIVE是什么 HIVE是一个可以将sql翻译为MR程序的工具 HIVE支持用户将HDFS上的文件映射为表结构 然后用户就可以输入SQL对这些表 HDFS上的文件 进行查询分析 HIVE将用户定义的库 表结构等信息存储hive的元数据库中
  • 移动端的屏幕分辨率与浏览器的视口宽度(视口大小)是两回事儿

    问 在移动端的Web设计中 屏幕的分辨率和视口大小是不是是两回事儿 答 是的 屏幕的分辨率和视口大小在移动端的Web设计中是两个不同的概念 屏幕分辨率 Screen Resolution 这指的是移动设备屏幕上的像素数量 通常以水平像素数和
  • linux替换文件内容 awk,Linux awk替换文本字符串内容

    awk是功能强大的文本分析工具 与grep搜索和sed编辑相比 awk在分析数据和生成报告时特别强大 简而言之 awk逐行读取文件 将每一行切成空格作为默认分隔符 然后对剪切的部分执行各种分析处理 awk pattern action fi
  • Python 自动刷新网页

    有些时候刚建的网站 要求达到一定量的浏览量 这个时候你写个小代码就能轻松搞定了 废话不多说直接看下面代码 import time from selenium import webdriver 需pip install selenium de
  • Google类库之一的guava

    1 参考教程 http ifeve com google guava
  • 项目中的通用查询参数类,它体现了项目架构的大局观

  • 比较zab、paxos和raft的算法的异同

    Zab 与 Paxos 联系 1 两者构建的系统都有一个 Leader 角色 Leader 进程负责协调多个 Follower 进程的运行 MultiPaxos不在此列 2 Leader 进程都会等待超过半数的 Follower 进程做出正
  • WTL 界面设计篇(CSkinListCtrl)

    头文件声明 CSkinListCtrl h pragma once include
  • 数据降维与可视化——t-SNE

    数据降维与可视化 t SNE 原文 https blog csdn net hustqb article details 78144384 声明 manifold 可以称之为流形数据 像绳结一样的数据 虽然在高维空间中可分 但是在人眼所看到
  • RapidMiner简单入门教程——入门必看超详细

    RapidMiner使用指南 01工具简介 02数据准备 导入 导出 数据清理 处理缺失数据 约简数据 处理不一致的数据 约简属性 处理缺失数据 移除观察项 集中趋势算数度量代替缺失值等ReplaceMissingValue 约简数据 屏蔽