Apache Spark 机器学习 特征转换 1

2023-10-27

分词器(Tokenizer)

分词是一个处理过程,其将文本句子分割成一系列独立的单词词汇集合,Spark提供Tokenizer分词器类,其提供的功能是使用分隔符的方式处理文本句子的特征转换,Spark提供RegexTokenizer分词器类,其提供的功能是使用正则表达式的方式处理文本句子的特征转换,默认的分隔符是空格,其正则表达式是\\s+,该表达式表示的意思是一个或者多个空格作为分词器的分隔符。

如上所示,data创建了三行记录,每行记录对应一个文本句子。Schema定义一个两列的数据表格,第一列是id,表示行记录的序号,第二列是sentence,表示行记录的文本句子。sentenceDataFrame使用data以及schema创建一个数据框架。tokenizer定义一个分词器,输入sentence列,输出words单词词汇集合列。regexTokenizer定义一个正则表达式的分词器,其匹配的正则表达式是\\W,该表达式表示的意思是匹配每个单词。countTokens定义一个分词计数器,用于统计分词器所得的单词词汇集合的大小。tokenized以及regexTokenized是分词所得的单词词汇集合。

StopWordsRemover

该转换器提供在单词分割的过程中,删除一些没有实质性意义的单词,例如,英文句子中的a、the。

如上所示,对输入的原文进行转换,输出合法的单词词汇集合。

如上所示,使用Java代码对输入的数据集,执行对应的转换,输出合法的单词词汇集合。其中,remover定义一个过滤不合法单词的转换器,data定义一个输入的原文句子,schema定义一个数据表格,dataset使用data以及schema创建一个数据框架,remover对数据框架执行转换。

n-gram

该转换器是指对原文句子执行转换,输出一个包括n个单词的单词序列的集合。

如上所示,使用Java代码对输入的原文句子执行n-gram的转换。

如上所示,使用scala的本地单元测试环境对原文句子的数据集合执行n-gram的转换,最后,输出n-grams的数据集合,其中n-gram对应2-gram。

Binarizer

该转换器是对数字特征的二元分类转换器,其设定一个临界值,小于临界值的是一种分类,大于临界值的是其他分类。

如上所示,使用Java代码对输入的数字特征执行转换,其中,data定义输入的数字特征,schema定义一个数据表格,包括id以及feature两列,continuousDataFrame定义一个数据框架,binarizer定义一个二元分类转换器,binarizedDataFrame是使用二元分类转换器对数据集合执行二元分类。

如上所示,使用scala语言执行二元分类的转换,其中,小于临界值的数字特征被转换成0.0,大于临界值的数字特征被转换成1.0。

(未完待续)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Spark 机器学习 特征转换 1 的相关文章

随机推荐

  • 前端自学苦于找不到资源,2021最全学习资源整合!

    前端学习路线图火热出炉啦 还在为如何系统学习苦苦寻觅资源么 2021年新版前端学习路线图这不就来了么 小伙计们甩开膀子学起来吧 只要能坚持学下来走上人生巅峰不再是梦 PS 别忘了收藏呦 此套路线图不定期更新呦 第一阶段 前端入门HTML5
  • 【实用技能】git代理设置

    最近运行git pull和push的时候 发现有时候会不能运行 问了广宇后才知道原来Git是要专门设置代理才能正常用的 否则即使开了clash git用的也是境内网 代理设置方式如下 git config global http proxy
  • The 19th Zhejiang Provincial Collegiate Programming Contest F - Easy Fix(主席树)

    F Easy Fix 发现交换 l r不会影响 1到l 1和r 1到 n 对l 1 r 1的影响只有正负一 用主席树计算一下改变的量 一共四种情况 对l和r再算一下 pragma GCC optimize 2 pragma GCC opti
  • js中拼接input在页面中不随输入的数据而变化的解决办法

    原文地址 原文还有一种复杂解决办法 input文本框的value属性在页面中不随输入的数据而变化 QiaoZhi 博客园 页面中input修改后浏览器按F12时html还是显示原来的值 解决办法
  • c语言实验报告中致谢词,实验报告致谢词范文

    实验结束后 是需要写一份报告致谢词的哦 那么怎么写呢 请参考小编提供的实验报告致谢词范文吧 实验报告致谢词1 本论文是在某某老师的亲切关怀和悉心指导下完成的 他严肃的科学态度 严谨的治学精神 精益求精的工作作风 深深地感染和激励着我 老师不
  • 魔方机器人之项目汇总篇

    总体视频 魔方机器人总体视频 待续
  • javaee springMVC的简单使用 jsp页面在webapp和web-inf目录下的区别

    项目结构 依赖文件
  • 有一段英文由若干个单词组成,单词之间用空格分隔,编写程序提取其中所有的单词

    一 问题描述 有一段英文由若干个单词组成 单词之间用空格分隔 编写程序提取其中所有的单词 二 问题解答 解析 这里需要用到STL在算法设计中的应用 STL在算法设计中的应用有如下几种 存放主数据 存放临时数据 检测数据元素的唯一性 数据的排
  • 【C++】AVL树的简单实现及验证

    文章目录 1 什么是AVL树 2 AVL树部分模块模拟实现 2 1 AVL树结点的定义 2 2 AVL树的插入 2 3 AVL的验证 1 什么是AVL树 AVL树可以是一棵空树 AVL树也可以是一棵具有如下性质的二叉搜索树 它的左右子树都是
  • Mac使用终端压缩加密文件

    1 美图 2 概述 先cd到将要压缩的文件所在的文件夹 在终端中输入命令 zip e 压缩后的文件目录 可选 文件名称 zip 你要压缩文件的位置 3 两次输入密码即可 案例如下 base lcc lcc Downloads zip e a
  • #招银网络科技2024校招# 还有大量后端HC~~最后的机会

    看看自动驾驶元戎启行秋招 965工作制 带薪年假病假 投递及查进度方式 https ww 看看自动驾驶元戎启行秋招 965工作制 带薪年假病假 投递及查进度方式 https ww 看看自动驾驶元戎启行秋招 965工作制 带薪年假病假 投递及
  • AVL树到底是什么?

    目录 一 什么是AVL树 1 二叉搜索树 2 为什么引入了AVL树 3 什么是AVL树 二 自己构造AVL树 三 AVL树的插入和删除 1 插入 1 1 右单旋 1 2 左单旋 1 3 左右双旋 1 4 右左双旋 2 删除 一 什么是AVL
  • [Python]字典序用于比较字符串

    目录 1 比较方法 举例 1 比较方法 字典序用于比较两个字符串的大小 具体为比较第一个不同的字符的ascii码大小 之所以叫做字典序 是因为字典序参考了英文字典的排序 就像我们查字典一样 如查找apple 先查找a所在版块 再a板块中查找
  • 【从零开始的Java开发】1-3-3 综合案例:学生信息管理

    文章目录 编写并测试Subject类 编写并测试Student类 通过方法实现学生与专业关联 方法一 方案二 方案三 方案分析 数据类型 新增需求 完成学生信息存储 编写方法完成学生统计功能 一些声明与实例化 总体代码 Subject 类
  • shell执行class或jar

    mc11 gt java cp home ap user webproject web war WEB INF lib com userpackage ExcelDemo 说明 home ap user webproject web war
  • I2C读写时序简述

    I2C读写命令时序如下 这里默认I2C每次传输均按8bit模式传输 写时序 1 Master先发送Start bit 开始一笔传输 2 Master发送从机地址 s addr 7 0 其中s addr 6 0 包含从机地址 s addr 7
  • Windows 10, version 22H2 (2023年3月) 简体中文版、英文版下载

    Windows 10 version 22H2 updated March 2023 简体中文版 英文版下载 Windows 10 22H2 2023 年 3 月更新 Windows 10 是微软公司推出的一款操作系统 是 Windows
  • 数据库sqlite3之 sqlite3_exec()第三个参数回调函数的使用

    在写这篇文章之前大家先了解我之前写的关于用c语言操作sqlite3的博客 链接地址如下 https blog csdn net makunIT article details 105192076 关于sqlite3 exec的回调函数的知识
  • CSharp之虚方法(virtual)

    虚方法是实现多态基本方法之一 虚方法通过virtual关键字修饰 虚方法在父类中必须有方法体 在继承类中可以重写 override 也可不重写 虚方法所在类可以被实例化 父类虚方法在派生类中通过base fathermethod执行
  • Apache Spark 机器学习 特征转换 1

    分词器 Tokenizer 分词是一个处理过程 其将文本句子分割成一系列独立的单词词汇集合 Spark提供Tokenizer分词器类 其提供的功能是使用分隔符的方式处理文本句子的特征转换 Spark提供RegexTokenizer分词器类