R手册(NLP)--text2vec

2023-11-08


text2vec 这个 R 包提供了高性能和简洁的 API 来进行文本分析、自然语言处理。

分词器

word_tokenizer(strings) 英语分词器
jieba<-jiebaR::worker()中文分词器

#RUN THIS EXAMPLE:
jieba<-jiebaR::worker()
tok_fun <-function(strings) 
  llply(strings, segment, jieba)

I/O 处理(迭代器):支持create_<type>函数

#RUN THIS EXAMPLE:
itoken(strings, 
 preprocessor = identity,       #预处理函数集(去空格,去数字等)
 tokenizer = space_tokenizer,   #分词器
 progressbar = interactive())   #进度条
it_train <- itoken(doc, tokenizer = tok_fun)

向量化

  • 创建词汇表:(N-grams参数)
#RUN THIS EXAMPLE:
stop_words <- c("在", "又", "你" )       #停止词创建
vocab <- create_vocabulary(it_train, stopwords = stop_words)
  • 修剪词汇:
prune_vocabulary(vocabulary,  #词汇表
 term_count_min = 1L,         #最小次数
 term_count_max = Inf, 
 doc_proportion_min = 0,      #最小比例
 doc_proportion_max = 1,
 max_number_of_terms = Inf)
#RUN THIS EXAMPLE:
pruned_vocab <- prune_vocabulary(vocab,term_count_min = 10,doc_proportion_max = 0.5,doc_proportion_min = 0.001)
  • 词汇向量化:vocab_vectorizer() , hash_vectorizer()

vectorizer <- vocab_vectorizer(pruned_vocab)

  • DTM,TCM: (Document-Term matrices, Term co-occurence matrices)

dtm_train <- create_dtm(it_train, vectorizer)
tcm_train <- create_tcm(it_train, vectorizer)

主题模型

  • 处理模型的统一规范

model$new(...)生成一个模型对象,设置初始化参数。
model$fit(x, ...)拟合模型
model$fit_transform(x, ...)拟合模型并转换数据
model$transform(x_new, ...)使用已经训练好的模型转换数据

Tf-idf 转换,Global Vectors (GloVe) 词向量

  • 常用模型

LSA$new()潜在语义分析(LSA)
LDA$new()潜在Dirichlet分配模型(LDA)

  • 文档相似性和距离(不相似性)

sim2(x, y, method)矩阵x和y,每一行的使用指定方法的相似性
dist2(x, y, method)矩阵x和y,每一行的使用指定方法的距离
psim2(x, y, method), dist2(x, y, method)并行计算

参数method:“cosine”, “euclidean”, “jaccard”
余弦距离,欧式距离,Jaccard距离,RelaxedWordMover’sDistance

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

R手册(NLP)--text2vec 的相关文章

  • R手册(Tidy+Transform)--tidyr

    文章目录 Reshape Data Split or Unit Cells Handle Missing Values tidyr Easily tidy data with spread and gather functions Resh
  • R手册(Tidy+Transform)--缺失处理(naniar and simputation)

    文章目录 naniar 缺失数据摘要 阴影矩阵 可视化缺失值变量分布关系 simputation make imputation simpler for missing data 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类 分组 删
  • R手册(Parallel Computing)--foreach

    R手册 Parallel Computing foreach foreach foreach 后端支持 library doParallel 为foreah包提供一个并行的后端 n cores lt detectCores logical
  • R手册(Tidy+Transform)--forcats

    forcats 分类变量数据处理 forcats for factor 函数 说明 factor x levels labels ordered as factor x fct expand f 添加更多级别 fct explicit na
  • R手册(Machine Learning)--mlr (Part 2)

    文章目录 Configuration 配置 Parallelization 并行 Imputation 插补 Feature Extraction 特征提取 1 Feature filtering 特征筛选 2 Feature select
  • R手册(Common)--R语言入门

    说明 本节中大部分内容摘自书籍 R语言实战 第2版 文章目录 RStudio Take control of your R code 数据处理一般流程 R 数据结构 R 运算符 概率函数 控制语句与循环语句 自定义函数 调试 拟合线性模型f
  • R手册(Import)--rvest

    文章目录 解析html 提取组件 提取 修改和提交形式的函数 浏览网站 解析html 函数 说明 read html x encoding x为a url或 a local path html nodes x css xpath 通过使用
  • R手册(Common)--tidyverse+tibble

    tidyverse是一系列包的组合 构建了一套完整的数据分析生态链 提供了一套整洁的数据导入 分析和建模方法 刷新了R语言原有的数据科学体系 文章目录 tidyverse Usage core tidyverse packages Impo
  • R手册(Common)--面向对象(R6 and S4)

    R 主要面向统计计算 似乎很少会用到面向对象的编程方法 但在统计计算中 在下列情形中使用面向对象的编程方法可以编程更有效率 文章目录 面向对象R6类 面向对象S4类 自定义S4类 实例化函数 S4的泛型函数 面向对象R6类 R 的面向对象
  • R手册(Visualise)--geomnet(ggplot2 extensions)

    文章目录 geomnet 返回ggplot2扩展主目录 geomnet Geom 网格图 关系图 geom net aes from id to id fontsize data stat net position identity na
  • R手册(Visualise)--ggplot2

    文章目录 Overview Geoms 基本图形 单变量 双变量 三变量 文本 误差可视化 地图 Stats Scales 常用标尺格式 坐标轴标尺 Color and fill scales Shape and size scales C
  • R手册(Common)--R语言基础包

    文章目录 环境设置 输入输出 文件操作 进度条 数据创建 数据选取及数据信息 列联表 内置常量 数学 矩阵运算 模型 其他函数 R语言基础包 base stats 环境设置 系统函数 函数 说明 options 显示或设置当前选项 digi
  • R手册(NLP)--wordcloud2

    文章目录 wordlcoud2函数 letterCloud函数 shiny支持 wordcloud2 R interface to wordcloud for data visualization Wordcloud2主要包括两个函数 wo
  • R手册(Syntax)--magrittr

    magrittr pipe lhs gt rhs forward pipe lhs为rhs第一个参数时 x gt f y 等价于 f x y lhs在任意位置时 用点 代替 z gt f x y arg 等价于 f x y arg z rh
  • R手册(Time Series)--forecast and prophet

    文章目录 forecast for Time Series and Linear Models 时间序列分析 模型 预测 ggplot2扩展 模型评估 prophet 构建模型 模型预测 可视化 交叉验证 时间序列分析 Time Serie
  • R手册(NLP)--text2vec

    文章目录 分词器 I O 处理 迭代器 支持 create 函数 向量化 主题模型 text2vec 这个 R 包提供了高性能和简洁的 API 来进行文本分析 自然语言处理 分词器 word tokenizer strings 英语分词器
  • R手册(Common)--data.table

    R语言data table包是自带包data frame的升级版 用于数据框格式数据的处理 最大的特点快 包括两个方面 一方面是写的快 代码简洁 只要一行命令就可以完成诸多任务 另一方面是处理快 内部处理的步骤进行了程序上的优化 使用多线程
  • R手册(Communicate)--R Markdown

    文章目录 Overview Rmd Structure YAML Header Parameters Set render options with YAML 初始文档信息 Text Embed code with knitr syntax
  • R手册(Visualise)--gganimate(ggplot2 extensions)

    文章目录 gganimate Create easy animations with ggplot2 返回ggplot2扩展主目录 gganimate Create easy animations with ggplot2 GitHub链接
  • R手册(Visualise)--GGally(ggplot2 extensions)

    本站已停止更新 查看最新内容请移至本人博客 Wilen s Blog 文章目录 GGally ggmatrix ggplot2矩阵 ggpairs ggplot2广义配对图 ggscatmat 纯粹定量变量的传统散点图矩阵 返回ggplot

随机推荐

  • [12]STM32-NVCI中断优先级管理

    前言 这一篇博客主要讲解NVCI中断优先级分组 优先级设置 因为还没有我还没学到做中断实验 所以有些地方我自己理解得也不是很透彻 这是看了原子哥的视频用自己的话来梳理一下思路 基础知识 STM32 有 84 个中断 包括 16 个内核中断和
  • 网络编程——基础知识

    全文目录 网络发展 协议 OSI七层模型 TCP IP五层 或四层 模型 网络传输 网络地址 IP地址 MAC地址 网络通信的本质 网络发展 网络没有出来之前计算机都是相互独立的 网络就是将独立的计算机连接在一起 局域网和广域网的区别只是范
  • 大数除法(模拟除)

    所谓大数除法就是很大的数 用unsigned long long 都存不下的数 的有关除法的运算 但是以下方法只适合求取高精度对低精度的大数除法可用 也就是说对被除数有限制 一般来说是在int 型的范围内的 include
  • 数据结构第三章栈和队列(一)

    数据结构 第三章栈和队列 include
  • 点云库PCL学习笔记 -- 输入输出IO -- 6.PCL中记录时间长度TicToc 类和系统Time 类

    点云库PCL学习笔记 输入输出IO 6 PCL中记录时间长度TicToc 类和系统Time 类 PCL库中用于记录时间长度的方法 第一种 TicToc 类的方法 添加头文件 include
  • pytorch(仅供自己参考勿看)

    一 安装Anaconda 下载pytorch前最好先安装Anaconda 可以按照以下方法下载 https blog csdn net weixin 50888378 article details 109022585 二 安装pytorc
  • 如何提高for循环的效率--兆易创新一面

    1 实例化变量放在循环外 include
  • 使用Lubuntu开发Android应用

    之前下了个ubuntu来编译Android源码并且开发App 后来发现桌面环境不太好用 而且32位Linux不能顺利编译Android源码 最近有空便重新下载Lubuntu 64位并配置好所有配置 其间颇多不顺 特记录下来 通过下面的步骤连
  • 8.1数据结构作业

    include
  • vue后台管理系统之日志管理模块

    前端的后台的日志管理模块功能的实现 使用的是elementUI框架 这是日志管理模块实现的效果图 div class log header div div div
  • error C2220: warning treated as error - no object file generated的处理方法

    很久以前在win2k DDK写的一个驱动 居然在2003ddk下编译不过去 真是奇怪 环境变量改为win2k 也不行 先是error C2220 warning treated as error no object file generat
  • 基于centos开发的server系统单机部署gp(rpm)

    1 下载安装包 rpm deb或源码 打开greenplum官网https github com greenplum db gpdb releases 下载安装包 或Greenplum Database Greenplum Database
  • 一个公式告诉你为什么程序员要转算法工程师

    原来的标题是 算法工程师工资调查 20170611 今天 2017年6月11日 爬了某招聘网站的十大城市的算法工程师职位 算法工程师 这里的算法工程师包括比较广泛 有做数据科学的 有做图形的 有做信号处理的 之后会统计更细分的领域 十大城市
  • 核酸预约地址查询结果查询小程序

    核酸检测报告结果查询 核酸检测 核酸检测预约 核酸 核酸检测查询 核酸检测报告 核酸检测结果 核酸检测地址导航 检测 核酸检测报告结果查询 核酸检测 核酸检测预约 核酸 核酸检测查询 核酸检测报告 核酸检测结果 核酸检测地址导航 检测 核酸
  • Go官方库RPC开发指南

    Go官方提供了一个RPC库 net rpc 包rpc提供了通过网络访问一个对象的方法的能力 服务器需要注册对象 通过对象的类型名暴露这个服务 注册后这个对象的输出方法就可以远程调用 这个库封装了底层传输的细节 包括序列化 服务器可以注册多个
  • 【多种优化算法比较】混沌引力搜索算法(CGSA)(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献 1 概述 文献来源 自过去十年以来 启发式优化算法
  • 链表中环的入口结点--LeetCode第142题

    给一个链表 若其中包含环 请找出该链表的环的入口结点 否则 输出null 题解 快慢指针法 快指针一次走两步 慢指针一次走一步 当快慢指针第一次相遇 此时 2 x y n圈周长 x y 相遇以后快指针回到head和慢指针以同样速度每次走一步
  • 【springboot】yml的配置与获取数据:

    一 yml的配置 二 获取yml的配置数据
  • js工厂方法模式

    h1 给我一张名片 工厂方法模式 h1 p 工厂方法模式 Factory Method 通过对产品类的抽象使其创建业务主要负责用于创建多类产品的实例 p p 工厂方法模式本意是说将实际创建对象工作推迟到子类中 这样核心类就成了抽象类 Jav
  • R手册(NLP)--text2vec

    文章目录 分词器 I O 处理 迭代器 支持 create 函数 向量化 主题模型 text2vec 这个 R 包提供了高性能和简洁的 API 来进行文本分析 自然语言处理 分词器 word tokenizer strings 英语分词器