[文本挖掘和知识发现] 01.红楼梦主题演化分析——文献可视化分析软件CiteSpace入门

2023-11-01

八月太忙,还是写一篇吧!
本文是作者2023年8月底新开的专栏——《文本挖掘和知识发现》,主要结合Python、大数据分析和人工智能分享文本挖掘、知识图谱、知识发现、图书情报等内容。此外,这些内容也是作者《文本挖掘和知识发现(Python版)》书籍的部分介绍,本书预计2024年上市,采用通俗易懂和图文并茂的形式藐视,会更加系统地介绍文本挖掘和知识发现,共计20章节内容,涵盖上百个案例。您的关注、点赞和转发就是对秀璋最大的支持,知识无价人有情,希望我们都能在人生路上开心快乐、共同成长。

本文主要介绍文献可视化分析软件CiteSpace基础知识,以中国知网《红楼梦》文献为例,开展主题挖掘、关键词聚类及主题演化分析。基础文章,希望对您有所帮助。


一.CiteSpace介绍及安装

1.简介

CiteSpace 是由美国德雷塞尔大学陈超美博士与WISE实验室联合开发的科学文献分析工具。CiteSpace是利用Java实现的可视化文献分析软件,作为一款极为优秀的文献计量学或图书情报学软件,其能显示一个学科或知识领域在一定时期发展的趋势或动向,形成研究前沿领域的演化历程,能将文献之间的关系以科学知识图谱的方式可视化呈现。

  • 常用于文本主题挖掘、文本演化分析、知识发现等领域

在这里插入图片描述

CiteSpace软件基于共引分析和寻径网络算法等对数据样本进行可视化处理,呈现特定知识领域的演化过程。尤其面对海量文献,该软件能帮助我们迅速锁定关键信息和核心主题,挖掘领域的发展历程,预测当前活跃的研究主题及未来发展趋势。总之,CiteSpace既能帮助我们厘清某一领域过去的研究轨迹、研究现状和热点话题,也能揭示该领域未来的发展方向。

CiteSpace generates interactive visualizations of structural and temporal patterns and trends of a scientific field. It facilitates a systematic review of a knowledge domain through an in-depth visual analytic process. It can process citation data from popular sources such as the Web of Science, Scopus, Dimensions, and the Lens. CiteSpace also supports basic visual analytic functions for datasets without citation-related information, for example, PubMed, CNKI, ProQuest Dissertations and Theses. CiteSpace reveals how a field of research has evolved, what intellectual turning points are evident along a critical path, and what topics have attracted attention. CiteSpace can be applied repeatedly so as to track the development of a field closely and extensively.


2.下载

该软件可以从官网下载:

Java环境仅需要下载JRE或JDK即可。

如下图所示,点击download下载软件。

请添加图片描述

在这里插入图片描述

在这里插入图片描述

同样可以从下列网站中下载对应软件。

在这里插入图片描述


3.安装

作者下载的软件如下图所示。

在这里插入图片描述

双击文件安装,并安装至指定目录,建议安装非C盘的英文目录。

在这里插入图片描述

在这里插入图片描述

安装成功如下图所示。

请添加图片描述

请添加图片描述

安装成功,运行软件(桌面图标)如下图所示,点击同意即可。

请添加图片描述

下图为CiteScape的主界面。

请添加图片描述


二.中国知网下载文献数据集

第一步,打开中国知网搜索对应的主题,比如“红楼梦 红学”,读者可以尝试高级搜索对应时间或所需文献。此时共搜索3089篇期刊文献,然后依次“全选”按钮选中所需文献。

在这里插入图片描述

第二步,选中所有期刊后,点击“导出与分析”按钮,再选择里面的“Refworks”格式。

在这里插入图片描述

第三步,导出时下载文件命名规则:download_XXXX.txt。

请添加图片描述

最终导出的内容如下图所示,包括每篇文献的相关信息,读者将所有文献导出后存储至CiteSpace分析的指定目录即可。注意:知网一次最多导出五百条文献,超过五百条需要分批导出。

请添加图片描述


三.CiteSpace基本操作

1.基本功能介绍

CiteSpace可以通过可视化手段来呈现学科知识的结构、规律以及分布情况,并生成可视化知识图谱,从而探究某一研究领域的研究热点、研究前沿、主要作者和机构等相关信息。还包括如下分析:

  • 引用聚类功能可以帮助我们知道那些文章被引最多
  • 按时间轴分析可以发现该领域下各个话题的发展趋势以及当前研究热点
  • 在整个研究领域中占据主流地位的主题有哪些;
  • 该领域发文最多的国家和机构
  • 某一领域中的开山式文献和里程碑式文献
  • 文献共引分析
  • 文献社区聚类分析

CiteSpace主界面包括:

  • File(文件)
  • Project(项目)
  • Data(数据)
  • Visualization(可视化)
  • Overlay Maps(叠加分析)
  • Analytical(文献网络分析)
  • Network(网络)
  • Text(文本)
  • Preference(偏好设置)

请添加图片描述

CiteSpace可以分析的数据包括:

  • Web of Science:格式为全纪录与引用的参考文献全文本
  • CSSCI:格式为utf-8编码
  • CNKI(中国知网):格式为Refworks
  • NSF:要求nsf.gov XML格式
  • Derwent(德温特专利数据库)
  • Scopus:RIS或CSV格式

在这里插入图片描述


2.数据准备

CiteSpace工具分析需要构建对应的文件夹,并构建四个文件夹用来存放输入、输出、数据、项目,因为我是要做有关《红楼梦》文献的分析所以文件夹名字是Hongloumeng,如下图所示:

请添加图片描述

接着将中国知网导出的文献存放至“input”文件夹中。注意,文件需要重命名为download_01.txt格式按序排列,否则会报错。

请添加图片描述

温馨提示:
CiteSpace无法直接识别CNKI的数据,在进行导入之前需要进行格式转换。

第一步,点击“Data”中的“Import/Export”按钮。

请添加图片描述

第二步,在弹出的界面中选择“CNKI”,在“Input Directory”中选择所下载的Refworks格式的引文所在的input文件夹;在Output Directory选择输出文件夹output。接着点击CNKI Format Conversion(3.0)转换按钮即可转换。

请添加图片描述

第三步,此时output文件夹里会生成各个转换后的文件,并将这些文件复制到data文件夹里。

请添加图片描述

在这里插入图片描述

接下来是具体的分析。


3.可视化分析

第一步,数据导入。 在CiteSpace中点击“Project”和“New”新建工程,选择工程文件文件夹Project和数据文件夹Data,数据来源选择“CNKI”和中文,接着点击保存。

在这里插入图片描述

第二步,参数设置。 在功能选择区进行参数选择,Time Slicing根据下载文献时所选择的时间范围进行设置(如2015-2020年),Years Per Slice设置为1,Node Types选择即将分析的内容(如Keyword),Pruning在循进中选择Pruning sliced networks,其它参数保持默认设置即可。

在这里插入图片描述

第三步,运行程序。 设置成功后点击“GO”按钮进行分析,该部分主要分析关键词。

在这里插入图片描述

第四步,关键词共现分析。 运行后点击“visualize”可视化按钮,随后便会形成关键词共现图谱。共现分析旨在挖掘高频关键词之间的关联关系,解释当前主题的热点。

在这里插入图片描述

运行结果如下图所示:

在这里插入图片描述

第五步,可视化设置。 通过控制面板中的”Labels”中的“keyword”可以对关键词共现网络进行美化和调整,包括节点大小、节点标签大小、节点标签、阈值等。通过“colormap”调节节点和连线的颜色,使不同关键词间的联系更加清晰。如下图所示红学文献关键词主题挖掘效果。

在这里插入图片描述

在关键词共现图谱中,节点和字号越大,关键词出现频率越高。左侧数据栏中的centrality代表中心性,是分析关键词重要程度的一个关键指标,中心性越大则表示该节点在研究中的重要性和影响力越大。由节点大小结合中心性和关键词出现频次便可知该研究领域中的重点与热点。


四.《红楼梦》文献主题演化分析

1.聚类分析

在关键词聚类图谱的基础上可以进一步进行聚类分析,点击如下图所示图标,输入“K”,即可对关键词进行自动聚类。

可视化图像右上角的Silhouette(S值)为衡量整个聚类成员同质性的指标,正常值为(-1,1)。S值>0.5时,一般认为聚类合理。

此外,有四类聚类方式,从左到右依次为:一减聚类(自动布局和风格)、根据Title标题聚类、根据KeyWords关键词聚类、根据Author作者聚类、KTA全部聚类(标题|关键词|作者)。聚类后建议把Label标签阈值拉到最大,之前的标签就不会显示了。

请添加图片描述

此外,点击左上角按钮第二个“Save”按钮即可保存为PNG图片。

在这里插入图片描述

输出聚类结果如下图所示:

注意:更多设置请读者自行研究(如聚类数量设置),本文主要以入门普及为主。


2.主题演化分析

增加TimeLine时间轴即可显示对应的主题。下图的框选区域分别为:

  • 普通模式显示
  • 时间线TimeLine显示

在这里插入图片描述

导出结果如下图所示:

在这里插入图片描述

最终优化结果如下,您可以试试喔!

在这里插入图片描述


五.总结

写到这里,本文介绍完毕,希望对您有所帮助。哎,写了12年博客,突然没动力了 o(╥﹏╥)o
但还有好多知识要分享,勉强分享一篇文章和新的系列,希望您喜欢。祝好~

  • 一.CiteSpace介绍及安装
    1.简介
    2.下载
    3.安装
  • 二.中国知网下载文献数据集
  • 三.CiteSpace基本操作
    1.基本功能介绍
    2.数据准备
    3.可视化分析
  • 四.《红楼梦》文献主题演化分析
    1.聚类分析
    2.主题演化分析
  • 五.总结

忙碌的八月,忙碌的2023。转眼四年过去,我和她都不容易,两人每次看“致谢”都会泪目,青春变了,唯有情感不变,希望一家人健康快乐。刚到寝室,要战斗了!

在这里插入图片描述

(By:Eastmount 2023-08-29 夜于武汉 http://blog.csdn.net/eastmount/ )


参考文献:

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

[文本挖掘和知识发现] 01.红楼梦主题演化分析——文献可视化分析软件CiteSpace入门 的相关文章

  • 计算机网络第二章——物理层(仅记录我所认为重要的知识点)

    计算机网络第二章 物理层 物理层 基本概念 物理层的作用 规章 物理层协议的主要任务 一般来说数据在通信线路上的传输方式是串行传输 数据通信的基础知识 源系统组成 目的系统组成 消息 数据 信号 信号的分类 码元 码元传输速率 信道 编码与
  • 前端面试: React 和 Vue 框架的区别......

    Vue 和 React 作为当前前端两大火热的框架 面试的时候自然不少被提及 请说一下你对react vue框架的理解 请对比一下两大框架的优缺点 其实react和vue大体上是相同的 比如都使用虚拟DOM高效的更新视图 都提倡组件化 都实
  • uniapp开发小程序如何实现全局悬浮按钮

    看效果 这是一个全局的按钮 可以换成图片 自己写样式 每个页面都有 须知 1 uni getSystemInfoSync 获取手机的信息接口 可以拿到手机屏幕的宽高 2 uni createSelectorQuery in this uni

随机推荐

  • NMS过滤包含关系的检测框

    NMS简介 对于目标检测任务而言 后处理主要包含阈值过滤与NMS两大步 对于需要进行NMS的一系列检测框 基本的算法思路是 选出得分最高的检测框 抑制掉与选中检测框IoU大于设定的IoU阈值 0 5左右 的其他检测框 如果还有检测框未被处理
  • 线性回归与梯度下降算法

    线性回归与梯度下降算法 1 1 线性回归 概念 在统计学中 线性回归 Linear Regression 是利用称为线性回归方程的最小平方函数对一个或多个 自变量和因变量之间关系进行建模的一种回归分析 这种函数是一个或多个称为回归系数的模型
  • SQL中日期格式处理

    背景 实际工作 使用SQL语句对数据进行处理 有一大部分工作是对日期时间型数据进行处理 通过对字段的拼接或转换生成实际需要的格式的日期字段 本文章尽可能全面记录现在主流的数据库 MySQL和Hive 对日期格式的处理 形成一份工作速查文档
  • MVC项目的实战应用举例

    上一次我们讨论了iOS重构在MVC项目上的可行性 今天具体来讲基于MVC的项目重构步骤以及重构后的结构 思考要解决的问题 回到项目重构的问题上来 我认为项目重构首先要想清楚的问题 项目层级如何划分 大的业务场景有哪些 将UIViewCont
  • PTA:判断素数

    输入两个正整数m和n m lt n 输出m和n之间的全部素数 输入示例 1 3 输出示例
  • ubuntu安装ssh

    ssh可用于xshell通过ssh控制linux操作系统 只能命令行的形式 安装 OpenSSH 服务器 如果尚未安装 sudo apt get install openssh server 检查 SSH 服务是否正在运行 sudo ser
  • 转 C++读取txt文件

    C 读取txt文件 原文 https www cnblogs com VVingerfly p 4435898 html 逐行读入 复制代码 void readTxt string file ifstream infile infile o
  • BUCK-BOOST反激变压器设计

    Buck Boost电路中 最低电压为其最恶劣情况 以下图为例 注 1 Np为初级绕组匝数 Ns为次级绕组匝数 2 Vmos为MOS最大耐压值 1为整流管压降 Vl为漏 Vl 100V Vmos选取遵循的原则 开关关断瞬间 加在MOS上电压
  • echarts地图添加图片

    需求 地图的各区域添加图标 解决方案 通过散点图与地图的结合 为地图添加上图片 option geo map xx省 要显示地图的地区名 roam false zlevel 1 zoom 1 2 label normal show fals
  • ubuntu安装python库出现错误errno -3_python – “gaierror:[Errno -3]名称解析暂时失败”是什么意思...

    我正在尝试运行一个以错误结束的Flask应用程序 如果我追溯正在发生的事情 我可以使用以下iPython命令重现该问题 In 14 import socket In 15 s socket socket In 16 s connect ra
  • 格密码与最短向量下界

    目录 前言 一 格的最短向量 二 最短向量长度下界 三 格点离散 四 格的连续最小值 总结 前言 最短的非零向量长度是格密码中的一个基本量 定义前提为非零向量 因为格中总包含零向量 其模长为0 通常使用代量表示 用格的观点来理解 以r为半径
  • 数字逻辑·时序线路分析【触发器和时序线路分析方法】

    课程目标 掌握触发器的特征表达式 掌握触发器的激励表 掌握触发器的状态表 掌握时序线路分析方法 课程内容 D触发器 逻辑符号可以不画RD SD CP 上方 特征表达式 左下 激励表 右下 状态图 状态图 大圈里放置Q 为1或者0 线 输入激
  • 蓝桥杯每日一题2023.9.12

    蓝桥杯2022年第十三届决赛真题 卡牌 C语言网 dotcpp com 题目描述 这天 小明在整理他的卡牌 他一共有 n 种卡牌 第 i 种卡牌上印有正整数数 i i 1 n 且第 i 种卡牌 现有 ai 张 而如果有 n 张卡牌 其中每种
  • 微前端实战看这篇就够了 - Vue项目篇

    wl micro frontends wl qiankun 本项目采用 vue qiankun 实践微前端落地 同时qiankun是一个开放式微前端架构 支持当前三大前端框架甚至jq等其他项目无缝接入 此项目为了尽可能的简单易上手 以及方便
  • 助力响应式设计:Adobe发布最新HTML5工具包

    原文地址 http www csdn net article 2013 02 16 2814145 adobe responsive web design 助力响应式设计 Adobe发布最新HTML5工具包 发表于 19小时前 902次阅读
  • 物理网络设计——结构化综合布线系统(6个子系统)学习心得

    附 网络系统设计过程 逻辑网络设计 三层网络结构 核心汇聚接入 学习心得 结构化布线系统分为6个子系统 工作区子系统 Work Location 工作区子系统是指从终端设备到信息插座的整个区域 一个独立的需要安装终端设备的区域划分为一个工作
  • QT 使用第三方库QtXlsx操作Excel表

    一直以来 都想学习一下C C 如何操作excel表 在网上调研了一下 觉得使用C C 去操作很麻烦 遂转向QT这边 QT有一个自带的类QAxObject 可以使用他去操作 但随着了解的深入 觉得他并不是很好 有很多其他缺陷 例如必须电脑安装
  • 初步安装dns

    dns安装详解 dns的实现工具 bind 查找系统中的bind的rpm包 DNS服务器的监听端口 查看监听端口相关信息 dns的实现工具 bind 查找系统中的bind的rpm包 yum list grep bind bind x86 6
  • Latex命令速查

    TeX各版本概述及基本约定 特殊字符 tex提供300多条基本排版命令 由D E Knuth1978年开发 plain tex 在tex基础上新定义600多条复合命令 AMS TEX 美国数学会开发 amsmath宏包 排版的数学公式 LA
  • [文本挖掘和知识发现] 01.红楼梦主题演化分析——文献可视化分析软件CiteSpace入门

    八月太忙 还是写一篇吧 本文是作者2023年8月底新开的专栏 文本挖掘和知识发现 主要结合Python 大数据分析和人工智能分享文本挖掘 知识图谱 知识发现 图书情报等内容 此外 这些内容也是作者 文本挖掘和知识发现 Python版 书籍的