如何区分结构化数据和非结构化数据？

2024-06-18

结构化数据和非结构化数据有什么区别？这种差异如何影响各自的数据挖掘方法？

我熟悉的术语是结构化的 and 非结构化的数据（除了后缀之外，与 Q 中的内容相同）。

我在机器学习中使用这两种类型的数据，但我不知道任何正式的定义；然而，我怀疑几乎每个工作需要区分这两种类型的数据的人都能毫无困难地区分它们。

结构化数据的示例：发送电子邮件的日期/时间；是否有附件或电子邮件发件人。非结构化数据：电子邮件正文。

是否有一个稳定的规则或一套规则来区分这两类数据？我想是这样。首先，如果你能建立一个parser对于数据元素，然后将其结构化。

另一个经验法则是查看数据类型数据库中存储数据所需的该字段。如果它是一个文本类型--适用于 MySQL、Tinytext、Text、Mediumtext 与 Longtext。或者不太可能是 VARCHAR(255)——那么该数据可能是非结构化的.

这种区别对于数据挖掘的主要意义可能是这样的：结构化数据一旦从文档中提取并解析，就可以用作统计/机器学习模型中的变量。然而，非结构化数据需要进一步解析——也就是说，在建模中使用它之前，您首先必须将其分解为一组结构化数据元素——例如单词数等。

例如，假设您要为一家制作在线 MMORPG 的公司内的服务器组构建知识管理 (KM) 系统。您可以从该组成员之间交换的大量电子邮件开始。

因此，您为此源创建一个数据模型 - 例如，由“发件人”、“收件人”、“发送日期/时间”等字段组成，收件人和发件人是否都是服务器组的员工，消息是否是复制给其他人等。数据库的行是各个电子邮件。

然后，您编写一个由一组解析器组成的脚本，以从每封电子邮件中提取每个字段。对于许多字段，这很简单，例如，对于“抄送：”字段，您可以编写一个解析器来扫描电子邮件的该部分并检查它是否为空 - 如果是，则在数据库中查找该字段行可能会填充“False”（表示没有复制任何人），否则填充“True”。同样，数据/时间，可能采用某种形式，例如：2011 年 3 月 16 日 18:45:39.0319 (UTC)。提取和解析这些数据同样简单；事实上，您的脚本语言几乎肯定有一个模块可以做到这一点。

但是，当您到达电子邮件正文时，虽然从电子邮件的其余部分中提取内容并不困难，但对其进行解析却并不简单。您的数据模型可能具有“NumberOfWords”、“Keywords”等字段，并且构建解析器来填充这些字段很简单。然而，最有用的信息却更困难——即电子邮件对收件人有帮助吗？主题是什么？是否具有权威性？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

statistics

如何区分结构化数据和非结构化数据？的相关文章

为什么反向传播神经网络中必须使用非线性激活函数？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我一直在阅读一些有关神经网络的内容并且了解单层神经网络的一般原理我理解需要额外的层但为什么要使用非线性激活函数这个问题后面跟着这个
在 GPU 上训练时如何处理非确定性？

在调整超参数以使模型性能更好时我注意到每次运行代码时获得的分数以及创建的模型都是不同的尽管修复了随机操作的所有种子如果我在CPU上运行就不会出现这个问题我搜索了一下发现这是使用 GPU 训练时的常见问题这是一个非常好的详细
如何使用 Keras 中的 Conv2D 在 5D 张量的最后三个维度上应用卷积？

通常的输入张量Conv2DKeras 中是一个 4D 张量其维度为batch size n n channel size 现在我有一个 5D 张量其尺寸为batch size N n n channel size我想对中的每个 i 应用
在Python中表示语料库句子的一种热门编码

我是 Python 和 Scikit learn 库的初学者我目前需要从事一个 NLP 项目该项目首先需要通过 One Hot Encoding 来表示一个大型语料库我已经阅读了 Scikit learn 关于 preprocessi
AttributeError：模块“keras.engine”没有属性“Layer”

当我试图运行时Parking Slot mask rcnn py文件我收到如下错误mrcnn model py文件我该如何解决 gt 2021 06 17 08 25 18 585897 W tensorflow stream execut
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
如何使用DecisionTreeClassifier平衡分类？

我有一个数据集其中类别不平衡课程是0 1 or 2 如何计算每个类别的预测误差然后重新平衡weights相应地在 scikit learn 中如果您想完全平衡将每个类别视为同等重要您可以简单地通过class weight bala
PyTorch 中的标签平滑

我正在建造一个ResNet 18分类模型为斯坦福汽车使用迁移学习的数据集我想实施标签平滑 https arxiv org pdf 1701 06548 pdf惩罚过度自信的预测并提高泛化能力 TensorFlow有一个简单的关键字参数Cr
用给定均值截断正态分布

python 是否可以生成具有给定期望值的截断正态分布我知道 scipy stats truncnorm 可以给出截断的正态分布该分布取平均值original正态分布作为参数但我想创建一个截断正态分布使得截断分布的期望值是一个特定值
重复测量引导统计数据，按多个因素分组

我有一个看起来像这样的数据框但显然还有更多行等 df lt data frame id c 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 cond c A A B B A A B B A A B B A A B B co
如何在 python 中使用 libSVM 计算精度、召回率和 F 分数

我想计算precision recall and f score using libsvm在Python中但我不知道如何我已经发现这个网站 http www csie ntu edu tw cjlin libsvmtools eval
预处理 csv 文件以与 tflearn 一起使用

我的问题是关于在将 csv 文件输入神经网络之前对其进行预处理我想使用 python 3 中的 tflearn 为著名的 iris 数据集构建一个深度神经网络数据集 http archive ics uci edu ml machine
在具有不平衡数据的管道中进行交叉验证的正确方法

对于给定的不平衡数据我创建了一种不同的标准化管道和一种热编码 numeric transformer Pipeline steps scaler StandardScaler categorical transformer Pipelin
使用 scikit 时 scipy.sparse 矩阵的缩放问题

在使用 scikit learn 解决机器学习问题时我需要在使用 SVM 进行训练之前对 scipy sparse 矩阵进行缩放但在文档 http scikit learn org stable modules preprocessin
有没有keras方法来分割数据？

我认为标题是不言自明的但要详细询问有 sklearn 的方法train test split 其工作原理如下 X train X test Y train Y test train test split X Y test size 0
“Flatten”在 Keras 中的作用是什么？

我试图理解的角色FlattenKeras 中的函数下面是我的代码这是一个简单的两层网络它接收形状为 3 2 的二维数据并输出形状为 1 4 的一维数据 model Sequential model add Dense 16 inpu
Tensorflow 保存子类模型，该模型具有 call() 方法的多个参数

我正在关注张量流神经机器翻译教程 https www tensorflow org tutorials text nmt with attention https www tensorflow org tutorials text nmt
YOLO 中的 Intersection Over Union (IOU) 地面实况

我试图理解 YOLO 中 IOU 的概念我读到它是预测边界框和真实边界框之间的重叠区域这是训练数据所必需的并且您可以手动放置地面实况边界框我的问题是如果你想在新图像上应用 YOLO 它如何知道真实边界框如果我们有两个边界框那么
在谷歌云平台中运行jupyter lab时出现错误524

I am not able to access jupyter lab created on google cloud 我使用 Google AI 平台创建了一台笔记本我能够启动它并工作但突然停止了我现在无法启动它我尝试构建并重新启
如何避免简单前馈网络的过度拟合

使用皮马印第安人糖尿病数据集 https archive ics uci edu ml datasets pima indians diabetes我正在尝试使用 Keras 构建准确的模型我编写了以下代码 Visualize train

随机推荐

对静态类成员的未定义引用

谁能解释为什么以下代码无法编译至少在 g 4 2 4 上更有趣的是为什么当我将 MEMBER 转换为 int 时它会编译 include
Swift - 如何复制包含引用类型的数组

我正在尝试复制数组及其值为什么两个数组都引用同一个变量您可以在 Playground 中尝试此操作 var view UIView view tag 1 var a UIView var b UIView a append view b
如何正确初始化log4j？

将 log4j 添加到我的应用程序后每次执行应用程序时都会得到以下输出 log4j WARN No appenders could be found for logger slideselector facedata FaceDataPa
Angular2中如何从另一个模块继承一个模块？

因此我使用 Angular 2 Final 2 0 0 假设我创建了一个 WidgetsModule 其中包含一堆指令和组件这些指令和组件将帮助我构建应用程序然后将其导入到我的 AppModule 中 import NgModule
添加自定义 CSS 到 Jekyll

我是 Jekyll 新手我正在按顺序使用自定义 html 和 css 制作一个网站 Jekyll 默认下载 minima 主题所以我用以下 html 覆盖了主页 all my html
什么是“声明式安全”？一般来说

这个问题的答案声明式安全这是什么 https stackoverflow com questions 1210609并没有告诉我太多坦率地说根本没有告诉我任何事情我看到一篇关于 NET 性能的博客其中提到了这一点您使用声明式安
在 Python 中搜索文本文件并打印相关行？

如何在文本文件中搜索关键短语或关键字然后打印关键短语或关键字所在的行 searchfile open file txt r for line in searchfile if searchphrase in line print line
当没有结果返回时，如何防止 Angular 异步管道频繁进行服务器调用？

我正在使用async通过管道传入 ngFor 来观察 Observable Observable 是由访问我的服务器的服务创建的并且在枚举 ngFor 循环时的加载时间该服务正确地调用服务器现在对于我不明白的部分当任何结果返回时一
如何在 RxSwift 中取消订阅 Observable？

我想在 RxSwift 中取消订阅 Observable 为了做到这一点我曾经将 Disposable 设置为 nil 但在我看来更新到 RxSwift 3 0 0 beta 2 后这个技巧不起作用我无法取消订阅 Observabl
PreviewKeyDown 不会在 ElementHost 中针对 Tab 和箭头键触发

我在 Winforms ElementHost 中有一个 WPF 窗口我的窗口上的 Tab 键和箭头键不会触发 KeyDown 和 PreviewKeyDown 事件 KeyUp 和 PreviewKeyUp 似乎工作正常 Preview
将字符串拆分为数组，在 Swift 中保留定界符/分隔符

寻找一种优雅的解决方案来分割字符串并将分隔符保留为数组中的项目示例1 hello world hello world 示例2 hello world hello world thx 假设您要使用名为的分隔符分割字符串separator
在 Bash 中替换垂直线

我很难完成我的脚本因为这一部分没有按照我想要的方式运行我的脚本中有这一行 cat home tmp temp1 txt awk gsub RS gsub RS print gt home tmp temp txt 效果很好是的但是当
如何枚举控件的所有依赖属性？

我有一些 WPF 控件例如文本框如何枚举该控件的所有依赖属性如 XAML 编辑器所做的那样不需要使用反射恕我直言这是一个坏主意因为框架已经为此提供了实用程序类但它们并不明显找到以下是基于这篇文章的答案枚举绑定 http
nodejs knox 放入 s3 结果是 403

我尝试在 nodejs 项目中使用 knox 上传到 Amazon s3 存储桶但无法解决 403 错误我已确保密钥秘密和存储桶已正确设置我真的需要那些有更多经验的人的帮助我的节点代码如下 var upload test func
属性“tablename.title”未定义

我是伊比我想做的是上传图像照片以及具有更新功能的数据库中的路径条目我已点击此链接 http www yiiframework com wiki 349 how to upload image photo and path entry
插入后，数据库中仅插入“字符串”的一个字符

Below is my table screenshot Data after insertion C 代码 SqlConnection con new SqlConnection connectionsession Con con Ope
未调用 Ajax 回调。如何解决这个问题？

我再次来这里寻求您的建议我有一些 AJAX 调用用于从我的编辑器 PHP 在线编辑器运行代码大家可以来看看my site http web guru99 com 我有一些 ajax 调用来发送编辑器的数据并接收输出问题 for 循
Bash for Windows 10 gcc 不会编译粘贴到根目录中的 c 文件

正如标题所示如果我将在其他地方编写的c文件粘贴到Linux子系统的根目录中则无法编译它我做了一个测试我制作了两个不同标题的 hello world 程序一个在 vi 中我可以从 bash 界面进入另一个在其他地方当我编译了
尝试查找 BLE 设备时如何使用 LeDeviceListAdapter？

我正在 Android 中开发一个应用程序并且我遵循 Android 中的代码建议开发者页面 http developer android com guide topics connectivity bluetooth le html f
如何区分结构化数据和非结构化数据？

结构化数据和非结构化数据有什么区别这种差异如何影响各自的数据挖掘方法我熟悉的术语是结构化的 and 非结构化的数据除了后缀之外与 Q 中的内容相同我在机器学习中使用这两种类型的数据但我不知道任何正式的定义然而我怀疑几乎每个工

如何区分结构化数据和非结构化数据？

如何区分结构化数据和非结构化数据？ 的相关文章

随机推荐

热门标签

如何区分结构化数据和非结构化数据？的相关文章