如何区分结构化数据和非结构化数据?

2024-06-18

结构化数据和非结构化数据有什么区别? 这种差异如何影响各自的数据挖掘方法?


我熟悉的术语是结构化的 and 非结构化的数据(除了后缀之外,与 Q 中的内容相同)。

我在机器学习中使用这两种类型的数据,但我不知道任何正式的定义;然而,我怀疑几乎每个工作需要区分这两种类型的数据的人都能毫无困难地区分它们。

结构化数据的示例:发送电子邮件的日期/时间;是否有附件或电子邮件发件人。非结构化数据:电子邮件正文。

是否有一个稳定的规则或一套规则来区分这两类数据?我想是这样。首先,如果你能建立一个parser对于数据元素,然后将其结构化。

另一个经验法则是查看数据类型数据库中存储数据所需的该字段。如果它是一个文本类型--适用于 MySQL、Tinytext、Text、Mediumtext 与 Longtext。或者不太可能是 VARCHAR(255)——那么该数据可能是非结构化的.

这种区别对于数据挖掘的主要意义可能是这样的:结构化数据一旦从文档中提取并解析,就可以用作统计/机器学习模型中的变量。然而,非结构化数据需要进一步解析——也就是说,在建模中使用它之前,您首先必须将其分解为一组结构化数据元素——例如单词数等。

例如,假设您要为一家制作在线 MMORPG 的公司内的服务器组构建知识管理 (KM) 系统。您可以从该组成员之间交换的大量电子邮件开始。

因此,您为此源创建一个数据模型 - 例如,由“发件人”、“收件人”、“发送日期/时间”等字段组成,收件人和发件人是否都是服务器组的员工,消息是否是复制给其他人等。数据库的行是各个电子邮件。

然后,您编写一个由一组解析器组成的脚本,以从每封电子邮件中提取每个字段。对于许多字段,这很简单,例如,对于“抄送:”字段,您可以编写一个解析器来扫描电子邮件的该部分并检查它是否为空 - 如果是,则在数据库中查找该字段行可能会填充“False”(表示没有复制任何人),否则填充“True”。同样,数据/时间,可能采用某种形式,例如:2011 年 3 月 16 日 18:45:39.0319 (UTC)。提取和解析这些数据同样简单;事实上,您的脚本语言几乎肯定有一个模块可以做到这一点。

但是,当您到达电子邮件正文时,虽然从电子邮件的其余部分中提取内容并不困难,但对其进行解析却并不简单。您的数据模型可能具有“NumberOfWords”、“Keywords”等字段,并且构建解析器来填充这些字段很简单。然而,最有用的信息却更困难——即电子邮件对收件人有帮助吗?主题是什么?是否具有权威性?

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何区分结构化数据和非结构化数据? 的相关文章

随机推荐

  • 对静态类成员的未定义引用

    谁能解释为什么以下代码无法编译 至少在 g 4 2 4 上 更有趣的是 为什么当我将 MEMBER 转换为 int 时它会编译 include
  • Swift - 如何复制包含引用类型的数组

    我正在尝试复制数组及其值 为什么两个数组都引用同一个变量 您可以在 Playground 中尝试此操作 var view UIView view tag 1 var a UIView var b UIView a append view b
  • 如何正确初始化log4j?

    将 log4j 添加到我的应用程序后 每次执行应用程序时都会得到以下输出 log4j WARN No appenders could be found for logger slideselector facedata FaceDataPa
  • Angular2中如何从另一个模块继承一个模块?

    因此 我使用 Angular 2 Final 2 0 0 假设我创建了一个 WidgetsModule 其中包含一堆指令和组件 这些指令和组件将帮助我构建应用程序 然后将其导入到我的 AppModule 中 import NgModule
  • 添加自定义 CSS 到 Jekyll

    我是 Jekyll 新手 我正在按顺序使用自定义 html 和 css 制作一个网站 Jekyll 默认下载 minima 主题 所以我用以下 html 覆盖了主页 all my html
  • 什么是“声明式安全”?一般来说

    这个问题的答案 声明式安全 这是什么 https stackoverflow com questions 1210609并没有告诉我太多 坦率地说 根本没有告诉我任何事情 我看到一篇关于 NET 性能的博客 其中提到了这一点 您使用声明式安
  • 在 Python 中搜索文本文件并打印相关行?

    如何在文本文件中搜索关键短语或关键字 然后打印关键短语或关键字所在的行 searchfile open file txt r for line in searchfile if searchphrase in line print line
  • 当没有结果返回时,如何防止 Angular 异步管道频繁进行服务器调用?

    我正在使用async通过管道传入 ngFor 来观察 Observable Observable 是由访问我的服务器的服务创建的 并且在枚举 ngFor 循环时的加载时间 该服务正确地调用服务器 现在对于我不明白的部分 当任何结果返回时 一
  • 如何在 RxSwift 中取消订阅 Observable?

    我想在 RxSwift 中取消订阅 Observable 为了做到这一点 我曾经将 Disposable 设置为 nil 但在我看来 更新到 RxSwift 3 0 0 beta 2 后 这个技巧不起作用 我无法取消订阅 Observabl
  • PreviewKeyDown 不会在 ElementHost 中针对 Tab 和箭头键触发

    我在 Winforms ElementHost 中有一个 WPF 窗口 我的窗口上的 Tab 键和箭头键不会触发 KeyDown 和 PreviewKeyDown 事件 KeyUp 和 PreviewKeyUp 似乎工作正常 Preview
  • 将字符串拆分为数组,在 Swift 中保留定界符/分隔符

    寻找一种 优雅的 解决方案来分割字符串并将分隔符保留为数组中的项目 示例1 hello world hello world 示例2 hello world hello world thx 假设您要使用名为的分隔符分割字符串separator
  • 在 Bash 中替换垂直线

    我很难完成我的脚本 因为这一部分没有按照我想要的方式运行 我的脚本中有这一行 cat home tmp temp1 txt awk gsub RS gsub RS print gt home tmp temp txt 效果很好 是的 但是当
  • 如何枚举控件的所有依赖属性?

    我有一些 WPF 控件 例如 文本框 如何枚举该控件的所有依赖属性 如 XAML 编辑器所做的那样 不需要使用反射 恕我直言 这是一个坏主意 因为框架已经为此提供了实用程序类 但它们并不明显找到 以下是基于这篇文章的答案 枚举绑定 http
  • nodejs knox 放入 s3 结果是 403

    我尝试在 nodejs 项目中使用 knox 上传到 Amazon s3 存储桶 但无法解决 403 错误 我已确保密钥 秘密和存储桶已正确设置 我真的需要那些有更多经验的人的帮助 我的节点代码如下 var upload test func
  • 属性“tablename.title”未定义

    我是伊比 我想做的是上传图像 照片 以及具有更新功能的数据库中的路径条目 我已点击此链接 http www yiiframework com wiki 349 how to upload image photo and path entry
  • 插入后,数据库中仅插入“字符串”的一个字符

    Below is my table screenshot Data after insertion C 代码 SqlConnection con new SqlConnection connectionsession Con con Ope
  • 未调用 Ajax 回调。如何解决这个问题?

    我再次来这里寻求您的建议 我有一些 AJAX 调用 用于从我的编辑器 PHP 在线编辑器 运行代码 大家可以来看看my site http web guru99 com 我有一些 ajax 调用来发送编辑器的数据并接收输出 问题 for 循
  • Bash for Windows 10 gcc 不会编译粘贴到根目录中的 c 文件

    正如标题所示 如果我将在其他地方编写的c文件粘贴到Linux子系统的根目录中 则无法编译它 我做了一个测试 我制作了两个不同标题的 hello world 程序 一个在 vi 中 我可以从 bash 界面进入 另一个在其他地方 当我编译了
  • 尝试查找 BLE 设备时如何使用 LeDeviceListAdapter?

    我正在 Android 中开发一个应用程序 并且我遵循 Android 中的代码建议开发者页面 http developer android com guide topics connectivity bluetooth le html f
  • 如何区分结构化数据和非结构化数据?

    结构化数据和非结构化数据有什么区别 这种差异如何影响各自的数据挖掘方法 我熟悉的术语是结构化的 and 非结构化的数据 除了后缀之外 与 Q 中的内容相同 我在机器学习中使用这两种类型的数据 但我不知道任何正式的定义 然而 我怀疑几乎每个工