机器学习实战第一章——读书笔记

2023-11-09

数据挖掘

使用机器学习方法挖掘大量数据来帮助发现不太明显的规律，这称作数据挖掘。

机器学习分类标准

一、有监督学习和无监督学习

1.有监督学习：提供带标签的训练集

·k-近邻算法·线性回归·逻辑回归

·支持向量机(SVM) ·决策树和随机森林 ·神经网络

2.无监督学习：提供不带标签的训练集

·聚类算法·k-均值算法·DBSCAN ·分层聚类分析(HCA) ·异常检测和新颖性检测 ·单类SVM ·孤立森林·可视化和降维 ·主成分分析(PCA) ·核主成分分析 ·局部线性嵌入(LLE) ·t-分布随机近邻嵌入(t-SNE) ·关联规则学习·Apriori·Eclat

3.半监督学习：训练数据部分带标记

4.强化学习：学习系统(在其语境中称为智能体) 能够观察环境，做出选择，执行动作，并获得回报

二、批量学习和在线学习

1.批量学习：系统无法进行增量学习——即必须使用所有可用数据进行训练。如果希望批量学习系统学习新数据(例如新型垃圾邮件)，需要在完整数据集(包括新数据和旧数据)的基础上重新训练系统的新版本，然后停用旧系统，用新系统取而代之。

2.在线学习：在在线学习中，你可以循序渐进地给系统提供训练数据，逐步积累学习成果。这种提供数据的方式可以是单独的，也可以采用小批量的小组数据来进行训练。适用于计算资源有限。

三、基于实例的学习与基于模型的学习

1.基于实例的学习：系统用心学习这些示例，然后通过使用相似度度量来比较新实例和已经学习的实例(或它们的子集)，从而泛化新实例

2.基于模型的学习：构建这些示例的模型，然后使用该模型进行预测

学习率设置

如果设置的学习率很高，那么系统将会迅速适应新数据，但同时也会很快忘记旧数据。

如果学习率很低，系统会有更高的惰性，也就是说，学习会更缓慢，同时也会对新数据中的噪声或者非典型数据点(离群值)的序列更不敏感。

过拟合

模型相对于训练数据的数量和噪度都过于复杂时，会发生过拟合。可能的解决方案如下：

·简化模型:可以选择较少参数的模型(例如，选择线性模型而不是高阶多项式模型)也可以减少训练数据中的属性数量，或者是约束模型。

·收集更多的训练数据。

·减少训练数据中的噪声(例如，修复数据错误和消除异常值)。

通过约束模型使其更简单，并降低过拟合的风险，这个过程称为正则化。

超参数

超参数是学习算法(不是模型)的参数。因此，它不受算法本身的影响。超参数必须在训练之前设置好，并且在训练期间保持不变。

欠拟合

解决方法：

·选择一个带有更多参数、更强大的模型。

·给学习算法提供更好的特征集(特征工程)。

·减少模型中的约束(例如，减少正则化超参数)。

保持验证

在简化的训练集上(即完整训练集减去验证集)训练具有各种超参数的多个模型，并且选择在验证集上表现最佳的模型。在此保持验证之后，你在完整的训练集(包括验证集)上训练最佳模型，这就是你的最终模型。最后，你在测试集上评估这个模型以获得泛化误差的估计值。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习实战第一章——读书笔记的相关文章

mod_wsgi 下的 psp（python 服务器页面）代码？

有没有办法在 apache mod wsgi 下运行 psp python 服务器页面代码虽然我们正在转向基于 wsgi 的新框架但我们仍然有一些用 psp 编写的遗留代码这些代码在 mod python 下运行我们希望能够在托管
python 2.7 字符 \u2013 [重复]

这个问题在这里已经有答案了我有以下代码 coding utf 8 print u William Burges 1827 81 was an English architect and designer 当我尝试从cmd运行它时我收到以
将numpy字符串数组转换为int数组[重复]

这个问题在这里已经有答案了我有一个 numpy ndarray a 0 99 0 56 0 56 2 02 0 96 如何将其转换为int 输出 a 0 99 0 0 0 56 0 56 2 02 0 96 我想要 0 0 代替空白 im
我应该如何优化这个文件系统 I/O 绑定程序？

我有一个 python 程序它执行如下操作从 csv 文件中读取一行对其进行一些变换将其分解为实际的行因为它们将被写入数据库将这些行写入单独的 csv 文件除非文件已完全读取否则返回步骤 1 运行 SQL Loader 并将
TensorFlow 未编译为使用 SSE（等）指令，但这些指令是可用的

我第一次使用一些示例代码运行 TensorFlow 运行代码时我收到以下警告有谁知道为什么会发生这种情况以及如何解决它 2017 03 31 02 12 59 346109 W c tf jenkins home workspace re
使用 python 在网络上部署 matlab 应用程序

您好我想使用 python 在网络上部署 matlab 应用程序有没有办法做到这一点我已按照数学工作网站上的文档将我的应用程序转换为 jar 文件 java 类有人能指出我前进的正确方向吗事实上您的 Matlab 代码打包为 J
使用光栅重新投影 .tiff 文件：CRSError：无法解析 WKT。 OGR 错误代码 6

我正在尝试使用以下代码将 tiff 文件重新投影到 EPSG 32638 我安装过的版本光栅版本 1 1 5 Numpy 版本 1 18 1 这是我正在使用的代码 https rasterio readthedocs io en late
在Python中修改大型文本文件最后一行的最有效方法

我需要更新几个超过 2GB 的文件的最后一行这些文件由无法读取的文本行组成readlines 目前它可以通过逐行循环来正常工作但是我想知道是否有任何编译库可以更有效地实现这一点谢谢目前的方法 myfile open large
单击按钮时执行 python 脚本

我有一个带有一个按钮的 HTML 页面当我们单击该按钮时我需要执行一个 python 脚本并返回到包含结果的同一 HTML 页面所以我需要对返回值进行一些验证并执行一些操作这是我的代码 HTML
为 Mercurial 执行 hgweb.cgi 时，指定的 CGI 应用程序行为不当...

我有 IIS 6 我将 Mercurial 安装在 c program files mercurial 中我在 c program files python 中安装了 Python 2 6 I added extension handli
用python计算网页大小

我将如何使用 Python 计算网页 url 的大小我尝试了 urllib2 并获取内容长度标头但它不存在 import urllib2 url http www google com r urllib2 urlopen url Not
如何在 python 中将 selenium webelement 转换为字符串变量

from selenium import webdriver from time import sleep from selenium common exceptions import NoSuchAttributeException fr
如何使用 OpenCV 检测图像帧中的对象？

我正在使用 Raspberry Pi 开发一个漫游器它将清扫房间并捡起掉落在地上的物体为了检测物体我使用了在流动站操作开始时拍摄的参考图像以及每 10 秒单击一次的图像新图像为了确定图像帧是否发生变化我在参考图像和新图像之间进
如何将填充轮廓投影到 3D 曲面图上

我只是想在 3D 中绘制一个表面及其轮廓就像this http matplotlib org examples mplot3d contourf3d demo2 html例子这是我用来执行此操作的代码 import matplotlib
如何找到运行代码的 conda 环境的名称？

我正在寻找一种好方法来从正在运行的代码或交互式 python 实例中找出我所在的 conda 环境的名称用例是我通过 miniconda 安装运行带有 Python 2 和 Python 3 内核的 Jupyter 笔记本默认环境是Py
如何在 Microsoft Azure 中提取 Blob 存储中的 Blob 的上次修改日期

我对 MS Azure 的世界还很陌生我正在尝试使用 Python 获取保存在我的 blob 存储中的一堆文件块 blob 的文件名和最后修改日期这是我正在使用的代码 import datetime from azure storag
Python 用 lambda 函数封闭作用域变量

我写了这个简单的代码 def makelist L for i in range 5 L append lambda x i x return L 好的现在我打电话 mylist makelist 因为稍后调用嵌套函数时会查找封闭范围变量
从tensorflow 2.0 beta中的tf.data.Dataset检索下一个元素

在tensorflow 2 0 beta之前要从tf data Dataset中检索第一个元素我们可以使用迭代器如下所示 usr bin python import tensorflow as tf train dataset tf
将下载的字体添加到 Tkinter

我想下载一个开源字体并在我的 Python Tkinter 程序中使用它如何告诉 Tkinter 从目录导入字体或将字体放在与程序相同的文件夹中 Note 我已经寻找答案一段时间了甚至阅读了 Tkinter 的 API 参考了解我能找
使用按钮从 Django 项目根下载文件

So this is the webpage I m creating atm with Django 1 8 希望用户能够将数据导出为 csv 当用户在框中写下 Reddit 子版块名称按下获取数据按钮会发生什么它创建了一个

随机推荐

SQL 数据库中如何自动生成订单号

有一张表TAB1 字段num num里有很多数字我想从1开始查到里面缺少的最小的一个数字例如 4 5 6 8 9 11 12 13 这样的话我想要的结果是1 1 2 3 4 5这样的话我想要的结果是6 其实利用正常排序的找第一个不正
open3d操作.ply文件（点云）

读取 ply文件 import open3d as o3d pcd o3d io read point cloud ply path format ply ppoints np asarray pcd points pcolors np a
Ubuntu20.04编译安装openpose使用pythonAPI

目录项目地址环境准备开始编译项目地址 https github com CMU Perceptual Computing Lab openpose 环境系统 ubuntu20 04 cuda 11 2 GPU 3090 2 Dr
第一款中国人自主研发的普及型计算机高级编程语言

最近有了比较大的技术突破可以实现快速的开发环境了我之前的计划一直是解析脚本来实现迈欧网的开发环境有了这个技术虽然是高级语言但是却不会丧失性能达到C 等语言的速度甚至更快希望朋友们支持我你们的支持是我不间断开发此产品的动力
muduo启程

muduo启程 muduo 是一个基于 Reactor 模式的现代 C 网络库它采用非阻塞 IO 模型基于事件驱动和回调原生支持多核多线程适合编写 Linux 服务端多线程网络应用程序
使用广度优先搜索查找图中路径(java)

package breadthfirstpaths import edu princeton cs algs4 Graph import edu princeton cs algs4 Queue import edu princeton c
Android四大组件之service（二）

在 Android四大组件之service 一文中我们讲到了 service 的基本概念和 startService 启动方式 stopService 不过这种方式是有个缺点我们无法调用 FirstService 类里面的方法这个
webStrom智能提示忽略首字母大小写问题

Settings gt Editor gt Ceneral gt Code Completion gt Case sensitive completion 设置为None
vuex中的mutations的两种调用方法

直接通过 store commit调用
Ubuntu14.04 安装ffmpeg

一 xvid x264 ffmpeg源码下载链接 https pan baidu com s 13phSFrLqkGrKDGF3 a2cSA 提取码 ls2s 二安装 1 xvid tar zxvf xvidcore 1 3 3 tar
一文带你看懂Spring事务！

点击上方方志朋选择设为星标做积极的人而不是积极废人前言 Spring事务管理我相信大家都用得很多但可能仅仅局限于一个 Transactional注解或者在XML中配置事务相关的东西不管怎么说日常可能足够我们去用了但作为程
677. 键值映射

实现一个 MapSum 类支持两个方法 insert 和 sum MapSum 初始化 MapSum 对象 void insert String key int val 插入 key val 键值对字符串表示键 key 整数表示值 va
面试之计算机网络

计算机网络 1 路由选择协议常见的路由选择协议有 RIP协议 OSPF协议 RIP协议底层是贝尔曼福特算法它选择路由的度量标准 metric 是跳数最大跳数是15跳如果大于15跳它就会丢弃数据包 OSPF协议底层是迪杰斯特拉算
IDEA 设置默认Maven的路径

文件新项目设置构建工具 Maven 修改主路径
linux调整queue_depth,linux – 无法编辑/ sys / block / sdX / device / queue_depth文件

我正在尝试使用以下命令增加SSD的队列深度值 echo 64 gt sys block sda device queue depth 但是我收到以下错误 bash echo write error Invalid argument 我尝试使
STM32CubeIDE HAL库操作IIC （一）配置篇

目录一 MX配置使能中断可选 DMA设置可选二生成的代码三 IIC通信的三种方式 Polling IT DMA 代码源自官方例程 1 Polling 常用 2 IT 开启中断接收到数据时会调用回调函数 3 DMA模式回调函
Qt 如何使用正则表达式正则表达式密码 email

Qt 正则表达式 regular expression 详细用法查看此博客 https blog csdn net dongdong csdn article details 78574168 QRegExp regExpPsw 正则表达式
pytorch每日一学24(torch.quantize_per_tensor()、torch.quantize_per_channel())使用映射过程将tensor进行量化

第24个方法 torch quantize per tensor input scale zero point dtype Tensor torch quantize per channel input scales zero points
用JSP实现简单的四则运算

用JSP实现简单的四则运算作者 GGG166 首先定义一个Java的CompuerBean类放在beans包中用来计算两个数的四则运算代码如下作者 GGG166 package beans public class CompuerBe
机器学习实战第一章——读书笔记

数据挖掘使用机器学习方法挖掘大量数据来帮助发现不太明显的规律这称作数据挖掘机器学习分类标准一有监督学习和无监督学习 1 有监督学习提供带标签的训练集 k 近邻算法线性回归逻辑回归支持向量机 SVM 决策树和随机森林神经网

机器学习实战第一章——读书笔记

机器学习实战第一章——读书笔记 的相关文章

随机推荐

热门标签

机器学习实战第一章——读书笔记的相关文章