斯坦福完全可解释深度神经网络：你需要用决策树搞点事

2023-05-16

近日，斯坦福大学计算机科学博士生 Mike Wu 发表博客介绍了他对深度神经网络可解释性的探索，主要提到了树正则化。其论文《Beyond Sparsity: Tree Regularization of Deep Models for Interpretability》已被 AAAI 2018 接收。

论文地址：https://arxiv.org/abs/1711.06178

近年来，深度学习迅速成为业界、学界的重要工具。神经网络再次成为解决图像识别、语音识别、文本翻译以及其他困难问题的先进技术。去年十月，Deepmind 发布了 AlphaGo 的更强版本，从头开始训练即可打败最优秀的人类选手和机器人，表明 AI 的未来大有可期。在业界，Facebook、谷歌等公司将深度网络集成在计算 pipeline 中，从而依赖算法处理每天数十亿比特的数据。创业公司，如 Spring、Babylon Health 正在使用类似的方法来颠覆医疗领域。深度学习正在影响我们的日常生活。

图 1：GradCam - 利用目标概念的梯度突出重要像素，从而创建决策的视觉解释。

但是深度学习是一个黑箱。我第一次听说它时，就对其工作原理非常费解。几年过去了，我仍然在探索合理的答案。尝试解释现代神经网络很难，但是至关重要。如果我们打算依赖深度学习制造新的 AI、处理敏感的用户数据，或者开药，那么我们必须理解这些模型的工作原理。

很幸运，学界人士也提出了很多对深度学习的理解。以下是几个近期论文示例：

Grad-Cam（Selvaraju et. al. 2017）：使用最后卷积层的梯度生成热力图，突出显示输入图像中的重要像素用于分类。
LIME（Ribeiro et. al. 2016）：使用稀疏线性模型（可轻松识别重要特征）逼近 DNN 的预测。
特征可视化（Olah 2017）：对于带有随机噪声的图像，优化像素来激活训练的 DNN 中的特定神经元，进而可视化神经元学到的内容。
Loss Landscape（Li et. al. 2017）：可视化 DNN 尝试最小化的非凸损失函数，查看架构／参数如何影响损失情况。

图 2：特征可视化：通过优化激活特定神经元或一组神经元，从而生成图像（Olah 2017）。

从上述示例中可见，学界对如何解释 DNN 存在不同见解。隔离单个神经元的影响？可视化损失情况？特征稀疏性？

什么是可解释性？

我们应该把可解释性看作人类模仿性（human simulatability）。如果人类可以在合适时间内采用输入数据和模型参数，经过每个计算步，作出预测，则该模型具备模仿性（Lipton 2016）。

这是一个严格但权威的定义。以医院生态系统为例：给定一个模仿性模型，医生可以轻松检查模型的每一步是否违背其专业知识，甚至推断数据中的公平性和系统偏差等。这可以帮助从业者利用正向反馈循环改进模型。

决策树具备模仿性

我们可以很轻松地看到决策树具备模仿性。例如，如果我想预测病人心脏病发作的风险，我可以沿着决策树的每个节点走下去，理解哪些特征可用于作出预测。

图 3：训练用于分类心脏病发作风险的决策树。这棵树最大路径长度为 3。

如果我们可以使用决策树代替 DNN，那么已经完成了。但是使用 DNN 尽管缺乏可解释性，但是它的能力远超过决策树。所以我们是否可以将决策树和 DNN 结合起来，构架具备模仿性的强大模型？

我们可以试着做一个类似 LIME 的东西，构建一个模拟决策树来逼近训练后的 DNN 的预测结果。但是训练深度神经网络时会出现很多局部极小值，其中只有部分极小值容易模仿。因此，用这种方法可能最后会陷于一个难以模仿的极小值（生成一个巨型决策树，无法在合理时间内走完）。

表 1：决策树和 RNN 在不同数据集上的性能。我们注意到 RNN 的预测能力比决策树优秀许多。

直接优化提高模仿性

如果我们想在优化过程中提高模仿性，则可以尝试找到更具可解释性的极小值。完美情况是，我们训练一个行为非常像（但并不是）决策树的 DNN，因为我们仍然想利用神经网络的非线性。

另一种方式是使用简单决策树正则化深度神经网络。我们称之为树正则化。

树正则化

若我们有包含 N 个序列的时序数据集，每一个序列有 T_n 个时间步。当没有限制时，我们可以假设它有二元输出。一般传统上，训练循环神经网络（RNN）可以使用以下损失函数：

其中ψ为正则化器（即 L1 或 L2 正则化）、λ 为正则化系数或强度、W 为一组 RNN 的权重矩阵、y_nt 为单个时间步上的标注真值、y_nt hat 为单个时间步上的预测值。此外，损失函数一般可以选为交叉熵损失函数。

添加树正则化需要改变两个地方。第一部分是给定一些带权重 W 的 RNN，且权重 W 可以是部分已训练的，我们将 N 个长度为 T 的数据 X 传递到 RNN 中以执行预测。然后我们就能使用这 N 个数据对训练决策树算法，并尝试匹配 RNN 的预测。

图 4：在优化过程中的任意点，我们能通过一个简单的决策树逼近部分训练的 DNN。

因此，我们现在有了模拟 DT，但我们可以选择一个十分小或十分大的决策树，因此我们需要量化树的大小。

为了完成量化过程，首先我们需要考虑树的平均路径长度（APL）。对于单个样本，路径长度就等于游历树并作出预测的长度。例如，如图 3 所示，若有一个用来预测心脏病的决策树，那么假设输入 x 为 age=70。该样本下路径长度因为 70>62.5 而等于 2。因此平均路径长度可以简单地表示为 ∑ pathlength(x_n, y_n hat)。

图 5：给定一棵决策树与数据集，我们能计算平均路径长度以作为模拟、解释平均样本的成本。通过把这一项加入到目标函数，我们就能鼓励 DNN 生成简单的 DT 树并惩罚复杂而巨大的决策树。

因此我们最后能将损失函数改写为以下形式：

现在只有一个问题：决策树是不可微的。但我们可能真的比较希望能用 SGD 以实现更快速和便捷的最优化，因此我们也许可以考虑更具创造性的方法。

我们可以做的是添加一个代理模型，它可能是一个以 RNN 权重作为输入的多层感知机（MLP），并期望能输出平均路径长度的估计量，就好像我们在训练一个决策树一样。

图 6：通过使用代理模型，我们可以利用流行的梯度下降算法来训练 DNN。为了训练一个代理模型，我们最小化标注真值和预测 APL 之间的 MSE。

当我们优化 RNN/DNN 时，每一个梯度下降步都会生成一组新的权重 W_i。对于每一个 W_i，我们能训练一个决策树并计算平均路径长度。在训练几个 epoch 之后，我们能创建一个大型数据集并训练代理 MLP。

训练过程会给定一个固定的代理，我们能定义正则化目标函数，并优化 RNN。若给定一个固定的 RNN，我们将构建一个数据集并优化 MLP。

小测试数据集

检查新技术有效性的一个好方法是在合成数据及上进行测试，在其中我们可以强调新技术提出的效益。

考虑以下的虚构数据集：给定单位二维坐标系统内的点 (x_i,y_i)，定义一个抛物线决策函数。

y=5∗(x−0.5)^2+0.4

我们在单位正方形 [0,1]×[0,1] 内均匀地随机采样 500 个点，所有在抛物线之上的点设为正的，在抛物线之下的点设为负的。我们通过随机翻转 10% 的边界附近（图 7 的两条灰色抛物线之间）的点以添加一些噪声。然后，随机分离出 30% 的点用作测试集。

我们训练了一个 3 层 MLP 用作分类器，其中第一层有 100 个节点，第二层有 100 个节点，第三层有 10 个节点。我们有意让该模型过度表达，以使其过拟合，并强调正则化的作用。

图 7：虚构的抛物线数据集。我们训练了一个深度 MLP，结合不同级别的 L1、L2 正则化和树正则化以测试最终决策边界之间的视觉差异。这里的关键之处在于，树正则化生成了坐标对齐的边界。然后我们用改变的正则化（L1、L2、树）和改变的强度λ训练了一系列的 MLP。我们可以通过描述单位正方形内所有点的行为并画出等高线以评估模型，从而逼近已学习的决策函数。图 7 展示了在不同参数设置下的已学习决策函数的并行对比。

正如预期，随着正则化强度增加，得到的决策函数也更简单（减少过拟合）。更重要的是，这三种正则化方法生成不同形状的决策函数。L1 正则化倾向于生成凹凸不平的线，L2 正则化倾向于球状的线，树正则化倾向于生成坐标对齐的决策函数。这为决策树的工作方式提供了更多的直觉理解。

图 8：正则化模型的 APL 性能对比。这里，决策树（黄线）是原始的决策树（没有 DNN）。我们注意到在 1.0 到 5.0 之间树正则化 MLP 的性能高于（以及复杂度低于）所有其它的模型。

至少在这个虚构示例中，树正则化在高度正则化区域（人类可模拟）能得到更好的性能。例如，树正则化结合λ=9500.0 只需要 3 个分支就可以获得类似抛物线的决策函数（有更高的 APL）。

真实数据集

现在我们对树正则化有了一个直观认识，下面就来看一下真实世界数据集（带有二分类结果），以及树正则化与 L1、L2 正则化的对比。以下是对数据集的简短描述：

Sepsis（Johnson et. al. 2016）：超过 1.1 万败血症 ICU 病人的时序数据。我们在每个时间步可以获取 35 个生命体征的数据向量、标签结果（如含氧量或心率）和 5 个二分类结果的标签（即是否使用呼吸机或是否死亡）。
EuResist（Zazzi et. al. 2012）：5 万 HIV 病人的时序数据。该结构非常类似于 Sepsis，不过它包括 40 个输入特征和 15 个输出特征。
TIMIT（Garofolo et. al. 1993）：630 位英语说话人的录音，每个语句包括 60 个音素。我们专注于区分阻塞音（如 b、g）和非阻塞音。输入特征是连续声系数和导数。

我们对真实世界数据集进行虚拟数据集同样的操作，除了这次我们训练的是 GRU-RNN。我们再次用不同的正则化执行一系列实验，现在还利用针对 GRU 的不同隐藏单元大小进行实验。

图 9：正则化模型在 Sepsis（5/5 输出维度）、EuResist (5/15 输出维度）和 TIMIT 的 APL 上的性能对比。可以看到在 APL 较小时，性能与图 8 类似，树正则化达到更高的性能。更多详细结果和讨论见论文 https://arxiv.org/pdf/1711.06178.pdf。

即使在带有噪声的真实世界数据集中，我们仍然可以看到树正则化在小型 APL 区域中优于 L1 和 L2 正则化。我们尤其关注这些低复杂度的「甜蜜点」（sweet spot），因为这就是深度学习模型模仿性所在，也是在医疗、法律等注重安全的环境中实际有用之处。

此外，我们已经训练了一个树正则化 DNN，还可以训练一个模仿性决策树查看最终的决策树是什么样子。这是一次很好的完整性检查，因为我们期望模仿性决策树具备模仿性，且与特定问题领域相关。

下图展示了针对 Sepsis 中 2 个输出维度的模仿性决策树。由于我们不是医生，因此我们请一位败血症治疗专家检查这些树。

图 10：构建决策树以仿真已训练的树正则化 DNN（包含 Sepsis 的 5 个维度中的两个）。从视觉上，我们可以确认这些树的 APL 值较小，并且是可模仿的。

考虑 mechanical ventilation 决策树，临床医生注意到树节点上的特征（FiO2、RR、CO2 和 paO2）以及中断点上的值是医学上有效的，这些特征都是测量呼吸质量的。

对于 hospital mortality 决策树，他注意到该决策树上的一些明显的矛盾：有些无器官衰竭的年轻病人被预测为高死亡率，而其他的有器官衰竭的年轻病人却被预测为低死亡率。然后临床医生开始思考，未捕获的（潜在的）变量如何影响决策树过程。而这种思考过程不可能通过对深度模型的简单敏感度分析而进行。

图 11：和图 10 相同，但是是从 EuResist 数据集的其中一个输出维度（服药坚持性）。

为了把事情做到底，我们可以看看一个尝试解释病人不能服从 HIV 药物处方（EuResist）的原因的决策树。我们再次咨询了临床医生，他确认出，基础病毒量（baseline viral load）和事先治疗线（prior treatment line）是决策树中的重要属性，是有用的决策变量。多项研究（Langford, Ananworanich, and Cooper 2007, Socas et. al. 2011）表明高基线的病毒量会导致更快的病情恶化，因此需要多种药物鸡尾酒疗法，太多的处方使得病人更难遵从医嘱。

可解释性优先

本文的重点是一种鼓励复杂模型在不牺牲太多预测性能的前提下，逼近人类模仿性功能的技术。我认为这种可解释性非常强大，可以允许领域专家理解和近似计算黑箱模型正在做的事情。

AI 安全逐渐成为主流。很多会议如 NIPS 开始更多关注现代机器学习中的公平性、可解释性等重要问题。之前我们认真地将深度学习应用于消费者产品和服务（自动驾驶汽车），我们确实需要更好地了解这些模型的工作原理。这意味着我们需要开发更多可解释性示例（人类专家参与其中）。

Notes：本文将会出现在 AAAI 2018 上（Beyond Sparsity: Tree Regularization of Deep Models for Interpretability），预印版可在 arXiv 上找到：https://arxiv.org/abs/1711.06178。类似的版本已经在 NIP 2017 上进行了 oral 解读。

问答

代理 MLP 追踪 APL 表现如何？

让人吃惊地好。在所有实验中，我们使用带有 25 个隐藏节点的单层 MLP（这是相当小的一个网络）。这必须有一个预测 APL 权重的低维表征。

图 12：真节点计数指的是真正训练决策树并计算 APL。已预测的节点计数指的是代理 MLP 的输出。

与原决策树相比，树正则化模型的表现如何？

上述的每个对比图展示了与正则 DNN 对比的决策树 AUCs。为了生成这些线，我们在不同决策树超参数（即定义叶、基尼系数等的最小样本数）上进行了网格搜索。我们注意到在所有案例中，DT 表现要比所有正则化方法更差。这表明树正则化不能只复制 DT。

文献中有与此相似的吗？

除了在文章开头提及的相关工作，模型提取/压缩很可能是最相似的子领域。其主要思想是训练一个更小模型以模拟一个更深网络。这里，我们主要在优化中使用 DT 执行提取。

树正则化的运行时间如何？

让我们看一下 TIMIT 数据集（最大的数据集）。L2 正则化 GRU 每 epoch 用时 2116 秒。带有 10 个状态的树正则化 GRU 每个 epoch 用时 3977 秒，这其中包含训练代理的时间。实际上，我们做的非常谨慎。例如，如果我们每 25 个 epoch 做一次，我们将获得 2191 秒的一个平均的每 epoch 的成本。

在多个运行中，（最后的）模拟 DT 稳定吗？

如果树正则化强大（高λ），最终的 DT 在不同运行中是稳定的（顶多在一些节点上不同）。

DT 对深度模型的预测有多准确？

换言之，这一问题是在问如果训练期间 DT 的预测与 DNN 预测是否密切匹配。如果没有，那么我们无法有效地真正正则化我们的模型。但是我们并不希望匹配很精确。

在上表中，我们测量了保真度（Craven and Shavlik 1996），这是 DT 预测与 DNN 一致的测试实例的百分比。因此 DT 是准确的。

残差 GRU-HMM 模型

（本节讨论一个专为可解释性设计的新模型。）

隐马尔可夫模型（HMM）就像随机 RNN，它建模潜在变量序列 [z1,…,zT]，其中每个潜在变量是 K 离散状态之一： z_t∈1,⋯,K。状态序列通常用于生成数据 x_t，并在每个时间步上输出观察到的 y_t。值得注意的是，它包含转化矩阵 A，其中 A_ij=Pr(z_t=i|z_t−1=j)，以及一些产生数据的发射参数。HMMs 通常被认为是一个更可阐释的模型，因为聚类数据的 K 潜在变量通常在语义上是有意义的。

当使用 HMM 潜在状态（换言之，当 HMM 捕获数据不足时，只使用 GRU）预测二值目标之时，我们把 GRU-HMM 定义为一个可以建模残差误差的 GRU。根据残差模型的性质，我们可以使用树正则化只惩罚 GRU 输出节点的复杂性，从而使得 HMM 不受限制。

图 13：GRU-HMM 图解。x_t 表征时间步 t 上的输入数据。s_t 表征时间步 t 的潜在状态；r_t，h_t，h_t tilde，z_t 表征 GRU 的变量。最后的 sigmoid（紧挨着橘色三角形）投射在 HMM 状态和 GRU 潜在状态的总和之上。橘色三角形表示用于树正则化的替代训练的输出。

总体而言，深度残差模型比带有大体相同参数的 GRU-only 模型的表现要好 1%。参见论文附录获得更多信息。

图 14：就像从前，我们可以为这些残差模型绘图并可视化模拟 DT。尽管我们看到相似的「sweet spot」行为，我们注意到最后得到的树有清晰的结构，这表明 GRU 在这一残差设置中表现不同。

原文地址：http://www.shallowmind.co/jekyll/pixyll/2017/12/30/tree-regularization/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

斯坦福完全可解释深度神经网络

你需要用决策树搞点事

斯坦福完全可解释深度神经网络：你需要用决策树搞点事的相关文章

springboot打包docker镜像部署

springboot打包docker镜像部署环境准备机器 vultr一台 centos7 资源下载 jdk8 maven git yum install git docker yum install docker io 环境搭建 jdk
深度学习基础——简单了解meta learning(来自李宏毅课程笔记)

知乎同名账号同步发布目录一初步了解二和ML的差异三应用了解一初步了解我们以分类问题为例 xff0c 以前 xff0c 学习的目的是学习一个二元分类器 f f f xff1b 现在 xff0c 学习的
docker删除镜像及容器

问题清理服务器相关无用docker镜像及容器删除镜像image 要删除 Docker 中的镜像 xff0c 可以使用 docker rmi 命令请注意 xff0c 删除镜像前请确保不再需要它 xff0c 并且已经停止了使用该镜像的所有
云技术：弹性计算ECS

云计算 xff08 Cloud Computing xff09 被业界看作继大型计算机个人计算机互联网之后的第四次IT产业革命 xff0c 正日益成为未来互联网与移动技术相结合的一种新兴计算模式云计算提供了IT基础设施和平台服务的新模
如何在 docker 容器中安装 ROS

本文记录在 docker ubuntu 18 04 环境下安装 ROS xff08 机器人操作系统 xff09 的过程目录文章目录目录安装 ROS参考文献安装 ROS 安装步骤如下 xff1a span class token co
DOCKER个人遇见小问题

1 在写dockerfile的时候使用了echo的方式向文件里面写入基本格式是 echo 34 想要写入的操作 34 gt gt gt 路径 dockerfile 1 因为是要向文件里面进行一个写操作同时希望建立容器的时候执行这个操作所
Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge阅读笔记

本文提出了一种基于深度神经网络的VQA模型 xff0c 并报告了一套广泛的实验来确定每个设计选择的贡献和替代设计的性能它提供了关于VQA模型各个组件重要性的指示器 xff0c 一 Summary of findings 1 使用一个sig
Ubuntu系统用VNCViewer连不上远程的解决办法

有时Ubuntu重启电脑重新联网之后 xff0c 用VNCViewer远程时提示timeout 解决办法点击Ubuntu电脑系统的设置按钮 xff0c 进入共享选项卡检查远程登录是不是已经开启 xff0c 屏幕共享是不是活动状态屏幕共
OAuth2.0的四种授权方式

前言 OAuth 简单理解就是一种授权机制 xff0c 它是在客户端和资源所有者之间的授权层 xff0c 用来分离两种不同的角色在资源所有者同意并向客户端颁发令牌后 xff0c 客户端携带令牌可以访问资源所有者的资源 OAuth2 0 是
PowerBuilder---合并相同单元格

在用数据窗口显示数据时 xff0c 经常会出现某一列的连续多行内容是相同的 xff0c 在有中国特色的软件使用者看来这是一个很大的问题一定要合并才能显得规范如下图 xff1a PowerBuilder 合并相同单元格 qibin jin
各行业的英语术语（绝对精华 1）

不看不知道各行业的英语术语 xff08 绝对精华 xff09 化妆品中英文对照 makeup xff08 粉底 xff09 mask xff08 面膜 xff09 mascara xff08 睫毛膏 xff09 milk xff08 乳
SD-WAN与SDN：揭开差异如何选择虚拟化网络

随着物联网工业互联网等新兴业务场景的不断涌现 xff0c 网络正面临着开放融合智能化个性化等需求在SDN进入稳定爬升期 xff0c 还未完全落地之时 xff0c 以SD WAN xff08 软件定义的广域网 xff09 为代表的新
H5实例移动端页面练习

文章目录标签知识点标签知识点 name 61 viewport xff1b 屏幕设定maximum scale 61 1 0 minimum scale 61 1 0 initial scale 61 1 0 xff1b 最大最小缩放比
SSH修改远程端口后无法登录的解决办法

参考 xff1a https www cnblogs com opswa p 16076001 html SSH是一种网络协议 xff0c 用于计算机之间的加密登录如果一个用户从本地计算机 xff0c 使用SSH协议登录另一台远程计算机
串口调试助手如何使用

需要设置好对应的串口端口 xff0c 波特率校验位数据位停止位 xff0c 然后打开串口这是一个绿色版的 xff0c 比深蓝串口调试助手好用的多
来来来！我告诉你 AUTOSAR架构深度解析从入门到放弃

如何快速学习AUTOSAR 关于AUTOSAR的背景和架构信息 xff0c 这里就不详细展开了大家可以参看 xff1a AUTOSAR的分层架构一文了解今天我们重点讲讲如何快速学习AUTOSAR架构的方法如何获取规范文档 xff1f
智能指针make_unique 与make_shared 的知识介绍

关于make unique的构造及使用例程 xff0c MSDN的讲解非常详细 xff08 https msdn microsoft com zh cn library dn439780 aspx xff09 使用过程中 xff0c 主要有
Adaptive AutoSAR 标准介绍

关于自适应AutoSAR 平台自适应autosar 平台实现了adaptive applications的运营环境它提供了两种接口 xff0c 一种是service 一种是API 平台功能分成两部分 xff1a service部分和ad
MPU和MCU的区别

MCU指的是微控制器集合了FLASH RAM和一些外围器件 MCU一般使用片内FLASH来存储和执行程序代码 MPU指的是微处理器 FLASH和RAM则需要设计者自行搭建 xff0c 当然MCU也可以外扩 MPU的电路设计相对MCU较

随机推荐

powerbuilder9 窗口高级配置

一无标题栏办法 xff1a 把窗口类型配置成response或者popup xff0c 窗口属性中的titlebar属性就变成可以选择 xff0c 把titlebar属性的勾点掉 xff0c 就可以配置成无标题栏 xff0c main类
Adaptive AUTOSAR——Cryptography （VRTE3.0 R21-11）

Cryptography模块是用于自适应汽车软件架构的密码学模块 xff0c 主要用于实现各种安全功能 xff0c 包括加密解密签名和验证等操作它的主要作用包括 xff1a 安全通信 xff1a 使用各种算法对数据进行加密和解密 x
一文读懂AUTOSAR SecOC通讯

为什么用SecOC 在车载网络中 xff0c CAN总线作为常用的通讯总线之一 xff0c 其大部分数据是以明文方式广播发送且无认证接收这种方案具有低成本高性能的优势 xff0c 但是随着汽车网联化 xff0c 智能化的业务需要 xff
汽车操作系统的趋势

操作系统 OS 需要管理基于计算机的系统的所有硬件和软件 xff0c 并且是汽车行业的关键软件平台本文侧重于提供教程信息和汽车操作系统策略的一些观点每个操作系统在功能程序大小复杂性开发工作和硬件要求以及生命周期维护支持工作和成本
4.5.2 DDS

1 标准及发展简介 DDS 的全称为 Data Distribution Service xff08 数据分发服务 xff0c 是由 OMG 联盟在 2004 年发布的中间件协议和应用程序接口标准采用发布订阅模型 xff0c 提供丰富的
SOA协议DDS和Some/IP对比

SOME IP 和 DDS 均已被纳入AUTOSAR AP的平台标准中 SOME IP 和 DDS是在不同的应用场景和不同的需求下诞生的技术 xff0c 所以它们之间注定有很大的区别 SOME IP SOME IP的全称为 xff1a Sc
linux内核提高系统实时性,Linux操作系统实时性分析及改进策略

摘要 xff1a 实时操作系统要求具有速度快和可预测性的特点 xff0c 必须保证实时任务在要求的时间内完成本文在分析Linux操作系统的中断方式和进程调度等影响实时性的因素后 xff0c 对Linux的实时性策略进行改进 xff0c 提
switch ... case语句的用法

当情况大于或等于4种的时候就用switch case语句 switch xff08 表达式 xff09 case 常量1 xff1a 语句体1 xff1b case 常量2 xff1a 语句体2 xff1b case 常量3 xff1a 语
什么是eNodeB？eNodeB有什么主要功能？eNodeB与2G、3G的基站有什么区别？

答 xff1a eNodeB xff08 简称为eNB xff09 是LTE网络中的无线基站 xff0c 也是LTE无线接入网的唯一网元 xff0c 负责空中接口相关的所有功能 xff1a xff08 1 xff09 无线链路维护功能 xf
最优传输-ML实战

在正文开始之前 xff0c 我们先举一个例子 xff1a Equations A 1
最优传输-Sinkhorn算法（第九篇）

最优传输系列是基于Computational Optimal Transport开源书的读书笔记 Sinkhorn算法在上一篇里 xff0c 我们介绍了加入熵正则化的最优传输问题熵正则化通过限制最优传输问题解的复杂度 xff0c 可以以
oracle表对表的多行更新

oracle并没有update from 这个写法所以在从一个表将数据更新到另外一个表时 xff0c 无法使用update from写法 xff0c 尤其是需要多行更新时 xff0c 最好使用merge into merge into允许
一图理解M0不同优先级中断及Pendsv切换
纽约客封面故事：欢迎来到「黑暗工厂」，这里是由机器统治的世界

来源 The New Yorker 作者 Sheelah Kolhatkar 编译编辑部大急流城 xff0c Steelcase 的人肉机器人 1977 年 xff0c 在密歇根州大急流城 xff0c 当 David Stinson
先读懂CapsNet架构然后用TensorFlow实现：全面解析Hinton的提出的Capsule

上周 Geoffrey Hinton 等人公开了那篇备受关注的 NIPS 论文 xff0c 而后很多研究者与开发者都阅读了该论文并作出了一定的代码实现机器之心在本文中将详细解释该论文提出的结构与过程 xff0c 并借助 GitHub 上热
Kaggle网站流量预测任务第一名解决方案：从模型到代码详解时序预测

近日 xff0c Artur Suilin 等人发布了 Kaggle 网站流量时序预测竞赛第一名的详细解决方案他们不仅公开了所有的实现代码 xff0c 同时还详细解释了实现的模型与经验机器之心简要介绍了他们所实现的模型与经验 xff0c
使用Keras快速构建集成卷积网络模型

在统计学和机器学习领域 xff0c 集成方法 xff08 ensemble method xff09 使用多种学习算法以获得更好的预测性能 xff08 相比单独使用其中任何一种算法 xff09 和统计力学中的统计集成 xff08 通常是无穷
半监督学习在图像分类上的基本工作方式

本文回顾了一些常见的半监督算法 xff0c 随后介绍了作者在 NIPS 2017 展示的 Mean Teacher 项目 Mean Teacher 的论文地址 xff1a https arxiv org abs 1703 01780 xff
经典必读：门控循环单元（GRU）的基本概念与原理

LSTM 通过门控机制使循环神经网络不仅能记忆过去的信息 xff0c 同时还能选择性地忘记一些不重要的信息而对长期语境等关系进行建模 xff0c 而 GRU 基于这样的想法在保留长期序列信息下减少梯度消失问题本文介绍了 GRU 门控机制的
斯坦福完全可解释深度神经网络：你需要用决策树搞点事

近日 xff0c 斯坦福大学计算机科学博士生 Mike Wu 发表博客介绍了他对深度神经网络可解释性的探索 xff0c 主要提到了树正则化其论文 Beyond Sparsity Tree Regularization of Deep Mo

斯坦福完全可解释深度神经网络：你需要用决策树搞点事

斯坦福完全可解释深度神经网络：你需要用决策树搞点事 的相关文章

随机推荐

热门标签

斯坦福完全可解释深度神经网络：你需要用决策树搞点事的相关文章