基于深度学习的恶意软件检测

2023-11-14

深度神经网络可以有效地挖掘原始数据中的潜在特征，而无需大量数据预处理和先验经验。神经网络在计算机视觉、语音识别和自然语言处理方面取得了一系列的成功，当然，成功的原因是多方面的，其中的一个因素就是神经网络具有从诸如像素或单个文本字符之类的原始数据中学习特征的能力。

Malware Detection by Eating a Whole EXE（2018 AAAIW)

Malware detection using 1-dimensional convolutional neural networks（ 2019 EuroS&PW）

Lemna: Explaining deep learning based security applications（2018 CSS BP）

基于深度学习的安全应用提出高精度的解释，该方法提出了基于fused lasso增强的混合回归模型，解决了现有的解释技术无法处理特征依赖和非线性局部边界问题。LEMNA可以帮助安全分析人员用来理解分类器行为，排除分类错误等。

Activation analysis of a byte based deep neural network for malware classification (2019 S&PW)

Character-level Convolutional Networks for Text Classification (2015 NIPS)

NLP预处理参考

Explaining Vulnerabilities of Deep Learning to Adversarial Malware Binaries

对基于MalConv字节的恶意软件分类器进行了分析

几乎所有对MalConv模型最有影响的激活都发生在PE文件的头中，这是因为它使用了一个单一的门卷积层和全局池。

TESSERACT: Eliminating Experimental Bias in Malware Classification across Space and Time （2019 S&P)

Video https://www.youtube.com/watch?v=6INFR2AVWU0

Adversarial Malware Binaries: Evading Deep Learning for Malware Detection in Executables

Malconv优化

论文 https://arxiv.org/abs/2012.09390

开发了一种新的时间最大池方法，使得所需的内存对序列长度T保持不变。这使得MalConv的内存效率提高了116倍，在原始数据集上训练的速度提高了25.8倍，同时消除了MalConv的输入长度限制

复现 https://github.com/NeuromorphicComputationResearchProgram/MalConv2

二、MalConv模型

Malware Detection by Eating a Whole EXE（2018 AAAIW)

MalConv模型结构 [知乎链接](专家教你利用深度学习检测恶意代码 - 嘶吼RoarTalk的文章 - 知乎 https://zhuanlan.zhihu.com/p/32251097) PE 结构 Github复现

计算量和内存用量能够根据序列长度而高效地扩展

我们能够通过使用门控卷积体系结构和可训练的输入字节的嵌入向量表示来最大化网络的可训练参数数量来实现了上面的第一个目标

通过使用更大的步幅和更大的卷积滤波器大小来控制卷积层激活单元所占用的内存单元数量

在检查整个文件的时候能同时考虑到本地和全局上下文

在卷积层后面添加了全局最大池化层

一种解释方法是，门控卷积层能够识别恶意软件的本地指标，对全连接层最大池化处理后，使得系统能够评估整个文件中这些指标的相对强度，从而找出重要的全局组合

在分析标记为恶意软件的时候能够提供更好的解释能力

挑战

恶意软件中的字节包含的信息具有多态性。上下文中的任何特定字节既可以表示为人类可读的文本，也可以表示为二进制代码或任意对象（如图像等）。此外，其中的某些内容可能是经过加密处理的，这样的话，它们对神经网络来说基本上就是随机的

二进制文件的内容表现出多种类型的空间相关性。函数中的代码指令在空间上具有内在的相关性，但这种相关性与函数调用和跳转命令之间存在不连续性。

将每个字节作为一个序列中的一个单元，我们处理的是一个200万时间步长的序列分类问题。据我们所知，这远远超过了以往任何基于神经网络的序列分类器的输入长度。为判别性特征非常稀疏的输入序列的所有两百万个时间步建立一个唯一的标签就成为一个极具挑战性的机器学习问题

可解释性

类激活映射CAM

希望自己的神经网络对分类的结果具有一定的可解释性，以节约分析师的精力和时间。本文的思想是受到[Zhou et al. 2016]论文中的类激活映射（CAM）技术的启发而获得灵感的。对于良性和恶意软件中的每一个类别，我们都会为卷积层中最活跃的应用位置上每个过滤器的相对贡献生成一个映射。Learning Deep Features for Discriminative Localization (CVPR 2016)

积分梯度 Axiomatic Attribution for Deep Networks

Captum

三、Malconv-Adversarial 模型

Adversarial Malware Binaries: Evading Deep Learning for Malware Detection in Executables

https://github.com/yuxiaorun/MalConv-Adversarial

第一篇攻击基于字节序列的白盒攻击算法

在文件末尾增加字节来产生对抗样本

2020 Machine Learning Security Evasion Competition [github]

一个关于恶意软件对抗样本的比赛

SecML Malware plupin

Partial DOS Header manipulation, formulated by Demetrio et al.

Explaining Vulnerabilities of Deep Learning to Adversarial Malware Binaries

Padding attack, formulated by Kolosnjaji et al.

Adversarial Malware Binaries: Evading Deep Learning for Malware Detection in Executables

GAMMA, formulated by Demetrio et al.

Functionality-preserving Black-box Optimization of Adversarial Windows Malware

FGSM padding + slack formulated by Kreuk et al. and Suciu et al.

Deceiving End-to-End Deep Learning Malware Detectors using Adversarial Examples

Exploring Adversarial Examples in Malware Detection

Content shifting and DOS header extension formulated by Demetrio et al.

Adversarial EXEmples: A Survey and Experimental Evaluation of Practical Attacks on Machine Learning for Windows Malware Detection

四、针对对抗样本的防御方法

随机减少特征，对抗训练

Stateful Detection of Black-Box Adversarial Attacks （2016 abs）https://arxiv.org/abs/1907.05587

代码实战：

https://download.csdn.net/download/weixin_55771290/87387305

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习从入门到精通

深度学习

人工智能

Powered by 金山文档

基于深度学习的恶意软件检测的相关文章

比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实
用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制
用通俗易懂的方式讲解：内容讲解+代码案例，轻松掌握大模型应用框架 LangChain

本文介绍了 LangChain 框架它能够将大型语言模型与其他计算或知识来源相结合从而实现功能更加强大的应用接着对LangChain的关键概念进行了详细说明并基于该框架进行了一些案例尝试旨在帮助读者更轻松地理解 LangChai
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

nacos2.2.1集成达梦数据库

nacos2 2 1集成达梦数据库 1 下载源码 https github com alibaba nacos 2 新增达梦驱动依赖父pom xml
openwrt篇修改WiFi热点默认名称和主机名

在如下图文件中修改ssid 在如下图文件中修改hostname
Linux的用户空间与内核空间

一简介 Linux 操作系统和驱动程序运行在内核空间应用程序运行在用户空间两者不能简单地使用指针传递数据因为Linux使用的虚拟内存机制用户空间的数据可能被换出当内核空间使用用户空间指针时对应的数据可能不在内存中用户空间的内
vue3项目引入高德地图详细方法教程

项目需求需要引入地图对于目前最新的Vue3 0 无论是百度高德腾讯地图目前还没有适配只有Vue 2 x版本的目前只有谷歌地图的Vue3 0适配但是没有适配并不代表不能使用下面就来教大家如何使用 1 在高德开发平台申请你的key
react定义函数，默认函数参数的方式

参数是对象有传入参数用传入参数作为入参数无传入参数用默认值 getTableData async pageData gt const params Object assign currPage 1 pageSize this stat
网传字节跳动实习生删除GB以下所有机器学习模型，差点没上头条

作者陈大鑫陈彩娴来源 AI科技评论昨晚脉脉上有网友爆料字节跳动一位实习生删除了公司所有轻量级别的机器学习模型什么是lite模型该楼主表示 lite模型就是公司内几乎所有GB大小以下的机器学习模型且全部被删除了实习生直接删除
公司固定资产怎么明细管理

固定资产的管理是一个至关重要的环节它不仅影响到企业的运营效率和经济效益也直接影响到公司的长期发展因此对固定资产进行精细化管理是每一个负责任的企业都应该做到的本文将探讨如何通过创新的方式实现公司固定资产的明细管理我们需要明确什
设置vscode终端的最大输出行

使用vscode终端输出的时候如果输出的行数很多之前打印的东西就看不到了因此需要设置一下终端输出的最大行数来保留之前的信息 terminal integrated bell scrollback
MMDet——EMA更新hook详解

Hook 首先需要明白mmdet中hook机制 EMA就是建立在Hook机制上的推荐一个Hook详解深度理解目标检测 MMdetection HOOK机制 EMA 指数平均 exponential mean average 一般来说在
使用Google Guava Cache Util工具类实现本地缓存设置过期时间的Java应用

使用Google Guava Cache Util工具类实现本地缓存设置过期时间的Java应用随着互联网应用的发展缓存成为提高系统性能和响应速度的关键技术之一而在Java开发中 Google Guava提供了一个强大的缓存工具类 Ca
关于数据库表字段的数据权限设计

吐槽刚在同事的帮忙下把maven工程成功导入到eclipse 期间遇到的最大问题就是安装eclipse插件花费了其中大部分的时间现在做的研发产品遇到的一个新的需求是控制外部系统对于表中字段的访问权限其实说白了就是对于CRU
sklearn机器学习包中的对原始数据的预处理及训练集、测试集的分割

sklearn机器学习包中的对原始数据的预处理及训练集测试集的分割一数据预处理 1 标准化 2 归一化 3 最小最大标准化 4 缺失值插补二训练集测试集的划分一数据预处理 sklearn preprocessing 包提供了几
编码-整数

计算机中存储的数值正数为其原码而负数存的是其补码正数原码用最高位表示符号位其余位表示数值其中正数的符号位为 0 负数的符号位为 1 正整数转成二进制除二取余直到商为零或一时为止然后倒序排列举个栗子 121 gt 0
【蓝桥杯】什么算法才是版本答案？近三年（2019-2021）蓝桥杯省赛涉及算法出现频率分析

2022年的蓝桥杯比赛已经基本报名结束寒假来临如何抓住重点快速掌握各种算法知识在4月份的蓝桥杯省赛中取得好成绩呢本文收集了近三年的4场蓝桥杯省赛题目 2019年 2020年第二场 2020年第三场 2021年并总结了题目涉及的算
python是一门机器语言_python是一门怎样的编程语言?

大家应该都听说过python语言也知道它是一门非常适合零基础学习的语言但是对于没有接触过的人来说可能就疑惑python到底是一门什么样的编程语言 1 跨平台跨平台不依赖操作系统和硬件环境某个操作系统环境下开发的应用放在其他的系统中
angular中的组件嵌套

1 创建3个包 header module main module sliderbar module 2 在header module创建三个组件 header center heder left header right 3 z将三个组件
BP神经网络回归预测-MATLAB代码实现（代码完整直接可用，注释详细，可供新手学习）

一前言代码获取私信或附评论区 BP神经网络预测回归MATLAB代码代码完整可用复制后即可运行使用操作简单 1 BP神经网络的知识想必不用再过多介绍本篇文章从实际应用的角度针对新手应用者针对不需要过多了解BP 但是需使用MA
Java-主流框架—（4）SpringMVC

1 SpringMVC概述三层架构表现层负责数据展示业务层负责业务处理数据层负责数据操作 MVC Model View Controller 一种用于设计创建Web应用程序表现层的模式 Model 模型数据模型用于封装数据
javaScript基础面试题 --- JS作用域

面试10家公司得有8家会问到作用域的题所以说JS的作用域一定要弄清楚非常重要 1 除了函数之外 JS没有块级作用域 2 作用域链内部可以访问外部的变量但是外部不能访问内部变量如果内部有优先内部的如果内部没有就先查找外部的
基于深度学习的恶意软件检测

深度神经网络可以有效地挖掘原始数据中的潜在特征而无需大量数据预处理和先验经验神经网络在计算机视觉语音识别和自然语言处理方面取得了一系列的成功当然成功的原因是多方面的其中的一个因素就是神经网络具有从诸如像素或单个文本字符之类的原始