我学习同一科目。入侵检测和机器学习。这是一个相当广泛的主题。我将回答更多关于数据预处理和特征构建的观点。神经网络部分完全是不同的故事。
首先,这个领域商业化程度很高,因此几乎没有开源代码示例。很多事情都是在封闭的生态系统中进行商业化完成的。
从学术角度:存在大数据集问题。 DK99C(Darpa - KDD99 数据集)存在,但非常旧。 KDD99 数据集是根据 DARPA tcpdump 构建的。
他们使用 bro IDS 、 tcpdump api 来构建功能。
从我的角度来看,从原始 tcpdump 创建功能比在现成的功能上使用机器学习算法(神经网络)要困难得多。
阅读本文以了解有关其 (KDD99) 构建方式的更多信息
Article (Lee2000framework) Lee, W. & Stolfo, S. J.
A framework for constructing features and models for intrusion detection systems
ACM Trans. Inf. Syst. Secur., ACM, 2000, 3, 227-261
阅读本文及其演示文稿,了解为什么这个主题是一个很难研究的问题。
Inproceedings (Sommer2010Outside) Sommer, R. & Paxson, V.
Outside the Closed World: On Using Machine Learning for Network Intrusion Detection
Proceedings of the 2010 IEEE Symposium on Security and Privacy, IEEE Computer Society, 2010, 305-316
阅读本文,了解大多数学者在该主题上的工作方式。确实有点失望。
Article (Tavallaee2010Toward) Tavallaee, M.; Stakhanova, N. & Ghorbani, A.
Toward Credible Evaluation of Anomaly-Based Intrusion-Detection Methods
Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 2010, 40, 516 -524
阅读本文,了解为什么 DK99C 被认为是有害的。它是有害的,但不存在其他可靠的数据集。
Article (Brugger2007KDD) Brugger, S.
KDD Cup’99 dataset (Network Intrusion) considered harmful
KDnuggets newsletter, 2007, 7, 15
阅读有关 IDS 数据预处理分类的文章
Article (Davis2011Data) Davis, J. J. & Clark, A. J.
Data preprocessing for anomaly based network intrusion detection: A review
Computers & Security, 2011, 30, 353 - 375