#文献阅读 综述之数据集和机器学习在入侵检测系统(IDS)中的应用

#文献阅读 综述之数据集和机器学习在入侵检测系统(IDS)中的应用

今天埋头完成了Introduction和Methodology两个部分,然后来回地检查句子,短语、单词和逻辑,终于脑子开始进入混沌状态,实在没办法,随手找了一篇文献来读读。(主要这篇文章比较简单易懂,容易理思路。)

Arqane, A., et al. (2021). A Review of Intrusion Detection Systems: Datasets and machine learning methods.

这是一篇综述文章,此外题目还是有吸引力的,三个关键词:

Intrusion Detection Systems,Datasets 和 machine learning methods

关键词即主题:

  • 保护网络安全的解决方案之一入侵检测系统Intrusion Detection Systems;

  • 用来训练机器学习模型的数据集Datasets;

  • 以及使用数据集来训练和测试模型的各种机器学习方法machine learning methods。

讨论的主题,文章的结构以及思路逻辑就不赘述,具体Google搜索可以访问。




要点理一下:

  1. 机器学习的模型优劣与否,很大程度取决于训练的数据集,文章整理并讨论了主流的数据集。

  2. 通过机器学习来提升入侵检测系统的攻击探测成功率,以及降低误报率,已经有相当多的研究和应用,该文章整理了相关的文献。

  3. 机器学习在IDS的应用当中,依然存在并且持续存在挑战,文章给出了相应观点,并给予了研究建议。


干货直接上:

  1. 主流的用于机器学习模型训练、验证和测试的数据如下:

#文献阅读 综述之数据集和机器学习在入侵检测系统(IDS)中的应用


2. 通过机器学习来提升IDS探测能力的一些研究案例如下:

#文献阅读 综述之数据集和机器学习在入侵检测系统(IDS)中的应用



3. 那么挑战是什么呢?(数据集Datasets占了大头)


  • 太缺了!从数据集表格里可以看到,从1998年到2018年只有6个公开并且大量用于模型研究的数据集。

  • 太旧了!从机器学习的研究表格可以发现,2020的研究还依然在用两年前的数据集,这对于日新月异的网络安全领域来说,或者对于网络攻击者来说,会不会太落后?

  • 真的吗?实际上以上的数据集基本是从实验室环境模拟出来的,尤其是早期的DARPA, KDD CUP99和NSL-KDD,随后UNSW-NB15,CIC-IDS2017和CSE-CIC-IDS2018增加了真实的用户流量,但依然无法模拟实际的网络环境。

  • 太费了!目前对于机器学习在IDS上的研究和应用,大多数仍然是以受监督的机器学习(Supervised Learning)算法为主,因此,需要对数据集打标签,比如这条记录不是攻击,那这条记录是攻击,另外一条记录是DDoS攻击,还有一条又是R2L攻击…人工来做的话,真的费时费力!

  • 脏乱差!毕竟数据集都是模拟环境下生成的裸数据(一大堆数据包),经过软件外加人工转化为数据集(想象一下巨大巨大的excel表格),然后又经过人工标签,整个流程下来,这数据有多脏(比如很多重复数据),乱(比如一些空数据和越界数据),差(比如真实的网络攻击和正常流量比例在1:10,然而数据集的比例是10:1),总体下来基于这样的数据集要训练出学习出有效的模型,真的很难为机器!

  • 博弈战!网络安全领域,攻击和防御是永恒的主题。老实说,防守的还是要吃亏的,因为从IDS的机制上,对于攻击方来说,防守方是占下风的。比如说是先有了攻击,IDS才知道它是攻击,再将它纳入IDS的攻击库当中(Signature-based IDS),即便是通过机器学习发现异常状态(Anomaly-based IDS),比如在凌晨2点发现大量的正常访问,从而识别出异常并第一时间报告。但是攻击者也是可以通过AI和机器学习的方式来了解何为正常状态,然后将攻击隐藏在流量的正常状态(Adverserial Attack),从而达到其网络攻击的目的。所谓道高一尺,魔高一丈。

最后,文章不忘提及机器学习的优劣势,但从其调研的文献来看,混合机器学习模型要优于单个机器学习的模型,这也是该作者接下来要去研究的方向。


就大概分享到这,希望有所帮助。


参考文献

Arqane, A., et al. (2021). A Review of Intrusion Detection Systems: Datasets and machine learning methods. Proceedings of the 4th International Conference on Networking, Information Systems & Security. KENITRA, AA, Morocco, Association for Computing Machinery: Article 7.

原创文章,作者:门童靖博士,如若转载,请注明出处:https://www.agent-universe.cn/2022/08/12735.html

Like (0)
Previous 2022-07-29 18:08
Next 2022-08-08

相关推荐

  • 简谈ChatGPT伦理问题之一:偏见

    刚好最近在整理ChatGPT的一些伦理问题,打算梳理一下类似ChatGPT等AI工具或者AI平台的几大伦理问题,计划写一个系列的文章。 这里先从偏见(Bias)开始,文章不长,只是…

    2023-03-14
    113
  • Google Colab中的AI Monica真的无敌了,轻松编写和调优程序!

    这两天刚好在调程序中,无意中用到了Google Monica,真的让人惊叹不已! 先给结论:编写、调优程序,解释运行结果基本无障碍! Colab + Monica的流畅和无缝程度,…

    2023-06-21
    195
  • 大模型日报(5月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-29
    214
  • 大模型日报(4月11日 学术篇)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 数据过滤的扩展定律 &#8212…

    2024-04-11
    178
  • 使用GPTZero反制AI(ChatGPT)生成的内容?看这一篇就够了!

    你的文章是不是AI生成的,GPTZero一看便知?AI应用的攻防大战,才刚刚开始! 这款应用,我相信,老师或者老板们有多爱它,学生或者搬砖者们就有多恨它~ 在你刚认为自己已经将AI…

    2023-05-03
    198
  • 大模型日报(8月3~4日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-04
    212
  • 大模型日报(8月16日 学术篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-16
    205
  • 大模型日报(6月18日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-18
    158
  • 大模型日报(5月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-24
    162
  • AI学术 | Jenni AI 从0到1量身定制,加速你的论文写作!(二)

    没有一款AI工具能够解决所有问题,即便只是写论文。 但只要这个工具有自己的亮点,我们就可以在论文写作工作进行分解的基础上,同时将不同的AI工具进行组合。这样,一套组合拳打出来,必然…

    2023-08-14
    160