detect_rep/自己论文/2023-3-23 检测论文v3.md
2023-04-05 10:04:49 +08:00

38 KiB
Raw Permalink Blame History

GNN+ASM2VEC_PLUS论文框架

检测准确率=ACC

精确度=PRE

恶意软件=malware

汇编代码=汇编指令

二进制软件=PE可执行程序

恶意软件=PE恶意软件

节点=basicblock

控制流程图=CFG

图神经网络=GNN

使用图神经网络分类良性、恶意软件的控制流程图

基于汇编指令的检测技术

摘要

文献引用

  1. https://www.sonicwall.com/resources/white-papers/2022-sonicwall-cyber-threat-report/

  2. https://www.cisa.gov/news-events/cybersecurity-advisories/aa21-110a

  3. *The rise of machine learning for detection and classifification of malware:Research developments, trends and challenges

  4. Konopisky, D., 10 2018. Malware Detection in Application Based on Presence of Computer Generated Strings.

  5. Lee, J., Im, C., Jeong, H., 2011. A study of malware detection and classifification by comparing extracted strings. ICUIMC 11. In: Proceedings of the 5th International Conference on Ubiquitous Information Management and Communication. ACM,New York, NY, USA, p. 75, https://doi.org/10.1145/1968613.1968704. 175:4.

  6. Ye, Y., Chen, L., Wang, D., Li, T., Jiang, Q., Zhao, M., Nov 2008a. Sbmds: an interpretable string based malware detection system using svm ensemble with bagging. J. Comput. Virol. 5 (4), 283, https://doi.org/10.1007/s11416-_008-_0108-_y.

  7. Sami, A., Yadegari, B., Rahimi, H., Peiravian, N., Hashemi, S., Hamze, A., 2010.Malware detection based on mining api calls. In: Proceedings of the 2010 ACMSymposium on Applied Computing. SAC 10. ACM, New York, NY, USA, pp.10201025, https://doi.org/10.1145/1774088.1774303.

  8. Ding, Y., Yuan, X., Tang, K., Xiao, X., Zhang, Y., 2013. A fast malware detection algorithm based on objective-oriented association mining. Comput. Secur. 39,315324. http://www.sciencedirect.com/science/article/pii/S0167404813001259.

  9. Ahmadi, M., Ulyanov, D., Semenov, S., Trofifimov, M., Giacinto, G., 2016. Novel feature extraction, selection and fusion for effffective malware family classifification. CODASPY 16. In: Proceedings of the Sixth ACM Conference on Data and Application Security and Privacy. ACM, New York, NY, USA, pp. 183194, https://doi.org/10.1145/2857705.2857713.

  10. Lyda, R., Hamrock, J., March 2007. Using entropy analysis to fifind encrypted and packed

    malware. IEEE Security Privacy 5 (2), 4045.

  11. Sorokin, I., Jun 2011. Comparing fifiles using structural entropy. J. Comput. Virol. 7 (4),

    259, https://doi.org/10.1007/s11416-_011-_0153-_9.

  12. Baysa, D., Low, R.M., Stamp, M., Nov 2013. Structural entropy and metamorphic

    malware. Journal of Computer Virology and Hacking Techniques 9 (4), 179192,

    https://doi.org/10.1007/s11416-_013-_0185-_4.

  13. Wojnowicz, M., Chisholm, G., Wolffff, M., Zhao, X., 2016. Wavelet decomposition of

    software entropy reveals symptoms of malicious code. Journal of Innovation in

    Digital Ecosystems. 3 (2), 130140. http://www.sciencedirect.com/science/article/

    pii/S2352664516300220.

  14. Nataraj, L., Karthikeyan, S., Jacob, G., Manjunath, B.S., 2011. Malware images: visualization and automatic classifification. VizSec 11. In: Proceedings of the 8th International Symposium on Visualization for Cyber Security. ACM, New York, NY,USA, https://doi.org/10.1145/2016904.2016908. pp. 4:14:7.

  15. Kancherla, K., Mukkamala, S., April 2013. Image visualization based malware detection. In: 2013 IEEE Symposium on Computational Intelligence in Cyber Security (CICS),pp. 4044.

  16. Raffff, E., Barker, J., Sylvester, J., Brandon, R., Catanzaro, B., Nicholas, C.K., 2018a.Malware detection by eating a whole EXE. In: The Workshops of the theThirty-Second AAAI Conference on Artifificial Intelligence, New Orleans, Louisiana,USA, February 2-7, 2018, pp. 268276. https://aaai.org/ocs/index.php/WS/AAAIW18/paper/view/16422.

  17. Classifying Sequences of Extreme Length with Constant Memory Applied to Malware Detection (a.k.a., MalConv2)

  18. Learning to Evade Static PE Machine Learning Malware Models via Reinforcement Learning.

  19. Black-Box Attacks against RNN based Malware Detection Algorithms

  20. MAB-Malware: A Reinforcement Learning Framework for Blackbox Generation of Adversarial Malware

  21. Semantic-preserving Reinforcement Learning Attack Against Graph Neural Networks for Malware Detection. Lan Zhang, Peng Liu, Yoon-Ho Choi.TDSC 2022.

  22. Functionality-preserving Black-box Optimization of Adversarial Windows Malware.

  23. Adversarial Deep Learning for Robust Detection of Binary Encoded Malware

  24. *N-gram MalGAN: Evading machine learning detection via feature n-gram

  25. Binary Black-box Evasion Attacks Against Deep Learning-based Static Malware Detectors with Adversarial Byte-Level Language Model

  26. Santos, I., Brezo, F., Ugarte-Pedrero, X., Bringas, P.G., 2013. Opcode sequences as representation of executables for data-mining-based unknown malware detection. Inf. Sci. 231, 6482 data Mining for Information Security, http://www.sciencedirect.com/science/article/pii/S0020025511004336.

  27. Shabtai, A., Moskovitch, R., Feher, C., Dolev, S., Elovici, Y., Feb, 2012. Detecting unknown malicious code by applying classifification techniques on opcode patterns. Security Informatics 1 (1), 1, https://doi.org/10.1186/2190-_8532-_1-_1.

  28. Hu, X., Shin, K.G., Bhatkar, S., Griffiffiffin, K., 2013. Mutantx-s: scalable malware clustering based on static features. In: Presented as Part of the 2013 USENIX Annual Technical Conference (USENIX ATC 13). USENIX, San Jose, CA, pp. 187198. https://www.usenix.org/conference/atc13/technical-_sessions/presentation/hu.

  29. Yuxin, D., Siyi, Z., Feb 2019. Malware detection based on deep learning algorithm.Neural Comput. Appl. 31 (2), 461472, https://doi.org/10.1007/s00521-_017-_3077-_6.

  30. Kinable, J., Kostakis, O., Nov 2011. Malware classifification based on call graph clustering. J. Comput. Virol. 7 (4), 233245, https://doi.org/10.1007/s11416-_011-_0151-_y.

  31. Hassen, M., Chan, P.K., 2017. Scalable function call graph-based malware classifification.CODASPY 17. In: Proceedings of the Seventh ACM on Conference on Data and Application Security and Privacy. ACM, New York, NY, USA, pp. 239248, https://doi.org/10.1145/3029806.3029824.

  32. Eskandari, M., Hashemi, S., 2011. Metamorphic malware detection using control flflow graph mining. 06 International Journal of Computer Science and Network Security 11 (12).

  33. Faruki, P., Laxmi, V., Gaur, M.S., Vinod, P., 2012. Mining control flflow graph as api call-grams to detect portable executable malware. SIN 12. In: Proceedings of the Fifth International Conference on Security of Information and Networks. ACM, New York, NY, USA, pp. 130137, https://doi.org/10.1145/2388576.2388594.

  34. Ding S H H, Fung B C M, Charland P. Asm2vec: Boosting static representation robustness for binary clone search against code obfuscation and compiler optimization[C]//2019 IEEE Symposium on Security and Privacy (SP). IEEE, 2019: 472-489.

  35. Semantics-preserving Reinforcement Learning Attack Against Graph Neural Networks for Malware Detection

1.Introduction

① 背景:

我们要解决的是PE软件的恶意软件检测技术

当前社会恶意软件数量日益增加根据美国著名安全公司SonicWall提供的报告【1】显示2022年全球恶意软件检测量同比增长2%达到55亿次其中从未见过的变种激增5%。

2021年美国网络安全与基础设施安全局(cisa)发布了一项警报【2】称在被利用的 Pulse Secure 设备上发现了十多个恶意软件样本,这些样本经过修改与伪装,已能绕过常见的商业恶意软件检测器防御,因此对于恶意软件检测技术仍然是学术界比较热门的话题。

恶意软件检测技术以是否实际执行程序为界限学术界通常将其分为动态检测与静态检测。动态检测技术通常需要构建沙盒来运行目标软件并记录其动态运行行为这要花费大量的时间和计算成本。然而静态检测技术只检测目标软件的静态特征花费的时间更少效率更高。【3】因此静态检测技术仍然是当前反病毒技术的一个重要主题。

在静态检测技术中根据是否分析软件的代码部分可以分为基于汇编指令的检测器与非汇编指令的检测器。在针对非汇编指令类型的检测任务中往往不需要反汇编程序的代码段部分而是对程序的属性、结构做分析与判断。该类型主流的检测技术包括基于规则的匹配【4-6】、API function calls可执行文件引用链接库【7-9】、壳加密检测【10-13】、 Malware representation as a gray scale image转化为灰度图的检测【9,14,15】、整体RAW BYTES检测【16、17】等。这些类型的检测针对性强但不分析可执行程序的执行流程逻辑 难以获得程序执行时的细节逻辑信息。然而研究【18】中总结了可执行程序不同部分与结构对恶意软件检测任务的重要程度由于在软件的源码被编译为可执行程序后汇编指令序列是实际运行逻辑的载体因此是最重要的恶意性判断依据。

此外由于可执行程序自身的复杂性为了确保程序功能完整性现有的大量对抗性软件生成技术【19-26】很难对代码段做出有效的改变基于汇编指令的检测技术受对抗技术影响较小所以这类检测技术仍然是当前恶意软件检测领域的重中之重。【27-34】等都是较为经典的相关工作由于机器学习可以有效的处理大量的数据随着机器学习的发展使用机器学习和深度学习来分析汇编指令并进行检测是当前的热点话题。

若要使用机器学习技术对目标可执行程序的汇编指令序列做检测形成有效的汇编指令表征技术是先决条件。【27-30、35】等工作已经做出了相关的尝试工作引入NLP领域的相关编码与embedding到汇编指令层面并且取得了不错的效果。其中研究【27-30】使用N-gram的方法将汇编指令映射至离散的空间研究ASM2VEC【35】提出了一种能将汇编指令映射至连续空间的方法完成了从离散空间至连续空间的跨越。然而在这些工作中仍然存在着表征不准确、训练效率低、检测精确度低等主要缺陷。在我们的工作中试图提供一种新型的ASM2VEC方法取名为ASM2VEC_PLUS解决传统ASM2VEC方法不能准确表征常数部分的缺陷将汇编指令映射至连续空间并且使得任意汇编指令都只存在唯一的映射。

此外在我们提出的检测方法中我们实际运用到的检测目标为从软件样本中提取的表示程序控制流程的控制流程图并使用图神经网络来分类良性与恶意软件的控制流程图来完成检测任务。在以往的工作中【33、34、36】已经证实了。我们使用工具提取了恶意样本与良性样本的控制流程图,在载入到图神经网络中进行训练与分类过程中我们将使用ASM2VEC_PLUS方法更准确的表征图结点basicblock。实验表明在连续空间中我们的方法能够在确保较高检测精确度的情况下以更低维的输入进行模型训练以节省训练时间与成本满足实际网络空间中工业界检测器实时更新升级的需求。

② 遵循前提:

在本工作中我们的检测目标为Windows下的32位的PE恶意软件我们的实验验证了对该类型可执行软件的恶意软件检测任务的可行性。我们同时很有信心我们的方法具有可移植性在面对其他类型的可执行软件时也能有同样的效果。

③ 解决问题:

总而言之,我们提出了一种训练效率更高、检测精确度的恶意软件检测方法,我们做出的贡献可以归纳为:

④ 贡献:

  • 提出了一种新的ASM2VEC方案将汇编指令映射至连续空间。Steven等人【】提出的ASM2VEC技术难以准确表达汇编指令的常数部分信息我们提出的ASM2VEC_PLUS方案解决了传统方法不能准确表示常数部分的缺点将任意汇编指令映射至连续空间,并且这种映射是唯一映射
  • 提供了一个更高检测精确度的基于控制流程图的恶意软件检测方法。我们将ASM2VEC_PLUS应用到了恶意软件检测任务中我们使用了图神经网络来分类PE可执行程序的控制流程图并将节点信息使用ASM2VEC_PLUS来进行表征映射至连续空间。实验显示我们的GCN+ASM2VEC_PLUS检测组合在大部分情况下检测acc与泛化性优于其他检测组合。
  • 新提供的恶意软件检测方法可降低训练成本。实验中我们发现GCN+ASM2VEC_PLUS的组合在较低维的输入下仍然能保持较高的检测精确度这可以降低模型复杂度并节省大规模样本的训练时间与训练成本。

2.PRELIMINARY

本文中的重要符号和符号。

符号 描述
e PE类型可执行程序
G 表示整张图
V_i 表示第$i$个节点 。
X_i 表示第 $i$个节点的特征向量。
h_i^{(l)} 表示第 $i$个节点在网络第 l 层的表示。
N_i 表示节点 i 的邻居节点集合。
V 节点集合,
h_{N_i}^{(l)} 表示节点 i 的邻居节点在第 l 层的表示。
W^{(l)} 表示第 l 层的权重矩阵。
b^{(l)} 表示第 l 层的偏置向量。
\sigma 表示激活函数,常见的包括 ReLU、sigmoid 和 tanh 等。
f 表示节点表征函数,用于将节点的特征向量和邻居节点的表示合并成一个新的节点表示。
h_g 整图表征
ye 原始标签
hat{y}e∈[0*,*1] PE可执行软件e的预测值
A_I Instruction level Assembly code dataset
A_F function level Assembly code dataset

①问题定义我们的任务是在接触不到源码的情况下针对PE类型可执行文件的黑盒检测。具体而言给定样本集D={e1,e2,....,eL},提取控制流程图集合G={ed1,ed2,...}。使用表征方法f将G的节点basicblock映射至离散或连续的向量空间并训练GNN以完成对控制流程图G的二分类任务其中预测分数是介于[0,1]之间的连续值以0.5为阈值区分恶意/良性样本分数越靠近0良性程度越高分数越靠近1恶意程度越高。我们期望使用我们的表征方法ASM2VEC_PLUS结合GNN技术能实现一个高训练效率和高acc率的检测器。

②控制流程图:控制流图CFG是一个有向图其中节点表示基本块边表示控制流路径。基本块是具有入口点执行的第一指令和退出点执行的最后一条指令的程序指令的线性序列。CFG是在程序执行过程中可以遍历的所有路径的表示值得注意的是CFG的每个节点是程序的basicblock在basicblock中没有任何其他逻辑分支只在最后一条指令中执行跳转任务。单个控制流程图可用g={N,E}来表示。

下图中即为提取的某个真实样本的控制流程图。

插入图

③GNN在近年来的深度学习研究中图神经网络Graph Neural Networks, GNN已经成为热门的研究方向被广泛应用于图像分类、节点分类、图像生成、图像分割等各种任务当然也适用于针对控制流程图做二分类任务。在GNN的发展历程中GCN、GAT和DGCNN等模型是比较经典和常用的模型。以GCN为例在做二分类任务时其具体步骤为


h_i^{(l+1)} = σ(∑_{j∈N_i} (1/c_{ij}) * h_j^{(l)} * W^{(l)})  \tag{1}

步骤1通过公式1计算节点的第 l 层表征的更新过程,其中,\sigma 表示激活函数,通常使用 ReLU 或者 tanh 等函数。

步骤2通过公式2计算整图的表征。这里的 L 表示网络的最后一层,"POOL" 表示整个图的池化操作,用于将所有节点的表征向量进行汇聚得到整张图的表征向量。

步骤3结果预测。在使用公式1与公式2得到整图表征向量后将整图表征输入到一个全连接层中进行最后的二进制结果预测并使用softmax函数将预测结果范围控制在[0,1]。


h_G = POOL({h_1^{(L)}, h_2^{(L)}, ..., h_N^{(L)}})\tag{2}

\\y_e = \text{softmax}(\mathbf{W} \mathbf{h}_G^{(L)} + \mathbf{b})\tag{3}

GAT通过注意力机制来加权聚合邻居节点信息可以灵活地捕捉节点之间的非线性关系和局部结构信息。相比传统的图卷积网络GAT在处理复杂的图结构数据时具有更强的建模能力。DGCNN则是通过基于k-NN图的动态邻接矩阵来建模点云数据的局部结构信息可以灵活地捕捉点云数据的非线性关系和局部结构信息。

3.RELATED WORK

为更好的理解本文提出的创新技术,以下内容作为预备知识是需要最先了解的。

① 离散空间汇编指令表征技术

汇编指令的表征技术是基于汇编指令的人工智能检测技术的基础只有汇编指令的语义被合理的映射至一个向量表示作为人工智能分类模型的输入才能开始下一步训练工作。与NLP的发展历程相似在发展初期研究者们通常将汇编指令映射至一个离散的空间。下面将介绍几个典型的汇编指令的表征方法

研究【27-30】已经使用到了N-GRAM方法来完成基于opcode的恶意软件检测工作。

  • opcode frequency/1-gramXX等人提出的【】是基于恶意软件代码段汇编指令的检测技术中使用到的对汇编指令的表征技术。其表征方法过程是步骤1只考虑汇编指令的操作符而不考虑操作数。在样本库中提取大量样本汇编指令序列的操作符集合所有不同的操作符将被组成为一份指令字典。例如现有指令序列“push ebp”,"mov eax,0x1"“ret”则此时的生成的字典为“push、mov、ret”步骤2根据字典信息使用one-hot编码来表征汇编指令例如汇编指令“push ebp”的one-hot编码即为[1,0,0]。 最后在把已经编码好的one-hot序列序列输入到设计好的模型中进行训练。

  • n-gramFuyong等人提出的基于n-gram的检测方法也是基于恶意软件代码段汇编指令的检测技术中使用到的对汇编指令的表征技术。该方法在word_frequency的基础上进行改进以2-gram为例其表征方法过程是步骤1在样本库中提取大量样本汇编指令序列的操作符序列操作符序列中前后相连的两个操作符组成一个组合所有不同的组合生成字典。例如现有指令序列“push ebp”,"mov eax,0x1"“sub eax,0x1”“ret”则此时生成的字典为“push mov、mov sub、sub ret”。步骤2根据字典信息使用one-hot编码来表征汇编指令例如汇编指令序列“push ebp“”mov eax,0x1”的one-hot编码即为[1,0,0]。最后在把已经编码好的one-hot序列序列输入到设计好的模型中进行训练。

  • malconv

    Edward Raff【16】等人提出的MALCONV技术旨在用最少的预处理工作去检测PE恶意软件。对于被变异好的可执行程序其是由大量的字节构成的而每个字节处在的范围是0~0xFF,也就是十进制的0~255因此研究者使用长度为256的one-hot向量来表示样本每个字节的编码作为输入。malconv技术的优点是不需要提取可执行程序样本的其他任何诸如特定属性、代码段、数据段等的信息其只需将整个程序的字节序列喂入设计好的模型中进行训练。此外由于汇编指令本质上也是由字节构成的因此malconv也可以表征代码段的汇编指令我们也将malconv当做一组对照实验。

显而易见的是,离散空间汇编指令表征技术在探索汇编指令的抽象表示方面仍然停留在较为基础的阶段。

② 连续空间汇编指令表征技术ASM2VEC技术

据我们所知Steven等人提出的ASM2VEC技术【35】是最著名的完整搭建将汇编指令映射至连续空间体系的研究方法。ASM2VEC技术基于WORD2VEC技术在映射步骤上学习了WORD2VEC的主要思想。ASM2VEC技术的主要流程可以归纳为

步骤1ASM2VEC的样本输入即是真实二进制软件代码段中提取出的汇编指令序列在预处理中也需生成一份汇编指令的字典。字典生成方法大致为——将汇编指令序列中的每一条指令的操作符与操作数部分进行分解假设操作数只有一个则分解结束假设操作数有两个成员组成则需要进一步分解操作数的两部分而如果该条指令只有操作符部分则不需要分解。分解出来的这几个部分被称为token所有不同的tokens组成了字典称之为token字典。值得注意的是由于常数项的可能性太多因此在ASM2VEC中将所有常数项被替换为"CONST"。举个例子,假设现有汇编指令序列 “push ebp”,"mov eax,0x1","ret"则此时提取到的token为“push、ebp、mov、eax、CONST、ret”。

步骤2在得到tokens字典后即可对汇编指令进行编码。每条指令的编码有操作数和操作符两部分组成。第一部分是操作符部分由操作符在字典中的位置生成的one-hot向量。第二部分是操作数部分操作数为空时则用与操作符向量同等长度的0向量表示当操作数只有一个成员的情况下则该部分的向量即为该操作数在字典中的one-hot向量表示当操作数有两个成员的情况下则该部分的向量为两个成员对应的one-hot向量的和的平均数表示见图X。指令最后的向量表示为操作符部分向量与操作数部分向量相连接而成为一个定长向量。

步骤3此时生成的向量还只是停留在离散空间的向量。在这一步与word2vec类似将已经编码好的汇编指令初始向量序列输入到CBOW模型或PVDM模型进行训练训练结束时可以得到模型中的embedding层使用embedding层即可将汇编指令映射至连续空间。

即使ASM2VEC技术提出了将汇编指令映射至连续空间的可行方案但ASM2VEC在映射过程中带有常数项的指令是不可反向映射的。这是由于在生成tokens字典时如果完整记录常数项会使得字典长度过于庞大导致训练效率降低因此所有的常数项都由“CONST”代替。举个例子ASM2VEC在对指令“mov eax,0x1”与“mov eax,0x4213141”进行映射时他们在连续空间中的映射结果是一样的因为他们都被当做"mov eax,CONST"处理初始向量是一样的因此embedding向量也是一样的。这将导致在检测过程中对常数项的指令不能合理理解的情况毕竟有些时候“mov eax,0x1”与“mov eax,0x4213141”所代表的含义是很不一样的。这项缺陷也是受到word2vec思想的限制没有能够处理数量庞大的CONST tokens。我们提出的ASM2VEC_Plus方法有效的解决了这个问题具体过程在章节4 METHOD中提供。

由于汇编指令承载的语义特殊现有表征技术只停留在汇编指令的字符串层面设计一个较为简单的对字符串的编码机制至今没有工作返回汇编指令的二进制表示从底层汇编指令的组成规则来设计一套特定的编码方法。ASM2VEC已经做到了准确表征大部分汇编指令的目的但是对于存在大量常数项的汇编指令来说仍然有改进的空间。

③ GNN+节点表征检测技术

为什么不使用函数掉用图?

在针对恶意软件的检测任务中当检测目标是可执行文件的控制流程图时GNN就发挥了作用。

图神经网络GNN可对控制流程图执行分类任务。我们可以把图中的每一个节点 V 当作个体对象,而每一条边 E 当作个体与个体间的某种联系,所有节点组成的关系网就是最后的图 U。

  • GCNGCN即图卷积神经网络

    【Semi-Supervised Classification with Graph Convolutional NetworksICLR2017

  • GAT

    【Graph Attention Networks】

  • DGCNN【】

【36】等工作中已经使用到了图神经网络检测技术来检测目标软件的控制流程图CFG以此来判断软件恶意性并且取得了良好的检测效果。与其他直接使用代码段汇编指令序列的检测不同控制流程图注重程序的内在逻辑因此对程序执行的动态逻辑的判断要比其他方法更加准确。【看看有没有论文依据】

④ 挑战

我们在回顾一下传统方法存在的问题

我们的解决方法

4.METHOD

我们的创新方法主要分为两个部分 ① ASM2VEC_PLUS与 ② GNN + ASM2VEC_PLUS

《补充ASM2VEC_PLUS图》

① ASM2VEC_PLUS

asm2vec完成了将汇编代码映射至连续空间的目的。然而其仍然存在无法表示任意汇编代码特别是含有常数项汇编指令的问题。我们的ASM2VEC_PLUS方法解决了这一方法使得任意一个汇编代码都有唯一的向量映射。我们将以32位程序为例对ASM2VEC_PLUS进行描述。

具体过程如下:

1.初始编码任意32位汇编指令由prefix、opcode、ModRM、SIB、displacement、immediate六个部分组成长度为1-16个字节。其中opcode是必选项其他是可选项。每个部分的初始向量编码由各部分的逻辑原理单独设计其中opcode、prefix、ModRM、SIB是离散的且数据量小因此使用类似于one-hot的编码方式来生成。displacement、immediate两个部分是整型数据但数据量较大因此使用二进制分割方式生成向量来进行表征。 我们使用向量o、p、m、s、d、i分别代表六个部分的向量下面介绍具体规则我们将聚焦于汇编指令的结构组成

prefix—prefix为汇编指令的前缀部分由4个字节组成每个字节分别代表Lock prefix、ES segment register、oprand-size override、Address-size override四个离散部分。其中Lock prefix只有F0H与none两种情况ES segment register有2EH、36H、3EH、26H、64H、65H和none7种情况oprand-size override只有66H与none两种情况Address-size override只有67H与none两种情况。因此lock prefix可用一位长度的向量[0]与[1]表示两种情况oprand-size override和Address-size override同理。ES segment register由6位组成使用[1,0,0,0,0,0]、[0,1,0,0,0,0]、[0,0,1,0,0,0]、[0,0,0,1,0,0]、[0,0,0,0,1,0]、[0,0,0,0,0,1]、[0,0,0,0,0,0]来分别表示出现的7种情况。最后将四部分生成的初始向量相连接生成长度为9的p向量。

opcode—32位的opcode由单字节表示拥有256种可能的。因此可以使用256位的one-hot向量来表示opcode。例如指令ret的opcode为0xC3,十进制数是195则ret的初始向量表示是将这个256位长度的向量下标为194的位置置1其他置0。

ModRM与SIB—ModRM与SIB的构造是一致的都分别由一个8bit的字节构成并且这个8bit被分成了2bit、3bit、3bit三个部分每个部分存在3、8、8种的不同可能因此可以分别用长度为3、8、8的one-hot向量来表示这三个部分的所有情况最终将三个部分向量首尾相连生成长度为19的向量。

displacement与immediate—displacement与immediate是整形数据使用二进制分割方式生成向量来进行表征例如十进制4的二进制为“100”则其表征即为[1,0,0]。由于32位汇编指令的常数项最长长度为32位即四字节因此可以用两个32位长度的向量来进行表示。

此外我们还需要有一个部分来传递各部分是否出现在指令当中的信息prefix、ModRM、SIB、displacement、immed$$372iate为可选项因此需要一个长度为5的向量来表示这些成员的使用情况。

最后我们把长度为5位的可选信息向量、长度为9位的prefix初始向量、长度为256位的opcode初始向量、长度为19的ModRM初始向量、长度为19的SIB初始向量、长度为32位的displacement初始向量与长度为32位的immediate初始向量首尾相连得到最终长度为5+9+256+19+19+32+32=372的初始向量来表示单条汇编指令。

以实际的汇编代码“lock add dword ptr es:[eax+ecx*8+0x11223344], 0x12345678”为例该汇编指令的16进制表示为“26 66 67 F0 81 84 C8 44 33 22 11 78 56 34 12 ”。其中“26 66 67 F0”这 4 个字节是 prefix分别表示 ES segment register、 operand-size override、 address-size override、Lock prefix生成向量【】。"C7"表示opcode生成向量【】。”84“表示modRM生成向量【】。”C8“表示SIB生成向量【】。”44 33 22 11“表示displacement生成向量【】。 ”78 56 32 112 “表示immediate 生成向量【】。

其在经过 编码后, 得到初始向量【】

插入图(汇编代码组成)

在生成初始编码的过程中与asm2vec不同的是我们的方法是基于特定规则进行转化的不需要生成字典省略了额外的准备步骤和存储字典的空间。此外带有常数项的汇编指令也能对应生成唯一的初始向量在映射到连续空间时任意汇编指令都能拥有唯一的连续空间向量。

2.映射至连续空间在得到初始向量之后使用PVDM模型进行预测中心词任务的训练以得到embedding网络模型。

在该过程中与NLP类似我们提取了真实样本中的XXX个函数共10000条汇编指令作为语料库此时单条汇编指令相当于NLP中的word函数相当于NLP中的段。使用初始编码方法将这些指令通过规则转化为定长长度为367的初始向量。确定窗口大小为1将语料库中的指令的初始向量按照运行顺序输入到PVDM中进行训练。由于PVDM中在训练过程中还需要一个段向量我们将每条指令所在函数的所有指令向量平均和作为这个段向量输入到网络中。在训练结束后可得到单条指令的embedding层作为汇编指令embedding模型还有一个针对函数的embedding层作为汇编函数的embedding模型。他们分别可以将单条指令和函数映射至连续空间。研究【】中已验证了PVDM在asm2vec工作上的可行性。

PVDM的插图

② GNN + ASM2VEC_PLUS

章节2.PRELIMINARY中已介绍了图神经网络在恶意软件检测任务上的应用。我们的主要创新点集中在对GNN节点的表征上我们期望使用更加精确的表征方式来表征GNN中每个节点的真实含义。我们知道在基于控制流程图进行恶意软件检测任务时GNN的节点即为basicblock由一组只有末尾是跳转指令的指令序列组成也可以被认为是只有一个跳转指令的函数。此时我们使用步骤①当中生成的汇编函数的embedding模型来对GNN的所有basicblock节点做表征本质上其实就是basicblock中每条汇编指令embedding向量的平均值。

经过节点表征后的图就可以输入到GNN模型中进行训练。我们选用了常见的GNN模型如GCN、GAT和DGCNN我们期望验证ASM2VEC_PLUS表征方法在GNN检测模型任务上的普遍高效性。

《补充GCN + ASM2VEC_PLUS图》

《补充算法流程图》

5.EVALUATION

数据集准备:

在数据集准备工作方面我们从开源网站virusshare/virustotal【】上收集了XXX个恶意样本与XXX个良性样本。我们对数据集做了以下预处理

  • 样本清洗不少研究中【】都发现加过壳的可执行程序样本会对恶意软件检测任务产生负面影响因此我们剔除了样本中被检测到的加壳程序lief【】可以协助读取可执行程序结构属性信息协助判断壳加密信息。
  • 汇编函数提取为了顺利训练ASM2VEC模型需要提取大量的真实汇编函数样本函数可作为汇编指令的“段”完成PVDM的相关训练任务。在实际过程中我们使用radar2工具来提取xxxxxx个真实汇编函数。
  • 控制流程图提取我们使用专业的工具angr【】来提取程序的控制流程图此外在提取过程中我们将使用ASM2VEC、ASM2VEC_PLUS、Malconv、N-gram等表征方法来表征并保存为.gexf格式。此外为了保证训练效率并剔除一些无效样本我们清洗节点数量大于10000或小于15的控制流程图以确保训练效果。
  • 反汇编信息获取capston工具【】可以对二进制表示下的汇编指令进行反汇编任务以获取反汇编指令文本。

我们设计了共四项实验实验①与实验②用于验证GNN+ASM2VEC_PLUS在检测精确度上相比较其他检测方法和其他GNN+表征方法上具有优势。实验③用于验证GNN+ASM2VEC_PLUS在较低维的向量输入下仍然能保持较高的精确度。实验④用于验证ASM2VEC_PLUS表征方法的训练效率要优于ASM2VEC并且ASM2VEC_PLUS也能较好的将多个语义相似的汇编函数聚类在一起。

评估标准:

训练集:

准确率acc旨在知道总样本中预测对的概率。ACC=(TP+TN)/(TP+TN+FN+FP)

精确率pre精确率又叫查准率旨在预测为正的样本中实际为正的有多少。P=TP/(TP+FP)

召回率rec召回率也叫查全率旨在找到实际为正的样本中多少被预测为正。 R=TP/(TP+FN)

F-ScoreF1是为了既能体现精确率又能体现召回率的一个评价指标。F1=2xPxR/(P+R)

训练时间:

测试集:

准确率acc旨在知道总样本中预测对的概率。ACC=(TP+TN)/(TP+TN+FN+FP)

精确率精确率又叫查准率旨在预测为正的样本中实际为正的有多少。P=TP/(TP+FP)

召回率rec召回率也叫查全率旨在找到实际为正的样本中多少被预测为正。 R=TP/(TP+FN)

F-ScoreF1是为了既能体现精确率又能体现召回率的一个评价指标。F1=2xPxR/(P+R)

训练时间:

① 实验:各类表征方法+输入维度的对比实验。

在本实验中我们使用GNN+各种不同的汇编指令表征方法1-GRAM、2-GRAM、MALCONV来表征节点basicblock,此外我们将各类表征方法分为五组输入维度16、32、64、128、256分别进行训练与检测实验。我们对每个组合的模型都训练100个epochs

实验结果显示,

设计该实验的目的是为了验证GNN+ASM2VEC_PLUS能在总体表现上优于GNN+其他表征的检测结果其次我们通过不同的维度输入实验的对比来验证验证GNN+ASM2VEC_PLUS在较低维的向量输入下仍然能保持较高的精确度。

② 实验GCN+ASM2VEC_PLUS+128对比其他各种检测方法的实验。学术界、商业界

在本实验中我们使用GCN+ASM2VEC_PLUS+256的输入来与学术界中近几年几个较出名的检测方法Malconv、n-gram【】等做比较。除此之外我们还对比了几个著名的工业检测器【ClamAV、Comodo、360、Microsoft、Goggle】的检测效果。在学术界检测方法中我们使用XXX个恶意样本。在工业界检测器中我们使用virustotal提供的API产生批量结果由于访问限制我们使用200个恶意样本进行实验。

实验结果显示,

设计该实验的目的是验证我们的方法较其他基于非控制流程图的检测器也具有一定的检测准确度优势。

③ 实验ASM2VEC_BASE+ASM2VEC_PLUS的训练效率实验。

证明ASM2VEC_PLUS的训练效率优于ASM2VEC_BASE的训练效率。

④ 实验ASM2VEC_PLUS聚类实验

在本实验中我们将提取的XXXX个真实函数样本与对应的xxxx汇编指令序列分别输入到ASM2VEC_PLUS模型与ASM2VEC中进行训练实验。

该实验用于验证ASM2VEC_PLUS表征方法的训练效率、精确度要优于ASM2VEC并且ASM2VEC_PLUS也能较好的将多个语义相似的汇编函数聚类在一起。

证明ASM2VEC_PLUS的训练效率优于ASM2VEC_BASE的训练效率。

6.Related work

7.Conclusion

我们的检测方法率先在GCN检测恶意软件任务中将节点basicblock映射至连续空间 为GCN提供了更准确的节点语义表征也得到了较好的检测效果。在实际网络空间中随着恶意软件数量与类型的不断攀升基于人工智能与深度学习的商业检测器往往要实时更新自己的检测模型以保证检测的时效性。由于我们的方法是在连续空间中进行的因此我们的方法在更低维的输入、更简单的网络模型下也能保证较高的检测精确度这将使得训练时间与成本大大下降满足真实网络空间中的恶意软件检测任务。我们认为我们提供的新型恶意软件检测方法不仅具有实用性其表征方法ASM2VEC_PLUS的出现将有助于促进其他恶意软件检测、对抗任务的研究。

在未来的研究中我们不仅要借此继续优化相关的恶意软件检测任务我们也期望我们的研究对对抗性软件生成技术具有一些超前的帮助。例如使用ASM2VEC_PLUS能将汇编指令映射至连续空间与任意汇编指令拥有唯一映射的特性将生成方法映射至连续空间、智能化生成对抗性汇编指令序列等。