Метод поиска похожих последовательностей кода в исполняемых бинарных файлах с использованием беспризнакового подхода
Юмаганов А.С., Мясников В.В.

 

Самарский национальный исследовательский университет имени академика С.П. Королева, Самара, Россия

Аннотация:
Работа посвящена решению задачи поиска похожих последовательностей кода в исполняемых бинарных файлах. Предлагается метод решения, при котором промежуточное векторное описание функции формируется на основе сравнения пространственного положения каждой из функциональных групп команд процессора данной функции и функций некоторой «базисной» библиотеки. Размерность полученного таким образом вектора понижается, и полученное окончательное описание используется для осуществления поиска. Представлены результаты экспериментальных исследований, демонстрирующие работоспособность данного метода. Исследована эффективность данного метода в сравнении с некоторыми ранее известными методами поиска похожих последовательностей кода, даны рекомендации по выбору параметров разработанного метода.

Ключевые слова:
поиск, последовательность кода, беспризнаковое распознавание.

Цитирование:
Юмаганов, А.С. Метод поиска похожих последовательностей кода в исполняемых бинарных файлах с использованием беспризнакового подхода / А.С. Юмаганов, В.В. Мясников // Компьютерная оптика. – 2017. – Т. 41, № 5. – С. 756-764. – DOI: 10.18287/2412-6179-2017-41-5-756-764.

Литература:

  1. Zaimi, A. An empirical study on the reuse of third-party libraries in open-source software development / A. Zaimi, A. Ampatzoglou, N. Triantafyllidou, A. Chatzigeorgiou, A. Mavridis, T. Chaikalis, I. Deligiannis, P. Sfetsos, I. Stamelos // Proceedings of the 7th Balkan Conference on Informatics Conference. – 2015. – 4. – DOI: 10.1145/2801081.2801087.
  2. IDA F.L.I.R.T Technology: In-Depth [Electronical Resource]. URL: https://www.hex-rays.com/products/ida/tech/flirt/in_depth.shtml (request date 6.03.2017).
  3. Myles, G. K-gram based software birthmarks / G. Myles, C. Collberg // Proceedings of the 2005 ACM Symposium on Applied Computing. – 2005. – P. 314-318. – DOI: 10.1145/1066677.1066753.
  4. Flake, H. Structural comparison of executable objects / H. Flake // Proceedings of Detection of Intrusions and Malware & Vulnerability Assessment. – 2004. – P. 161-173.
  5. Kruegel, C. Polymorphic worm detection using structural information of executables / C. Kruegel, E. Kirda // Proceedings of the 8th International Conference on Recent Advances in Intrusion Detection. – 2005. – P. 207-226. – DOI: 10.1007/11663812_11.
  6. Khoo, W.M. Rendezvous: A search engine for binary code / W.M. Khoo, A. Mycroft, R. Anderson // Proceedings of the 10th Working Conference on Mining Software Repositories. – 2013. – P. 329-338. – DOI: 10.1109/MSR.2013.6624046.
  7. Yumaganov, A.S. Similarity search over program code sequences using featureless pattern recognition techniques / A.S. Yumaganov, V.V. Myasnikov // CEUR Workshop Proceedings. – 2016. – Vol. 1638. – P. 437-443. – DOI: 10.18287/1613-0073-2016-1638-437-443.
  8. Юмаганов, А.С. Сравнение способов первичного описания кода программы в задаче поиска похожих последовательностей кода / А.С. Юмаганов, В.В. Мясников // Сборник трудов III Международной конференции и молодежной школы «Информационные технологии и нанотехнологии» (ИТНТ-2017) – Самара: Новая техника, 2017. – С. 940-945.
  9. x86 Assembly language reference manual [Electronical Resource]. – 2010. – URL: https://docs.oracle.com/cd/E19253-01/817-5477/817-5477.pdf (request date 06.03.2017).
  10. Фукунага, К. Введение в статистическую теорию распознавания образов: пер. с англ. / К. Фукунага. – М.: Наука, 1979. – 368 c.
  11. Hirschberg, D.S. A linear space algorithm for computing maximal common subsequences / D.S. Hirschberg // Communications of the ACM. – 1975. – Vol. 18, Issue 6. – P. 341-343. – DOI: 10.1145/360825.360861.
  12. Pearson, K. On lines and planes of closest fit to systems of points in space / K. Pearson // Philosophical Magazine. – 1901 . – Vol. 2. – P. 559-572.
  13. Duin, R.P.W. Featureless pattern classification / R.P.W. Duin, D. de Ridder, D.M.J. Tax // Kybernetica. – 1998. – Vol. 34, No. 4. – P. 399-404.
  14. Buckland, M.K. The relationship between recall and precision / M.K. Buckland, F.C. Gey // Journal of the American Society for Information Science. – 1994. – Vol. 45, Issue 1. – P. 12-19. – DOI: 10.1002/(SICI)1097-4571(199401)45:1<12::AID-ASI2>3.0.CO;2-L.
  15. Powers, D.M.W. Evaluation: From precision, recall and f-measure to ROC, informedness, markedness & correlation / D.M.W. Powers // Journal of Machine Learning Technologies. – 2011. – Vol. 2, Issue 1. – P. 37-63.
  16. LibTIFF – TIFF library and utilities [Electronical Resource]. – URL: http://www.libtiff.org/ (request date 6.03.2017).
  17. Marron, J.S. Canonical kernels for density estimation / J.S. Marron, D. Nolan // Statistics & Probability Letters. – 1989. – Vol. 7, Issue 3. – P. 195-199. – DOI: 10.1016/0167-7152(88)90050-8.
  18. Curl – Command line tool and library for transferring data with URLs [Electronical Resource]. – URL: https://curl.haxx.se/ (request date 19.06.2017).

© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: ko@smr.ru ; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20