Кластеризация медиа-контента из социальных сетей с использованием технологии BigData
Рыцарев И.А., Кирш Д.В., Куприянов А.В.

ИСОИ РАН – филиал ФНИЦ «Кристаллография и фотоника» РАН, 443001, Россия, г. Самара, ул. Молодогвардейская, д. 151;
Самарский национальный исследовательский университет имени академика С.П. Королева, 443086, Россия, г. Самара, Московское шоссе, д. 34

Аннотация:
Статья посвящена одной из ключевых проблем, возникающих при анализе социальных сетей, – проблеме классификации учётных записей на основе медиаконтента, загружаемого пользователями. Основными трудностями на пути решения проблемы являются гетерогенность контента (как по формату, так и по содержанию) и колоссальные объёмы анализируемой информации, что приводит к чрезмерной вычислительной сложности её обработки, а зачастую и к полной неэффективности традиционных методов анализа. В статье мы обсуждаем подход к кластеризации медиаконтента из социальных сетей на основе текстового аннотирования с использованием технологии BigData – современного и эффективного инструмента, позволяющего решить проблемы обработки данных большого объёма. Для проведения вычислительных экспериментов была собрана большая выборка разнородных изображений (фотографии, картины, поздравительные открытки и т. д.) из реальных профилей пользователей социальной сети Twitter. Проведённое исследование подтвердило высокое качество кластеризации медиаконтента, в среднем, значение ошибки составило порядка 5 %.

Ключевые слова:
кластеризация, технология BigData, текстовое аннотирование, социальные сети, анализ медиа-контента, алгоритм k-means, GoogLeNet.

Цитирование:
Рыцарев, И.А.
Кластеризация медиа-контента из социальных сетей с использованием технологии BigData / И.А. Рыцарев, Д.В. Кирш, А.В. Куприянов // Компьютерная оптика. – 2018. – Т. 42, № 5. – С. 921-927. – DOI: 10.18287/2412-6179-2018-42-5- 921-927..

Литература:

  1. Maxwell, D. Crisees: Real-time monitoring of social media streams to support crisis management / D. Maxwell, S. Ra­ue, L. Azzopardi, C.W. Johnson, S. Oates. – In: Advances in information retrieval / ed. by R. Baeza-Yates, A.P. de Vries, H. Zaragoza, B.B. Cambazoglu, V. Murdock, R. Lempel, F. Silvestri. – Berlin: Springer, 2012. – P. 573-575. – DOI: 10.1007/978-3-642-28997-2_68.
  2. Scott, J. Social network analysis / J. Scott. – 3rd ed. – London: Sage Publications Ltd, 2017. – 216 p. – ISBN: 978-1-4462-0904-2.
  3. Borgatti, S.P. Analyzing social networks / S.P. Borgatti, M.G. Everett, J.C. Johnson. – 2nd ed. – London: Sage Publications Ltd, 2013. – 384 p. – ISBN: 978-1-5264-0410-7.
  4. Kirsh, D.V. 3D crystal structure identification using fuzzy neural networks / D.V. Kirsh, O.P. Soldatova, A.V. Kupriy­anov, I.A. Lyozin, I.V. Lyozina // Optical Memory & Neural Networks (Information Optics). – 2017. – Vol. 26, Issue 4. – P. 249-256. – DOI: 10.3103/S1060992X17040026.
  5. Marra, F. Blind PRNU-based image clustering for source identification / F. Marra, G. Poggi, C. Sansone, L. Verdoliva // IEEE Transactions on Information Forensics and Security. – 2017. – Vol. 12, Issue 9. – P. 2197-2211. – DOI: 10.1109/TIFS.2017.2701335.
  6. Xu, X. SCAN: a structural clustering algorithm for networks / X. Xu, N. Yuruk, Z. Feng, T.A.J. Schweiger // Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining. – 2007. – P. 824-833. – DOI: 10.1145/1281192.1281280.
  7. Khotilin, M.I. Visualization and cluster analysis of social networks / M.I. Khotilin, A.V. Blagov // CEUR Workshop Proceedings. – 2016. – Vol. 1638. – P. 843-850. – DOI: 10.18287/1613-0073-2016-1638-843-850.
  8. Semertzidis, K. How people describe themselves on Twitter / K. Semertzidis, E. Pitoura, P. Tsaparas // Proceedings of the ACM SIGMOD Workshop on Databases and Social Networks. – 2013. – P. 25-30. – DOI: 10.1145/2484702.2484708.
  9. Blagov, A. Big data instruments for social media analysis / A. Blagov, I. Rytsarev, K. Strelkov, M. Khotilin // Proceedings of the 5th International Workshop on Computer Science and Engineering. – 2015. – P. 179-184.
  10. Rytsarev, I. Creating the model of the activity of social network Twitter users / I. Rytsarev, A. Blagov // Journal of Telecommunication, Electronic and Computer Engineering (JTEC). – 2017. – Vol. 9, Issues 1-3. – P. 27-30.
  11. Rytsarev, I.A. Development and research of algorithms for clustering data of super-large volume / I.A. Rytsarev, A.V. Blagov // CEUR Workshop Proceedings. – 2017. – Vol. 1903. – P. 80-83.
  12. Dhanachandra, N. Image segmentation using K-means clustering algorithm and subtractive clustering algorithm / N. Dhanachandra, K. Manglem, Y.J. Chanu // Procedia Computer Science. – 2015. – Vol. 54. – P. 764-771. – DOI: 10.1016/j.procs.2015.06.090.
  13. Kazanskiy, N. Performance analysis of real-time face detection system based on stream data mining frameworks / N. Kazanskiy, V. Protsenko, P. Serafimovich // Procedia Engineering. – 2017. – Vol. 201. – P. 806-816. – DOI: 10.1016/j.proeng.2017.09.602.
  14. Szegedy, C. Going deeper with convolutions / C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich // Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. – 2015. – 9 p. – DOI: 10.1109/CVPR.2015.7298594.
  15. Bahmani, B. Scalable k-means++ / B. Bahmani, B. Moseley, A. Vattani, R. Kumar, S. Vassilvitskii // Proceedings of the VLDB Endowment. – 2012. – Vol. 5, Issue 7. – P. 622-633. – DOI: 10.14778/2180912.2180915.
  16. Rejito, J. Image indexing using color histogram and k-means clustering for optimization CBIR in image database / J. Rejito, A.S. Abdullahi, Akmal, D. Setiana, B.N. Ruchjana // Journal of Physics: Conference Series. – 2017. – Vol. 893, Issue 1. – 012055. – DOI: 10.1088/1742-6596/893/1/012055.

© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: ko@smr.ru ; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20