Подход к проектированию и реализации геоинформационных систем на основе анализа данных социальных сетей       

Я.Г. Мильчук,

асп., carhangel@gmail.com,

А.Г. Кравец,
 проф., д.т.н., agk@gde.ru,

ВолгГТУ, г. Волгоград

В статье приведён подход к созданию гео-информационных систем на основе анализа данных социальных сетей. Данный подход построен на выявлении предпочтений жителей при анализе данных социальных интернет сетей, с использованием инфографического анализа группируемых социальных потребностей. В качестве примера представлена система поддержки управления развитием территорий на основе предпочтений жителей.

 

The article describes an approach to the creation of geo-information systems based on data analysis of social networks. This approach is designed on data analysis social networks for the identification of the residents with the social preferences, using the Info-graphic analysis with grouping social needs. As an example, the system of management support for areas development based on population preferences is represented.

 

Прогресс в развитии информационно-коммуникационных технологий и методов извлечения знаний определяет глубокое проникновение интеллектуальных инструментов работы с данными в различные сферы жизнедеятельности человека. Информационные технологии помогают в инженерной и управленческой деятельности в процессе менеджмента сложных инфраструктурных систем и территорий [1,2].

При проектировании геоинформационных систем одним из важнейших критериев качества является скорость актуализации информации. Благодаря использованию данных социальных сетей (как динамически изменяющейся системы), можно добиться повышения скорости актуализации модели поведения социума, на основе которой строится геоинформационная система.

Одним из наиболее распространенных источников информации о людях могут служить социальные сети. Наряду с ростом количества информации, растет её общедоступность. Тенденции свидетельствуют о включении социальных сетей в число наиболее всеобъемлющих площадок накопления и распространения информации об интересах пользователей, которые можно трактовать как предпочтения о развитии определенных территорий [5]. Учет пожеланий жителей с помощью анализа данных социальных сетей может существенно повысить оперативность получения информации о текущем социальных предпочтениях для построения гео-информационной модели. Таким образом данный подход подразумевает обследование информационного наполнения социальных интернет- сетей, пользующихся все более широкой популярностью у населения.

Для получения актуальных данных о предпочтениях жителей различных территорий необходимо обеспечить оперативный сбор информации и ее хранение в базе данных в едином формате. Одним из источников являются социальные интернет сети. Собирая такие данные из профилей пользователей как пол, возраст, интересы, место работы, место учебы, фотографии, а также хештеги и геоданные соотнесенные с ними, возможно определить социальные потребности, реализуемые в некоторый момент времени. Например, пользователи социальных сетей регулярно размещают значительный объем фотографий, отражающих их любимые или наиболее посещаемые места. Выявляя часто встречаемые повторения, можно определить актуальные социальные потребности в сопоставлении с местами их реализации.

При этом, несмотря на рост активности пользователей социальных сетей, а также числа методов анализа данных из них, 30-45% профилей (анкет личных данных и активности) являются закрытыми и 20-30% профилей, содержат недостоверную информацию[10]. Кроме того, возможности API различных социальных сетей накладывают объективные ограничения на работу с информацией, что не позволяет применять универсальные инструменты парсинга и одинаковые подходы к выборке информации по её объему и структуре. Существует также и ограничение количества профилей для сбора: в зависимости от социальной сети их количество варьируется от 2000 до 20000.

Одним из основных критериев качества данных при выявлении социальных предпочтений является полнота информации о жителях территории, поэтому проблемой поиска релевантных данных является частичная закрытость профилей пользователей. Для обеспечения полноты собираемых данных в [10] предложен алгоритм сбора данных с механизмом построения замыкания социального графа, позволяющий собирать наиболее полную информацию. Алгоритм основан на дополнении недостающей информации за счет данных, находящихся в профилях наиболее релевантных пользователей, состоящих во взаимном статусе «друзей» с исследуемым профилем.

Одной из возможностей использования данного подхода является его применение в системах поддержки принятия решений на основе инфографического анализа группируемых социальных потребностей.

Разработанный метод сбора и анализа предпочтений людей на основе данных социальных сетей, основан на обработке основной информации профилей пользователей (текстовые и фотографические материалы) с учётом географической привязки. В зависимости от пола, возраста, времени создания фотографий, хештегов в комментариях к фотографиям пользователей определяются социальные потребности, удовлетворяемые на определенных участках территории города или региона. Классификация социальных потребностей проводится на основе исследования возрастных групп населения, их времени работы, учебы и отдыха. В соответствии с этим создается гео-информационная система сопоставляющая ту или иную территорию по однотипным предпочтениям.

Таким образом данную систему можно разделить на 2 подсистемы:

       - подсистема сбора данных из социальных сетей;

       - подсистема анализа социальных предпочтений и их размещения на карте.

Подсистема сбора данных из социальных сетей включает в себя три модуля.

Модуль обогащения данных анкет позволяет уменьшить риски, связанные с оценкой закрытых профилей пользователей, а также фейковых страниц, обеспечивая полноту собираемых данных.

Модуль сбора данных социальных сетей использует введенные параметры пользователей для получения выборки анкет необходимых для сбора.

Модуль API социальных сетей – содержит набор библиотек необходимых для подключения к различным социальным сетям.

Подсистема анализа социальных предпочтений – производит предварительный анализ геотегов и дополнительной информации (время создания фотографии, возраст пользователя, пол пользователя, набор хештегов), определяет их тип и основные социальные предпочтения пользователей. Проанализированная информация сохраняется в базе данных системы. 

Модуль статистики – отображает информацию об уже собранных и проанализированных данных в командном интерфейсе.

Модуль анализа данных – производит анализ данных БД и производит инфографическое размещение решений на карте региона.

Пример создания гео-информационной системы

Описанный подход был использован для создания системы поддержки принятия управленческих решений по управлению регионом на основе инфографического анализа. Для этого был реализован механизм сбора данных из социальных сетей Вконтакте и Instagram, как наиболее популярных в регионе. Для этого используется технология веб-краулинга (рис. 1). Алгоритм сбора данных выполнял поиск профилей по заданным параметрам (возраст человека, пол, социальное предпочтение, регион проживания). Дополнительные поля позволили указывать временной промежуток выборки данных, город, возраст, пол и тип исследуемой социальной потребности пользователя. За период исследования было собрано 13044 анкет пользователей ВК и 15436 анкет пользователей Инстаграма.

В результате сбора данных в БД записалось порядка 100 000 геотегов для каждой из социальных сетей с информацией о пользователях, создавших их.

рис. 1. Интерфейс модуля, реализующего технологию веб-краулинга

Собранные данные использовались для определения и очерчивания областей на карте региона имеющих более 5 геотегов с одним типом социального предпочтения в радиусе 300 метров, по этому критерию выполнялся поиск наиболее популярных мест в регионе. После определения популярных мест в регионе определяется проблемная составляющая (недостаток или избыток какого ибо типа объектов инфраструктуры), зависящая от типа геотега, среднего возраста пользователей в этой области, пола, времени создания геотега. Например, для геотега с типом «развлечения», сделанным в 23:00 со средним возрастом 22 года – этой составляющей является количество объектов инфраструктуры таких, как «караоке», «клуб», «кафе». А для геотегов с типом «учеба», средним возрастом пользователей 16 лет и средним временем 13:00 – 14:00 – составляющей является количество мест питания, низкой ценовой политики. Система определяет текущее положение дел в области, путем подсчета количества объектов инфраструктуры взятых из системы 2GIS. Если количество необходимых объектов меньше 5 (для типа «еда»), считается, что данная область имеет слабую инфраструктурную компоненту.

Таким образом, для рассматриваемого примера мы выделили 7 областей, а также получили соответствующие варианты решения о необходимости увеличения мест бюджетного питания в этих областях, потому что в них присутствует высокий трафик школьников в обеденное время. Результаты показаны на рисунке 2.

На следующем этапе были определены зоны, к которым применяются решения, выработанные на основе анализа предпочтений пользователей, а также изучения территории на предмет недостаточной обеспеченности социальных потребностей. Определение зоны, к которой применяется решение, происходит следующим образом: если в радиусе R метров, количество геотегов достигает F, то для этой области в соответствии с выбранным предпочтением формулируется решение. Выбор ограничения протяженности зоны и количества геотегов, учитываемых в этой зоне, предоставляется лицу, принимающему решение. Имеется возможность многократно получать решения относительно разных ограничений.

В очерченной зоне происходит поиск объектов инфраструктуры. Для поиска существующих объектов используется подключение к системе 2ГИС (рис. 2). В случае, если в очерченной области находится более X объектов инфраструктуры, выводится обратное решение (решение об избытке).

рис. 2. Результат работы модуля визуализации

Заключение

Разработанный подход позволяет эффективно проектировать гео-информационные системы и анализировать динамические системы, такие как социальные предпочтения населения. Была доказана его применимость к системам поддержки принятия решений. Было произведено тестирование разработанных методов на задаче поддержки принятия решений в управлении регионом. Сравнительный анализ скорости обработки данных из социальных сетей показывает, что, даже при наличии ограничений API социальных сетей, система позволяет собирать данные о 15 тысячах пользователей в день, а также рассылать им целевые опросы. Сопоставление полученной информации с картой расположения объектов инфраструктуры позволит более целенаправленно планировать развитие сложных территориально распределенных систем с учётом интересов различных социальных групп, более эффективно управлять функционированием среды и проектировать новые инфраструктурные решения.

Разработанный метод сбора и анализа данных из социальных сетей может использоваться для актуализации информации о предпочтениях жителей в вопросах развития территорий. Собранные данные могут служить основой для построения системы поддержки принятия управленческих решений на уровне города или региона. Выявление и исследование социальных потребностей с точной географической привязкой является одним из определяющих факторов построения эффективной экономической и социальной политики, а также выбора конкретных проектных и бизнес- решений, как для органов государственно-муниципальной власти, так и для коммерческих организаций. Зная о наиболее востребованных местах и их целевом назначении в формальном отношении и в восприятии жителей, становится возможным дополнить картину складывающейся ситуации в инфраструктуре: определить нехватку или избыток услуг транспортной системы и жилищно-коммунального хозяйства, инфраструктуры сетей и коммуникаций, объектов культурно-бытового назначения, сформулировать назначение неиспользуемых территорий.

Тем не менее, несмотря на все плюсы данного подхода, все еще остаются ограничения, связанные с доступом к данным в социальных сетях, а также с достоверностью получаемой информации. Необходимо совершенствовать методы инфографического представления знаний, а также методы мониторинга сложных, динамически изменяющихся систем.

Литература

1.  Машкин, А. А. Опыт создания системы управления развитием территорий Санкт-Петербурга [Электронный ресурс] / А. А. Машкин, А. Е. Загоруйко // 11-я Всероссийская конференция «Градостроительство и планирование территориального развития России». – 2013. – Режим доступа : http://www.gisa.ru/88592.html

2.  Automatic information retrieval and preprocessing for energy management / A. Sokolov, A. Tyukov, N. Sadovnikova, S. Zhuk, O. Khrzhanovskaya, A. Brebels // CIT&DS 2015 : Proceedings of the First International Conference on Creativity in Intelligent Technologies & Data Science, Volgograd, Russia, 15-17 September 2015. – Springer IPS, 2015. – P. 462-473.

3.  Гаврилов, А. И. Региональная экономика и управление. – Н. Новгород : Изд-во Волго-Вят. акад. гос. службы, 2002.

4.  Разработка онтологии для интеллектуальной системы поддержки принятия решений в задачах управления развитием города / А. В. Матохина, Н. П. Садовникова, Д. С. Парыгин, Е. П. Гнедкова // Известия Волгоградского государственного технического университета : серия Актуальные проблемы управления, вычислительной техники и информатики в технических системах / ВолгГТУ. – Волгоград : ИУНЛ ВолгГТУ, 2015. – № 14 (178). – С. 69-74.

5.  Chumak, A. A. Analysis of User Profiles in Social Networks / A. A. Chumak, S. S. Ukustov, A. G. Kravets // JCKBSE 2014 : 11th Joint Conference on Knowledge-Based Software Engineering, Volgograd, Russian, 17-20 September 2014. – Springer IPS, 2014. – P. 70-76.

6.  Decision Lens [Электронный ресурс]. – 2016. – Режим доступа : http://decisionlens.com/

7.  Expert Choice – Collaboration and Decision Support for Groups [Электронный ресурс]. – 2016. – Режим доступа : http://expertchoice.com/

8.  Imaginatik [Электронный ресурс]. – 2016. – Режим доступа : http://imaginatik.com/

9.  Super Decisions Software for Decision-Making [Электронный ресурс]. – 2016. – Режим доступа : http://www.superdecisions.com/

10.  Мильчук, Я. Г. Система поддержки принятия решений для управления регионом с использованием данных социальных сетей / Я. Г. Мильчук, М. К. Мартынова // Успехи современной науки и образования. – Белгород, 2016. – № 6. – Т. 3. – С. 88-94.

11.  The method of random walks for the analysis of social networks / Perepelitsyn V.A., Kravets A.G.E. // В сборнике: Информационные технологии в науке, образовании и управлении. материалы XLIV международной конференции и XIV международной конференции молодых учёных IT + S&E`16. под редакцией Е.Л. Глориозова. 2016. С. 168-173.

12.  The method of support vectors in the analysis of social networks user profiles / Chumak A.A., Kravets A.G. // International Journal of Soft Computing. 2015. Т. 10. № 3. С. 242-246.

13.  Aнализ профилей пользователей в социальных сетях / Чумак А.А., Кравец А.Г. // В книге: Тезисы докладов смотра-конкурса научных, конструкторских и технологических работ студентов Волгоградского государственного технического университета. ВолгГТУ; ответственный редактор: А. В. Навроцкий. 2014. С. 155-156.029

14.  Protocols to provide anonymity in social nets / Quyén L.X., Kravets A.G., Korotkov A.A., Sadovnikova N.P. // В сборнике: Proceedings of the International Conferences on ICT, Society and Human Beings 2014, Web Based Communities and Social Media 2014, e-Commerce 2014, Information Systems Post-Implementation and Change Management 2014 and e-Health 2014 - Part of the Multi Conference on Computer Science and Information Systems, MCCSIS 2014. 2014. С. 318-321.

15.  Motivation as a method of controlling the social subject self-learning / Isaev A.V., Kravets A.G., Isaeva L.A. // В сборнике: Proceedings of the International Conference e-Learning 2014 - Part of the Multi Conference on Computer Science and Information Systems, MCCSIS 2014. 2014. С. 409-412.

16.  Mинимизация разглашения личной информации в социальных сетях / Кравец А.Г., Ле С.К. // Известия Волгоградского государственного технического университета. 2014. Т. 22. № 25 (152). С. 177-180.

17.  Протокол для сохранения конфиденциальности профиля в социальных сетях / Кравец А.Г., Ле С.К. // Известия Волгоградского государственного технического университета. 2014. Т. 22. № 25 (152). С. 72-75.

18.  Исследование сервиса анонимной идентификации пользователей социальных сетей школы / Кравец А.Г., Ле Суан Куен Л.С. // Прикаспийский журнал: управление и высокие технологии. 2014. № 4 (28). С. 175-184.

19.  DEVELOPMENT OF A PROTOCOL TO ENSURE THE SAFETY OF USER DATA IN SOCIAL NETWORKS, BASED ON THE BACKES METHOD / Quyên L.X., Kravets A.G. // Communications in Computer and Information Science. 2014. Т. 466 CCIS. С. 393-399

20.  ANALYSIS OF USER PROFILES IN SOCIAL NETWORKS / Chumak A.A., Ukustov S.S., Kravets A.G. // Communications in Computer and Information Science. 2014. Т. 466 CCIS. С. 70-76.149

21.  CRYPTOGRAPHIC PROTOCOL MAINTAINING CONFIDENTIALITY AND ANONYMITY IN SOCIAL NETWORKS / X.Q.N., Kravets A.G., Korotkov A.A. // Инновационные информационные технологии. 2014. № 3. С. 422-424.

22.  SOCIAL NETWORKS MESSAGE POSTING SUPPORT MODULE / Chumak A.A., Ukustov S.S., Kravets A.G., Voronin J.F. // World Applied Sciences Journal. 2013. Т. 24. № 24. С. 191-195.768

23.  Подход к решению задачи идентификации влиятельных разработчиков в социальной сети гитхаб / Укустов С.С., Кравец А.Г. // Известия Волгоградского государственного технического университета. 2012. Т. 15. № 15 (102). С. 61-66.

24.  Прогнозирование исчезновения связей в эволюционирующей социальной сети с использованием топологических мер / Кравец А.Г., Укустов С.С. // В сборнике: Теория активных систем. Труды международной научно-практической конференции. Общая редакция - В.Н.Бурков, Д.А.Новиков. 2011. С. 273-276.