Кластерный анализ цифрового и финансового следа компании в контексте государственных контрактов
Алтухова Н.Ф.1, Громова А.А.1, Долганова О.И.1
1 Финансовый университет при Правительстве Российской Федерации
Статья в журнале
Вопросы инновационной экономики (РИНЦ, ВАК)
опубликовать статью | оформить подписку
Том 14, Номер 4 (Октябрь-декабрь 2024)
Цитировать:
Алтухова Н.Ф., Громова А.А., Долганова О.И. Кластерный анализ цифрового и финансового следа компании в контексте государственных контрактов // Вопросы инновационной экономики. – 2024. – Том 14. – № 4. – doi: 10.18334/vinec.14.4.121647.
Аннотация:
В интернет-среде содержится много сведений практически о любой компании. Этот цифровой след состоит, как из официальной информации, размещенной на корпоративных сайтах и ресурсах органов государственной власти, так и неофициальной, находящейся в социальных сетях, форумах, цифровых СМИ. Ученые и практики активно исследуют возможности сбора и анализа подобных данных. Это позволяет детально изучить особенности функционирования компании и принимать более взвешенные управленческие и инвестиционные решения руководством компании и ее контрагентами.
В статье исследуется взаимосвязь между цифровым и финансовым следом компаний, участвующих и побеждающих в государственных закупках. Исследование проводится с применением методов кластерного анализа, которые позволяют выявить группы компаний с общими характеристиками на основе их цифровой активности в социальных сетях. Анализ данных о компании из социальной сети «Вконтакте» (фрагмент цифрового следа) и из Главной единой информационной системы в сфере государственных закупок (фрагмент финансового следа) позволили выявить четкую взаимосвязь между активностью компании в Интернете и стоимостью заключаемых контрактов. Подобные исследования могут быть полезны для государственных органов, занимающихся контролем и оптимизацией процессов государственных закупок, а также для самих компаний, стремящихся повысить свою конкурентоспособность в данном сегменте рынка.
Ключевые слова: цифровой след, конкурентоспособность, финансовый след, государственный финансовый контроль, кластерный анализ
Финансирование:
Статья подготовлена по результатам исследований, выполненных за счет бюджетных средств по государственному заданию Финуниверситета.
JEL-классификация: F30, F38, C30,C38
Введение
Цифровой след компании частично является составной частью цифрового образа компании, который сегодня играет значительную роль в оценке организации, как бизнес-партнера или объекта инвестирования. Многие исследователи отмечают, что наблюдается тесная взаимосвязь между цифровым следом компании или его фрагментами и ее конкурентоспособностью, а также финансовыми успехами. Например, Молодчик М.А и др. [1] в своей работе показывает, что активность в интернет-среде, упоминание организации в позитивной тональности положительным образом сказывается не только на ее репутации, но и на ее стоимости. Многими исследователями подтверждается тезис о том, что цифровой след может быть одним из источников получения информации для прогнозирования ее инвестиционной привлекательности. Например, в работе А. Дебона и Дж. Деменека [2] приводятся доказательства взаимосвязи финансовых показателей и сведений о компании в Интернете. Построение модели сбора и анализа данных о деятельности компании, ее руководстве и сотрудниках из внешних открытых источников позволяет прогнозировать ее будущие финансовые показатели и в целом ее потенциальную конкурентоспособность. Как правило, речь идет об официальной информации на корпоративом сайте, обсуждений организации в интернет-сообществах, на форумах, в социальных сетях, а также об отзывах, как не посредственно о фирме, так и о ее продуктах и услугах. Таким образом можно получить довольно актуальную информацию о корпоративной культуре в компании, эффективности ее деятельности, стратегии, инновационной активности, об имидже компании и ее учредителей.
Безусловно данная информация является дополнением, к официальной. Но многие ученые отмечают, что она может быть полезна, как для самой компании, так и для органов государственного финансового контроля. Например, А.В.Бау [3] в своем исследовании доказывает, что, анализируя большой объем общедоступной информации, корпоративные аналитики и государственные контролеры могут в превентивном режиме отслеживать признаки наступления финансовых рисков.
Важно отметить, что в зарубежной научной литературе часто встречаются исследования в области поиска корреляций и взаимосвязи между цифровым и финансовым следом компании, однако в силу объема и специфики данных одного и другого данный анализ выполняется всеми исследователями фрагментарно. В российской научной среде данному вопросу уделяется достаточно мало внимания. Однако сегодняшняя российская интернет-среда и принципы ведения бизнеса, в том числе, когда речь идет о государственных контрактах, имеют свои особенности. Поэтому интересным видится провести анализ взаимосвязи цифрового и финансового следа именно для российских компаний на примере сведений из популярной российской социальной сети «Вконтакте» и главной информационной системы государственных закупок. В качестве гипотезы выдвигается тезис, что есть взаимосвязь между активностью официальных представителей компании в социальной сети и стоимостью получаемых государственных контрактов.
Для проверки гипотезы в работе используются методы кластерного анализа: К-среднего и нечеткой кластеризации.
Цель исследования: выявить и проанализировать взаимосвязь между цифровым следом компаний в социальных сетях и их финансовым следом в контексте участия и побед в государственных закупках, с использованием методов кластерного анализа для определения групп компаний с общими характеристиками на основе их цифровой активности и стоимости заключаемых контрактов.
Научная новизна исследования заключается в том, что в отличие от традиционных экспертиз, которые часто фокусируются на официальных источниках информации, данная работа использует открытые данные из социальной сети «Вконтакте» как репрезентативный фрагмент цифрового следа. Это позволяет исследовать влияние неофициальной, неструктурированной информации на деловую активность компаний.
Влияние цифрового следа компании на ее финансовые пока,затели
Связь между цифровым следом компании и ее финансовым состоянием, а как следствием и конкурентоспособностью активно изучается различными исследователями. Анализ цифрового следа позволяет в ряде случаев определить реальную инновационную активность организации [4]. А мониторинг веб-контента корпоративных интернет-ресурсов позволяет оценить экспортную ориентацию фирмы [5].
Также учеными доказана положительная корреляция между активностью компании в социальных сетях и ее показателями конкурентоспособности [6].
Финансовое состояние компании, например, ее кредитный риск или вероятность ее дефолта также можно оценить с помощью технологий искусственного интеллекта через анализ веб-контент компании в сети Интернет [7]. Особенно актуальна такая оценка, когда речь идет об анализе корректного использования кредитных средств и государственного финансирования.
Другим второстепенным, но ценным источником о состоянии компании является цифровой след представителей компании, ее топ-менеджеров и учредителей в социальных сетях. В совокупности эти данные позволяют проанализировать и оценить социальный капитал исследуемой фирмы [8].
Официальная информация о проектах компании и пассивный цифровой след (утечка внутренней информации, слухи и т.п.) оказывает влияние на успех реализации соответствующего проекта и в целом на репутацию его участников. Кроме того, цифровой след проекта начинается до его старта и продолжается еще некоторое время после его завершения, а также в некоторой части сливается с цифровыми следами заинтересованных сторон и исполнителей [9]. И это все является составляющей цифрового следа компании, особенно если она реализует крупные инфраструктурные проекты. Однако динамика изменения сведений о ходе выполнения проекта больше, чем динамика изменения информации о самой компании, это важно учитывать при построении аналитической модели, когда оценка осуществляется не в режиме реального времени, а с определенной периодичностью.
Цифровой след представляет собой фрагмент комплекса данных о компании, тем самым являясь важной частью ее цифровой модели, т.е. цифрового двойника. А полнота данных в моделях цифрового двойника для компании обеспечивает возможность управления эффективностью бизнес-процессов, повысить гибкость и скорость принятия решений, снизить риски ведения операционной деятельности, а значит повысить финансовую устойчивость данной компании [10].
Важно отметить, что иногда в научной и практической литературе встречаются высказывания о рисках и этических аспектах, связанных со сбором информации о цифровом следе как юридического лица, так и физического. Однако исследования показывают, что при корректном сборе и использовании во благо компаний, общества и государства, многие положительно относятся даже к предоставлению по запросу к данным своего цифрового следа [11]. B одним из главных критериев для добровольного предоставления доступа к данным цифрового следа является доверие к будущему пользователю этой информацией [12].
Материалы и методология анализа
Анализ связи между финансовым и информационным следом при расходовании бюджета, особенно если в качестве информационного следа выбрана активность в социальных сетях, имеет несколько важных причин и обоснований. Анализ социальных медиа может повысить прозрачность и подотчетность государственных расходов. Например, активность в социальных сетях часто отражает общественное мнение и восприятие того, как государственные деньги расходуются.
Данные, предоставленные из различных источников (таких как реестр заключенных контрактов и активность в социальной сети «Вконтакте») являются довольно сырыми и требуют предварительной предобработки.
Как правило, подобные данные анализируются с помощью алгоритмов кластеризации [13]. Анализ полученных кластеров может помочь понять, как социальная активность компаний коррелируется с их финансовыми результатами.
Алгоритмы K-means (К-среднего) и нечеткой кластеризации являются подходящим выбором для данной задачи по нескольким причинам [14]:
- легко реализуется и обычно работает быстро даже на больших наборах данных, что позволяет оперативно обрабатывать данные о контрактах и социальной активности;
- полученные результаты легко интерпретируются, так как каждая точка данных принадлежит одному кластеру, что упрощает анализ и понимание структуры данных;
- данный алгоритм хорошо работает, когда кластеры имеют сферическую форму и примерно одинаковый размер, что может быть достаточно типично для данных о контрактах и социальной активности;
- K-means хорошо масштабируется на большие объемы данных, что важно для работы с данными из государственных реестров и социальных сетей;
- K-means часто используется для сегментации клиентов и других объектов, что делает его подходящим для сегментации компаний на основе их контрактов и активности в социальных сетях.
Таким образом, результаты кластеризации могут помочь выявить группы компаний с похожими характеристиками контрактов, что является полезным для анализа рынка, сегментации клиентов или выявления типичных паттернов в расходовании бюджетных средств. Также, применение данных алгоритмов позволяет систематизировать информацию о компаниях и выявить важные взаимосвязи. В результате это поможет сделать более обоснованные выводы о том, какие факторы могут влиять на успех компаний в конкурентных закупках, и оптимизировать процессы принятия решений в управлении бюджетными ресурсами.
В нашем случае кластеризация позволит:
- разделить компании на группы на основе параметров контрактов, таких как стоимость контракта, предмет контракта и код бюджетной классификации.
- использовать данные о стоимости контрактов, предмете контрактов и других для группировки компаний на основе их активности в социальной сети «Вконтакте».
- определить признаки, отражающие, как финансовые характеристики контрактов, так и социальную активность.
Обработка и анализ данных
Для проведения анализа были выгружены данные из двух источников: Официальный сайт главной Единой информационной системы в сфере закупок (zakupki.gov.ru, ЕИС «Госзакупки») и из социальной сети «Вконтакте). Первый источник предоставляет фрагмент данных финансового следа, а второй – фрагмент данных цифрового следа компании.
Из ЕИС «Госзакупки» были выгружены данные реестра заключенных контактов: Заказчик: наименование; Заказчик: ИНН; Контракт: дата; Предмет контракта; Цена контракта; Код бюджетной классификации; Объект закупки: наименование товаров, работ, услуг; Объект закупки: сумма, рублей; Информация о поставщиках (исполнителях, подрядчиках) по контракту: наименование юридического лица (Ф.И.О. физического лица); Информация о поставщиках (исполнителях, подрядчиках) по контракту: ИНН.
Из социальной сети «Вконтакте» использовалась следующая информация: наличие активной страницы в сети с активными пользователями и обновлениями за последний месяц.
В итоговый датасет были выбраны 387 компаний, исполнителей контрактов по заявкам, на которые выделены деньги из федерального бюджета.
Перед анализом данных проведено несколько этапов предобработки, очистки и преобразования данные, чтобы алгоритмы машинного обучения могли эффективно работать:
– удалены дублирующие записи;
– заполнены пропущенные значения (медианны значением);
– проведено кодирование категориальных переменных (преобразованы категориальные данные (например, наименование заказчика, предмет контракта) в числовые значения с помощью методов, таких как one-hot encoding или label encoding);
– применено масштабирование к числовым признакам, чтобы привести их к одному масштабу (нормализация в диапазоне [0, 1]);
– объединены данные из zakupki.gov.ru и социальной сети «Вконтакте» по общим идентификаторам, таким как наименование компании и следующая информация:
- для компаний: наименование, место нахождения и государственный регистрационный номер записи о создании юридического лица;
- для ИП: фамилия, имя, отчество, основной государственный регистрационный номер записи о государственной регистрации физического лица в качестве индивидуального предпринимателя;
- для самозанятых: фамилия, имя, отчество, ИНН и адрес места оказания услуг [15];
- преобразованы текстовые данные в числовые признаки с помощью методов, таких как TF-IDF для описаний контрактов или обработки естественного языка (NLP) для анализа постов в социальных сетях.
- созданы бинарные переменные, отражающие наличие активной страницы в VK (0 или 1);
- скорректированы выбросы, которые могут сильно влиять на результаты анализа.
Алгоритм K-среднего может быть эффективно применен для кластеризации данных о компаниях, выигравших контракты, с целью выявления групп со схожими характеристиками. Для анализа был определен набор признаков, которые будут использованы для кластеризации. А именно: финансовые характеристики: цена контракта, сумма контракта, код бюджетной классификации; а также Социальная активность: наличие активной страницы в VK, количество обновлений, количество взаимодействий (лайков, комментариев, репостов).
После предварительной обработки к данным были применены алгоритмы кластеризации с различным количеством кластеров (k), используя в качестве ориентира коэффициент силуэта. Оценка качества кластеризации для различных K и выбор значения, при котором средний силуэтный коэффициент максимален. В результате данного анализа было определено, что оптимальное количество кластеров – два.
Результаты анализа
В результате анализа были сформированы два кластера с разными финансовыми характеристиками. В таблице 1 представлены средние значения контрактов, попавших в каждый из кластеров.
Таблица 1 Финансовые характеристики середины кластеров
Атрибут
|
Кластер 0
|
Кластер 1
|
Цена контракта, рублей
|
646552,38
|
1145678,74
|
Объект закупки: сумма,
рублей
|
355433,65
|
559004,28
|
362 компании попали в кластер 0 и 25 компаний – в кластер 1. На рисунке 1 представлены рассматриваемые компании – исполнители, по оси абсцисс отмечена активность в социальной сети «VK» - 0 – неактивные компании, 1 – активные компании. По оси ординат – первоначальная цена контракта. Цветом отображены кластеры, в которые попали компании, размером маркера – конечная стоимость заключенного контракта.
Рисунок 1. Результаты кластеризации
Источник: составлено авторами по материалам исследования
На основе данных, представленных на рисунке 1, можно сделать следующие выводы:
- Кластер 0: включает более дорогостоящие контракты. Компании в этом кластере демонстрируют высокую активность в социальных сетях.
- Кластер 1: содержит менее дорогие контракты. Компании в этом кластере менее активны в социальных сетях или вовсе не активны.
Анализ связи между стоимостью выигранных контрактов в ходе конкурентных закупок и активностью в социальной сети на основе предоставленной информации может выявить несколько важных взаимосвязей и тенденций:
- компании с активными страницами в социальных сетях могут быть более открытыми и прозрачными в своей деятельности, что повышает их шансы на выигрыш контрактов;
- возможность взаимодействия с общественностью и клиентами через социальные сети может способствовать повышению доверия к компании со стороны контрагентов;
- компании, активно продвигающие свои услуги и товары в социальных сетях, могут иметь более сильный бренд и репутацию, что также оказывает положительное влияние на их конкурентоспособность;
- частые обновления и активность могут способствовать большей узнаваемости компании среди потенциальных клиентов и партнеров;
- компании с активной деятельностью в социальных сетях могут получать больше положительных отзывов, что для них преимущество в качестве поставщиков или подрядчиков;
- возможность оперативно реагировать на вопросы и комментарии в социальных сетях может повышать уровень доверия к компании;
- анализ активности компаний в социальных сетях может помочь прогнозировать их успешность в заключении контрактов;
- анализ подобных зависимостей позволяет выявить тенденции и паттерны в поведении компаний, которые коррелируют с успешным заключением контрактов.
Выводы
Гипотеза о наличии корреляции между активностью компании в социальных сетях и стоимостью получаемых контрактов подтверждена в результате кластерного анализа данных о 387 российский компаний.
Связь между стоимостью выигранных контрактов и активностью в социальной сети может быть многообразной и значимой. Она может отражать как уровень прозрачности и подотчетности компаний, так и их маркетинговые усилия, финансовые показатели, общественное доверие и отзывы заказчиков. Анализ этой связи может предоставить ценные инсайты для понимания факторов, влияющих на успешность компаний в конкурентных закупках, и улучшения стратегий управления и принятия решений в этой сфере.
Также, социальные медиа могут служить индикатором того, насколько эффективно и целесообразно были потрачены бюджетные средства, например, реакция в социальных сетях на проекты и инициативы, финансируемые из бюджета, может помочь оценить их реальную пользу и влияние, а активность пользователей может выявить проблемы и недостатки в реализации бюджетных проектов, о которых официальные отчеты могут умалчивать.
Интеграция анализа финансового и цифрового следа, включающего активность в социальных сетях, предоставляет несколько важных преимуществ для государственных органов:
- повышение эффективности и целенаправленности бюджетных расходов;
- обеспечение большей открытости и подотчетности расходования бюджетных средств;
- возможность выявления подозрительных паттернов и аномалий, связанных с коррупционными действиями.
- более точная настройка бюджетных программ и инициатив в соответствии с нуждами и ожиданиями населения.
Более глубокий анализ данных из социальных сетей может быть интегрирован в предсказательные модели для прогнозирования реакций общества на запланированные бюджетные проекты и инициативы или автоматического выявления негативных трендов и проблемных зон в расходовании бюджета. Также, можно оценить есть ли взаимосвязь между активным ведением социальных сетей и стоимостью выигранных контрактов или количеством побед.
Источники:
2. Debón А., Domenech J. Digital footprint approach for the study of competitiveness in wineries // Expert Systems with Applications. – 2024. – p. 125049. – doi: 10.1016/j.eswa.2024.125049.
3. Baur A.W. Harnessing the social web to enhance insights into people’s opinions in business, government and public administration // Information Systems Frontiers. – 2017. – № 2. – p. 231-251. – doi: 10.1007/s10796-016-9681-7.
4. Axenbeck J., Breithaupt P. Innovation indicators based on firm websites –Which website characteristics predict firm-level innovation activity? // PLoS ONE. – 2021. – № 4. – p. e0249583. – doi: 10.1371/journal.pone.0249583.
5. Blázquez-Soriano A., Domenech J. Web data mining for monitoring business export orientation // Technological and Economic Development of Economy. – 2018. – № 2. – p. 1-23. – doi: 10.3846/20294913.2016.1213193.
6. Kaplan A.M., Haenlein M. Users of the world, unite! The challenges and opportunities of Social Media // Business Horizons. – 2010. – № 1. – p. 59-68. – doi: 10.1016/j.bushor.2009.09.003/.
7. Crosato L., Domenech J., Liberati C. Websites’ data: a new asset for enhancing credit risk modeling. Ann Oper Res // Annals of Operations Research. – 2023. – doi: 10.1007/s10479-023-05306-5.
8. Weiler M., Jansen N., Hinz O. Can We Measure the Structural Dimension of Social Capital with Digital Footprint Data? – An Assessment of the Convergent Validity of an Indicator Extracted from Digital Footprint Data // Schmalenbach Journal of Business Research. – 2024. – № 76. – p. 159-195. – doi: 10.1007/s41471-024-00180-8.
9. Bushuyev S., Onyshchenko S., Bushuiev D., Bushuieva V., Bushuyeva N. Dynamics and impact of digital footprint on project success // Scientific Journal of Astana IT University. – 2021. – № 6. – p. 15-22. – doi: 10.37943/AITU.2021.38.94.002.
10. Рысков И.Е. Создание цифрового двойника организации как фактор повышения финансовой устойчивости предприятий в условиях экономической нестабильности // Устойчивое развитие (ESG): финансы, экономика, промышленность: Материалы IV Национальной научно-практической конференции с международным участием. Санкт-Петербург, 2023. – c. 265-271.
11. McDonald R., Skatova A., Maple C. Attitudes towards Sharing Digital Footprint Data: a Discrete Choice Experiment // International Journal of Population Data Science. – 2023. – № 3. – doi: 10.23889/ijpds.v8i3.2287.
12. Shiells K., Di Cara N., Skatova A., Davis O., Haworth C., Skinner A., Thomas R., Tanner A., Macleod J., Timpson N., Boyd A. Participant acceptability of digital footprint data collection strategies: an exemplar approach to participant engagement and involvement in the ALSPAC birth cohort study // International Journal of Population Data Science. – 2020. – № 3. – doi: 10.23889/ijpds.v5i3.1728.
13. Parnes D., Gormus A. Prescreening bank failures with K-means clustering: Pros and cons // International Review of Financial Analysis. – 2024. – p. 103222. – doi: 10.1016/j.irfa.2024.103222.
14. Acito F. Cluster Analysis // Predictive Analytics with KNIME. – 2023. – p. 267–298. – doi: 10.1007/978-3-031-45630-5_13.
15. Заполнение информации о компании или ИП. VK Реклама. [Электронный ресурс]. URL: https://ads.vk.com/help/articles/mini_ads_details (дата обращения: 12.06.2024).
Страница обновлена: 07.10.2024 в 17:11:45