Тестирование гипотезы дивергенции экономического развития регионов России с помощью анализа выживаемости
Дубовик М.В.1, Дмитриев С.Г.1
1 Российский экономический университет имени Г.В. Плеханова
Статья в журнале
Креативная экономика (РИНЦ, ВАК)
опубликовать статью | оформить подписку
Том 18, Номер 11 (Ноябрь 2024)
Цитировать:
Дубовик М.В., Дмитриев С.Г. Тестирование гипотезы дивергенции экономического развития регионов России с помощью анализа выживаемости // Креативная экономика. – 2024. – Том 18. – № 11. – С. 2993-3010. – doi: 10.18334/ce.18.11.122108.
Аннотация:
Статья посвящена проверке гипотезы о наличии дивергентных процессов в экономическом развитии регионов России, измеренному по показателю среднедушевого денежного дохода. Тестирование производилось с помощью анализа выживаемости Каплана–Мейера. Гипотеза о дивергенции тестировалась на двух наборах данных: фактических данных Росстата о величине названных доходов в 2011–2023 гг. и данных на 2023–2033 гг., полученных в результате прогнозирования по методу ARIMA, включая функции для экспоненциального сглаживания (модель Хольта–Винтерса). В качестве «события» для целей анализа выживаемости мы использовали 30 и 60–ти процентное расхождение между среднедушевым денежным доходом и его медианным значением для обоих наборов данных, фактического и прогнозного. Результаты анализа выживаемости подтвердили наличие дивергенции по наблюдаемому показателю и для фактических, и для прогнозных показателей
Ключевые слова: экономическое развитие, регионы, дивергенция, анализ выживаемости
JEL-классификация: C41, R15
Введение
Актуальность темы исследования
Неравномерное пространственное экономическое развитие («поляризованное» в трактовке Дж. Фридманна [1]), отмеченное еще П. Кругманом [2], является одной из наиболее сложных проблем, с которыми сталкиваются современные государства. Россия в этом отношении не является исключением. Мы ранее уже обращались к этой теме как на уровне отдельно взятого Центрального федерального округа [3], так и на уровне страны в целом [4], констатировав наличие дивергентных процессов в социально–экономическом развитии отечественных регионов. По нашему мнению, вероятное ускорение расхождения траекторий развития субъектов федерации может поставить под угрозу само существование единого экономического пространства страны. В связи с этим мы считаем целесообразным применение анализа выживаемости для подтверждения нашей гипотезы о дивергентном экономическом развитии регионов России.
Литературный обзор
Анализ выживаемости, изначально разработанный в рамках демографических исследований, с 1970–х годов нашел широкое применение в экономике и социальных науках [5, 6]. Этот статистический подход фокусируется на изучении временных данных и событий, часто включающих цензурированные наблюдения, которые необходимо учитывать для обеспечения точности анализа. Ключевые методы в этой области включают оценку Каплана–Мейера и регрессионный анализ Кокса, сосредоточенные на функциях выживания и коэффициентах опасности. В экономике анализ выживаемости используется для исследования таких явлений, как продолжительность безработицы, срок существования предприятий и погашение долгов [5]. Традиционные подходы предполагают наличие определенных стохастических процессов; однако современные методы, такие как «DeepHit», применяют глубокие нейронные сети для непосредственного изучения распределений времени выживания, что улучшает результаты в условиях конкурирующих рисков [7]. Несмотря на возросшую популярность, анализ выживаемости остается недостаточно востребованным в экономических исследованиях по сравнению с другими дисциплинами, что подчеркивает необходимость его более широкого применения [8, 9].
Научный пробел
Несмотря на значительное количество исследований, посвященных экономическому развитию субъектов федерации, существует недостаток эмпирических исследований, применяющих анализ выживаемости для тестирования гипотезы об их дивергенции. Традиционные эконометрические методы не всегда могут адекватно учитывать расходящиеся траектории экономического развития регионов России. Это исследование стремится заполнить данный пробел, применяя анализ выживаемости для более глубокого понимания процессов дивергенции в экономическом развитии отечественных регионов.
Цель исследования
Целью исследования является проверка нашей гипотезы о дивергенции среднедушевых денежных доходов в разрезе российских регионов. В качестве метода подтверждения либо опровержения нашего предположения мы использовали анализ выживаемости. В качестве ключевого события в рамках анализа выживаемости мы рассматривали тридцатипроцентное и пятидесятипроцентное расхождение названного показателя от его медианного значения: вначале для данных о денежных доходах в 2011–2023 гг., затем для спрогнозированных нами данных за 2024–2033 гг.
Научная новизна
Данное исследование представляет собой первый случай применения анализа выживаемости для изучения процессов дивергенции экономического развития, измеряемого по уровню среднедушевых денежных доходов в российских регионах. В отличие от традиционных эконометрических подходов, использование анализа выживаемости позволяет учитывать временные аспекты и динамическую природу экономического роста субъектов федерации. Этот подход открывает новые перспективы для анализа регионального экономического развития и может служить основой для разработки более эффективных стратегий региональной политики.
Авторская гипотеза
Наша гипотеза состоит в том, что диагностированная нами ранее дивергенция экономического развития регионов страны продолжится в ближайшие 12-15 лет, приводя ко все большему расхождению траекторий социально-экономического развития субъектов Российской Федерации.
Методология
Анализ выживаемости используется в медицинской статистике для оценки времени до наступления определенного события. Одной из широко используемых моделей при этом является модель Каплана–Мейера.
Модель Каплана–Мейера позволяет оценить функцию выживаемости S(t), которая определяется следующим образом:
),
|
(1)
|
где ti – время события, di – количество событий в момент времени ti, ni – количество выживших непосредственно перед временем ti.
В качестве события в рамках настоящего исследования мы использовали расхождение (дивергенцию) между среднедушевым денежным доходом регионов и медианным значением названного показателя. Мы тестировали 30–типроцентное и 60–типроцентное расхождение, вначале для периода 2011–2023 гг., затем для прогнозных значений среднедушевого денежного дохода населения регионов.
Анализ проводился с помощью языка R для статистического анализа данных (версия 4.4.1) [10] с использованием пакетов «forecast» (версия 8.23.0) [11], «report» (версия 0.5.9) [12], «writexl» (версия 1.5.0) [13], «survival» (версия 3.7.0) [14], «ggplot2» (версия 3.5.1) [15], «stringr» (версия 1.5.1) [16], «readxl» (версия 1.4.3) [17], «sessioninfo» (версия 1.2.2) [18], «dplyr» (версия 1.1.4) [19], «purrr» (версия 1.0.2) [20] и «tidyr» (версия 1.3.1) [21].
Для анализа выживаемости мы использовали данные Росстата о среднедушевом денежном доходе населения по регионам России [22]. В целях получения более адекватного представления о предполагаемой дивергенции мы исключили из набора данных 10% регионов с наибольшими значениями анализируемого дохода, а также 10% – с наименьшими. В результате мы получили датасет, включающий сведения о 67 субъектах федерации.
Прогнозирование данных мы проводили с помощью метода ARIMA (Autoregressive Integrated Moving Average), включая функции для экспоненциального сглаживания (модель Хольта–Винтерса). Эти методы широко известны, поэтому мы не видим необходимости приводить их формулы в настоящей статье.
Результаты исследования
Используя формулу (1) мы провели анализ выживаемости для данных о среднедушевом денежном доходе за период с 2011 по 2023 гг. На рис. 1 мы представили динамику вероятности 30–типроцентного расхождения названного показателя с его медианным значением.
Рисунок 1. Анализ выживаемости: дивергенция среднедушевых денежных доходов между регионами на 30% от медианного значения. Подготовлено авторами по данным Росстата.
В табл. 1 мы представили количественные параметры тридцатипроцентного расхождения.
Примечание к таблицам:
– time: Период (в годах), в котором происходит событие (расхождение среднедушевого денежного дохода на 30% от медианного значения между регионами);
– n.risk: Количество субъектов, которые всё ещё находятся под наблюдением непосредственно перед данным событием;
– n.event: Количество событий, произошедших в это время;
– survival: Оценка выживаемости на данное время. Это вероятность того, что событие не произойдёт до этого времени;
– std.err: Стандартная ошибка оценки выживаемости;
– lower 95% CI и upper 95% CI: Нижняя и верхняя границы 95%–го доверительного интервала для оценки выживаемости.
Таблица 1. Результаты анализа выживаемости Каплана–Мейера (30% расхождение)
time
|
n.risk
|
n.event
|
survival
|
std.err
|
lower 95% CI
|
upper 95% CI
|
4
|
67
|
7
|
0.8955
|
0.0374
|
0.8252
|
0.972
|
5
|
60
|
42
|
0.2687
|
0.0542
|
0.1810
|
0.399
|
6
|
18
|
3
|
0.2239
|
0.0509
|
0.1433
|
0.350
|
7
|
15
|
2
|
0.1940
|
0.0483
|
0.1191
|
0.316
|
8
|
13
|
6
|
0.1045
|
0.0374
|
0.0518
|
0.211
|
9
|
7
|
4
|
0.0448
|
0.0253
|
0.0148
|
0.135
|
10
|
3
|
3
|
0.0000
|
–
|
–
|
–
|
Подготовлено авторами по данным Росстата.
Интерпретация результатов анализа выживаемости Каплана–Мейера (30%):
1. На 4–й единице времени (т.е. через 4 года после 2023 года):
– 67 субъектов всё ещё находятся под наблюдением
– 7 событий произошло.
– Оценка выживаемости составляет 0.8955, что означает, что примерно 89.55% субъектов не испытали событие к этому времени.
– Доверительный интервал (0.8252, 0.972) показывает диапазон, в котором с 95%–й вероятностью находится истинная вероятность выживаемости.
2. На 5–й единице времени (через 5 лет после 2023 года):
– 60 субъектов под наблюдением.
– Произошло 42 события, что значительно снижает оценку выживаемости до 0.2687 (около 26.87%).
– Доверительный интервал (0.1810, 0.399) отражает неопределённость этой оценки.
3. На последующих временных точках (6–10 лет после 2023 года):
– Количество субъектов под наблюдением и событий уменьшается.
– Оценка выживаемости продолжает снижаться, достигая 0 на 10–й единице времени, что означает, что ко всем субъектам к этому времени пришло событие.
Эти результаты показывают, что при сохранении существующих тенденций в динамике среднедушевого денежного дохода вероятность расхождения в 30% по наблюдаемому показателю с течением времени возрастает.
На рис. 2 мы привели график вероятности наступления 60–ти процентного расхождения по наблюдаемому показателю.
Рисунок 2. Анализ выживаемости: дивергенция среднедушевых денежных доходов между регионами на 60% от медианного значения. Подготовлено авторами по данным Росстата.
Количественные параметры 60% дивергенции представлены в табл. 2.
Таблица 2. Результаты анализа выживаемости Каплана–Мейера (60% расхождение)
time
|
n.risk
|
n.event
|
survival
|
std.err
|
lower 95% CI
|
upper 95% CI
|
6
|
67
|
1
|
0.9851
|
0.0148
|
0.95646
|
1.000
|
7
|
66
|
1
|
0.9701
|
0.0208
|
0.93025
|
1.000
|
8
|
65
|
3
|
0.9254
|
0.0321
|
0.86454
|
0.990
|
9
|
62
|
7
|
0.8209
|
0.0468
|
0.73403
|
0.918
|
10
|
55
|
2
|
0.7910
|
0.0497
|
0.69945
|
0.895
|
11
|
53
|
16
|
0.5522
|
0.0608
|
0.44513
|
0.685
|
12
|
37
|
35
|
0.0299
|
0.0208
|
0.00762
|
0.117
|
Подготовлено авторами по данным Росстата.
Интерпретация результатов анализа выживаемости Каплана–Мейера (50%):
1. Временной диапазон: события происходят с 6 по 13 временную точку после 2023 года
2. Начальная выборка: исследование начинается с 67 субъектов, подверженных риску расхождения.
3. Ранние события: в первые три временные точки (6 – 8 годы после 2023 г.) происходит мало событий, и выживаемость остается высокой (92.54% к 8 временной точке).
4. Средний период: на 9 и 10 временных точках наблюдается умеренное снижение выживаемости до 79.10%.
5. Критический период: значительное снижение выживаемости происходит на 11 временной точке (с 79.10% до 55.22%) и особенно на 12 временной точке (с 55.22% до 2.99%).
6. Конечная точка: к 13 временной точке выживаемость падает до 0%, что означает, что все субъекты испытали событие, т.е. полностью разошлись с медианным значением среднедушевого денежного дохода.
7. Доверительные интервалы: расширяются со временем, что отражает увеличение неопределенности в оценках выживаемости по мере уменьшения размера выборки.
Интерпретация:
– Выживаемость остается высокой (>90%) в течение первых 8 временных единиц.
– Наблюдается умеренное снижение выживаемости на 9–10 временных точках.
– Критический период наступает на 11–12 временных точках, где происходит резкое снижение выживаемости.
– К 13 временной точке все субъекты испытывают событие.
Эти результаты могут указывать на наличие определенного «критического периода» (около 11–12 временных единиц), после которого риск события значительно возрастает.
Ниже представлены результаты анализа выживаемости для прогнозных значений среднедушевого денежного дохода населения регионов Российской Федерации.
На рис. 3 представлена визуализация вероятности наступления 30% дивергенции по наблюдаемому показателю с его медианным значением.
Рисунок 3. Анализ выживаемости: дивергенция прогнозируемых среднедушевых денежных доходов между регионами на 30% от прогнозного медианного значения. Подготовлено авторами на основе собственного прогноза.
В табл. 3 приведены количественные параметры анализа по модели Каплана–Мейера.
Таблица 3. Результаты анализа выживаемости Каплана–Мейера (30% расхождение)
time
|
n.risk
|
n.event
|
survival
|
std.err
|
lower 95% CI
|
upper 95% CI
|
3
|
67
|
8
|
0.8806
|
0.0396
|
0.80628
|
0.962
|
4
|
59
|
37
|
0.3284
|
0.0574
|
0.23314
|
0.462
|
5
|
22
|
21
|
0.0149
|
0.0148
|
0.00213
|
0.104
|
9
|
1
|
1
|
0.0000
|
NaN
|
NA
|
NA
|
Подготовлено авторами на основе собственного прогноза.
Интерпретация результатов анализа выживаемости Каплана–Мейера (для вероятности 30–ти процентного расхождения):
1. Время 3 (2036 г.):
– В начале было 67 субъектов в группе риска.
– 8 событий произошло.
– Вероятность выживания составила 88.06%.
– 95% доверительный интервал: от 80.63% до 96.2%.
2. Время 4 (2037 г.):
– 59 субъектов оставалось в группе риска.
– Произошло 37 событий.
– Вероятность выживания снизилась до 32.84%.
– 95% доверительный интервал: от 23.31% до 46.2%.
3. Время 5 (2038 г.):
– 22 субъекта оставалось в группе риска.
– Произошло 21 событие.
– Вероятность выживания резко упала до 1.49%.
– 95% доверительный интервал: от 0.21% до 10.4%.
4. Время 9 (2042 г.):
– Остался только 1 субъект в группе риска.
– Произошло последнее событие.
– Вероятность выживания стала 0%.
– Доверительный интервал не может быть рассчитан (NA).
Резюме:
– Наблюдается резкое снижение выживаемости между временными точками 3 и 4.
– К временной точке 5 выживаемость становится очень низкой.
– Последнее событие происходит в временной точке 9, после чего выживаемость становится нулевой.
– Широкие доверительные интервалы, особенно в поздних временных точках, указывают на увеличение неопределенности оценок с течением времени.
Эти результаты свидетельствуют об ускоренном течении дивергентных процессов по показателю среднедушевого денежного дохода регионов России в прогнозном периоде.
На рис. 4 мы привели график вероятности шестидесятипроцентной дивергенции прогнозных денежных доходов регионов с прогнозным медианным значением (в целом по выбранным 67 регионам).
Рисунок 4. Анализ выживаемости: дивергенция прогнозируемых среднедушевых денежных доходов между регионами на 60% от прогнозного медианного значения. Подготовлено авторами на основе собственного прогноза
Показатели, характеризующие 60–ти процентную дивергенцию в рамках модели Каплана–Мейера, представлены в табл. 4.
Таблица 4. Результаты анализа выживаемости Каплана–Мейера (60% расхождение)
time
|
n.risk
|
n.event
|
survival
|
std.err
|
lower 95% CI
|
upper 95% CI
|
5
|
67
|
12
|
0.8209
|
0.0468
|
0.7340
|
0.918
|
6
|
55
|
8
|
0.7015
|
0.0559
|
0.6000
|
0.820
|
7
|
47
|
8
|
0.5821
|
0.0603
|
0.4752
|
0.713
|
8
|
39
|
11
|
0.4179
|
0.0603
|
0.3150
|
0.554
|
9
|
28
|
11
|
0.2537
|
0.0532
|
0.1683
|
0.383
|
0
|
17
|
8
|
0.1343
|
0.0417
|
0.0731
|
0.247
|
1
|
9
|
6
|
0.0448
|
0.0253
|
0.0148
|
0.135
|
2
|
3
|
3
|
0.0000
|
NaN
|
NA
|
NA
|
Подготовлено авторами на основе собственного прогноза.
Результаты анализа выживаемости Каплана–Мейера (для вероятности 60–ти процентного расхождения):
1. Время 5 (2038 г.):
– Начинается с 67 субъектов в группе риска.
– 12 событий произошло.
– Вероятность выживания составила 82.09%.
– 95% доверительный интервал: от 73.40% до 91.8%.
2. Время 6 (2039 г.):
– 55 субъектов осталось в группе риска.
– 8 событий произошло.
– Вероятность выживания снизилась до 70.15%.
– 95% доверительный интервал: от 60.00% до 82.0%.
3. Время 7 (2040 г.):
– 47 субъектов осталось в группе риска.
– 8 событий произошло.
– Вероятность выживания снизилась до 58.21%.
– 95% доверительный интервал: от 47.52% до 71.3%.
4. Время 8 (2041 г.):
– 39 субъектов осталось в группе риска.
– 11 событий произошло.
– Вероятность выживания снизилась до 41.79%.
– 95% доверительный интервал: от 31.50% до 55.4%.
5. Время 9 (2042 г.):
– 28 субъектов осталось в группе риска.
– 11 событий произошло.
– Вероятность выживания снизилась до 25.37%.
– 95% доверительный интервал: от 16.83% до 38.3%.
6. Время 10 (2043 г.):
– 17 субъектов осталось в группе риска.
– 8 событий произошло.
– Вероятность выживания снизилась до 13.43%.
– 95% доверительный интервал: от 7.31% до 24.7%.
7. Время 11 (2044 г.):
– 9 субъектов осталось в группе риска.
– 6 событий произошло.
– Вероятность выживания резко упала до 4.48%.
– 95% доверительный интервал: от 1.48% до 13.5%.
8. Время 12 (2045 г.):
– 3 субъекта осталось в группе риска.
– 3 события произошло (все оставшиеся).
– Вероятность выживания стала 0%.
– Доверительный интервал не может быть рассчитан (NA).
Интерпретация:
– Наблюдается постепенное снижение выживаемости с каждым временным интервалом.
– Наиболее резкое снижение происходит между временными точками 10 и 11.
– К временной точке 12 выживаемость становится нулевой.
– Доверительные интервалы расширяются с течением времени, что указывает на увеличение неопределенности оценок.
– Медиана выживаемости находится между временными точками 7 и 8, так как вероятность выживания падает ниже 50% в этом интервале.
Эти результаты показывают постепенное снижение выживаемости в изучаемой группе, с более быстрым снижением на поздних стадиях наблюдения.
Заключение
Полученные нами результаты подтверждают нашу гипотезу о дивергенции экономического развития регионов России, измеряемому по среднедушевому денежному доходу. Анализ выживаемости Каплана–Мейера может служить не только инструментом тестирования гипотезы о дивергенции, но и самостоятельным методом диагностики расхождения траекторий развития субъектов Российской Федерации, обнажая тенденции, угрожающие существованию единого экономического пространства страны.
Источники:
2. Fujita M., Krugman P.R., Venables A. The spatial economy: cities, regions and international trade. The spatial economy. - Cambridge, Mass: MIT Press, 1999. – 367 p.
3. Дубовик М.В., Дмитриев С.Г. Анализ диспропорций регионального развития в Центральном федеральном округе Российской Федерации // Финансовый менеджмент. – 2022. – № 6. – c. 40-51.
4. Дубовик М.В., Дмитриев С.Г. Дивергенция денежных доходов населения регионов России // Креативная экономика. – 2024. – № 3. – c. 697-724.
5. Bieszk-Stolorz B. Application of the Survival Analysis Methods in Contemporary Economics on the Example of Unemployment // Experimental and Quantitative Methods in Contemporary Economics : Springer Proceedings in Business and Economics: eds. K. Nermend, M. Łatuszyńska. — Cham: Springer International Publishing. 2020. – p. 115-131.
6. Danacica D.-E., Babucea A.-G. Using Survival Analysis In Economics // Analele Stiintifice ale Universitatii “Alexandru Ioan Cuza” din Iasi - Stiinte Economice (1954-2015). – 2010. – p. 439-450.
7. Lee C., Zame W., Yoon J., Van Der Schaar M. Lee C., Zame W., Yoon J., Van Der Schaar M // Proceedings of the AAAI Conference on Artificial Intelligence. – 2018. – № 1.
8. LeClere M.J. PREFACE Modeling Time to Event: Applications of Survival Analysis in Accounting, Economics and Finance // Review of Accounting and Finance. – 2005. – № 4. – p. 5-12.
9. Survival Analysis // The SAGE Encyclopedia of Research Design. — 2455 Teller Road, Thousand Oaks California 91320 United States: SAGE Publications, Inc., 2010
10. R: The R Project for Statistical Computing. [Электронный ресурс]. URL: https://www.r-project.org/ (дата обращения: 31.03.2024).
11. Hyndman R.J., Khandakar Y. Automatic Time Series Forecasting: The forecast Package for R3 // Journal of Statistical Software. – 2008. – № 3.
12. Makowski D., Lüdecke D., Patil I., Thériault R., Ben-Shachar M.S., Wiernik B.M. Automated Results Reporting as a Practical Tool to Improve Reproducibility and Methodological Best Practices Adoption. — 2023
13. Ooms J. writexl: Export Data Frames to Excel “xlsx” Format. writexl / Institution: Comprehensive R Archive Network. — 2017
14. Therneau T.M., Grambsch P.M. Modeling survival data: extending the Cox model : Statistics for biology and health. Modeling survival data. - New York: Springer, 2001. – 1 p.
15. Wickham H., Chang W., Henry L., Pedersen T.L., Takahashi K., Wilke C., Woo K., Yutani H., Dunnington D., Brand T. van den Create Elegant Data Visualisations Using the Grammar of Graphics • ggplot2. — 2024
16. Wickham H. Simple, Consistent Wrappers for Common String Operations. - Institution: Comprehensive R Archive Network, 2009.
17. Wickham H., Bryan J., Kalicinski M., Komarov V., Leitienne C., Colbert B., Hoerl D., Miller E. readxl: Read Excel Files. — 2023
18. Wickham H., Chang W., Flight R., Müller K., Hester J. R Session Information. - Institution: Comprehensive R Archive Network, 2017.
19. Wickham H., François R., Henry L., Müller K., Vaughan D A Grammar of Data Manipulation. - Institution: Comprehensive R Archive Network, 2014.
20. Wickham H., Henry L. Functional Programming Tools. - Institution: Comprehensive R Archive Network, 2015.
21. Wickham H., Vaughan D., Girlich M. Tidy Messy Data. - Institution: Comprehensive R Archive Network, 2014.
22. Уровень жизни. [Электронный ресурс]. URL: https://rosstat.gov.ru/folder/13397 (дата обращения: 22.08.2024).
Страница обновлена: 20.11.2024 в 23:26:32