Прогнозирование и анализ ценообразования цифровых товаров на маркетплейсах

Решетникова М.С., Приказнов Ф.А.

Статья в журнале

Вопросы инновационной экономики (РИНЦ, ВАК)
опубликовать статью | оформить подписку

Том 15, Номер 2 (Апрель-июнь 2025)

Цитировать эту статью:



Введение

В условиях активной цифровизации экономики особую значимость приобретает развитие цифровых активов и инфраструктуры их обращения. На современном этапе одним из ключевых инструментов распространения цифровых товаров становятся маркетплейсы, которые выполняют роль посредников между продавцами и покупателями, обеспечивая удобный и безопасный процесс купли-продажи [12 c 34].

Рост востребованности цифровых активов на фоне глобальных экономических и технологических изменений привёл к стремительному развитию маркетплейсов, что подтверждается значительным увеличением их выручки за последние годы. Динамика крупнейших маркетплейсов Российской Федерации демонстрирует положительную тенденцию, отражая как рост спроса на цифровые товары, так и расширение спектра предлагаемых услуг [2].

Изучение рыночной стоимости цифровых товаров становится особенно необходимым условием успешного ведения бизнеса в условиях цифровой экономиких [4, c 104]. Особую актуальность приобретают методы оценки цифровых активов, в частности игровых аккаунтов, которые могут быть адаптированы и применены в иных сегментах цифрового рынка.

Рис. 1. Динамика выручки двух крупнейших маркетплейсов в РФ за 2012-2023 гг.

Источник: Составлено автором по данным [6, 7]

Имея информацию о рыночной цене запускаемого в производство продукта, можно с гораздо большей точностью вынести решение о рентабельности проекта до его непосредственного запуска. [1, c 234]. При этом чем более корректно спрогнозирована цена и чем более несмещенная оценка получена, тем меньше будет заложено риска в прогнозируемую модель целесообразности определенного проекта.

Таким образом, цель данного исследования заключается в определении методов получения наиболее точной рыночной оценки определенного продукта (в данном случае будет рассмотрен цифровой продукт, однако, впоследствии также будет показано, что полученную модель можно будет экстраполировать и на обычный, вещественный товар) и дальнейшего их применения.

Результатом исследования будет конечная модель, которая для определенных входных факторов, описывающих рассматриваемые компоненты анализируемого товара, имеющего вариативность, спрогнозирует ожидаемую цену.

Материалы и методы

В качестве объекта исследования был выбран рынок аккаунтов игры Brawl Stars (имеющей более 100 млн скачиваний на момент 2024-12-11) [18]. Это одна из наиболее популярных игр на Android от разработчика Supercell, также известной такими играми, как Clash Royale, Clash of Clans и Hay Day. Возраст целевой аудитории находится в диапазоне от 10 до 18 лет. Играя в игру (проводя битвы с другими игроками), пользователи «прокачивают» своих персонажей (делают их более сильными), а также открывают новых, вплоть до всех 79. По сути, внутриигровой прогресс будет исчисляться, с одной стороны, количеством персонажей, а с другой стороны – их уровнем прокачки (качеством). Именно это и будет составлять стоимость аккаунта. Поскольку «прокачивать» и получать новых персонажей – достаточно долго и энергозатратно, многие пользователи предпочитают сразу купить готовый аккаунт с определенным прогрессом. Перейдем далее к представлению самих данных.

Таблица 1. Структура исследуемых данных

Переменная
Тип
Пример значения
Описание
price
int
219, 1200, 499
Цена
days_inactive
int
687, 34, 116
Количество дней без активности
published_date
datetime
"2024-05-02 20:57:51"
Дата публикации
brawlers_count
int
31, 71, 46
Количество персонажей
legendary_count
int
1, 8, 4
Количество легендарных персонажей
mythic_count
int
5, 19, 10
Количество мифических персонажей
mail
factor
"firstmailler.net"
Домен электронной почты
level
int
70, 174, 108
Уровень
cups
int
10433, 30163, 19753
Количество кубков
full_legendary_brawlers_addons
int
0, 4, 0
Полные улучшения для легендарных персонажей
full_mythic_brawlers_addons
int
0, 5, 1
Полные улучшения для мифических персонажей
legendary_addons
int
0, 22, 2
Улучшения для легендарных персонажей
mythic_addons
int
1, 38, 8
Улучшения для мифических персонажей
is_good_mail
bool
True, False
«Хорошая» ли почта
Источник: составлено автором на основе [19] с использованием R.

Всего в таблице 10060 строк, каждая строка представляет из себя конкретную сделку.

Далее рассмотрим основные описательные статистики для переменных.

Таблица 2. Описательные статистики для количественных переменных

Metric
days_inactive
price
brawlers_count
legendary_count
mythic_count
level
cups
N
10060
10060
10060
10060
10060
10060
10060
Mean
171,09
330,29
44,77
3,1
9,27
88,3
14567,41
SD
254,68
544,76
17,2
2,65
6,52
47,15
9112,51
Median
37
190
44
2
8
83
13551
Trimmed
111,41
227,48
44,96
2,77
8,77
85,15
13953,91
MAD
20,76
163,09
17,79
2,97
7,41
41,51
8493,82
Min
0
5
1
0
0
5
300
Max
885
13500
79
10
25
407
73074
Range
888
13495
78
10
25
402
72774
Skew
1,69
7,7
-0,07
0,97
0,57
0,91
0,82
Kurtosis
1,29
108,18
-0,53
0,28
-0,53
1,91
1,35
SE
2,54
5,43
0,17
0,03
0,07
0,47
90,85

Источник: составлено автором на основе [19] с использованием R.

Во-первых, N в 10060 для каждой переменной свидетельствует о том, что в наших данных нет пропущенных значений. Далее, стоит обратить внимание на значение медиан, чтобы примерно понимать, что представляют из себя различные совокупности.

Так, медианное значение цены сделки – 190 рублей. Среднее при этом составляет 330 рублей, что говорит о правосторонней скошенности (об этом также говорит и достаточно высокое значение Skew в 7,7 (если Skew >0, распределение скошено вправо). Медианное количество персонажей (brawlers_count) составляет 44 [при 79 максимально возможных), в то время как количество легендарных и мифических персонажей составляют 2 (при 10 максимально возможных) и 8 (при 25 максимально возможных) соответственно.

Средний уровень на аккаунте составляет 88. Более интересна информация по cups (рейтингу). Рассмотрим эту переменную более детально. При среднем в 14500 имеем медиану в 13500, что свидетельствует о незначительной скошенности в правую сторону (об этом же говорит и skew в 0,82). Усеченное среднее составляет 13900, что говорит о незначительном влиянии обоесторонних выбросов на среднее (сравнение медианы и среднего, а также значение skew нам говорят примерно о том же). Куртозис составил 1,35, что меньше 3, то есть распределение является платокуртическим (плосковершинным), т. е. приплюснуто к оси oY, и имеет относительно длинные, но вполне симметричные хвосты.

Изображение выглядит как диаграмма, снимок экрана, График, линия

Контент, сгенерированный ИИ, может содержать ошибки.

Рисунок 1. Гистограмма кубков [рейтинга] аккаунтов.

Источник: составлено автором на основе [19] с использованием R.

Распределение скошено вправо, а также имеет незначительно скопление около 0. Обратную ситуацию наблюдается у цены. Это единственная переменная, у которой куртозис больше трех, при этом значительно больше; он составляет 108,18 единиц. Такое распределение без сомнения можно назвать лептокуртическим (островершинным), т. е. в значительной степени вытянутым вверх в области среднего, которое составляет 190 (по медиане).С учетом того, что максимальное значение составляет примерно 13500, а skew = 7,7 и указывает на правостороннюю асимметрию, можно полагать, что частота аккаунтов резко обваливается после увеличения цены до 300, и далее продолжает равномерное снижение вплоть до 13500.

Изображение выглядит как текст, снимок экрана, График, диаграмма

Автоматически созданное описание

Рисунок 2. Гистограмма цены аккаунтов

Источник: составлено автором на основе [19] с использованием R.

На данном этапе становится вполне очевидно, что данные требуют определенной нормализации. Здесь предлагается сузить диапазон рассмотрения цены с 50 рублей до 2000, а кубков – с 5000 до 40000, и в дальнейшем работать с более удобными данными [20].

Следующий этап предобработки данных будет отведен точечным диаграммам, которые помогают более точно отразить попарную взаимосвязь различных переменных [9 c 345, 14].

Изображение выглядит как текст, диаграмма, снимок экрана, График

Контент, сгенерированный ИИ, может содержать ошибки.

Рисунок 3. Scatter plots наиболее важных характеристик аккаунта (количество всех персонажей, легендарных персонажей, мифических персонажей, величина рейтинга)

Источник: составлено автором с использованием python (библиотеки: pandas и seaborn) на основе данных [19]

Внимание привлекает тот факт, что верхняя часть каждого из четырех графиков практически всегда образует очень четкую тенденцию. Эта тенденция, как несложно заметить, будет наиболее точно аппроксимирована экспоненциальной (или степенной) моделью.

Почему практически все данные подвержены экспоненциальной зависимости? Для того, чтобы объяснить данный факт, можно прибегнуть к аналогии. В микроэкономике существует закон «убывающей предельной отдачи» [11]. Заключается он в том, что при каждом последующем дополнительном использовании ресурса эффект от него уменьшается (становится меньше, чем при предыдущем, уменьшая удельную отдачу от ресурсов). Однако, во-первых, здесь идет речь о другого рода зависимости (логарифмической или степенной с показателем степени <1), во-вторых, процесс игры мало напоминает процесс производства. Тем не менее, суть заключается в том, что играя в игру, изначально пользователь достигает достаточно бурного роста, а далее, при таких же временных затратах, ему все тяжелее и тяжелее развиваться (напоминает эффект «низкой базы»). Иными словами, пользователь может достичь 10000 рейтинга с нуля примерно за месяц игры. Подняться с 10000 до 20000 ему придется уже за месяца 2-3. А с 20000 до 30000 уйдут все полгода. Ввиду этого факта предложение для более высокого рейтинга будет снижаться, причем возрастающими темпами. И это находит обратное отражение в цене (экспоненциальное увеличение).

Можно также апеллировать к трудовой теории стоимости [13, с 329]. Конечно, в игры в первую очередь играют ради удовольствия, однако, создавая аккаунт и обретая внутриигровой прогресс, пользователи создают товар [аккаунт], который может удовлетворить потребность другого человека. Это есть ничто иное как создание добавленной стоимости. С учетом того, что отдача, отражающаяся в изменении количественной переменной (например, рейтинга), уменьшается, игрок должен для получения того же увеличения вложить больше труда. Однако стоимость его труда неизменна вне зависимости от того, на какой стадии развития внутри игры он находится, поэтому при прочих равных большие трудозатраты создадут больше себестоимости (больше издержек) [16 c 67].

Этот тезис можно также подтвердить тем, что существует специальные организации «бустов» (boost – англ., повысить, увеличить) аккаунтов. Поскольку аккаунты имеют стоимость и могут быть проданы, появляются люди, которые специально играют на аккаунтах, чтобы поднять их рейтинг (поскольку того же результата они добиваются за меньшее количество времени, и их предельная отдача за час потраченного времени увеличивается). Конечно, также стоит учитывать и тот факт, что они могут получать гораздо меньше удовольствия от самой игры, поэтому и будут требовать определенную компенсацию в виде повышения часовой ставки.

Теперь следует сделать плотность более равномерной. Для этого проведем узкую группировку переменной cups, с шагом, например, в 100 (этот шаг действительно можно назвать «узким», поскольку sd переменной составляет примерно 9000). И по каждому шагу рассчитаем среднее значение цены. Это приведет к абсолютно равномерной плотности, поскольку каждому диапазону x будет соответствовать одинаковое количество значений y. Применим сразу же экспоненциальную аппроксимацию.

Изображение выглядит как линия, График, снимок экрана, текст

Автоматически созданное описание

Рисунок 4. Экспоненциальная аппроксимация cups-price

Источник: составлено автором с использованием Python (библиотеки: pandas & seaborn) на основе данных [19]

Коэффициент детерминации в 0,96 демонстрирует крайне мощную связь между двумя переменными. Cups превосходно описывает цену. Также можно наблюдать наличие гетероскедастичности в модели, что указывает на то, что при заключении сделок по аккаунтам, у которых кубки примерно выше 30000, и цена примерно выше 1000, значительное влияние начинают оказывать другие факторы.

Другие факторы можно разделить на три группы:

¾ Другие переменные, которые представлены в df, но пока что не были учтены в модели. Это может быть исправлено посредством включения дополнительных факторов.

¾ Другие переменные, которые не представлены в df вообще (это может быть исправлено посредством проведения дополнительного сбора данных).

¾ Иррациональность субъектов. У нас есть данные по фактическим сделкам, однако каждая отдельная сделка может быть как переоценена (ошибка покупателя), так и недооценена (ошибка продавца).

Крайне примечательно, что на диапазоне от 0 до 30000 рейтинга замечена мощная аппроксимация, несмотря на то что в изначальной зависимости с неравной плотностью была огромная вариативность. Это говорит о том, что, во-первых, иррациональность продавцов и покупателей примерно одинакова, и рынок в целом дает корректную оценку аккаунтам, которая напрямую связана с экономическим смыслом образования стоимости аккаунтов (убывающая предельная отдача от затраченного времени на развитие), во-вторых, факторы помимо рейтинга на каждом шаге группировки также оказывают примерно одинаковое влияние, не вызывая значительные смещения и не приводя к отклонениям от тенденции [10 c 5, 17 c 456].

Отобразим теперь данные по предсказанным и фактическим средним значениям.

Табл. 3. Фактические значения price по cups и предсказания экспоненциальной модели.

cups
avarage price
predicted_price
5000
90
77
10000
147
125
15000
223
203
20000
357
329
25000
605
535
30000
1204
870
35000
1766
1414
40000
2616
2298
45000
3420
3736

Модель слегка недооценивает значения на уровне до 30000, чтобы нормально справиться в гетерескедастичностью после 30000 (ввиду специфики экспоненциальной модели). Кроме того, сделав плотность равномерной, было усилено влияние больших значений cups, которые сильно оттягивают на себя регрессию.

Далее будет рассмотрена непосредственно сама модель с модифицированными параметрами на основе метода метода наименьших квадратов (МНК). Целевая функция метода наименьших квадратов (МНК) была модифицирована с целью учета ограничения на положительное отклонение оценки. Это позволило определить нижнюю границу рыночных значений, обеспечивая минимизацию отклонений от модели при контролируемой переоценке в высоковариативных зонах. Проведенный анализ показал, что модель систематически недооценивает значения в центральной части распределения и переоценивает их в правой части. Для устранения переоценки в области высокой вариативности было введено ограничение на допустимое отклонение ошибки модели (не выше 0,05). Оптимизация целевой функции с учетом данного ограничения выполнена с использованием надстройки «Поиск решения» в Excel.

Рисунок 5. Визуализация применения экспоненциальной регрессии с ограничением на ошибки остатков

Источник: составлено автором с использованием Excel на основе данных [19]

Синим пунктиром показана обычная линяя тренда, оранжевым – более консервативные предсказания. Таким образом, был преодолен риск переоценки рыночной стоимости и покупки слишком дорогих аккаунтов в модели с одним предиктором. Однако отметим, что была получена нижняя граница оценки рыночной цен с целью избежать рисков, связанных с покупкой переоцененных аккаунтов. С эконометрической точки зрения подобная ситуация именуется ошибкой первого рода, поскольку модель предполагает, что аккаунт недооценен и призывает к действию (покупку). Ошибка второго рода заключается в том, что модель не призывает к действию (покупке) аккаунта, который недооценен (то есть не совершает действие, когда нужно) [8 c 11].

В случае, если модель рассматривается не для целей перепродажи, а для целей, например, запуска проекта, то ситуация будет аналогичная. Если дана более высокая оценка цене, то есть шанс принятия нерентабельного проекта увеличится. В противном случае увеличивается шанс непринятия рентабельного проекта. Поскольку была намеренно уменьшена вероятность ошибок первого рода ценой увеличения ошибок второго рода, модель можно назвать консервативной. Если для целей исследования есть основания принять данный риск, то модель можно редактировать, изменяя ограничения на остатки разницы логарифмов фактической и прогнозируемой цен с “<=5” до, например, “>=-5”. Тогда модель будет пытаться всегда брать верхнюю планку цены в рамках диапазонов повышенного разброса.

Результаты и обсуждение

Данная модель прогнозирования цены была построена для цифрового товара категории «аккаунт», данные при этом были взяты с определенного маркетплейса. Само же назначение модели в первую очередь сообразно для точечного определения «недооценки» каждого аккаунта в целях увеличения выгоды покупки.

При этом в предпосылках, а также формировании нулевой гипотезы (при интерпретации ошибок первого и второго рода) было также обозначено, что модель ценообразования непосредственно в виде, в котором она была построена здесь, то есть при применении соответствующих методов как обработки данных, так и получения окончательной аппроксимации, может быть применена для целей более точной оценки проекта для запуска нового продукта, поскольку от цены формируется выручка, от выручки в конечном счете прибыль, а от прибыли денежные потоки, которые в итоге используются для подсчета чистой приведенной стоимости проекта. При этом чем более точная дается оценка цене, тем меньше шансов допустить ошибку второго или первого рода при принятии инвестиционного решения. Также модель может быть применена для выхода лица на маркетплейс с продуктом, который уже находится в продаже, либо для выхода компании на рынок. Однако каждый из этих сценариев можно рассматривать как частный случай реализации проекта.

Дальнейший вопрос связан с возможностью применения данной модели для предсказания цены нецифровых товаров. Предположим, российская компания решает проверить целесообразность старта производства ноутбуков, состоящих преимущественно из отечественных компонентов (в рамках программы импортозамещения) [предположим, что предпосылками для запуска такого проекта являются: наличие уникальных технологий в данной сфере у рассматриваемой компании, а также возможность получения субсидирования от государства; данный факт не имеет непосредственного отношения к нашей модели, однако для отражения экономической сущности должен быть отмечен] [3, 15 c 8].

Поскольку компания собирается производить не просто ноутбук исключительно одной модели с одинаковыми комплектующими, но множество различных сборок, у нее появляется необходимость в выделении различных факторов, которые влияют на цену ноутбука.

Во-первых, компании следует досконально исследовать, что в сущности влияет на цену (потребительскую ценность) ноутбука. Вполне очевидно, что производительность, вес, компактность, надежность – это то, что хочет потребитель, однако в каких объективных характеристиках, желательно количественно выражаемых, это отражено? И какой именно характер влияния на цену, предположительно, имеют эти переменные? Предположим, потребитель N готов купить ноутбук производительностью X единиц за Y рублей. Но если производительность была бы в два раза выше, готов ли потребитель заплатить в два раза больше? Или, быть может, он будет готов платить в 4 раза больше или наоборот, не более чем в 0,5 раз больше? Вероятно также, что это может зависеть от базы расчета (то есть при разных Y прирост будет влиять по-разному). Например, в модели прогнозирования цены на аккаунты сразу было обозначено подозрение на экспоненциальную связь, которая обусловлена спецификой сущности «внутриигрового прогресса».

Далее, компании следует приступить к сборке данных. В данной ситуации наиболее рационально будет попросить данные у таких компаний, как, например DNS, М.Видео и Эльдорадо. Затем следует привести все данные к единому виду.

По окончании сбора данных следует выбрать ключевые фактические детерминанты. В случае с ноутбуком это однозначно может быть процессор, величина ОЗУ, тип ОЗУ, тип матрицы, частоты монитора, емкости аккумулятора и т.п. При этом процессор сам по себе будет являться следствием уже непосредственно его характеристик (количество ядер, потоков, кэш-памяти и т.п.), то же самое с видеокартой. Поэтому не исключено, что в рамках нормализации исходных данных можно будет для процессора посчитать совокупную величину «производительность» или что-то подобное. После окончательного приведения в порядок исходных данных можно запускать тот же алгоритм: построение тепловой карты корреляции, scatter-plot графиков, распределение плотности и т.п. Причем отметим, что некорректное изначальное распределение плотностей, вызванное мощной правосторонней асимметрией распределения с высоким значения куртозиса будет в сделках по любому товару – ведь везде есть тенденция большего числа покупок на относительно средние цены, и меньшие числа покупок на дорогие варианты товара (ноутбуки за 40-60 тысяч покупают гораздо чаще, чем ноутбуки за 500 тысяч, что вполне логично).

После окончания преобразования данных компании следует протестировать различные модели, как однофакторные (как в случае модели с прогнозированием цены на аккаунты, поскольку была обнаружена мощная мультиколлинеарность), так и многофакторные, если это необходимо. Рассматривая R-квадрат, а также значения остатков, компания должна, исходя из своего отношения к ошибкам первого и второго рода внести корректировки [5, c 356].

Заключение

В заключение следует отметить, что в рамках данного исследования была разработана статистически значимая модель прогнозирования рыночной цены товара на основе анализа выбранного признака. Модель демонстрирует минимальную смещенность оценок и обеспечивает высокую точность предсказаний.

В процессе разработки модели был сформулирован алгоритм первичной обработки данных, включающий анализ распределений переменных и коррекцию, направленную на нормализацию данных. В ходе анализа выявлены аномалии в распределении цен, характеризующиеся высокой плотностью наблюдений в околомедианных интервалах. Для устранения данной асимметрии предложены методы нормализации, что позволило повысить точность оценки.

В исследовании также обозначены условия применимости модели за пределами конкретного рынка цифровых товаров. Разработанный алгоритм может быть успешно адаптирован к оценке стоимости базовых и вещественных товаров при соблюдении соответствующих предпосылок. Представленный подход обладает гибкостью и воспроизводимостью, что позволяет использовать его в различных экономических и рыночных контекстах.


Страница обновлена: 28.03.2025 в 13:08:02