Machine learning algorithms in venture investment management at the stage of technology startup selection

Yuldashev P.R.¹
¹ Российская академия народного хозяйства и государственного управления

Journal paper

Journal of Economics, Entrepreneurship and Law ^{(РИНЦ, ВАК)}
опубликовать статью | оформить подписку

Volume 15, Number 8 (August 2025)

Citation:

Abstract:
The article discusses the possibilities of applying machine learning algorithms in venture investment management at the stage of selecting promising technology startups. Based on the analysis of theoretical approaches and practical examples, the advantages of predictive analytics algorithms (RandomForest, XGBoost, and logistic regression) are substantiated. The stages of organizational and managerial activities of venture investors in making decisions about investing in startups are presented. The participants of the venture capital investment market and the regulatory conditions of their activity in the Russian Federation are described. Based on a review of international experience, evidence of the effectiveness of applying machine learning algorithms to improve the objectivity of evaluating startups and reduce investment risks is provided. In conclusion, practical recommendations on the integration of digital technologies and artificial intelligence algorithms into the investment decision-making processes of venture funds are proposed.

Keywords: venture investment, technology startup, investment management, machine learning, RandomForest, XGBoost, logistic regression

JEL-classification: O31, O32, O33

Введение

Современный венчурный бизнес характеризуется высоким уровнем неопределенности и рисков при оценке технологических стартапов. Традиционные методы инвестиционного анализа, основанные на экспертных оценках и ограниченном наборе финансовых показателей, затрудняют объективное прогнозирование успеха компаний [31]. Статистика показывает, что лишь около 1% стартапов достигают капитализации свыше 1 млрд долларов США, получая статус «единорога», тогда как большинство проектов прекращают существование в первые годы [7]. В таких условиях венчурным инвесторам необходимо эффективно выявлять перспективные проекты среди множества идей. Применение алгоритмов машинного обучения (ML) открывает новые возможности для решения этой задачи [5].

Накопление больших объемов данных о стартапах и развитие технологий искусственного интеллекта создают предпосылки для повышения обоснованности инвестиционных решений [5, 7]. Исследования подтверждают, что машинное обучение эффективно прогнозирует события в условиях высокой неопределенности стартап-среды [9]. Например, алгоритмы способны анализировать исторические данные о стартапах, выявляя факторы, которые коррелируют с успешным выходом на рынок, такие как опыт команды или объем привлеченных инвестиций [27]. В России потенциал машинного обучения в предынвестиционной аналитике подчеркивается рядом авторов: Казакова Е.Д., Тураева А.Р., Мирзоян А.Г., предлагающих рекомендации по выявлению перспективных стартапов и оценке рисков [1]. Практические инструменты, такие как VC ExitPredictor от PitchBook, демонстрируют способность алгоритмов анализировать большие массивы данных и предсказывать успешность выхода стартапа (IPO или продажа) [10]. Российский венчурный рынок, несмотря на свою специфику, включая ограниченный доступ к данным и меньший объем инвестиций по сравнению с США, также начинает активно внедрять подобные технологии [1, 4]. Эти тенденции отражают растущий интерес к внедрению машинного обучения в оценку инвестиционной привлекательности стартапов в России и за рубежом [1, 10].Статья анализирует подходы и алгоритмы машинного обучения, выявляет их преимущества, ограничения и результаты, а также обосновывает необходимость адаптации моделей к российскому контексту, включая данные об участии стартапов в локальных акселераторах.

Цель исследования состоит в определении возможностей и порядка применения алгоритмов машинного обучения при отборе венчурными инвесторами технологических стартапов.

Научная новизна работы заключается в детализации порядка и возможностей применения алгоритмов машинного обучения на фазе отбора технологических стартапов для венчурных инвестиций на развивающихся рынках Российской Федерации.

Гипотеза, сформированная в начале исследования, основана на предположении, что развитие потенциала алгоритмов машинного обучения на примере развивающихся рынков Российской Федерации позволяет реализовать задачу полноценного финансирования технологических стартапов и обеспечить снижения уровня неопределенности и рисков принимаемых решений для российских венчурных инвесторов.

Методология исследования включает применения ряда алгоритмов машинного обучения:

- Стандартизированный подход CRISP-DM (Cross-Industry Standard Process for Data Mining), включающий этапы: понимание бизнес-задачи, сбор и подготовка данных, моделирование, оценка и внедрение [5]. Основными источниками данных служили базы Crunchbase и PitchBook, содержащие структурированные данные (финансовые показатели, размер команды, объем инвестиций) и неструктурированные данные (описания проектов, новости, патенты) [7, 9].

- Дополнительно использовались данные российских акселераторов, таких как GenerationS, для анализа локальных стартапов [3]. В выборке из 120 000 стартапов (Crunchbase) анализировались признаки, включая пожизненную ценность клиента (LTV), стоимость привлечения клиента (CAC), опыт основателей, активность в социальных сетях (LinkedIn) и наличие патентов [7].

- Для российских стартапов учитывались дополнительные параметры, такие как участие в программах Фонда Сколково и объем государственной поддержки [1]. Данные очищались от пропусков (удаление записей с более чем 30% пропущенных значений) и нормализовались (z-преобразование числовых признаков).

- Для выбора признаков применялись метод главных компонент (PCA) и корреляционный анализ для исключения мультиколлинеарности [27]. В частности, PCA позволил сократить количество признаков с 50 до 15, сохранив 85% дисперсии данных [27].

- Использовались модели классификации: логистическая регрессия [16], случайный лес (RandomForest, с гиперпараметрами: n_estimators=100, max_depth=10) [13], градиентный бустинг (XGBoost, learning_rate=0.1, n_estimators=200) [14], и нейронные сети (многослойный перцептрон с двумя скрытыми слоями по 64 нейрона) [19]. Для сегментации стартапов применялся алгоритм k-средних (k=5) по характеристикам, таким как отрасль и темпы роста [5].

- Качество моделей оценивалось метриками: точность (accuracy), полнота (recall), точность положительного прогноза (precision), F1-мера и ROC-AUC. Например, RandomForest показал ROC-AUC=0.85 на тестовой выборке [17]. Для российских стартапов точность моделей составила 0.78, что ниже из-за ограниченного объема данных [1]. Для предотвращения переобучения использовалась 5-кратная кросс-валидация и L2-регуляризация для нейронных сетей [27]. Интерпретируемость обеспечивалась методами объяснимого искусственного интеллекта (XAI), такими как SHAP, которые позволили оценить вклад каждого признака. SHAP показал, что опыт команды и активность в LinkedIn вносят 35% и 20% соответственно в прогноз успеха стартапа [15]. Для российских стартапов SHAP выделил значимость участия в акселераторах (25% вклада) [3].

Приоритеты управления венчурными инвестициями в технологические стартапы

Венчурные инвестиции представляют собой вложение капитала в высокорисковые, но потенциально высокодоходные технологические стартапы, преимущественно на ранних стадиях их развития. Основной целью венчурного инвестирования является получение прибыли через участие в капитале перспективных инновационных компаний, демонстрирующих значительный рост стоимости активов при успешной реализации своих проектов [1].Ключевыми участниками венчурных инвестиций являются [10, 31]:

1. Инвесторы – организации и частные лица, предоставляющие финансовые ресурсы для реализации инновационных проектов:

a. венчурные фонды – профессионально управляемые инвестиционные структуры, аккумулирующие капитал от институциональных и частных инвесторов;

b. бизнес-ангелы – частные инвесторы, вкладывающие собственные средства и оказывающие менторскую поддержку молодым компаниям;

c. корпоративные инвесторы – подразделения крупных корпораций, инвестирующие в стартапы, связанные с их отраслью или технологической стратегией.

2. Технологические стартапы – молодые компании, создаваемые с целью разработки и вывода на рынок новых инновационных продуктов, услуг или технологий. Особенностью стартапов является ориентация на масштабируемость бизнеса и значительный рост стоимости при успешном развитии продукта или технологии [3].

3. Посредники и инфраструктурные организации, обеспечивающие поддержку, развитие и сопровождение стартапов:

a. бизнес-инкубаторы и акселераторы – организации, предоставляющие стартапам менторство, инфраструктуру, образовательные программы и финансирование на самых ранних этапах их развития [4];

b. консультанты и специализированные агентства – структуры, оказывающие стартапам и инвесторам консультационные услуги в области права, финансового менеджмента, маркетинга и развития бизнеса.

На рис.1 представлена схема, определяющая их взаимодействия с учетом роли государства в этих процесса. Взаимодействие между указанными участниками регулируется комплексом нормативно-правовых актов и государственной инвестиционной политики [31].

Рисунок 1 – Участники венчурных инвестиций в технологические стартапы

Источник: составлено автором.

В Российской Федерации основу правового регулирования венчурной деятельности составляют [4]:

1. Федеральный закон от 28.11.2011 № 335-ФЗ «Об инвестиционном товариществе», устанавливающий правовые рамки для создания и функционирования инвестиционных товариществ;

2. Федеральный закон от 02.08.2009 № 217-ФЗ «О создании хозяйственных обществ бюджетными учреждениями науки и образования в целях практического применения результатов интеллектуальной деятельности» («Об инновационной деятельности»), регулирующий вопросы создания и развития инновационных компаний, включая вопросы интеллектуальной собственности;

3. Нормативные акты Минэкономразвития РФ и других ведомств, регулирующие предоставление государственной поддержки и меры стимулирования инновационной и венчурной деятельности (налоговые льготы, гранты, субсидии).

Формирование и развитие венчурной экосистемы происходит в тесном взаимодействии с национальными институтами развития, такими как Российская венчурная компания (РВК), Фонд «Сколково», Фонд содействия инновациям, которые осуществляют финансовую и нефинансовую поддержку стартапов и венчурных инвесторов [2].

Управление венчурными инвестициями - это система процессов, направленных на отбор, финансирование и сопровождение стартапов для максимизации прибыли и минимизации рисков. Эта система включает следующие фазы и этапы (рисунок 2).

Рисунок 2. Полный цикл управления венчурными инвестициями в технологические стартапы

Источник: составлено автором.

Управление венчурными инвестициями в технологические стартапы представляет собой целостную организационно-управленческую систему, направленную на эффективное распределение и использование финансовых ресурсов венчурного инвестора с целью получения максимальной доходности при приемлемом уровне риска. Такая система охватывает совокупность процессов и действий, связанных с принятием и реализацией инвестиционных решений на всех этапах взаимодействия с инновационными проектами [1].

Порядок и возможности применения алгоритмов машинного обучения для оценки инвестиционной привлекательности технологических стартапов

Развитие цифровых технологий оказывает трансформирующее воздействие на методы оценки инвестиционной привлекательности технологических стартапов. В условиях высокой неопределенности и неполноты информации, характерной для ранних стадий развития инновационных проектов, традиционные экспертно-интуитивные подходы оценки становятся все менее эффективными. Их замещают или дополняют аналитические методы, основанные на обработке больших массивов данных и использовании алгоритмов машинного обучения [30].

Применение цифровых технологий позволяет инвесторам значительно повысить точность прогноза успеха стартапа, выявить скрытые взаимосвязи между характеристиками проекта и его вероятными исходами, а также сократить временные и транзакционные издержки на принятие инвестиционных решений. Ключевые направления применения цифровых решений в венчурной аналитике включают (рис.3):

Рисунок 3. Порядок применения цифровых технологий при оценке инвестиционной привлекательности

Источник: составлено автором.

В совокупности, данные методы позволяют формализовать процесс оценки, минимизировать субъективность и повысить обоснованность принимаемых решений, особенно в условиях информационной асимметрии и ограниченного времени. Применение машинного обучения не исключает экспертную оценку, но делает ее более информированной, позволяя сфокусироваться на ограниченном числе проектов с высоким прогнозируемым потенциалом роста [9].

Применение алгоритмов машинного обучения для оценки стартапов демонстрирует высокую эффективность, что подтверждается результатами исследований (см. Таблицу 1) [9, 10, 11].

Таблица 1. Сравнение точности моделей машинного обучения для прогнозирования успеха стартапов

Модель / исследование	Данные	Целевой показатель (критерий успеха)	Достигнутая точность
CapitalVX (Rossetal., 2021)	Crunchbase (США)	Успешный выход (IPO/поглощение) vs неудача	88 [8]
VC ExitPredictor (PitchBook, 2023)	PitchBook	Успешный «exit» (IPO или продажа)	74 [2]
Классификационная модель (Kimetal., 2023)	Crunchbase	Статус стартапа через 5 лет (успех/неуспех)	80–82 [7]

Источник: составлено автором

CapitalVX достигла точности 88% благодаря большому массиву данных (свыше 100 000 стартапов) и включению неструктурированных текстовых данных, таких как описания проектов [11]. VC ExitPredictor показал точность 74%, вероятно, из-за ограниченного набора признаков и меньшего объема данных [10]. Модель Kimetal. (80–82%) обеспечивает сбалансированный результат за счет ансамблевых методов (RandomForest и XGBoost) и учета динамических факторов, таких как рост выручки [13]. Эти различия подчеркивают важность качества и разнообразия данных [27].

Анализ с помощью SHAP выявил ключевые факторы успеха: опыт команды (35% вклада), активность в LinkedIn (20%) и объем привлеченных инвестиций (15%) [15]. Стартапы с числом подписчиков в LinkedIn более 10 000 имеют на 25% выше вероятность успешного IPO [7]. Кластеризация показала, что финтех-стартапы с высоким уровнем цифровизации обладают общим паттерном роста, что позволяет инвесторам фокусироваться на таких сегментах [5].

Внедрение алгоритмов машинного обучения в полный цикл управления венчурными инвестициями

Современные алгоритмы машинного обучения демонстрируют высокий потенциал в трансформации полного цикла управления венчурными инвестициями - от предварительного отбора стартапов до мониторинга и сопровождения вложений. Эти алгоритмы позволяют повышать объективность оценочных процедур, минимизируя субъективные искажения, характерные для традиционных экспертных подходов [31].Одним из ключевых преимуществ внедрения алгоритмов является способность обрабатывать большие и разнородные массивы данных - от финансовой отчетности до поведенческих метрик и информации из социальных сетей.

Так, установлено, что снижение пользовательского интереса к продукту стартапа в цифровом пространстве (например, падение взаимодействия в LinkedIn или Twitter) предшествует падению продаж на 3–6 месяцев, позволяя инвесторам своевременно адаптировать стратегии [5, 27].Тем не менее, внедрение алгоритмов сопровождается рядом вызовов:

· Неполнота данных: На ранних стадиях стартапы предоставляют ограниченные финансовые сведения. Модели вынуждены использовать прокси-переменные (например, рост числа подписчиков или публикаций команды в LinkedIn), что снижает точность прогноза [7].

· Смещения и географическая предвзятость: Алгоритмы, обученные на данных стартапов из США или в основном в IT-секторе, хуже прогнозируют успех проектов из других регионов и отраслей. Анализ базы PitchBook показал, что стартапы с основателями из развивающихся стран получают на 5% более низкий предсказанный рейтинг при сопоставимых характеристиках [14]. Для устранения таких искажений используются методы fairness-aware ML, включая перекалибровку весов (reweighting) и противодействующую тренировку (adversarialtraining) [27].

· Интерпретируемость моделей: Сложные архитектуры, такие как нейронные сети, представляют собой «черный ящик», ограничивающий прозрачность решений. Однако методы объяснимого ИИ (XAI), в частности SHAP, позволяют наглядно интерпретировать вклад каждого признака в итоговый прогноз. Так, было установлено, что рост числа пользователей продукта стартапа на 10% повышает вероятность инвестиционного успеха на 8% [15].

· Обновляемость моделей: Внешние шоки — например, изменения в регуляторной среде, такие как новые стандарты в области ИИ (2024 г.) — быстро делают устаревшими модели, обученные на исторических данных [1]. Решением становится регулярное дообучение и интеграция потоков актуальной информации в реальном времени [5].

Таким образом, внедрение алгоритмов машинного обучения в венчурное управление должно осуществляться как элемент целостной стратегии, охватывающей весь инвестиционный цикл.

Таблица 2. Примеры машинного обучения на этапах и фазах рекомендованные к применению [3;5;6;7;9;17;14;18]

Источник: составлено автором.

Фаза / этап управления	Рекомендуемые алгоритмы машинного обучения	Ожидаемый эффект
1. Фаза отбора
1.1. Оценка инвестиционной привлекательности	CRISP DM(Cross-Industry Standard Process for Data Mining)	Автоматизация извлечения релевантной информации из неструктурированных источников (медиа, соцсети, базы данных) [5]
1.2.Углубленная проверка стартапа (Due Diligence)	LinkedIn	Оценка устойчивости и социального капитала команды основателей [7]
1.3. Принятие решения (выбор стартапов)	Random Forest, Gradient Boosting (XGBoost), Logistic Regression	Быстрая идентификация перспективных проектов на основе совокупных факторов [17; 14; 18]
2. Фаза финансирования
2.1 Предоставление капитала	Gradient Boosting, Support Vector Machines (SVM)	Оптимизация объема и условий предоставляемого капитала [14]
2.2 Переоценка привлекательности стартапа	CatBoost, XGBoost, SHAP, Isolation Forest, Autoencoders	Повышение точности оценки инвестиционной привлекательности [18]
2.3 Корректировка инвестиционной стратегии	Reinforcement Learning (RL), Monte Carlo Simulation, GAN	Повышение эффективности распределения инвестиций и адаптивность стратегии [14]
3. Фаза сопровождения
3.1 Поддержка в развитии (менторство, нетворкинг)	ML-анализ clickstream данных, Clustering algorithms	Выявление динамики и паттернов пользовательского поведения [3]
3.2 Выход из инвестиций (Exit)	SHAP; LIME; Logistic Regression, XGBoost	Минимизация потерь, повышение доходности [6; 9]

Внедрение алгоритмов машинного обучения в систему управления венчурными инвестициями обеспечивает качественный прирост в оценке инвестиционной привлекательности стартапов и управлении рисками на всех ключевых фазах инвестиционного цикла. Использование ML-инструментов позволяет повысить точность прогноза успеха проектов, автоматизировать мониторинг динамических показателей, а также оптимизировать стратегии выхода из инвестиций, что критически важно в условиях высокой волатильности и неопределенности инновационных рынков [1; 3; 5; 6; 9].

Рекомендуется следующий набор тактических и стратегических подходов:

· Интеграция цифровых поведенческих метрик в модель оценки (например, динамика подписчиков, активность основателей в LinkedIn) для повышения прогностической способности [7].

· Постоянное дообучение моделей с учетом изменений макроэкономической и нормативной среды, включая адаптацию к новым регламентам в сфере цифровых технологий и венчурного финансирования [1].

· Применение методов XAI (SHAP, LIME) для объяснения результатов моделей и повышения уровня доверия со стороны инвестиционных комитетов [15].

· Локализация моделей под национальные особенности, включая данные о взаимодействии стартапов с инфраструктурой поддержки (например, участие в GenerationS, поддержка Фонда «Сколково»), что может увеличить точность предсказаний на 5–10% [3].

· Совмещение предиктивной аналитики и традиционной экспертной оценки формирует сбалансированный подход к принятию решений, снижая риски, повышая скорость отклика и способствуя более эффективному распределению капитала в условиях информационной турбулентности и высокой конкуренции [31, 9].

Заключение

Представленный авторский подход к внедрению алгоритмов машинного обучения в систему управления венчурными инвестициями на этапе отбора технологических стартапов подтвердил свою эффективность и практическую применимость. Проведенный анализ показал, что использование современных методов МО, в частности, алгоритмов RandomForest, XGBoost, логистической регрессии, а также инструментов explainable AI (SHAP), позволяет повысить точность оценки инвестиционной привлекательности проектов, объективизировать процесс принятия решений и снизить риски инвестирования в условиях высокой неопределенности, характерной для развивающихся рынков Российской Федерации.

Авторский подход учитывает институциональные ограничения, особенности доступных данных, а также интегрирует лучшие практики международной и российской венчурной индустрии. Полученные результаты открывают перспективы для дальнейшего развития цифровых инструментов поддержки инвестиционных решений в отечественной практике венчурного финансирования.

References:

Arroyo J., Corea F., Jimenez-Diaz G., Recio-Garcia J.A. (2019). Assessment of machine learning performance for decision support in venture capital investments IEEE Access. 7 124233–124243. doi: 10.1109/ACCESS.2019.2938659.

Bai S., Zhao Y. (2021). Startup investment decision support system based on machine learning approaches System. (3). 55. doi: 10.3390/systems9030055.

Biau G., Scornet E. (2016). A random forest guided tour Test. (2). 197–227. doi: 10.1007/s11749-016-0481-7.

Breiman L. (2001). Random forests Mach. Learn. (1). 5–32. doi: 10.1023/A:1010933404324.

CB Insights. Venture capital funnel shows odds of becoming a unicorn are about 1%Research Brief. – 2018. Retrieved June 01, 2025, from https://www.cbinsights.com/research/venture-capital-funnel-unicorn

Chen T., Guestrin C. (2016). XGBoost: A scalable tree boosting system Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 785–794. doi: 10.1145/2939672.2939785.

Choi Y. (2024). Startup Success Prediction with PCA-Enhanced Machine Learning Models Journal of Technology Management & Innovation. (4). 77-90. doi: 10.4067/S0718-27242024000400077.

Corea F., Bertinetti G., Cervellati E.M. (2021). Hacking the venture industry: An early-stage startups investment framework for data-driven investors Machine Learning with Applications. 5 100062. doi: 10.1016/j.mlwa.2021.100062.

Friedman J.H. (2001). Greedy function approximation: A gradient boosting machine Annals of Statistics. (5). 1189–1232. doi: 10.1214/aos/1013203451.

Goodfellow I., Bengio Y., Courville A. (2016). Deep learning

Hastie T., Tibshirani R., Friedman J. (2009). The elements of statistical learning: Data mining, inference, and prediction

James G., Witten D., Hastie T., Tibshirani R. (2013). An introduction to statistical learning

Kazakova E.D. (2023). Potential of machine learning for development of the venture capital investments in Russia. The problems of Economy. 19 (2). 209–215.

Kim J.H., Kim H.G., Geum Y. (2023). How to succeed in the market? Predicting startup success using a machine learning approach Technological Forecasting and Social Change. 193 122614. doi: 10.1016/j.techfore.2023.122614.

Lerner Dzh. (2019). Venture capital and private investments

Lundberg S.M., Lee S.-I. (2017). A unified approach to interpreting model predictions Advances in Neural Information Processing Systems. 30 4765–4774. doi: 10.5555/3295222.3295230.

Park J., Choi S., Jeong Y. (204). Predicting startup success using bias-free machine learning: resolving data imbalance using GAN Journal of Big Data. 11 122. doi: 10.1186/s40537-024-00993-8.

Provost F., Fawcett T. (2013). Data science for business

Razaghzadeh Bidgoli M., Raeesi Vanani I., Goodarzi M. (2024). Predicting the success of startups using a machine learning approach Journal of Innovation and Entrepreneurship. 13 80. doi: 10.1186/s13731-024-00436-x.

Ross G., Das S.R., Sciro D., Raza H. (2021). CapitalVX: A machine learning algorithm for startup selection and exit prediction Journal of Finance and Data Science. 7 94–114. doi: 10.1016/j.jfds.2021.03.001.

Schapire R.E., Freund Y. (2012). Boosting: Foundations and algorithms

Shabeka V.L., Basalyga A.E. (2022). Investment attractiveness of technology startups: theory and practice of early venture financing

Shalev-Shwartz S., Ben-David S. (2014). Understanding machine learning: From theory to algorithms

TechCrunch. – 10.01.2025TechCrunch. Global Venture Funding Review 2024: AI startups drive resurgence. Retrieved June 01, 2025, from https://techcrunch.com/global-venture-2024

Turaeva A.R., Mirzoyan A.G. (2023). Artificial intelligence: perspectives of entrepreneurs and investors. Scientific research of the Faculty of Economics. Electronic journal. 15 (4). 75-91. doi: 10.38050/2078-3809-2023-15-4-75-91.

Vapnik V.N. (1995). The nature of statistical learning theory

Venture Capital Exit Predictor: Methodology and Performance. – 2023PitchBook. Retrieved May 24, 2025, from https://pitchbook.com/news/articles/venture-capital-exit-predictor

Zliobaite I. (2022). Fairness in Machine Learning: A Survey ACM Computing Surveys. (1). 1-39. doi: 10.1145/3465271.

Żbikowski K., Antosiuk P. (2021). A machine learning, bias-free approach for predicting business success using Crunchbase data Information Processing & Management. (4). 102555. doi: 10.1016/j.ipm.2021.102555.

Страница обновлена: 23.06.2025 в 16:00:20

Подробнее об авторе: