Международный опыт использования стандартов данных и идентификаторов для анализа Big Data
Алиев М.М.1
1 Московский государственный институт международных отношений (Университет) Министерства иностранных дел Российской Федерации
Статья в журнале
Экономическая безопасность (РИНЦ, ВАК)
опубликовать статью | оформить подписку
Том 7, Номер 9 (Сентябрь 2024)
Цитировать:
Алиев М.М. Международный опыт использования стандартов данных и идентификаторов для анализа Big Data // Экономическая безопасность. – 2024. – Том 7. – № 9. – С. 2291-2304. – doi: 10.18334/ecsec.7.9.121766.
Аннотация:
В работе исследован международный опыт использования стандартов данных и идентификаторов для анализа big data. Рассмотрены стандарты нормативных данных финансовой отрасли. Особое внимание уделено стандартам данных, используемых финансовыми регуляторами.
Проведён аналитический обзор применения стандартов данных в нормативных пулах данных. На примере Европейского Союза проанализированы правила, инициативы и проекты, включающие стандартизацию данных в банковском секторе, страховании и сегментах рынка капитала.
Определён потенциал стандартов данных для анализа big data. Выявлены возможности входных данных для алгоритмов big data. Сформированы кейсы потенциального применения анализа big data, практическая реализация которых позволит сравнивать аналитические результаты по отраслям, географическим регионам и инструментам.
Ключевые слова: большие данные, финансовый рынок, технологии, стандарты данных и идентификаторов, международный опыт
JEL-классификация: G10, P34, Z23
Введение. Концепция применения аналитических методов к высокочастотным и диверсифицированным наборам данных хорошо зарекомендовала себя в регулирующих средах. Наиболее часто используемыми методами анализа больших данных (big data) являются:
– машинное обучение – компьютерные системы обучаются на основе big data и формируют математические модели, позволяющие делать прогнозы и принимать решения [2];
– глубокое обучение – нейронные сети обучаются на big data для выявления сложных паттернов и абстракций;
– визуализация – использование графических инструментов и техник для визуального представления данных и выявления паттернов и трендов;
– кластеризация – метод, при котором данные автоматически группируются на основе их сходства и различий, без заранее заданных классификаций;
– обработка потоковых данных – обработка данных в режиме реального времени по мере поступления и обнаружения, а также анализа событий, требующих оперативного реагирования [4].
Однако в процессе применения методов big data к государственным и нормативным наборам данных, – исследователи, эксперты и регулирующие органы отмечают ряд проблем, связанных в первую очередь с:
– управлением big data, архитектурой и пониманием;
– фрагментацией big data в хранилищах;
– производительностью ИТ-инфраструктуры;
– ограничениями ложных срабатываний;
– доступностью знаний и исследований [1].
При этом, если «производительность ИТ-инфраструктуры» и «ограничения ложных срабатываний» постепенно преодолеваются благодаря технологическим достижениям, то – «управление big data, архитектурой и пониманием», «фрагментация big data в хранилищах» и «доступность знаний и исследований», остаются ключевым бременем в реализации потенциала big data.
Цель исследования: изучить международный опыт использования стандартов данных и идентификаторов, применимых для анализа big data.
Задачи исследования:
– рассмотреть стандарты нормативных данных финансовой отрасли;
– провести аналитический обзор применения стандартов данных в нормативных пулах данных;
– определить потенциал стандартов данных для анализа big data.
Практическая значимость. Результаты проведенного исследования могут быть рекомендованы участникам финансового рынка для практического применения в процессе текущей деятельности с целью организации ее эффективности.
Стандарты нормативных данных финансовой отрасли. Среди основных инструментов, используемых финансовыми регуляторами для понимания обрабатываемых ими данных, стандарты данных и идентификаторы образуют важное подмножество из-за их функциональной роли в обеспечении сбора, проверки и организации данных [10]. В связи с чем, существует широкий спектр стандартов в области финансовых данных.
Европейские эксперты в области регулирования из Frankfurt Group Technical Workshop [1] проанализировали и классифицировали наиболее распространенные международные стандарты, применяемые в секторах финансового рынка. Классификация содержит следующие позиции, и в перспективе может быть дополнена:
– 2-е методологии описания big data (DPM, SMCube);
– 4-е идентификатора big data (ISIN, LEI, UTI, UPI);
– 16-ть стандартов big data: 11-ть детализированных стандартов (FixProtocol, FIBO, FIRO, CCS, FPML, MDDL, ISO20022, ACORD, IFX, MISMO, XBRL GL); 5-ть агрегированных стандартов ((XBRL, SDMX, RIXML, SDDS, Genericode)
– 1-а инициатива по данным (ACTUS), описывающая big data детализированного уровня.
В таблице 1 представлено краткое содержание каждого компонента.
Таблица 1. Список стандартов данных, используемых финансовыми регуляторами
Аббревиатура
|
Полное
наименование
|
Цель
|
ACORD
|
Стандарты
и структура данных ACORD
|
Стандарты
данных для страхования жизни и имущества, ренты и несчастных случаев.
Сообщения о претензиях и урегулировании.
|
ACTUS
|
Фонд
финансовых исследований ACTUS
|
Стандарт
данных и алгоритмов, направленный на разделение финансовых инструментов по
моделям денежных потоков
|
CCS
|
Клиринг
и стандарт подключения
|
Клиринг
транзакций OTS (в контексте технологии блокчейн решения OTS играют решающую
роль в обеспечении безопасности транзакций и повышении прозрачности)
|
DPM
|
Модель
точек данных
|
Многомерное
моделирование данных
|
FIBO
|
Финансовая
индустрия Бизнес-онтология
|
Определение
терминов и синонимов финансовой отрасли
|
FIRO
|
Онтология
регулирования финансовой отрасли
|
Онтология
для описания области регулирования финансовых услуг
|
FIXProtoco
|
Протокол
FIX
|
Протокол
для международного обмена информацией в режиме реального времени, связанной с
операциями рынка ценных бумаг
|
FPML
|
Язык
разметки финансовых продуктов
|
Стандарт
обмена деловой информацией для электронных сделок и обработки финансовых
производных инструментов
|
Genericode
|
Общий
код
|
Представление
списка общих кодов
|
IFX
|
Интерактивный
финансовый обмен
|
Взаимодействие
внешних/внутренних систем относительно финансовой информации
|
ISIN
|
Международный
идентификационный номер ценных бумаг
|
Уникальный
международный идентификатор ценных бумаг
|
ISO 20022
|
Универсальная
схема сообщения финансовой индустрии
| |
LEI
|
Идентификатор
юридического лица
|
Стандарт
идентификации субъектов предпринимательской деятельности
|
MDDL
|
Язык
определения рыночных данных
|
Стандарт
для описания финансовых инструментов, корпоративных событий и рыночных
показателей
|
MISMO
|
Организация
по поддержанию стандартов в ипотечной отрасли
|
Стандарты
данных, охватывающие весь жизненный цикл ипотеки
|
RIXML
|
Язык
разметки обмена исследовательской информацией
|
Язык
для описания документов по инвестиционным и другим исследованиям
|
SDDS
|
Специальный
стандарт распространения данных
|
Стандарт
распространения статистической информации
|
SDMX
|
Статистические
данные метаданного обмена
|
Статистические
временные ряды
|
SMCube
|
Единая
многомерная модель метаданных
|
Модель,
используемая для определения структуры группы наборов данных, которые были
составлены с использованием различных методологий моделирования
|
UPI
|
Универсальный
идентификатор продукта
|
Уникальная
идентификация элементов данных внебиржевых деривативов
|
UTI
|
Универсальный
идентификатор транзакции
|
Уникальная
идентификация отдельных транзакций с внебиржевыми деривативами, которые
финансовые регуляторы требуют сообщать в торговые репозитории
|
XBRL
|
Расширяемый
язык деловой отчетности
|
Электронная
деловая отчетность
|
XBRL GL
|
Расширяемый
бизнес
Язык отчетности Глобальная книга |
Открытый
стандарт для транзакционной отчетности
|
Помимо стандартов данных, отраженных в таблице 1, в настоящее время реализуется ряд других инициатив, содержащих финансовые инструменты с расширенным онтологическим описанием, включающих элементы существующих стандартов и идентификаторов. Кроме того, приведенную выше классификацию нельзя воспринимать, как каноническую. Скорее, она представляет собой подход к использованию конкретного стандарта данных для первоначальной категоризации. Тем не менее, реальное применение различных стандартов пересекает границы, обозначенные первоначальными намерениями.
Например, SDMX и XBRL используются для сбора высокодетализированных данных в ряде нормативных проектов. Аналогичным образом, отдельные стандарты данных все чаще сочетаются с механизмами агрегации, чтобы отражать агрегированные показатели. И только три стандарта данных (ISO 20022, SDMX и XBRL) были определены как ключевые для финансовой отрасли и используются во многих нормативных актах. При этом, протокол FIX также широко принят, но ISO 20022 является предпочтительным.
Стандарт ISO 20022 – это комплексный подход к стандартизации на основе XML, включающий методологию, процесс и репозиторий для использования в инициативах по финансовым стандартам.
SDMX – это стандарт на основе XML, поддерживаемый международными регулирующими и статистическими органами (Международный валютный фонд (МВФ), Всемирный банк (ВБ), Европейский Центральный Банк (ЕЦБ), Евростат). Он описывает временные ряды данных полученных с помощью переменных с определенной информационной моделью.
XBRL – это открытый стандарт для обмена многомерной деловой информацией с математическими и логическими бизнес-правилами, которая обменивается в виде документов-экземпляров.
Применение стандартов данных в пулах нормативных данных. В данном разделе, на примере Европейского Союза (ЕС) проанализируем, – какие пулы данных, собираемые и обрабатываемые финансовыми регуляторами используют стандарты данных. Для этого обратимся к правилам, инициативам и проектам ЕС, включающие стандартизацию данных в банковском секторе, страховании и сегментах рынка капитала:
1. Директива о требованиях к капиталу IV / Регламент о требованиях к капиталу (CRD/CRR);
2. Статистическая отчетность денежного рынка (MMSR);
3. AnaCredit;
4. Статьи баланса – денежные процентные ставки (BSI-MIR);
5. Статистика владения ценными бумагами (SHS);
6. Регламент инфраструктуры европейских рынков (EMIR);
7. Директива о рынках финансовых инструментов II / Регламент о рынках финансовых инструментов (MiFID/MiFIR);
8. Операции по финансированию ценных бумаг (SFT);
9. Предприятия по коллективному инвестированию в переводные ценные бумаги (UCITS);
10. Директива о рынках альтернативных инвестиционных фондов (AIFMD);
11. Solvency II;
12. Target 2 Securities (T2S);
13. Единая европейская платежная зона (SEPA);
14. Директива о борьбе с отмыванием денег IV (AMLD IV);
15. Единый европейский электронный формат (ESEF).
В ходе анализа вышеуказанные нормативно-правовые документы были оценены по факторам, применимых к аналитике big data (структурированные/неструктурированные данные), что позволило определить для каждого регламента ключевой стандарт данных (табл. 2).
Таблица 2. Финансовые правила и стандарты данных ЕС
Регламент
|
Стандарты
данных
|
Структурированные/
неструктурированные данные |
CRD
IV / CRR
|
DPM
/ XBRL
|
Структурированные/неструктурированные
|
MMSR
|
ISO
20022
|
Структурированные
|
AnaCredit
|
SDDS
| |
BSI-MIR
|
SDMX
| |
SHS
|
SDMX
| |
EMIR
|
ISO
20022
| |
MiFID
II / MiFIR
|
ISO
20022
| |
SFT
|
ISO
20022
| |
UCITS
|
ACTUS
|
Структурированные/неструктурированные
|
AIFMD
|
ACTUS
| |
Solvency
II
|
DPM
/ XBRL
| |
T2S
|
ISO
20022
|
Структурированные
|
SEPA
|
ISO
20022
| |
AMLD
IV
|
SDDS
|
Структурированные/неструктурированные
|
ESEF
|
XBRL
|
Несмотря на относительную субъективность, отражённую в таблице 2, можно увидеть, что наборы данных могут быть как структурированными, так и неструктурированными в зависимости от применяемого стандарта данных. Кроме того, финансовые регуляторы постепенно гармонизируют требования к данным и применяют общие стандарты.
Важно отметить, что большинство регулятивных инициатив в значительной степени опираются на словари данных, и поэтому финансовые регуляторы внедряют их стандартизированные версии как внутри организации (например, в ЕЦБ – статистический словарь данных на основе SMCube), так и для связи с контролируемыми субъектами (для банков – банковский интегрированный словарь отчетности) [6].
Потенциал стандартов данных для анализа больших данных. Как было показано на примере нормативных актов ЕС, типичный центральный банк может обрабатывать структурированные/неструктурированные наборы данных (табл. 2), которые одновременно могут быть предметом анализа big data. Так, какой-либо центральный банк в Азии или Латинской Америке может собирать и обрабатывать аналогичные CRD/CRR, наборы данных основанные на Базельском соглашении (информация о собственных средствах, рыночном, операционном и кредитном риске, кредитном плече, ликвидности, крупных рисках и т. д.) [3; 7]. Кроме того, многие из центральных банков уже формируют интегрированные данные о кредитах и ценных бумагах. В то время как сбор интегрированных данных связанных с платежами уже является традиционным опытом центральных банков. Поэтому, все большее количество наборов данных аккумулируется с использованием таких стандартов как ISO 20022, XBRL и SDMX.
Между тем, стандартизация нормативных данных сможет обеспечить как минимум еще два преимущества в алгоритмах big data:
– устранит бремя, связанное с управлением big data, архитектурой и пониманием, а также фрагментацией big data в хранилищах;
– стандартизированные словари, схемы и идентификаторы предоставят актуальную и достоверную информацию для алгоритмов big data, например, ключевые слова, ссылки и отношения.
В таблице 3 отражены входные данные из нормативных стандартов данных для различных алгоритмов big data.
Таблица 3. Входные данные для алгоритмов big data
Входные данные
|
Алгоритмы
|
Функции
|
Словари SMCube
(SMCube Dictionaries) |
Расстояние
Левенштейна (Levenshtein distance)
|
Метрика
минимального количества правок одного символа, необходимых для изменения
последовательности символов
|
Словари
моделей точек данных
(Data Point Model Dictionaries) |
Дамерау-Левенштейн
(Damerau-Levenshtein)
|
Вариация,
измеряющая количество требуемых правок
|
Схемы
SDMX и информационная модель
(SDMX Schemas and Information Model) |
Нидлман-Вунш (Needleman-Wunsch)
|
Динамическое
программирование
|
Словарь
бизнес-концепций ISO20022
(ISO20022 Business Concepts Dictionary) |
Алгоритм Bitap с
модификациями
Wu и Manber |
Дискретный
тест. Приблизительное равенство измеряется с помощью заданного максимального
расстояния
|
Таксономии
XBRL
(XBRL Taxonomies) |
n-gram
|
Статистический
анализ последовательности речи или текста (слогов, букв, слов…) с целью
прогнозирования следующего элемента последовательности, основываясь только на
значении предыдущего элемента
|
Идентификатор
юридического лица
(Legal Entity Identifier) | ||
Универсальный
идентификатор транзакции
(Universal Transaction Identifier) | ||
Универсальный
идентификатор продукта (Universal Product
Identifier) |
BK-дерево
(BK-tree)
|
Конфигурация
сходства последовательностей символов, организованная в деревья на основе
определенной метрики (обычно Левенштейна)
|
Универсальный
идентификатор транзакции
(Universal Transaction Identifier) | ||
Универсальный
идентификатор транзакции
(Universal Transaction Identifier) |
Soundex
|
Фонетический
алгоритм индексации слов по английскому произношению. Позволяет сопоставлять слова,
устраняя различия в написании
|
ISIN
| ||
Онтологии
(Ontologies)
|
Поскольку многие алгоритмы big data опираются на анализ символов, – структурированные словари, классификации, онтологии и категоризации предоставляют более рациональные входные данные для машинного обучения при анализе пулов нормативных данных. Следовательно, Data Point Model, SMCube или SDMX-IM (SDMX Information Model) способствуют эффективности входных данных в процессе аналитики big data. Более того, данный потенциал расширяется, так как финансовые регуляторы рассматривают возможность объединения наборов нормативных данных с публичными/коммерческими пулами данных с помощью различных веб-приложений, которые объединяют данные из нескольких источников в один интегрированный инструмент [8].
Учитывая выше изложенное, автор предлагает рассмотреть потенциальные варианты использования, где нормативные стандартизированные данные с веб-приложениями и общедоступными наборами данных могут предоставить новые возможности (табл. 4).
Таблица 4. Кейсы потенциального применения анализа big data
Кейсы [2]
|
Фреймворки
данных
|
Данные
веб-приложений
|
Определение
схем страхования и требований к техническим рискам и актуарным оценкам
|
Платежеспособность
(Solvency II) |
IoT (датчики)
/ автоматизированная
информация по автомобилям / домохозяйствам / здоровью граждан |
Выявление
подозрительных транзакций
|
AMLD IV
|
Информация от
бортовых систем, о подозрительных поездках / информация из социальных сетей о
чрезмерных покупках
|
Выявление
потенциальных схем инсайдерской торговли
|
MIFIR / EMIR /
ESEF / SHS
|
Семейные и
общественные отношения из социальных сетей
|
Определение
связанных заемщиков кредитов или отношений между эмитентом и заемщиком
|
CRD IV [LE] /
AnaCredit
|
Социальные,
деловые и семейные отношения из социальных сетей
|
Повышение
точности измерения инфляции
|
BSI-MIR
|
Опросы, анализ
настроений в социальных сетях
|
Рассмотрим подробнее предложенные кейсы.
Определение схем страхования и требований к техническим рискам и актуарным оценкам
Агрегированная финансовая информация, собранная в таблицах Solvency II, вместе с подробной информацией о резервах технических рисков и идентификацией активов, в сочетании с датчиками Интернета вещей (IoT), предоставляющими автоматизированную информацию от автомобилей, домохозяйств или жителей может обеспечить более точное определение схем страхования, требований к резервам технических рисков и актуарных оценок.
Выявление подозрительных транзакций
Информация, определенная в предлагаемом AMLD IV в сочетании с информацией из бортовых систем о подозрительных поездках и информацией из социальных сетей о чрезмерных покупках может способствовать идентификации подозреваемых в отмывании денежных средств.
Выявление потенциальных схем инсайдерской торговли
Объединение транзакционных данных из торговых репозиториев и баз данных – информации о ценных бумагах, таких как SHS, с семейными и социальными связями из социальных сетей может помочь в выявлении потенциальных схем инсайдерской торговли [9].
Определение связанных заемщиков кредитов или отношений между эмитентом и заемщиком
Аналогичным образом, социальная информация, объединенная с данными о кредитах из CRD IV и AnaCredit может обеспечить лучшую идентификацию связанных заемщиков кредитов или выявить связи между эмитентами и заемщиками.
Повышение точности измерения инфляции
Такие наборы данных, как BSI-MIR в сочетании с опросами и анализом настроений из социальных сетей (Twitter или Facebook) могут повысить точность измерений инфляции [5].
Краткие выводы
Анализ big data способствует формированию ценных идей и получению новых корреляций и причин в диверсифицированных и высокочастотных наборах данных. Хотя наборы данных, аккумулируемые финансовыми регуляторами могут по отдельности не соответствовать аналитическим критериям big data, объединение нормативных и публичных данных должно привести к появлению новой области нормативного, надзорного и финансово- статистического анализа.
Чтобы реализовать преимущества применения алгоритмов big data, – регуляторы должны стандартизировать наборы данных, которые они формируют и обрабатывают в соответствии с различными правилами. Использование международных стандартизированных идентификаторов должно минимизировать потенциальную предвзятость, и позволить сравнивать аналитические результаты по отраслям, географическим регионам и инструментам.
[1] Frankfurt Group Technical Workshop (FGTW) on Data Standards Interoperability – это дискуссионный форум, организованный под эгидой Европейского центрального банка, объединяющий экспертов по стандартам регулирования и проводящий ежеквартальные семинары по темам стандартов данных, идентификаторов, методологий и технологий.
[2] Кейс (от англ. case – «обстоятельства») – реальный случай, на котором разбираются теоретические идеи.
Источники:
2. Болонин А.И., Алиев М.М. Использование аналитики больших данных и искусственного интеллекта в центральных банках // Банковские услуги. – 2024. – № 5. – c. 12-17.
3. Болонин А.И., Алиев М.М., Исмаилов К.М. Технологии Big Data на финансовых рынках: практические аспекты // Экономическая безопасность. – 2024. – № 5. – c. 1093-1114. – doi: 10.18334/ecsec.7.5.121032.
4. Исмаилов К.М. Финансовые инновации в банковском секторе // Экономическая безопасность. – 2024. – № 6. – c. 1411-1428. – doi: 10.18334/ecsec.7.6.121198.
5. Лев М.Ю. Институциональные аспекты мониторинга цен с применением искусственного интеллекта в системе социально-экономической безопасности // Экономическая безопасность. – 2024. – № 4. – c. 923-950. – doi: 10.18334/ecsec.7.4.120894.
6. Лев М.Ю., Болонин А.И., Туруев И.Б., Лещенко Ю.Г. Концепция искусственного интеллекта в деятельности центральных банков: институциональные возможности // Экономическая безопасность. – 2024. – № 4. – c. 781-808. – doi: 10.18334/ecsec.7.4.120831.
7. Лещенко Ю.Г. Макроэкономическое воздействие соглашений «Базель III» на мировую банковскую систему // Российское предпринимательство. – 2018. – № 9. – c. 2345-2366. – doi: 10.18334/rp.19.9.39350.
8. Мамедов М.А., Алиев М.М. Анализ влияния финансовых технологий на банковский сектор экономики России // Финансы и управление. – 2022. – № 4. – c. 1-15. – doi: 10.25136/2409-7802.2022.4.38887.
9. Мамедов М.А., Исмаилов К.М., Болонин А.И. Анализ условий формирования цифровых банковских экосистем в России // Modern Economy Success. – 2022. – № 5. – c. 222-230.
10. Панова Г.А. Фонд консолидации банковского сектора как инструмент повышения безопасности на рынке финансовых услуг // Экономическая безопасность. – 2020. – № 1. – c. 41-52. – doi: 10.18334/ecsec.3.1.110120.
11. EU strategy on supervisory data in EU financial services. Simmons-simmons.com. [Электронный ресурс]. URL: https://www.simmons-simmons.com/en/publications/clb4xzjyz001otq0ok6vqqw6m/eu-strategy-on-supervisory-data-in-eu-financial-services (дата обращения: 20.09.2024).
12. Financial Data Standards. Six-group.com. [Электронный ресурс]. URL: https://www.six-group.com/en/products-services/financial-information/data-standards.html (дата обращения: 20.09.2024).
Страница обновлена: 06.10.2024 в 21:51:36