Международный опыт использования стандартов данных и идентификаторов для анализа Big Data

Алиев М.М.

Статья в журнале

Экономическая безопасность (РИНЦ, ВАК)
опубликовать статью | оформить подписку

Том 7, Номер 9 (Сентябрь 2024)

Цитировать:
Алиев М.М. Международный опыт использования стандартов данных и идентификаторов для анализа Big Data // Экономическая безопасность. – 2024. – Том 7. – № 9. – doi: 10.18334/ecsec.7.9.121766.



Введение. Концепция применения аналитических методов к высокочастотным и диверсифицированным наборам данных хорошо зарекомендовала себя в регулирующих средах. Наиболее часто используемыми методами анализа больших данных (big data) являются:

– машинное обучение – компьютерные системы обучаются на основе big data и формируют математические модели, позволяющие делать прогнозы и принимать решения [2];

– глубокое обучение нейронные сети обучаются на big data для выявления сложных паттернов и абстракций;

– визуализация использование графических инструментов и техник для визуального представления данных и выявления паттернов и трендов;

– кластеризация метод, при котором данные автоматически группируются на основе их сходства и различий, без заранее заданных классификаций;

– обработка потоковых данных – обработка данных в режиме реального времени по мере поступления и обнаружения, а также анализа событий, требующих оперативного реагирования [4].

Однако в процессе применения методов big data к государственным и нормативным наборам данных, – исследователи, эксперты и регулирующие органы отмечают ряд проблем, связанных в первую очередь с:

– управлением big data, архитектурой и пониманием;

– фрагментацией big data в хранилищах;

– производительностью ИТ-инфраструктуры;

– ограничениями ложных срабатываний;

– доступностью знаний и исследований [1].

При этом, если «производительность ИТ-инфраструктуры» и «ограничения ложных срабатываний» постепенно преодолеваются благодаря технологическим достижениям, то – «управление big data, архитектурой и пониманием», «фрагментация big data в хранилищах» и «доступность знаний и исследований», остаются ключевым бременем в реализации потенциала big data.

Цель исследования: изучить международный опыт использования стандартов данных и идентификаторов, применимых для анализа big data.

Задачи исследования:

– рассмотреть стандарты нормативных данных финансовой отрасли;

– провести аналитический обзор применения стандартов данных в нормативных пулах данных;

– определить потенциал стандартов данных для анализа big data.

Практическая значимость. Результаты проведенного исследования могут быть рекомендованы участникам финансового рынка для практического применения в процессе текущей деятельности с целью организации ее эффективности.

Стандарты нормативных данных финансовой отрасли. Среди основных инструментов, используемых финансовыми регуляторами для понимания обрабатываемых ими данных, стандарты данных и идентификаторы образуют важное подмножество из-за их функциональной роли в обеспечении сбора, проверки и организации данных [10]. В связи с чем, существует широкий спектр стандартов в области финансовых данных.

Европейские эксперты в области регулирования из Frankfurt Group Technical Workshop [1] проанализировали и классифицировали наиболее распространенные международные стандарты, применяемые в секторах финансового рынка. Классификация содержит следующие позиции, и в перспективе может быть дополнена:

– 2-е методологии описания big data (DPM, SMCube);

– 4-е идентификатора big data (ISIN, LEI, UTI, UPI);

– 16-ть стандартов big data: 11-ть детализированных стандартов (FixProtocol, FIBO, FIRO, CCS, FPML, MDDL, ISO20022, ACORD, IFX, MISMO, XBRL GL); 5-ть агрегированных стандартов ((XBRL, SDMX, RIXML, SDDS, Genericode)

– 1-а инициатива по данным (ACTUS), описывающая big data детализированного уровня.

В таблице 1 представлено краткое содержание каждого компонента.

Таблица 1. Список стандартов данных, используемых финансовыми регуляторами

Аббревиатура
Полное наименование
Цель
ACORD
Стандарты и структура данных ACORD
Стандарты данных для страхования жизни и имущества, ренты и несчастных случаев. Сообщения о претензиях и урегулировании.
ACTUS
Фонд финансовых исследований ACTUS
Стандарт данных и алгоритмов, направленный на разделение финансовых инструментов по моделям денежных потоков
CCS
Клиринг и стандарт подключения
Клиринг транзакций OTS (в контексте технологии блокчейн решения OTS играют решающую роль в обеспечении безопасности транзакций и повышении прозрачности)
DPM
Модель точек данных
Многомерное моделирование данных
FIBO
Финансовая индустрия Бизнес-онтология
Определение терминов и синонимов финансовой отрасли
FIRO
Онтология регулирования финансовой отрасли
Онтология для описания области регулирования финансовых услуг
FIXProtoco
Протокол FIX
Протокол для международного обмена информацией в режиме реального времени, связанной с операциями рынка ценных бумаг
FPML
Язык разметки финансовых продуктов
Стандарт обмена деловой информацией для электронных сделок и обработки финансовых производных инструментов
Genericode
Общий код
Представление списка общих кодов
IFX
Интерактивный финансовый обмен
Взаимодействие внешних/внутренних систем относительно финансовой информации
ISIN
Международный идентификационный номер ценных бумаг
Уникальный международный идентификатор ценных бумаг
ISO 20022
Универсальная схема сообщения финансовой индустрии
LEI
Идентификатор юридического лица
Стандарт идентификации субъектов предпринимательской деятельности
MDDL
Язык определения рыночных данных
Стандарт для описания финансовых инструментов, корпоративных событий и рыночных показателей
MISMO
Организация по поддержанию стандартов в ипотечной отрасли
Стандарты данных, охватывающие весь жизненный цикл ипотеки
RIXML
Язык разметки обмена исследовательской информацией
Язык для описания документов по инвестиционным и другим исследованиям
SDDS
Специальный стандарт распространения данных
Стандарт распространения статистической информации
SDMX
Статистические данные метаданного обмена
Статистические временные ряды
SMCube
Единая многомерная модель метаданных
Модель, используемая для определения структуры группы наборов данных, которые были составлены с использованием различных методологий моделирования
UPI
Универсальный идентификатор продукта
Уникальная идентификация элементов данных внебиржевых деривативов
UTI
Универсальный идентификатор транзакции
Уникальная идентификация отдельных транзакций с внебиржевыми деривативами, которые финансовые регуляторы требуют сообщать в торговые репозитории
XBRL
Расширяемый язык деловой отчетности
Электронная деловая отчетность
XBRL GL
Расширяемый бизнес
Язык отчетности
Глобальная книга
Открытый стандарт для транзакционной отчетности
Источник: [12].

Помимо стандартов данных, отраженных в таблице 1, в настоящее время реализуется ряд других инициатив, содержащих финансовые инструменты с расширенным онтологическим описанием, включающих элементы существующих стандартов и идентификаторов. Кроме того, приведенную выше классификацию нельзя воспринимать, как каноническую. Скорее, она представляет собой подход к использованию конкретного стандарта данных для первоначальной категоризации. Тем не менее, реальное применение различных стандартов пересекает границы, обозначенные первоначальными намерениями.

Например, SDMX и XBRL используются для сбора высокодетализированных данных в ряде нормативных проектов. Аналогичным образом, отдельные стандарты данных все чаще сочетаются с механизмами агрегации, чтобы отражать агрегированные показатели. И только три стандарта данных (ISO 20022, SDMX и XBRL) были определены как ключевые для финансовой отрасли и используются во многих нормативных актах. При этом, протокол FIX также широко принят, но ISO 20022 является предпочтительным.

Стандарт ISO 20022 – это комплексный подход к стандартизации на основе XML, включающий методологию, процесс и репозиторий для использования в инициативах по финансовым стандартам.

SDMX – это стандарт на основе XML, поддерживаемый международными регулирующими и статистическими органами (Международный валютный фонд (МВФ), Всемирный банк (ВБ), Европейский Центральный Банк (ЕЦБ), Евростат). Он описывает временные ряды данных полученных с помощью переменных с определенной информационной моделью.

XBRL – это открытый стандарт для обмена многомерной деловой информацией с математическими и логическими бизнес-правилами, которая обменивается в виде документов-экземпляров.

Применение стандартов данных в пулах нормативных данных. В данном разделе, на примере Европейского Союза (ЕС) проанализируем, – какие пулы данных, собираемые и обрабатываемые финансовыми регуляторами используют стандарты данных. Для этого обратимся к правилам, инициативам и проектам ЕС, включающие стандартизацию данных в банковском секторе, страховании и сегментах рынка капитала:

1. Директива о требованиях к капиталу IV / Регламент о требованиях к капиталу (CRD/CRR);

2. Статистическая отчетность денежного рынка (MMSR);

3. AnaCredit;

4. Статьи баланса – денежные процентные ставки (BSI-MIR);

5. Статистика владения ценными бумагами (SHS);

6. Регламент инфраструктуры европейских рынков (EMIR);

7. Директива о рынках финансовых инструментов II / Регламент о рынках финансовых инструментов (MiFID/MiFIR);

8. Операции по финансированию ценных бумаг (SFT);

9. Предприятия по коллективному инвестированию в переводные ценные бумаги (UCITS);

10. Директива о рынках альтернативных инвестиционных фондов (AIFMD);

11. Solvency II;

12. Target 2 Securities (T2S);

13. Единая европейская платежная зона (SEPA);

14. Директива о борьбе с отмыванием денег IV (AMLD IV);

15. Единый европейский электронный формат (ESEF).

В ходе анализа вышеуказанные нормативно-правовые документы были оценены по факторам, применимых к аналитике big data (структурированные/неструктурированные данные), что позволило определить для каждого регламента ключевой стандарт данных (табл. 2).

Таблица 2. Финансовые правила и стандарты данных ЕС

Регламент
Стандарты данных
Структурированные/
неструктурированные данные
CRD IV / CRR
DPM / XBRL
Структурированные/неструктурированные
MMSR
ISO 20022
Структурированные
AnaCredit
SDDS
BSI-MIR
SDMX
SHS
SDMX
EMIR
ISO 20022
MiFID II / MiFIR
ISO 20022
SFT
ISO 20022
UCITS
ACTUS
Структурированные/неструктурированные
AIFMD
ACTUS
Solvency II
DPM / XBRL
T2S
ISO 20022
Структурированные
SEPA
ISO 20022
AMLD IV
SDDS
Структурированные/неструктурированные
ESEF
XBRL
Источник: [11].

Несмотря на относительную субъективность, отражённую в таблице 2, можно увидеть, что наборы данных могут быть как структурированными, так и неструктурированными в зависимости от применяемого стандарта данных. Кроме того, финансовые регуляторы постепенно гармонизируют требования к данным и применяют общие стандарты.

Важно отметить, что большинство регулятивных инициатив в значительной степени опираются на словари данных, и поэтому финансовые регуляторы внедряют их стандартизированные версии как внутри организации (например, в ЕЦБ – статистический словарь данных на основе SMCube), так и для связи с контролируемыми субъектами (для банков – банковский интегрированный словарь отчетности) [6].

Потенциал стандартов данных для анализа больших данных. Как было показано на примере нормативных актов ЕС, типичный центральный банк может обрабатывать структурированные/неструктурированные наборы данных (табл. 2), которые одновременно могут быть предметом анализа big data. Так, какой-либо центральный банк в Азии или Латинской Америке может собирать и обрабатывать аналогичные CRD/CRR, наборы данных основанные на Базельском соглашении (информация о собственных средствах, рыночном, операционном и кредитном риске, кредитном плече, ликвидности, крупных рисках и т. д.) [3; 7]. Кроме того, многие из центральных банков уже формируют интегрированные данные о кредитах и ценных бумагах. В то время как сбор интегрированных данных связанных с платежами уже является традиционным опытом центральных банков. Поэтому, все большее количество наборов данных аккумулируется с использованием таких стандартов как ISO 20022, XBRL и SDMX.

Между тем, стандартизация нормативных данных сможет обеспечить как минимум еще два преимущества в алгоритмах big data:

– устранит бремя, связанное с управлением big data, архитектурой и пониманием, а также фрагментацией big data в хранилищах;

– стандартизированные словари, схемы и идентификаторы предоставят актуальную и достоверную информацию для алгоритмов big data, например, ключевые слова, ссылки и отношения.

В таблице 3 отражены входные данные из нормативных стандартов данных для различных алгоритмов big data.

Таблица 3. Входные данные для алгоритмов big data

Входные данные
Алгоритмы
Функции
Словари SMCube
(SMCube Dictionaries)
Расстояние Левенштейна (Levenshtein distance)
Метрика минимального количества правок одного символа, необходимых для изменения последовательности символов
Словари моделей точек данных
(Data Point Model
Dictionaries)
Дамерау-Левенштейн (Damerau-Levenshtein)
Вариация, измеряющая количество требуемых правок
Схемы SDMX и информационная модель
(SDMX Schemas and Information Model)
Нидлман-Вунш (Needleman-Wunsch)
Динамическое программирование
Словарь бизнес-концепций ISO20022
(ISO20022 Business
Concepts Dictionary)
Алгоритм Bitap с модификациями
Wu и Manber
Дискретный тест. Приблизительное равенство измеряется с помощью заданного максимального расстояния
Таксономии XBRL
(XBRL Taxonomies)
n-gram
Статистический анализ последовательности речи или текста (слогов, букв, слов…) с целью прогнозирования следующего элемента последовательности, основываясь только на значении предыдущего элемента
Идентификатор юридического лица
(Legal Entity Identifier)
Универсальный идентификатор транзакции
(Universal Transaction Identifier)
Универсальный идентификатор продукта (Universal Product
Identifier)
BK-дерево (BK-tree)
Конфигурация сходства последовательностей символов, организованная в деревья на основе определенной метрики (обычно Левенштейна)
Универсальный идентификатор транзакции
(Universal Transaction Identifier)
Универсальный идентификатор транзакции
(Universal Transaction Identifier)
Soundex
Фонетический алгоритм индексации слов по английскому произношению. Позволяет сопоставлять слова, устраняя различия в написании
ISIN
Онтологии (Ontologies)
Источник: сформировано автором.

Поскольку многие алгоритмы big data опираются на анализ символов, – структурированные словари, классификации, онтологии и категоризации предоставляют более рациональные входные данные для машинного обучения при анализе пулов нормативных данных. Следовательно, Data Point Model, SMCube или SDMX-IM (SDMX Information Model) способствуют эффективности входных данных в процессе аналитики big data. Более того, данный потенциал расширяется, так как финансовые регуляторы рассматривают возможность объединения наборов нормативных данных с публичными/коммерческими пулами данных с помощью различных веб-приложений, которые объединяют данные из нескольких источников в один интегрированный инструмент [8].

Учитывая выше изложенное, автор предлагает рассмотреть потенциальные варианты использования, где нормативные стандартизированные данные с веб-приложениями и общедоступными наборами данных могут предоставить новые возможности (табл. 4).

Таблица 4. Кейсы потенциального применения анализа big data

Кейсы [2]
Фреймворки данных
Данные веб-приложений
Определение схем страхования и требований к техническим рискам и актуарным оценкам
Платежеспособность
(Solvency II)
IoT (датчики) / автоматизированная
информация по автомобилям / домохозяйствам /
здоровью граждан
Выявление подозрительных транзакций
AMLD IV
Информация от бортовых систем, о подозрительных поездках / информация из социальных сетей о чрезмерных покупках
Выявление потенциальных схем инсайдерской торговли
MIFIR / EMIR / ESEF / SHS
Семейные и общественные отношения из социальных сетей
Определение связанных заемщиков кредитов или отношений между эмитентом и заемщиком
CRD IV [LE] / AnaCredit
Социальные, деловые и семейные отношения из социальных сетей
Повышение точности измерения инфляции
BSI-MIR
Опросы, анализ настроений в социальных сетях
Источник: сформировано автором.

Рассмотрим подробнее предложенные кейсы.

Определение схем страхования и требований к техническим рискам и актуарным оценкам

Агрегированная финансовая информация, собранная в таблицах Solvency II, вместе с подробной информацией о резервах технических рисков и идентификацией активов, в сочетании с датчиками Интернета вещей (IoT), предоставляющими автоматизированную информацию от автомобилей, домохозяйств или жителей может обеспечить более точное определение схем страхования, требований к резервам технических рисков и актуарных оценок.

Выявление подозрительных транзакций

Информация, определенная в предлагаемом AMLD IV в сочетании с информацией из бортовых систем о подозрительных поездках и информацией из социальных сетей о чрезмерных покупках может способствовать идентификации подозреваемых в отмывании денежных средств.

Выявление потенциальных схем инсайдерской торговли

Объединение транзакционных данных из торговых репозиториев и баз данных – информации о ценных бумагах, таких как SHS, с семейными и социальными связями из социальных сетей может помочь в выявлении потенциальных схем инсайдерской торговли [9].

Определение связанных заемщиков кредитов или отношений между эмитентом и заемщиком

Аналогичным образом, социальная информация, объединенная с данными о кредитах из CRD IV и AnaCredit может обеспечить лучшую идентификацию связанных заемщиков кредитов или выявить связи между эмитентами и заемщиками.

Повышение точности измерения инфляции

Такие наборы данных, как BSI-MIR в сочетании с опросами и анализом настроений из социальных сетей (Twitter или Facebook) могут повысить точность измерений инфляции [5].

Краткие выводы

Анализ big data способствует формированию ценных идей и получению новых корреляций и причин в диверсифицированных и высокочастотных наборах данных. Хотя наборы данных, аккумулируемые финансовыми регуляторами могут по отдельности не соответствовать аналитическим критериям big data, объединение нормативных и публичных данных должно привести к появлению новой области нормативного, надзорного и финансово- статистического анализа.

Чтобы реализовать преимущества применения алгоритмов big data, – регуляторы должны стандартизировать наборы данных, которые они формируют и обрабатывают в соответствии с различными правилами. Использование международных стандартизированных идентификаторов должно минимизировать потенциальную предвзятость, и позволить сравнивать аналитические результаты по отраслям, географическим регионам и инструментам.

[1] Frankfurt Group Technical Workshop (FGTW) on Data Standards Interoperability – это дискуссионный форум, организованный под эгидой Европейского центрального банка, объединяющий экспертов по стандартам регулирования и проводящий ежеквартальные семинары по темам стандартов данных, идентификаторов, методологий и технологий.

[2] Кейс (от англ. case – «обстоятельства») – реальный случай, на котором разбираются теоретические идеи.


Страница обновлена: 24.09.2024 в 12:10:40