Международный опыт использования стандартов данных и идентификаторов для анализа Big Data
Статья в журнале
Экономическая безопасность (РИНЦ, ВАК)
опубликовать статью | оформить подписку
Том 7, Номер 9 (Сентябрь 2024)
Цитировать:
Алиев М.М. Международный опыт использования стандартов данных и идентификаторов для анализа Big Data // Экономическая безопасность. – 2024. – Том 7. – № 9. – doi: 10.18334/ecsec.7.9.121766.
Введение. Концепция применения аналитических методов к высокочастотным и диверсифицированным наборам данных хорошо зарекомендовала себя в регулирующих средах. Наиболее часто используемыми методами анализа больших данных (big data) являются:
– машинное обучение – компьютерные системы обучаются на основе big data и формируют математические модели, позволяющие делать прогнозы и принимать решения [2];
– глубокое обучение – нейронные сети обучаются на big data для выявления сложных паттернов и абстракций;
– визуализация – использование графических инструментов и техник для визуального представления данных и выявления паттернов и трендов;
– кластеризация – метод, при котором данные автоматически группируются на основе их сходства и различий, без заранее заданных классификаций;
– обработка потоковых данных – обработка данных в режиме реального времени по мере поступления и обнаружения, а также анализа событий, требующих оперативного реагирования [4].
Однако в процессе применения методов big data к государственным и нормативным наборам данных, – исследователи, эксперты и регулирующие органы отмечают ряд проблем, связанных в первую очередь с:
– управлением big data, архитектурой и пониманием;
– фрагментацией big data в хранилищах;
– производительностью ИТ-инфраструктуры;
– ограничениями ложных срабатываний;
– доступностью знаний и исследований [1].
При этом, если «производительность ИТ-инфраструктуры» и «ограничения ложных срабатываний» постепенно преодолеваются благодаря технологическим достижениям, то – «управление big data, архитектурой и пониманием», «фрагментация big data в хранилищах» и «доступность знаний и исследований», остаются ключевым бременем в реализации потенциала big data.
Цель исследования: изучить международный опыт использования стандартов данных и идентификаторов, применимых для анализа big data.
Задачи исследования:
– рассмотреть стандарты нормативных данных финансовой отрасли;
– провести аналитический обзор применения стандартов данных в нормативных пулах данных;
– определить потенциал стандартов данных для анализа big data.
Практическая значимость. Результаты проведенного исследования могут быть рекомендованы участникам финансового рынка для практического применения в процессе текущей деятельности с целью организации ее эффективности.
Стандарты нормативных данных финансовой отрасли. Среди основных инструментов, используемых финансовыми регуляторами для понимания обрабатываемых ими данных, стандарты данных и идентификаторы образуют важное подмножество из-за их функциональной роли в обеспечении сбора, проверки и организации данных [10]. В связи с чем, существует широкий спектр стандартов в области финансовых данных.
Европейские эксперты в области регулирования из Frankfurt Group Technical Workshop [1] проанализировали и классифицировали наиболее распространенные международные стандарты, применяемые в секторах финансового рынка. Классификация содержит следующие позиции, и в перспективе может быть дополнена:
– 2-е методологии описания big data (DPM, SMCube);
– 4-е идентификатора big data (ISIN, LEI, UTI, UPI);
– 16-ть стандартов big data: 11-ть детализированных стандартов (FixProtocol, FIBO, FIRO, CCS, FPML, MDDL, ISO20022, ACORD, IFX, MISMO, XBRL GL); 5-ть агрегированных стандартов ((XBRL, SDMX, RIXML, SDDS, Genericode)
– 1-а инициатива по данным (ACTUS), описывающая big data детализированного уровня.
В таблице 1 представлено краткое содержание каждого компонента.
Таблица 1. Список стандартов данных, используемых финансовыми регуляторами
Аббревиатура
|
Полное
наименование
|
Цель
|
ACORD
|
Стандарты
и структура данных ACORD
|
Стандарты
данных для страхования жизни и имущества, ренты и несчастных случаев.
Сообщения о претензиях и урегулировании.
|
ACTUS
|
Фонд
финансовых исследований ACTUS
|
Стандарт
данных и алгоритмов, направленный на разделение финансовых инструментов по
моделям денежных потоков
|
CCS
|
Клиринг
и стандарт подключения
|
Клиринг
транзакций OTS (в контексте технологии блокчейн решения OTS играют решающую
роль в обеспечении безопасности транзакций и повышении прозрачности)
|
DPM
|
Модель
точек данных
|
Многомерное
моделирование данных
|
FIBO
|
Финансовая
индустрия Бизнес-онтология
|
Определение
терминов и синонимов финансовой отрасли
|
FIRO
|
Онтология
регулирования финансовой отрасли
|
Онтология
для описания области регулирования финансовых услуг
|
FIXProtoco
|
Протокол
FIX
|
Протокол
для международного обмена информацией в режиме реального времени, связанной с
операциями рынка ценных бумаг
|
FPML
|
Язык
разметки финансовых продуктов
|
Стандарт
обмена деловой информацией для электронных сделок и обработки финансовых
производных инструментов
|
Genericode
|
Общий
код
|
Представление
списка общих кодов
|
IFX
|
Интерактивный
финансовый обмен
|
Взаимодействие
внешних/внутренних систем относительно финансовой информации
|
ISIN
|
Международный
идентификационный номер ценных бумаг
|
Уникальный
международный идентификатор ценных бумаг
|
ISO 20022
|
Универсальная
схема сообщения финансовой индустрии
| |
LEI
|
Идентификатор
юридического лица
|
Стандарт
идентификации субъектов предпринимательской деятельности
|
MDDL
|
Язык
определения рыночных данных
|
Стандарт
для описания финансовых инструментов, корпоративных событий и рыночных
показателей
|
MISMO
|
Организация
по поддержанию стандартов в ипотечной отрасли
|
Стандарты
данных, охватывающие весь жизненный цикл ипотеки
|
RIXML
|
Язык
разметки обмена исследовательской информацией
|
Язык
для описания документов по инвестиционным и другим исследованиям
|
SDDS
|
Специальный
стандарт распространения данных
|
Стандарт
распространения статистической информации
|
SDMX
|
Статистические
данные метаданного обмена
|
Статистические
временные ряды
|
SMCube
|
Единая
многомерная модель метаданных
|
Модель,
используемая для определения структуры группы наборов данных, которые были
составлены с использованием различных методологий моделирования
|
UPI
|
Универсальный
идентификатор продукта
|
Уникальная
идентификация элементов данных внебиржевых деривативов
|
UTI
|
Универсальный
идентификатор транзакции
|
Уникальная
идентификация отдельных транзакций с внебиржевыми деривативами, которые
финансовые регуляторы требуют сообщать в торговые репозитории
|
XBRL
|
Расширяемый
язык деловой отчетности
|
Электронная
деловая отчетность
|
XBRL GL
|
Расширяемый
бизнес
Язык отчетности Глобальная книга |
Открытый
стандарт для транзакционной отчетности
|
Помимо стандартов данных, отраженных в таблице 1, в настоящее время реализуется ряд других инициатив, содержащих финансовые инструменты с расширенным онтологическим описанием, включающих элементы существующих стандартов и идентификаторов. Кроме того, приведенную выше классификацию нельзя воспринимать, как каноническую. Скорее, она представляет собой подход к использованию конкретного стандарта данных для первоначальной категоризации. Тем не менее, реальное применение различных стандартов пересекает границы, обозначенные первоначальными намерениями.
Например, SDMX и XBRL используются для сбора высокодетализированных данных в ряде нормативных проектов. Аналогичным образом, отдельные стандарты данных все чаще сочетаются с механизмами агрегации, чтобы отражать агрегированные показатели. И только три стандарта данных (ISO 20022, SDMX и XBRL) были определены как ключевые для финансовой отрасли и используются во многих нормативных актах. При этом, протокол FIX также широко принят, но ISO 20022 является предпочтительным.
Стандарт ISO 20022 – это комплексный подход к стандартизации на основе XML, включающий методологию, процесс и репозиторий для использования в инициативах по финансовым стандартам.
SDMX – это стандарт на основе XML, поддерживаемый международными регулирующими и статистическими органами (Международный валютный фонд (МВФ), Всемирный банк (ВБ), Европейский Центральный Банк (ЕЦБ), Евростат). Он описывает временные ряды данных полученных с помощью переменных с определенной информационной моделью.
XBRL – это открытый стандарт для обмена многомерной деловой информацией с математическими и логическими бизнес-правилами, которая обменивается в виде документов-экземпляров.
Применение стандартов данных в пулах нормативных данных. В данном разделе, на примере Европейского Союза (ЕС) проанализируем, – какие пулы данных, собираемые и обрабатываемые финансовыми регуляторами используют стандарты данных. Для этого обратимся к правилам, инициативам и проектам ЕС, включающие стандартизацию данных в банковском секторе, страховании и сегментах рынка капитала:
1. Директива о требованиях к капиталу IV / Регламент о требованиях к капиталу (CRD/CRR);
2. Статистическая отчетность денежного рынка (MMSR);
3. AnaCredit;
4. Статьи баланса – денежные процентные ставки (BSI-MIR);
5. Статистика владения ценными бумагами (SHS);
6. Регламент инфраструктуры европейских рынков (EMIR);
7. Директива о рынках финансовых инструментов II / Регламент о рынках финансовых инструментов (MiFID/MiFIR);
8. Операции по финансированию ценных бумаг (SFT);
9. Предприятия по коллективному инвестированию в переводные ценные бумаги (UCITS);
10. Директива о рынках альтернативных инвестиционных фондов (AIFMD);
11. Solvency II;
12. Target 2 Securities (T2S);
13. Единая европейская платежная зона (SEPA);
14. Директива о борьбе с отмыванием денег IV (AMLD IV);
15. Единый европейский электронный формат (ESEF).
В ходе анализа вышеуказанные нормативно-правовые документы были оценены по факторам, применимых к аналитике big data (структурированные/неструктурированные данные), что позволило определить для каждого регламента ключевой стандарт данных (табл. 2).
Таблица 2. Финансовые правила и стандарты данных ЕС
Регламент
|
Стандарты
данных
|
Структурированные/
неструктурированные данные |
CRD
IV / CRR
|
DPM
/ XBRL
|
Структурированные/неструктурированные
|
MMSR
|
ISO
20022
|
Структурированные
|
AnaCredit
|
SDDS
| |
BSI-MIR
|
SDMX
| |
SHS
|
SDMX
| |
EMIR
|
ISO
20022
| |
MiFID
II / MiFIR
|
ISO
20022
| |
SFT
|
ISO
20022
| |
UCITS
|
ACTUS
|
Структурированные/неструктурированные
|
AIFMD
|
ACTUS
| |
Solvency
II
|
DPM
/ XBRL
| |
T2S
|
ISO
20022
|
Структурированные
|
SEPA
|
ISO
20022
| |
AMLD
IV
|
SDDS
|
Структурированные/неструктурированные
|
ESEF
|
XBRL
|
Несмотря на относительную субъективность, отражённую в таблице 2, можно увидеть, что наборы данных могут быть как структурированными, так и неструктурированными в зависимости от применяемого стандарта данных. Кроме того, финансовые регуляторы постепенно гармонизируют требования к данным и применяют общие стандарты.
Важно отметить, что большинство регулятивных инициатив в значительной степени опираются на словари данных, и поэтому финансовые регуляторы внедряют их стандартизированные версии как внутри организации (например, в ЕЦБ – статистический словарь данных на основе SMCube), так и для связи с контролируемыми субъектами (для банков – банковский интегрированный словарь отчетности) [6].
Потенциал стандартов данных для анализа больших данных. Как было показано на примере нормативных актов ЕС, типичный центральный банк может обрабатывать структурированные/неструктурированные наборы данных (табл. 2), которые одновременно могут быть предметом анализа big data. Так, какой-либо центральный банк в Азии или Латинской Америке может собирать и обрабатывать аналогичные CRD/CRR, наборы данных основанные на Базельском соглашении (информация о собственных средствах, рыночном, операционном и кредитном риске, кредитном плече, ликвидности, крупных рисках и т. д.) [3; 7]. Кроме того, многие из центральных банков уже формируют интегрированные данные о кредитах и ценных бумагах. В то время как сбор интегрированных данных связанных с платежами уже является традиционным опытом центральных банков. Поэтому, все большее количество наборов данных аккумулируется с использованием таких стандартов как ISO 20022, XBRL и SDMX.
Между тем, стандартизация нормативных данных сможет обеспечить как минимум еще два преимущества в алгоритмах big data:
– устранит бремя, связанное с управлением big data, архитектурой и пониманием, а также фрагментацией big data в хранилищах;
– стандартизированные словари, схемы и идентификаторы предоставят актуальную и достоверную информацию для алгоритмов big data, например, ключевые слова, ссылки и отношения.
В таблице 3 отражены входные данные из нормативных стандартов данных для различных алгоритмов big data.
Таблица 3. Входные данные для алгоритмов big data
Входные данные
|
Алгоритмы
|
Функции
|
Словари SMCube
(SMCube Dictionaries) |
Расстояние
Левенштейна (Levenshtein distance)
|
Метрика
минимального количества правок одного символа, необходимых для изменения
последовательности символов
|
Словари
моделей точек данных
(Data Point Model Dictionaries) |
Дамерау-Левенштейн
(Damerau-Levenshtein)
|
Вариация,
измеряющая количество требуемых правок
|
Схемы
SDMX и информационная модель
(SDMX Schemas and Information Model) |
Нидлман-Вунш (Needleman-Wunsch)
|
Динамическое
программирование
|
Словарь
бизнес-концепций ISO20022
(ISO20022 Business Concepts Dictionary) |
Алгоритм Bitap с
модификациями
Wu и Manber |
Дискретный
тест. Приблизительное равенство измеряется с помощью заданного максимального
расстояния
|
Таксономии
XBRL
(XBRL Taxonomies) |
n-gram
|
Статистический
анализ последовательности речи или текста (слогов, букв, слов…) с целью
прогнозирования следующего элемента последовательности, основываясь только на
значении предыдущего элемента
|
Идентификатор
юридического лица
(Legal Entity Identifier) | ||
Универсальный
идентификатор транзакции
(Universal Transaction Identifier) | ||
Универсальный
идентификатор продукта (Universal Product
Identifier) |
BK-дерево
(BK-tree)
|
Конфигурация
сходства последовательностей символов, организованная в деревья на основе
определенной метрики (обычно Левенштейна)
|
Универсальный
идентификатор транзакции
(Universal Transaction Identifier) | ||
Универсальный
идентификатор транзакции
(Universal Transaction Identifier) |
Soundex
|
Фонетический
алгоритм индексации слов по английскому произношению. Позволяет сопоставлять слова,
устраняя различия в написании
|
ISIN
| ||
Онтологии
(Ontologies)
|
Поскольку многие алгоритмы big data опираются на анализ символов, – структурированные словари, классификации, онтологии и категоризации предоставляют более рациональные входные данные для машинного обучения при анализе пулов нормативных данных. Следовательно, Data Point Model, SMCube или SDMX-IM (SDMX Information Model) способствуют эффективности входных данных в процессе аналитики big data. Более того, данный потенциал расширяется, так как финансовые регуляторы рассматривают возможность объединения наборов нормативных данных с публичными/коммерческими пулами данных с помощью различных веб-приложений, которые объединяют данные из нескольких источников в один интегрированный инструмент [8].
Учитывая выше изложенное, автор предлагает рассмотреть потенциальные варианты использования, где нормативные стандартизированные данные с веб-приложениями и общедоступными наборами данных могут предоставить новые возможности (табл. 4).
Таблица 4. Кейсы потенциального применения анализа big data
Кейсы [2]
|
Фреймворки
данных
|
Данные
веб-приложений
|
Определение
схем страхования и требований к техническим рискам и актуарным оценкам
|
Платежеспособность
(Solvency II) |
IoT (датчики)
/ автоматизированная
информация по автомобилям / домохозяйствам / здоровью граждан |
Выявление
подозрительных транзакций
|
AMLD IV
|
Информация от
бортовых систем, о подозрительных поездках / информация из социальных сетей о
чрезмерных покупках
|
Выявление
потенциальных схем инсайдерской торговли
|
MIFIR / EMIR /
ESEF / SHS
|
Семейные и
общественные отношения из социальных сетей
|
Определение
связанных заемщиков кредитов или отношений между эмитентом и заемщиком
|
CRD IV [LE] /
AnaCredit
|
Социальные,
деловые и семейные отношения из социальных сетей
|
Повышение
точности измерения инфляции
|
BSI-MIR
|
Опросы, анализ
настроений в социальных сетях
|
Рассмотрим подробнее предложенные кейсы.
Определение схем страхования и требований к техническим рискам и актуарным оценкам
Агрегированная финансовая информация, собранная в таблицах Solvency II, вместе с подробной информацией о резервах технических рисков и идентификацией активов, в сочетании с датчиками Интернета вещей (IoT), предоставляющими автоматизированную информацию от автомобилей, домохозяйств или жителей может обеспечить более точное определение схем страхования, требований к резервам технических рисков и актуарных оценок.
Выявление подозрительных транзакций
Информация, определенная в предлагаемом AMLD IV в сочетании с информацией из бортовых систем о подозрительных поездках и информацией из социальных сетей о чрезмерных покупках может способствовать идентификации подозреваемых в отмывании денежных средств.
Выявление потенциальных схем инсайдерской торговли
Объединение транзакционных данных из торговых репозиториев и баз данных – информации о ценных бумагах, таких как SHS, с семейными и социальными связями из социальных сетей может помочь в выявлении потенциальных схем инсайдерской торговли [9].
Определение связанных заемщиков кредитов или отношений между эмитентом и заемщиком
Аналогичным образом, социальная информация, объединенная с данными о кредитах из CRD IV и AnaCredit может обеспечить лучшую идентификацию связанных заемщиков кредитов или выявить связи между эмитентами и заемщиками.
Повышение точности измерения инфляции
Такие наборы данных, как BSI-MIR в сочетании с опросами и анализом настроений из социальных сетей (Twitter или Facebook) могут повысить точность измерений инфляции [5].
Краткие выводы
Анализ big data способствует формированию ценных идей и получению новых корреляций и причин в диверсифицированных и высокочастотных наборах данных. Хотя наборы данных, аккумулируемые финансовыми регуляторами могут по отдельности не соответствовать аналитическим критериям big data, объединение нормативных и публичных данных должно привести к появлению новой области нормативного, надзорного и финансово- статистического анализа.
Чтобы реализовать преимущества применения алгоритмов big data, – регуляторы должны стандартизировать наборы данных, которые они формируют и обрабатывают в соответствии с различными правилами. Использование международных стандартизированных идентификаторов должно минимизировать потенциальную предвзятость, и позволить сравнивать аналитические результаты по отраслям, географическим регионам и инструментам.
[1] Frankfurt Group Technical Workshop (FGTW) on Data Standards Interoperability – это дискуссионный форум, организованный под эгидой Европейского центрального банка, объединяющий экспертов по стандартам регулирования и проводящий ежеквартальные семинары по темам стандартов данных, идентификаторов, методологий и технологий.
[2] Кейс (от англ. case – «обстоятельства») – реальный случай, на котором разбираются теоретические идеи.
Страница обновлена: 24.09.2024 в 12:10:40