Анализ рынка образовательных программ в области финтеха и инноваций на основе семантического анализа
Калимуллина О.В.1, Новоженин Н.В.1
1 Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича
Статья в журнале
Информатизация в цифровой экономике (РИНЦ, ВАК)
опубликовать статью | оформить подписку
Том 6, Номер 1 (Январь-март 2025)
Аннотация:
Анализ и сравнение ключевых образовательных направлений является важной задачей в контексте роста разнообразия таких направлений. Однако зачастую в названии нечетко прослеживается смысловое поле. Сопоставление ключевых слов и визуализация образовательных направлений в виде облаков слов позволила бы проводить первичный сравнительный анализ образовательных направлений. Целью данного исследования является сравнительный анализ образовательных направлений в вузах с помощью разработки инновационного бота для Telegram, способного облегчить процесс анализа рынка образовательных программ. Чат-бот реализован с использованием алгоритмов анализа данных, полученных в результате парсинга информации с сайта Поступи.онлайн. Бот распознает ключевые слова, связанные с определенным направлением, и визуализирует полученную информацию в форме облака слов, что позволяет быстро проанализировать и сравнить образовательные направления.
Ключевые слова: рынок образовательных программ, data-driven маркетинг, парсинг, семантический анализ, Telegram бот, облако слов
Финансирование:
Исследование выполнено за счет гранта Российского научного фонда № 23-28-00877, 2023-2024 гг. https://rscf.ru/prjcard_int?23-28-00877.
JEL-классификация: I21, I23, I25, I26, I28
Введение
В современном мире растущих объемов данных цифровизация проникает во все сферы жизни. Цифровая трансформация изменяет привычные процессы: профессиональную деятельность, профессиональные и неформальные взаимодействия, досуг, обучение и саморазвитие, а также процесс формирования профессиональной идентичности человека. Для построения своей образовательной траектории нужно провести осознанный выбор среди множества образовательных программ. В плотном информационном потоке зачастую трудно найти все необходимые данные об интересующем направлении обучения, сравнить выбранные направления. В связи с этим актуальным является вопрос, как можно автоматизировать деятельность по систематизации и анализу информации об образовательных направлениях [14]. Такая методология была бы полезна для исследовательских целей, а также абитуриентам для облегчения выбора образовательного направления, которое наиболее релевантно их интересам и карьерным целям. Рассмотрим ряд образовательных программ в сфере финансовых технологий и инноваций ведущих вузов РФ:
1) Финансовые технологии и анализ данных (ВШЭ) [8] (https://www.hse.ru/ma/fintech/)
2) Программа магистратуры "Экономика и управление инновациями" МГИМО [10] (https://pk.odin.mgimo.ru/master/eui.html)
3) Электронный бизнес и цифровые инновации (ВШЭ) [9] (https://www.hse.ru/ma/elb/)
4) Стратегический менеджмент в цифровой экономике (НИЯУ МИФИ) [7] (https://admission.mephi.ru/program/1922)
Направления очень разные и для анализа нужно сопоставлять учебные дисциплины, сравнивать приобретаемые компетенции и пр. Было бы удобно проводить анализ в автоматизированном режиме и получать облака слов для сравнения.
В рамках исследования был разработан Telegram бот для систематизации и объективного представления информации об учебных направлениях в университетах на основе анализа ключевых слов и их визуализации в виде облака слов. Такую систему можно использовать как для исследования наиболее актуальных трендов в сфере образования, так и для предоставления студентам и абитуриентам информации в контексте конкретного образовательного направления.
Цели исследования:
1) Сравнительный анализ информации об образовательных направлениях
2) Объективное представление информации в удобной для пользователя форме
Гипотеза 1
Сопоставление ключевых слов описания образовательных направлений позволяет проводить первичный сравнительный анализ образовательных направлений.
Исследовательские вопросы:
RQ1 Как проводить поиск образовательных направлений по смысловому полю, если оно не всегда отражено в названии?
RQ2 Какие наиболее подходящие способы и инструменты можно применять для выделения ключевых слов в образовательных направлениях?
Гипотеза 2
Удобной для пользователя формой взаимодействия является чат-бот
Исследовательские вопросы:
RQ3 Какие основные тенденции в развитии чат-ботов?
RQ4 Каковы основные преимущества применения чат-ботов в образовании?
Методология:
На первом этапе исследования был проведен анализ литературы для выявления основных тенденций применения чат-ботов в разных отраслях, был проанализирован опыт применения чат-ботов в образовании, выявлены их основные преимущества.
Для проведения поиска образовательных направлений по смысловому полю применялись методы для выполнения узкоспециализированных задач парсинга данных, анализа текстов, обучения нейронных сетей для анализа данных, а также применялась платформа для создания ботов. Для визуализации смыслового поля необходимо было обучить нейронную сеть строить облака слов. Значимые ключевые слова, определенные парсером, наполняют облако, соответствующее определенному образовательному направлению. Применяя свойства машинного обучения, бот не просто визуализирует облака слов, но и сопоставляет их, чтобы выявить уникальные черты каждого исследуемого направления.
Работа проводилась по этапам: выбор сайта для парсинга, анализ структуры сайта для эффективного парсинга, сбор данных, обучение нейронной сети, выбор платформы для бота, создание и тестирование бота.
Выбор сайта для парсинга
Перед тем как начать сам процесс парсинга, требуется тщательный отбор источников информации. Проанализировав множество вариантов, был выбран специализированный сайт "Поступи.онлайн".
С учетом темы и целей проекта, необходимо было найти источник, который бы обеспечивал наиболее полное и актуальное представление информации об образовательных программах. В связи с этим был выбран сайт "Поступи.онлайн" - универсальный ресурс, который систематизирует и обновляет информацию о большинстве вузов. Здесь имеется информация о новостях, спецификации курсов, требования для поступления и прочая информация, которую можно использовать для анализа.
Важные критерии выбора содержали в себе: репутацию ресурса, регулярность и своевременность обновлений, доступность и обширность информации, а также возможность ее парсинга. Всем этим критериям "Поступи.онлайн" соответсвует, что делает его оптимальным источником информации для исследования.
Сначала анализируется структура сайта и его навигация, чтобы получить представление о способах доступа к данным и их организации. Внутренняя оптимизация сайта обычно включает в себя анализ HTML-разметки, вкладок, меню направлений и структуру каталогов. Внешний анализ включает в себя оценку количества и качества обратных ссылок и их местоположения.
Это позволит создать эффективную стратегию для сбора, анализа и преобразования данных с сайта в информацию, которую можно использовать для создания персонализированного пользовательского интерфейса.
В конечном итоге, анализ сайта поступи.онлайн даст ценное представление о том, как максимизировать сбор и использование информации с сайта для улучшения пользовательского опыта и предоставления актуальных и полезных данных для пользователей.
Анализ структуры сайта для эффективного парсинга
Подготовка к парсингу данных начинается с тщательного анализа структуры выбранного источника информации. Особенностью выбранного сайта является его удобная и прозрачная структура HTML, которая обеспечивает удобство в процессе парсинга. Каждая из веб-страниц содержит чёткую разметку, и благодаря такому формату отдельные элементы информации можно легко отделить друг от друга и использовать в дальнейшем.
Сайт разделен на несколько основных блоков: страницы вузов, новости, информация о направлениях подготовки. Помимо этого, на сайте используются различные форматы данных - текстовые записи, таблицы, изображения. Это дает возможность извлекать максимум полезной информации о каждом образовательном направлении. Благодаря высокому уровню структурированности и контрастности данных, парсинг сайта "Поступи.онлайн" становится более эффективным и простым процессом. Информация легко извлекается, обрабатывается и классифицируется без необходимости применения сложных алгоритмов или инструментов. Это делает "Поступи.онлайн" не только богатым источником информации для исследования, но и удобной площадкой для ее извлечения.
Сбор данных
Сбор данных осуществлялся с помощью веб-скрапинга. Веб-скрапинг — это процесс извлечения информации из веб-страниц, широко применяемый в различных областях для сбора данных с Интернета. В исследовании в качестве основного инструмента для парсинга данных применяется библиотека Scrapy на Python. Для парсинга данных существует ряд мощных функциональных библиотек и инструментов, например Beautiful Soup, Scrapy и ParseHub для Python, jsoup и HtmlUnit для Java, а также регулярные выражения и встроенные парсеры JSON [1]. Scrapy — это мощный и полноценный фреймворк для веб-скрапинга, который предлагает все необходимые функции для извлечения данных, следования ссылкам и сохранения собранной информации в удобном формате [2]. Сначала был разработан код для парсера Scrapy. Его преимуществом стали настраиваемые функции для обработки запросов, особенности работы с данными и хранения информации. Этот фреймворк значительно облегчает процесс веб-скрейпинга и позволяет эффективно обращаться со сложными или большими объемами данных. Отличие Scrapy от других парсеров заключается в его высокой скорости работы, универсальности и мощной поддержке сообщества. Специфика кода раскрыта в результатах.
Анализ данных
В части анализа текстов, рассматривались такие подходы и технологии, как статистические методы (например, TF-IDF), методы на основе машинного обучения (например, BERT, Word2Vec), а также различные методы обработки естественного языка (NLP) с использованием библиотеки nltk в Python или OpenNLP в Java [3; 5]. Анализ подходов для обработки текста и выделения ключевых слов указал на целесообразность применения технологии "Удаление стоп-слов". Это обеспечит повышение эффективности процесса обработки текста. Сосредоточив внимание на самых значимых элементах текста и игнорируя слова, не несущие значительной смысловой нагрузки, достигается улучшение качества анализа и повышение его точности. В процессе работы с сайтом поступи.онлайн были собраны и систематизированы все необходимые данные. Данные были сохранены в формате json, что обеспечивает более простой и удобный способ для хранения и передачи данных. json является легко читаемым форматом, который может быть быстро обработан и использован, и при этом занимает минимальное количество места для хранения информации. Также формат json позволяет работать с данными как с обычным словарем Python. Работа над форматированием файла json была проведена с целью обеспечить удобное и быстрое получение информации из файла. Преобразование структуры данных помогло ускорить обработку данных и облегчить дальнейшую работу с ними.
Обучение нейронной сети
Для применения нейронных сетей в анализе данных доступно многообразие библиотек и фреймворков, таких как TensorFlow, PyTorch и Keras в Python, Deeplearning4j в Java или CNTK от Microsoft [4]. Эти инструменты помогают создавать глубокие и сложные нейронные сети для обработки больших объемов данных. В данном исследовании нейронные сети активно используются в целях анализа текста. Декларированный подход предполагает применение модели обучения на небольшом объеме данных, с последующим углубленным анализом и категоризацией ключевых слов и идей. В итоге создается облако слов, на основе которого можно сделать вывод о ключевых темах и смыслах текстовой информации. Такой подход позволяет достигнуть высокой точности при извлечении смысловой нагрузки из больших текстовых данных и дает возможность прогнозирования и выделения ключевых тенденций в текстовых данных.
Выбор платформы для бота
Среди платформ для создания и использования ботов, Telegram, Slack и Facebook Messenger являются лидерами рынка. Они предлагают богатые возможности для создания ботов, интеграции с другими сервисами и платформами, а также предоставляют удобные инструменты для управления и анализа работы бота. Однако, после тщательного анализа всех возможных вариантов и учета условий и требований исследования, была выбрана платформа Telegram. Telegram предлагает большой набор функций для создания и использования ботов, а также является одной из наиболее популярных платформ среди пользователей.
Создание и тестирование бота
Следующим этапом было написание логики бота с применением библиотеки Aiogram. Aiogram — это мощная библиотека для создания ботов для Telegram. Она обладает простым и понятным API, хорошей производительностью и поддерживает все новые функции Telegram [6; 11]. Её преимуществами являются легкость использования, высокая скорость обработки запросов и огромное сообщество разработчиков.
Завершающим этапом стало тестирование работы бота. Сравнительная аналитика "до" и "после" показала значительное повышение качества работы бота. Обработка запросов стала быстрее, точнее, а предоставление информации - более аккуратным и понятным для пользователя.
Этапы исследования:
1. Провести анализ литературы для выявления основных тенденций в чат-ботах в разных отраслях, опыт применения чат-ботов в образовании, их основные преимущества.
2. Провести исследование и сравнение современных методик и инструментов для парсинга данных с веб-сайтов, и в частности, сайта Поступи.онлайн.
3. Применить наиболее подходящие способы и инструменты для выделения ключевых образовательных направлений и связанных с ними фраз.
4. Обучить нейронную сеть, которая будет способна анализировать контекст ключевых слов и выделять наиболее значимые.
5. Создать механизм визуализации результата в виде облака слов, что позволит представить данные в легко воспринимаемом виде.
6. Разработать и настроить Telegram бота с портативным, доступным и удобным интерфейсом для пользователей.
7. Тщательно протестировать работу бота, оптимизировать его работу и устранить возможные ошибки.
Теоретический обзор
1. Обзор основных тенденций в применении чат-ботов
В последние годы чат-боты стали особенно популярны [13; 20]. Так, технология GPT была известна только среди профессионального сообщества, пока ее не представили в виде чата, где можно было формулировать запросы на естественном языке. Чат-боты позволяют обеспечить взаимодействие между пользователем и машиной с помощью технологии обработки естественного языка [33]. Чат-боты являются наиболее перспективным и продвинутым типом взаимодействия между людьми и компьютерами. Они становятся инструментом основных мировых отраслей, таких как здравоохранение, банковское дело, образование, сельское хозяйство и т. д. [27]. Чат-боты активно применяются для поиска информации, так, Microsoft заключила соглашение с OpenAI об интеграции ChatGPT в свою онлайн-поисковую систему “Bing” (Lindern, 2023). Китайский поисковый гигант Baidu также интегрирует своего чат-бота “ERNIE” в свою поисковую систему [19]. Более того, Google, компания, предоставляющая наиболее широко используемую в мире поисковую систему, также объявила о своих планах интегрировать чат-бота в свою поисковую систему и сделала это в конце 2023 года, запустив Google Gemini [29].
Многие современные решения делаются с интерфейсом в виде чат-бота: чат-бот Telegram для поддержки образовательного процесса в период карантинных ограничений [28]; чат-бот для управления умным домом [15]; рекомендательная система по подбору музыки на основе успешной интеграции двух платформ: Python AgentSpeak и Telegram [18]; прототип чат-бота Telegram для сбора изображений гор от волонтеров, а также для предоставления ими такой информации, как погодные условия и опасность схода лавин в данном месте [26].
Интересно решение по созданию чат-бота для предоставления автоматизированных финансовых консультаций сотрудникам машиностроительных предприятий, который помогает рассчитать программы личных сбережений для обеспечения постоянного уровня потребления [21]. Приложение генерирует индивидуальный план сбережений на основе информации, предоставленной пользователем. К факторам, влияющим на принятие решения о консультировании, относятся предыдущая удовлетворенность принятием решения, предпочтения инвесторов, предполагаемые трудности, взаимосвязь между финансовой грамотностью, опытом и уверенностью. Финансовые менеджеры планируют поведение в области потребления и сбережений на протяжении всего жизненного цикла своего персонала. Исследование проводится на платформе Telegram и включает обзор API Telegram Bot и процесса разработки чат-бота с использованием языка программирования Java. В области образования интересно исследование по разработке Telegram чат-бота Eduino служащего в качестве диалогового агента на образовательной платформе [22]. В соответствии с методологией исследований в области науки о данных, разработка проходит в три этапа. Eduion предоставляет набор функций, позволяющих получать конспекты лекций и расписание курсов, выполнять тесты, связанные с курсом, и связываться с преподавателями курса через диалоговый интерфейс обмена сообщениями. На базе Telegram чат-бота был разработан подход к проведению опросов [12]. Участникам предлагалось подписаться на чат-бот Telegram, который предоставляет им ссылки на краткие опросы в определенные моменты их повседневной жизни с помощью коротких уведомлений. Авторы разработали удобный скрипт на Python, который позволяет гибко изменять настройки чат-бота, например, количество опросов в день. Благодаря данному подходу исследования AA среди пользователей iOS и Android могут проводиться экономически эффективно и надежно, при этом обеспечивается безопасность данных. Также интересно исследование по созданию модели сверточной нейронной сети для распознавания пород деревьев по изображению ствола для наземной лидарной таксации лесных насаждений. Для повышения вероятности распознавания предлагается использовать telegram-бота для пополнения обучающей выборки [32]. Telegram-бот позволяет автоматизировать сбор изображений обучающей выборки для последующего моделирования углеродного баланса лесных насаждений.
2. Чат-боты в образовании
В сфере образования чат-боты стали незаменимыми инструментами для расширения образовательного взаимодействия. Широко распространено мнение, что чат-боты играют ключевую роль в создании благоприятной учебной среды, облегчении взаимодействия и обеспечении возможности общения с большим количеством студентов [24]. Наставничество является ключевой концепцией в секторе образования, и некоторые университеты используют возможности чат-ботов с искусственным интеллектом для проведения занятий. Чат-боты, управляемые искусственным интеллектом, широко используются в образовательных средах для взаимодействия со студентами, рассмотрения запросов, предоставления информации, проведения инструктажа и оптимизации таких процедур, как регистрация на курс или обратная связь по поставленной оценке [16]. Чат-боты с искусственным интеллектом обладают способностью имитировать разговорные навыки человека, что делает их весьма полезными в сфере образования. Чат-бот — это компьютерная программа или программное приложение, использующее технологии искусственного интеллекта и обработки естественного языка для поддержки онлайн-дискуссий. Технология обработки естественного языка широко рассматривается как оказывающая в скором времени наибольшее влияние на образование. Имеются убедительные доказательства в пользу использования технологии обработки естественного языка в обучающих целях [25; 30]. Диалоги могут проводиться в письменном виде или посредством взаимодействия с использованием технологии преобразования текста в речь. Основная цель чат-бота - способствовать диалоговому взаимодействию с пользователями, предоставляя ответы, знания и помощь, полученные на основе заранее определенных алгоритмов, моделей машинного обучения или полных наборов данных. Объединение двух основных элементов, “чат”, обозначающего общение, и “бот”, служащего аббревиатурой для робота, составляет суть концепции “чат-бот”. Многие университеты по всему миру нашли решения по организации и поддержке образовательного процесса с помощью различных инструментов и технологий [23].
Рассмотрим основные преимущества чат-ботов в образовании [17].
Влияние чат-ботов на образовательную индустрию: Неспособность преподавателей уделять достаточно времени каждому ученику и подробно отвечать на его вопросы является распространенной причиной, по которой учащиеся ищут альтернативные пути продолжения своего образования. Чат-боты могут быстро отвечать на различные вопросы, доступ к чат-боту можно получить из приложений и веб-сайтов. Поиск решений не требует переключения между различными сервисами. Чат-боты, работающие на базе искусственного интеллекта, позволяют читать длинные главы, насыщенные визуальными эффектами, аудио- и видеоматериалами, что поддерживает интерес студентов к учебе. Чат-боты предоставляют преподавателям новые возможности для передачи информации. Решения для чат-ботов в сфере образования создают уникальный опыт для студентов и побуждают их активнее участвовать в учебной деятельности.
• Преимущества чат-ботов для студентов: в настоящее время студенты выбирают более индивидуальный и интерактивный метод обучения. Чат-боты и другие интеллектуальные виртуальные помощники, управляемые искусственным интеллектом, предоставляют студентам возможность приблизиться к индивидуальной образовательной траектории.
• Надежная и продуманная обратная связь: образовательный процесс может продвигаться вперед только с помощью обратной связи между преподавателями и учащимися, что обеспечивают чат-боты. Бот общается со студентами, спрашивая их, как можно ответить на вопросы, что следует изменить, что идет хорошо, а что нет. Проанализировав ответы, бот собирает наиболее популярные предложения от студентов и отправляет их преподавателям.
• Мотивация. Чтобы заинтересовать студентов, ответить на их вопросы, предоставить им ресурсы и помочь им вовремя завершить свои проекты, сейчас доступно множество платформ для чат-ботов. Студенты любят использовать чат-ботов для своего обучения, потому что это делает процесс обучения более увлекательным и позволяет им быстро получать ответы на свои вопросы на выбранном ими устройстве.
Telegram является одним из самых популярных и эффективных инструментов поддержки онлайн-обучения [28]. Они позволяют улучшить участие студентов, благодаря функции мгновенного обмена сообщениями с помощью чат-бота, который выступает в качестве коммуникационной платформы, где особое значение имеет интеллектуальная обратная связь, нужно следить за успехами ученика или предоставлять персонализированную обратную связь. Могут оказывать немедленную помощь ученику: он позволяет автоматизировать и незамедлительно предоставлять привычные ответы, как административного характера, так и связанные с содержанием предмета. Альтернатива системам управления обучением (LMS): чат-бот может выполнять функции, традиционно интегрированные в LMS [31].
Результаты и дискуссия
Создание и оптимизация скриптов для парсинга образовательных направлений
При создании скрипта, "scraper", для парсинга образовательных направлений, требовалось учесть множество нюансов: особенности структуры сайта, разнообразные форматы данных и составление эффективных белых и черных списков для высокоточного извлечения информации.
Важной характеристикой scraper'а является его гибкость и модульность, которые позволяют ему успешно адаптироваться к изменениям в структуре сайтов и дополнению новых источников. Также критически важным становится оптимизация скорости обработки данных для минимизации времени ожидания ответа и нагрузки на сервера.
Процесс оптимизации scraper'а включает такие направления как улучшение производительности, недопущение дублирования данных и эффективная обработка возможных исключительных ситуаций. Все эти аспекты в совокупности обеспечивают создание надежного и мощного инструмента, который будет максимально эффективен в решении поставленных задач.
Применение методов обработки текста для выделения ключевых слов.
Работа над данными начинается не сразу с их обработки, но до этого этапа проходит важный процесс форматирования данных в формат JSON. Именно этот формат позволяет удобно структурировать и хранить большие объемы информации.
После успешного форматирования данных и уже в самом процессе обработки текста, важным шагом процедуры становится очистка текста от знаков пунктуации, лишних символов, а также приведение всех букв к нижнему регистру. Эти предварительные меры необходимы для последующей стандартизации и нормализации текста.
Следующим шагом становится применение специализированных алгоритмов для выделения ключевых слов, а также использование техник стемминга/лемматизации, которые способствуют более точному и эффективному извлечению значимых слов и фраз из текста.
Цель всех этих процедур - выделить наиболее релевантные ключевые слова, которые в дальнейшем будут играть критическую роль в классификации и анализе данных. Важно подчеркнуть, что при всей работе с данными абсолютным приоритетом остается обеспечение высокой точности и качества, чтобы предотвратить возможное искажение или неверную интерпретацию информации.
Применение и дообучение предварительно настроенной нейронной сети
1.1. Выбор и настройка архитектуры предварительно настроенной нейронной сети
При работе с нейронными сетями, выбор подходящей архитектуры становится одним из самых важных и решающих элементов. Существует множество типов архитектур, каждый из которых предназначен для своего специфического набора задач. Сверточные нейронные сети (CNN) чаще всего используются для обработки изображений, рекуррентные нейронные сети (RNN) отлично справляются с последовательностями данных, а полносвязные нейронные сети (DNN) служат великолепным решением для широкого спектра задач. В рамках исследования применялась уже предварительно настроенная модель, настройка которой проводилась посредством ее дообучения на данных настоящего исследования.
1.2. Подготовка входных данных и дообучение предварительно настроенной нейронной сети
Перед тем, как перейти непосредственно к обучению нейронной сети, требуется провести комплексную подготовку и предобработку входных данных. Это включает в себя очистку данных от нежелательной информации, нормализацию и, при необходимости, трансформацию входного формата данных.
В основе процесса обучения лежит постепенное снижение значения функции потерь, которая является критерием, отражающим разницу между предсказанными и истинными значениями для данных. Это достигается с помощью различных методов оптимизации, основным из которых является градиентный спуск.
Одним из ключевых аспектов обучения модели является настройка гиперпараметров, которые определяют, как именно происходит обучение. Сюда входит скорость обучения, количество эпох обучения и размер пакета для стохастического градиентного спуска. Именно на этапе настройки гиперпараметров использовался метод "Удаления стоп-слов", который позволил сфокусировать модель на наиболее значимых для нашей задачи словах, тем самым повысив ее эффективность.
В результате всех проведенных этапов ожидаем получить нейронную сеть, оснащенную способностью интерпретировать и эффективно классифицировать данные, поступающие из парсера.
Визуализация результатов
Этап визуализации данных считается ключевым в любом научном или аналитическом исследовании. Это уникальной процесс, который преобразует скомпилированную из большого объема данных информацию в удобочитаемые и легко воспринимаемые графические представления. Таким образом визуализация значительно облегчает задачу принятия решений, основываясь на представленных данных.
Применение облака слов для представления ключевых слов — это эффективный и широко используемый метод визуализации данных. Его основная задача - представить отбор слов, где наиболее часто встречающиеся термины отображаются крупным шрифтом, а менее частые - мелким. Это позволяет быстро оценить важность того или иного понятия в тексте, выделить ключевые темы и оценить их значимость.
Преимущества использования облака слов включают в себя наглядность, интуитивность, гибкость и эстетичность.
Разработка бота Telegram
Первый этап в создании бота для Telegram — это его регистрация и настройка. В этом процессе требуется создать уникальное имя для бота, а также установить имя пользователя, которое будет использоваться для поиска бота в Telegram. Кроме того, боту требуется ряд настроек, которые определяют его функциональность. Это может включать в себя разработку приветственного сообщения, создания меню навигации, а также установку различных команд, которые бот будет распознавать и выполнять.
Второй ключевой этап в процессе разработки бота Telegram — это его интеграция со сложной системой обработки и анализа данных. Это подразумевает, что бот должен быть способен взаимодействовать с аналитическими системами, запрашивать и получать данные от них. Также в задачи бота будет входить представление данных в понятной и наглядной форме, в том числе и с использованием визуализации данных. Благодаря этому, пользователи могут получить визуальные обобщенные данные, что существенно упрощает восприятие информации и позволяет быстрее оценить ее содержание на качественном уровне. Пример визуализированного ответа на запрос по четырем программам (Финансовые технологии и анализ данных (ВШЭ); программа магистратуры "Экономика и управление инновациями" МГИМО; электронный бизнес и цифровые инновации (ВШЭ); Стратегический менеджмент в цифровой экономике (НИЯУ МИФИ)) представлен на рис. 1.
(1)
(2)
(3)
(4)
Рис. 1. Облака слов по образовательным программам (визуализированный ответа на запрос): (1) Финансовые технологии и анализ данных (ВШЭ); (2) Экономика и управление инновациями МГИМО; (3) Электронный бизнес и цифровые инновации (ВШЭ); (4) Стратегический менеджмент в цифровой экономике (НИЯУ МИФИ)
Источник: сгенерировано чат-ботом
Подобная визуализация значительно повышает эффективность сравнения образовательных программ, так как абитуриент может сразу посмотреть наполнение программы по ключевым словам.
Последним, но не менее важным этапом разработки бота Telegram, является расширение его функционала в рамках взаимодействия с пользователем. Возможность управления ботом, включающая настройки уведомлений, фильтрацию интересующих тем, возможность сохранения или обмена полученной информации, делают бота максимально полезным и удобным для пользователей.
Широкий функционал, надежность и удобство использования делают ботов в Telegram идеальным инструментом для решения задач по представлению данных и визуализации, а их использование позволяет максимально упростить и ускорить процесс обмена информацией между пользователями.
Тестирование и оптимизация
После завершения проектирования и реализации всех элементов проекта важной и ответственной стадией является этап тестирования и оптимизации. На этом этапе происходит проверка работы всех структурных элементов проекта, их корректности и эффективности работы, а также выявление и устранение возможных проблем и ошибок.
Тестирование ключевых элементов и технологий проекта является неотъемлемым этапом обработки и анализа данных. Общий план тестирования включал в себя:
·Тестирование производительности для оценки работы парсера новостей, нейронной сети и бота Telegram. В процессе тестирования производительности оценивается скорость работы, стабильность и эффективность работы всей системы в целом и каждого из компонентов в частности.
·Процедуры проверки безопасности для обеспечения надежности работы проекта и защиты данных и ресурсов.
·Тестирование пользовательского опыта для оценки удобства и простоты взаимодействия с ботом и системой в целом.
Неизбежным этапом после проведения тестирования является исправление всех выявленных ошибок и проблем. Это может включать в себя поиск и исправление ошибок в коде, оптимизацию процессов, улучшение интерфейса взаимодействия с ботом и т.д.
Все обнаруженные проблемы и ошибки необходимо детально анализировать, формулировать стратегии и подходы для их решения и устранения. Также важно провести оптимизацию работы системы на основе полученных результатов тестирования. Этот процесс помогает обеспечить максимальную эффективность, стабильность и надежность работы всего проекта в целом.
Данный этап является ключевым для завершения проекта, поскольку именно здесь решается, насколько успешно будет функционировать вся система, насколько эффективными и корректными будут результаты ее работы. В любом проекте, связанном с обработкой и анализом данных, этап тестирования и оптимизации является неотъемлемой и, возможно, одной из самых важных стадий.
Обратная связь, логирование и дальнейшее развитие
После завершения процесса тестирования и оптимизации, следующим шагом будет включение механизмов для обеспечения обратной связи от пользователей и мониторинга общего состояния и эффективности системы через логирование.
Более активное взаимодействие с пользователями и их обратная связь являются ценными активами для любого проекта. С помощью функций обратной связи, встроенных в бот Telegram, можно собирать отзывы от пользователей. Вся эта информация поможет определить области, требующие улучшения, и выявить новые возможности для дальнейшего развития.
В процессе сбора и анализа обратной связи важнейшим инструментом является система логирования. Логи предоставляют подробную информацию о работе системы, включая возникающие ошибки, время отклика и другие ключевые показатели работоспособности. Эти данные обеспечивают возможность внешнего и внутреннего мониторинга, что помогает в анализе работы системы, выявлении слабых мест или ошибок, а также в решении проблем и оптимизации процессов.
Полученная обратная связь и данные логирования затем используются для внесения улучшений в систему, повышения ее эффективности и удовлетворения потребностей пользователей. Это может включать в себя корректировку алгоритмов анализа данных, улучшение интерфейса взаимодействия бота, добавление новых функций и оптимизацию визуализаций.
Заключение
Сравнение образовательных программ (1) Финансовые технологии и анализ данных (ВШЭ); (2) Экономика и управление инновациями МГИМО; (3) Электронный бизнес и цифровые инновации (ВШЭ); (4) Стратегический менеджмент в цифровой экономике (НИЯУ МИФИ) показало, что выявление ключевых слов и их визуализация в виде облака слов значительно повышает эффективность сравнения образовательных программ, выделяя основные направеления, по которым будет вестись подготовка.
В ходе исследования была подтверждена Гипотеза 1 «Сопоставление ключевых слов описания образовательных направлений позволяет проводить первичный сравнительный анализ образовательных направлений». Описание программы и учебных дисциплин дает достаточно полное первичное понимание о содержании программы.
RQ1 Как проводить поиск образовательных направлений по смысловому полю, если оно не всегда отражено в названии?
В рамках настоящего исследования был разработан бот Telegram для систематизации и объективного представления информации об учебных направлениях на основе анализа ключевых слов и их визуализации в виде облака слов.
RQ2 Какие наиболее подходящие способы и инструменты для выделения ключевых слов в образовательных направлениях?
Применение специализированных алгоритмов для выделения ключевых слов, а также использование техник стемминга/лемматизации способствуют более точному и эффективному извлечению значимых слов и фраз из текста.
В ходе исследования была подтверждена Гипотеза 2 «Удобной для пользователя формой взаимодействия является чат-бот».
RQ3 Какие основные тенденции в чат-ботах?
Чат-бот, являясь уникальным средством для упрощения и автоматизации процесса взаимодействия с пользователями, позволяет обеспечить прямой и непосредственный канал связи с клиентами, предоставляя удобную платформу для обмена информацией, демонстрации результатов анализа данных и получения обратной связи от пользователей. В этой связи перспективы его применения крайне широки.
RQ4 Как применяются чат-боты в образовании?
Широко распространено мнение, что чат-боты играют ключевую роль в создании благоприятной учебной среды, облегчении взаимодействия и обеспечении возможности общения с большим количеством студентов.
В рамках исследования были пройдены все этапы создания, тестирования и внедрения функционального Telegram-бота с возможностями обработки данных и визуализации. Этапы исследования включали установку и настройку бота в Telegram, интеграцию с системами анализа данных, а также кастомизацию функций под пользовательский опыт. Это было достигнуто благодаря оптимальному использованию нейронных сетей и системы оценки информации. Особую важность имеет тестирование для гарантии надежности системы и своевременного устранения ошибок. Включение обратной связи является ключевым элементом подхода, который обеспечивает постоянную оптимизацию на основе отзывов и предложений пользователей. В результате был разработан инструмент семантического анализа на основе парсинга сайта для сравнения образовательных программ. Бот объединяет последние достижения в области обработки данных, нейронных сетей и интерактивных технологий.
Такую систему можно использовать как для исследования наиболее актуальных трендов в сфере образования, так и для предоставления студентам и абитуриентам информации в контексте конкретного образовательного направления.
Источники:
2. Джанарсанам Срини Разработка чат-ботов и разговорных интерфейсов. - М.: ДМК-Пресс, 2019. – 340 c.
3. Гудфеллоу Й., Бенджо Ё., Курвилль А. Глубокое обучение. - М.: ДМК, 2023.
4. Кукин Н., Головатый А. Парсинг сайтов и анализ данных. - М.: РХТУ имени Д.И. Менделеева, 2023.
5. Парсинг и матчинг данных для оперативного анализа динамических ситуаций. Cyberleninka.ru. [Электронный ресурс]. URL: https://cyberleninka.ru/article/n/parsing-i-matching-dannyh-dlya-operativnogo-analiza-dinamicheskih-situatsiy.
6. ТОП 5 книг по нейронным сетям для начинающих. Dzen.ru. [Электронный ресурс]. URL: https://dzen.ru/a/YvX-95PwaUKDiBe3.
7. Стратегический менеджмент в цифровой экономике. Нияу мифи. [Электронный ресурс]. URL: https://admission.mephi.ru/program/1922.
8. Финансовые технологии и анализ данных. Вшэ. [Электронный ресурс]. URL: https://www.hse.ru/ma/fintech/.
9. Электронный бизнес и цифровые инновации. Вшэ. [Электронный ресурс]. URL: https://www.hse.ru/ma/elb/.
10. Экономика и управление инновациями. Мгимо. [Электронный ресурс]. URL: https://pk.odin.mgimo.ru/master/eui.html.
11. Яговитова Д. Разработка Телеграм Ботов. - М.: Озон, 2024.
12. Barthelmäs M., Killinger M., Keller J. Using a Telegram chatbot as cost-effective software infrastructure for ambulatory assessment studies with iOS and Android devices // Behavior Research Methods. – 2021. – № 3. – p. 1107-1114. – doi: 10.3758/s13428-020-01475-4.
13. Battineni G., Di Canio M., Chintalapudi N., Amenta F., Nittari G. Development of physical training smartphone application to maintain fitness levels in seafarers // International Maritime Health. – 2019. – № 3. – p. 180-186. – doi: 10.5603/IMH.2019.0028.
14. Bityukova T.A., Makarova N.V. Engineering and Economic Education in Russia After Bologna System and Forced Digitalization // The xi international scientific conference "digital transformation of the economy: challenges, trends and new opportunities" (iscdte 2024): Том 1064-1. Samara, 2024. – p. 58-67.– doi: 10.1007/978-3-031-65659-0_7.
15. Cheerla S.V., Chakravarthy V.V.N., KishoreBabu K., GopiRam V. Home Automation Using Telegram Bot // Cybernetics, Cognition and Machine Learning Applications. – 2022. – p. 47-54. – doi: 10.1007/978-981-19-1484-3_6.
16. Terekhov V., Zabelina V., Savchenko G., Chumachenko S. Classification of Tree Species by Trunk Image Using Conventional Neural Network and Augmentation of the Training Sample Using a Telegram-Bot // Studies in Computational Intelligence. – 2022. – p. 210-216. – doi: 10.1007/978-3-030-91581-0_28.
17. Das P. How do Chatbots transform the traditional education process?. LinkedIn. [Электронный ресурс]. URL: https://www.linkedin.com/pulse/how-do-chatbots-transform-traditional-education-process-poulamidas/?trk=public_profle_article_view.
18. Garayzar-Cristerna A., Luna-Ramirez W.A. ADAGIO, a BDI Music Recommender Telegram Chatbot // Lecture Notes in Networks and Systems. – 2023. – p. 175-184. – doi: 10.1007/978-3-031-37963-5_14.
19. Huang Z. Chinese search Giant Baidu to Launch ChatGPT-style bot. Bloomberg. [Электронный ресурс]. URL: https://www.bloomberg.com/news/articles/2023-01-30/chinese-search-giant-baidu-to-launch-chatgpt-style-bot-in-march?leadSource=uverify%20wall.
20. Jadhav, K.P., Thorat, S.A. Towards designing conversational agent systems // Advances in Intelligent Systems and Computing. – 2020. – p. 533-542. – doi: 10.1007/978-981-32-9515-5_51.
21. Kobets V., Savchenko S. Using Telegram Bots for Personalized Financial Advice for Staff of Manufacturing Engineering Enterprises // Lecture notes in mechanical engineering. – 2022. – p. 561-571. – doi: 10.1007/978-3-031-06025-0_55.
22. Khalil M., Rambech M. Eduino: A Telegram Learning-Based Platform and Chatbot in Higher Education // Lecture Notes in Computer Science. – 2022. – p. 188-204. – doi: 10.1007/978-3-031-05675-8_15.
23. Korableva O., Durand T., Kalimullina O., Stepanova I. Studying user satisfaction with the MOOC platform interfaces using the example of coursera and open education platforms // Proceedings of the 2019 international conference on big data and education (icbde). London, United Kingdom, 2019. – p. 26-30.– url: https://doi:10.1145/3322134.3322139.
24. Kumar J.A. Educational chatbots for project-based learning: investigating learning outcomes for a team-based design course // International Journal of Educational Technology in Higher Education. – 2021. – № 1. – p. 1-28. – doi: 10.1186/s41239-021-00302-w.
25. Lindern J. von Microsoft baut Chatbot in seine Suchmaschine ein. Zeit Online. [Электронный ресурс]. URL: https://www.zeit.de/digital/2023-02/microsoft-bing-chatgpt-ki-suchmaschine/seite-2.
26. Lotfian M., Ingensand J., Gressin A., Claramunt C. CIMEMountainBot: A Telegram Bot to Collect Mountain Images and to Communicate Information with Mountain Guides // Lecture Notes in Computer Science. – 2023. – p. 129-138. – doi: 10.1007/978-3-031-34612-5_9.
27. Luo X., Tong S., Fang Z., Qu Z. Frontiers: machines vs. humans: the impact of artificial intelligence chat botd is closure on customer purchases // Marketing Science. – 2019. – № 6. – p. 937-947. – doi: 10.1287/mksc.2019.1192.
28. Nosenko O., Nosenko Y., Shevchuk R. Telegram Messenger for Supporting Educational Process Under the Conditions of Quarantine Restrictions // Communications in Computer and Information Science. – 2021. – p. 308-319. – doi: 10.1007/978-3-031-14841-5_20.
29. Pichai S., Hassabis D. Introducing Gemini: our largest and most capable AI model. Blog.google. [Электронный ресурс]. URL: https://blog.google/technology/ai/google-gemini-ai/#sundar-note.
30. Rundell K. NLP in Education: Use Cases and Examples. InData Labs. [Электронный ресурс]. URL: https://indatalabs.com/blog/nlp-in-education.
31. Tamayo P.A., Herrero A., Martín J., Navarro C., Tránchez J.M. Design of a chatbot as a distance learning assistant // Open Praxis. – 2019. – № 1. – p. 145-153. – doi: 10.5944/openpraxis.12.1.1063.
32. Terekhov V., Zabelina V., Savchenko G., Chumachenko S. Classification of Tree Species by Trunk Image Using Conventional Neural Network and Augmentation of the Training Sample Using a Telegram-Bot // Studies in Computational Intelligence. – 2022. – p. 210-216. – doi: 10.1007/978-3-030-91581-0_28.
33. Yan R. Chitty-chitty-chatbot: deep learning for conversational AI // Twenty- Seventh International Joint Conference on Artificial Intelligence (IJCAI-18). Stockholm, Sweden, 2018. – p. 5520-5526.
Страница обновлена: 02.02.2025 в 09:43:30