Модель оценки студенческих работ в эпоху искусственного интеллекта

Денисов И.В.1
1 Московский городской университет управления Правительства Москвы, Москва, Россия

Статья в журнале

Информатизация в цифровой экономике (РИНЦ, ВАК)
опубликовать статью | оформить подписку

Том 7, Номер 1 (Январь-март 2026)

Цитировать эту статью:

JATS XML



Введение

Генеративный искусственный интеллект (ИИ), представленный миру в 2022-2023 гг. как инструмент поиска ответов на запросы и генерации связных текстов, парадоксальным образом совпал с ключевой задачей высшего образования – проверкой способности студента к воспроизводству и структурированию информации. Как справедливо отмечают С.В. Иванова и А.В. Азархин, это совпадение вызвало резонанс между положительными возможностями технологии и кризисом традиционных дидактических единиц [2].

Студенты явочным порядком легализовали использование ИИ в широком диапазоне от довольно примитивно обращения к чат-ботам в мессенджерах до применения продвинутого платного инструментария (DeepSeek, ChatGPT-5, Copilot, SciSpace, YandexGPT, GigaChat) [7, 11, 14].

Университеты, за предыдущие три года довольно быстро прошли все пять этапов классической модели Кюблер-Росс [1] («отрицание», «гнев», «торг», «депрессия») и вступили в фазу «принятия». Это выразилось в двух институциональных решениях: 1) требование декларировать факт использования ИИ; 2) риторический призыв к студентам «мыслить самостоятельно, используя ИИ как научный инструмент» [6, 4, 7].

Однако, как показывают И. Перес-Перес с соавторами, разрыв между декларативным принципом прозрачности и воплощением процедуры оценки колоссален. Так 45,5% кейсов требуют от студентов отчета об использовании ИИ, но не содержат верифицируемых критериев оценки этой прозрачности [6, 14]. Преподаватели оказались в ситуации методологического вакуума, поскольку существующие фонды оценочных средств (ФОС), зафиксированные в рабочих программах дисциплин, проектировались в до-генеративную эпоху и не предполагали наличия у студента «цифрового соавтора» [2, 3]. Попытки адаптировать западный инструментарий, например, Матрицу безопасности Николича [11, 10] или Шкалу AIAS Перкинса [13, 15]), наталкиваются на отсутствие эмпирических исследований в российской выборке, что подтверждается библиометрическим анализом [14, 9].

Настоящая статья представляет собой приглашение к дискуссии. Мы исходим из того, что «переходный» этап продолжается и следующим шагом должна стать трансформация не только технологий, но и методологии оценки. Предполагается, что ИИ способен выполнять функцию не только объекта изучения, но и базового инструмента оценки. Реализация этой концепции, конечно, потребует пересмотра ролей всех участников образовательного процесса – студентов, преподавателей и экзаменаторов.

Цель работы – обосновать и описать трехуровневую модель оценивания письменных студенческих работ таких как выпускные квалификационные и курсовые, дифференцирующую когнитивные уровни и степень вмешательства ИИ, а также предложить конкретные статистические маркеры границ оценки.

1. Методы

Методологический дизайн исследования носит теоретико-аналитический характер с элементами нормативного проектирования. В основу работы положены антропологический и квалиметрический подходы. Обоснованный в труде С.В. Ивановой и А.В. Азархина [2] антропологический подход позволяет рассматривать ИИ исключительно как вспомогательный инструмент для развития личности студента, а не как замену субъектности обучающегося. Квалиметрический подход, в свою очередь, дает возможность оценивать качественные показатели обученности через измеримые метрики, что критически важно при разработке ФОС [2, 3, 12].

В качестве метода сбора эмпирической базы использован систематический обзор литературы (scoping review) с фокусом на публикации 2023-2026 гг., индексируемые в Scopus и ВАК К2. Проанализировано 15 ключевых источников, из них 9 – зарубежных и 6 – российских. Особое внимание уделено работам, содержащим подтвержденные практикой инструменты: «Матрица безопасности и возможностей ИИ в оценивании» [11, 10], «Шкала оценки искусственного интеллекта» (AIAS) [13, 15], а также фреймворк трехстороннего взаимодействия (преподаватель-студент-вуз) [7].

Для анализа российской специфики изучались работы Н.С. и К.В. Лагутиных, посвященные моделям автоматической оценки коротких ответов (ASAG) и автоматизированной оценки эссе (AES) [3], а также исследование О.Н. Гурова и О.В. Галайды, эмпирически фиксирующее практики применения ИИ студентами РАНХиГС [1].

При разработке авторской трехуровневой модели применялся метод нормативного прогнозирования. Мы исходили из следующих ограничений:

· ИИ не способен надежно оценивать когнитивные уровни «синтеза» и «оценки» по Блуму, согласие с экспертом падает ниже 0,6) [3, 16];

· любой акт оценивания должен быть верифицируемым и воспроизводимым;

· модель должна встраиваться в существующую балльно-рейтинговую систему без ее ломки [2, 12].

В качестве статистической гипотезы модели мы вводим параметр «коэффициент экспертного порога» (КЭП). На втором этапе модели максимально возможная оценка может быть ограничена на основе известного принципа Парето 20:80, т.е. получением 80% от максимальной оценки. Данный показатель выведен дедуктивно на основе эмпирических данных Э. Эмиртекин и Я. Озарслан Emirtekin и Özarslan [16], которые подтверждают нашу гипотезу о необходимости дифференциации уровней оценивания. Умеренная согласованность между ИИ и человеком (QWK 0,585–0,640) на фоне хорошей и отличной согласованности внутри группы экспертов (ICC 0,667–0,800) доказывает, что автоматическая проверка валидна лишь для базовых когнитивных задач. Это обосновывает введение в модели 3L-GAM «потолка» в 80% на продвинутом уровне, где требуется экспертная оценка, и резервирование высшего балла только за доказанной субъектностью студента. В современной практике российских университетов баллы достигающие 80-90 по стобалльной шкале соответствуют оценке «хорошо».

При проведении исследования для структурирования, оформления и других вспомогательных ролей использовались генеративные модели искусственного интеллекта DeepSeek [7].

2. Результаты

Основным результатом исследования является разработка «Трехуровневой модели градуального оценивания в условиях легального ИИ» (Three-Level Gradual Assessment Model, далее – 3L-GAM). Модель предназначена для дисциплин, предполагающих письменные работы и проекты, и встраивается в логику AIAS [13, 15], но, в отличие от нее, кроме ранжирования степени разрешения задает предельные границы оценки для каждого уровня.

1. Базовый уровень. ИИ-ассистированное оценивание

На данном этапе проверка студенческой работы полностью делегируется ИИ (модель, официально одобренную университетом, например DeepSeek или отечественные аналоги, например, YandexGPT). Студент заведомо информирован, что его работа будет оценена «машиной». Критическое условие: максимально возможная оценка – это медианный балл по группе или потоку (при стандартном распределении). Данное ограничение вводится намеренно. Как показывают Н.С. и К.В. Лагутины, современные LLM демонстрируют высокую степень согласия с экспертом только на таксономических уровнях «знание» и «понимание» [3, 16]. Следовательно, студент, претендующий на высокий балл, должен быть мотивирован перейти на следующий уровень, где требуется человеческое суждение. Медиана как «потолок» исключает стратегию «сиди и списывай с ИИ и получи пятерку». Это не наказание, а педагогическая архитектура, формирующая запрос на развитие [2, 12].

2. Продвинутый уровень. Экспертная оценка

Работы студентов, не удовлетворенных медианной оценкой, либо работы, отобранные случайным образом, подвергаются традиционной проверке профессором (экспертом-человеком). Верхняя граница оценки на этом уровне может ограничена баллами, которые современные университеты оценивают как «хорошо». В зависимости от сложившейся практики можно оставить существующую в конкретном университете шкалу. Это позволяет, с одной стороны, стимулировать студентов к прохождению на высший уровень, с другой – оставляет «зону роста» для демонстрации субъектности [4, 15].

Данное ограничение – это не дискриминация, а эмпирически обоснованная «зона субъектности» [4, 10]. Эксперт оценивает качество усвоения материала, аргументацию, структуру. Однако даже идеально выполненное задание с корректным использованием ИИ в качестве ассистента (поиск литературы, первичный анализ данных) не может быть оценено в 100%, так как в нем отсутствует явно продемонстрированный компонент критической автономии. Эта зона ~ 20% резервируется под третий уровень.

3. Высший уровень. Субъектность и промпт-инжиниринг

Доступ к этому уровню получают студенты, желающие претендовать на максимальную (до 100 баллов) оценку. Форма прохождения – устная защита портфолио взаимодействия с ИИ [7, 9, 11]. Студент обязан представить:

1. Логи промптов (запросов) к ИИ, демонстрирующие эволюцию мысли.

2. Критический анализ ответов ИИ (что принято, что отвергнуто и почему).

3. Итоговое решение, принятое самостоятельно, в том числе вопреки рекомендации ИИ (если таковое имело место).

Данный подход коррелирует с выводом В.В. Мантуленко о необходимости формирования у студентов «субъектного опыта» в условиях сетевой экономики [4], а также с требованием «прозрачности процедур», зафиксированным в работе О.Н. Гурова, О.В. Галайды [1] и в международных фреймворках [6, 14]. Мы утверждаем: умение грамотно задать вопрос машине и подвергнуть сомнению ее ответ – это новая академическая компетенция, которая должна оцениваться выше, чем простое воспроизводство знаний [9, 16]. Сводные параметры модели 3L-GAM представлены в Таблице 1.

Таблица 1. Характеристика трехуровневой модели оценки 3L-GAM

Уровень
Субъект оценки
Объект оценки
Макс. оценка
Критерий успеха
Базовый
ИИ (LLM)
Формальная правильность, соответствие эталону
Медиана по группе
Прохождение порогового контроля
Продвинутый
Эксперт-человек
Качество решения, аргументация, структура
на уровне 80-90 баллов
Отсутствие грубых ошибок
Высший
Эксперт + комиссия
Портфолио промптов, критическая рефлексия, обоснование выбора
100 баллов
Доказанная субъектность
Составлено автором

Предложенная модель по пороговым оценкам во многом соответствует принятой в настоящее время значительной частью вузов бально-рейтинговой системе. Возможно, что некоторое сопротивление может вызвать нормативное закрепление «потолка» в 80%. Однако ссылка на объективные данные турецких коллег [16] и требование дифференциации когнитивных уровней в рубрикаторах [1; 11] позволяют снять эти возражения.

4. Обсуждение

Полученные результаты позволяют перейти от постановки проблемы к проектированию инструментов. Сопоставим нашу модель 3L-GAM с существующими в мировом дискурсе аналогами.

Соотношение с AIAS. Шкала Перкинса предполагает пять уровней: от полного запрета (AIAS 0) до полного партнерства (AIAS 5) [13, 15]. Наша модель не отменяет, а надстраивает эту шкалу. Уровень 1 (ИИ-оценка) соответствует AIAS 3-4, где студент может использовать ИИ, а преподаватель делегирует проверку. Однако мы вводим жесткий ограничитель (медиана), которого нет в оригинальной AIAS. Мы полагаем, что без такого ограничителя сохраняется риск «симуляции учебной деятельности», о котором пишут Б. Огунлее Ogunleye [12].

Соотношение с Матрицей Николича. С. Николич классифицирует задания по степени уязвимости к ИИ [11]. Наш подход предлагает следующее решение: наиболее уязвимые задания (эссе, рефераты) переводятся в логику процессуального следа (логи промптов). Это полностью коррелирует с выводом А. Лачхеба о необходимости оценки субъектности студента по отношению к ИИ («агентности» в оригинале), а не «продукта» [10], а также с концепцией П. Уильямса [15] и фреймворком З.Н. Хлаифа [9]. Близкие по духу идеи развивают Г. Илиева с соавторами [8], предлагая комплексный фреймворк для ИИ-ориентированного оценивания в высшем образовании. Их модель также исходит из необходимости перехода от бинарной логики «запрещено/разрешено.

Российский контекст и лакуны. Мы вынуждены констатировать: несмотря на наличие глубоких теоретических работ (Иванова, Азархин [2]; Лагутины [3]), эмпирических исследований, аналогичных австралийскому бенчмаркингу [11, 10] или турецкому эксперименту [16], в индексируемых российских источниках на начало 2026 г. не зафиксировано. Исключение – разработка С. Стальской (ВШЭ), но она касается вспомогательной функции ИИ (создание чек-листов), а не прямого оценивания [2]. Это создает возможности для определения направлений развития российской педагогической науки [2, 5].

Ограничения исследования. Предложенная модель носит нормативно-проектировочный характер. Она требует эмпирического подтверждения: необходимо установить, не приводит ли ограничение в (~80-90 баллов) к демотивации; является ли медианная оценка достаточным стимулом для перехода на уровень 2; как адаптировать критерии для разных направлений подготовки (гуманитарное vs. инженерное). Кроме того, модель предполагает наличие у вуза лицензионного доступа к верифицированным LLM, что не всегда реализуемо [7, 9].

Приглашение к дискуссии. Завершая статью, мы сознательно оставляем ее открытой. Академическое сообщество находится в точке бифуркации: либо мы создаем «ИИ-соразмерные» фонды оценочных средств, сохраняя концепцию достоверного знания [2, 5], либо оценивание превращается в симулякр. Особый запрос к специалистам в области квалиметрии и педагогических измерений: необходима математическая верификация предложенного коэффициента КЭП (80%) на больших выборках аналогично [16].

Заключение

Предложенная трехуровневая модель градуального оценивания 3L-GAM представляет собой попытку преодолеть методологический кризис, вызванный интеграцией генеративного искусственного интеллекта в образовательный процесс. Введение ИИ в качестве субъекта оценки на базовом уровне выполняет важную педагогическую функцию: оно в ясной, институционально закрепленной форме демонстрирует студентам, что использование «цифрового соавтора» допустимо лишь до определенных пределов. Осознание того факта, что максимальная оценка при полном делегировании работы машине ограничена медианным баллом, формирует у обучающихся запрос на развитие собственных компетенций и побуждает их к переходу на уровни, требующие непосредственного участия человека.

Важным преимуществом модели 3L-GAM является ее органичная встраиваемость в сложившуюся образовательную практику отечественных вузов. Предложенная градация «базовый — продвинутый — высший» коррелирует с традиционной трехуровневой шкалой оценивания («удовлетворительно», «хорошо», «отлично») и без конфликтов интегрируется в действующие балльно-рейтинговые системы. Это позволяет внедрять модель без коренной ломки существующих фондов оценочных средств, ограничиваясь их содержательной и процессуальной доработкой.

Предлагаемая архитектура оценивания возвращает профессорско-преподавательскому составу главное – возможность сосредоточиться на экспертной функции. Будучи избавленным от рутинной проверки значительной части работ на базовом уровне (где оценку выставляет ИИ) и имея четкие критерии для продвинутого и высшего уровней, преподаватель получает ресурс для содержательного диалога со студентом. Ключевое право окончательного решения, подтверждения или отклонения оценки, остается за человеком, что гарантирует сохранение академических стандартов и субъектности самого педагога в эпоху стремительной технологической трансформации.

[1] Использование этой модели давно вышло за рамки первоначальной сферы применения.

[2] Стальская С. Преподаватель Питерской Вышки представила инновационную методику для оценки работ студентов при помощи ИИ / С. Стальская // НИУ ВШЭ в Санкт-Петербурге : новости. – 22.08.2025. – URL: https://spb.hse.ru/news/1077636663.html (дата обращения: 13.02.2026).


Страница обновлена: 06.03.2026 в 20:56:48

 

 

Model otsenki studencheskikh rabot v epokhu iskusstvennogo intellekta

Denisov I.V.

Journal paper

Informatization in the Digital Economy
Volume 7, Number 1 (January-March 2026)

Citation: