МЕТОДОЛОГИЯ СОЗДАНИЯ КОМПЬЮТЕРНОГО ТЕСТА II Д.В. Смолин
<< Начало статьи Веса вопросов и порядок их следования в тесте - две взаимозависящих характеристики, влияющие в конечном счете на трудность теста. Существуют разичные алгоритмы формирования теста заданной трудности. Под тестом заданной трудности понимается такой тест, оценка по которому для некоторой группы тестируемых примерно соотвествует оценке этой же группы человеком-экспертом. В идеале, вопросы и варианты ответов (отвлекающие) никак не должны пересекаться между собой, что на практике невозможно. По этой причине в классической теории тестирования вопросы в тесте выстраивают в порядке возрастания трудностей, так, чтобы начав с примитивных, постепенно дойти до вопросов, на которые никто не может ответить. По достижении этого момента и следует прекратить тестирование. В качестве оценки по тесту, в этом случае, можно исрользовать не только привычную сумму баллов, но и экзотические, на первый взгляд формулы типа: оценка=max(оценка1, оценка2 ... оценкаN). Для первоначальной оценки трудности вопросов можно использовать методы экспертных оценок, такие, например, как методы согласования. Удобно, также, пользоваться процедурами нормирования и ранжирования. Применительно в нашему тесту по FoxPro возможна следующая последовательность: генерируем (выбираем из готовых) вопрос "единичной" трудности, например "Что такое СУБД?" варианты ответов "система управления базой данных", "система управления банком данных", "нет правильного ответа". все остальные вопросы оцениваем по N-бальной шкале (например, привычной 5-ти балльной) относительно первого. В случае, когда мы затрудняемся оценить, какой в точности балл выставить тому или иному вопросу, применяем попарное сравнение, и, не выставляя баллов, просто выстраиваем вопросы в порядке "от более простых к сложным". в случае, если все вопросы оценены баллами, считаем из сумму (максимальная оценка по тесту) и нормируем тест целиком в некоторый интервал, например [0..1]. в случае, если часть вопросов не имеет оценки, считаем сумму существующих оценок и количество вопросов и задаем максимальную оценку по тесту исходя из соображений относительной важности первой (оцененной) части теста и второй. Имея общую оценку по тесту и ранжированные вопросы нетрудно вычислить веса вопросов. Дальнейшее уточнение весов вопросов требует проведения экспериментов на целевой выборке. В случае, если используется неклассический алгоритм тестирования, например с произвольным порядком вопросов или с циклическим, с условными переходами - веса следует вычислять иначе, в особо трудных случаях (психологические тесты) - динамически то есть уже в ходе тестирования. Продолжение следует ...

МЕТОДОЛОГИЯ СОЗДАНИЯ КОМПЬЮТЕРНОГО ТЕСТА II

Д.В. Смолин

Веса вопросов и порядок их следования в тесте - две взаимозависящих характеристики, влияющие в конечном счете на трудность теста. Существуют разичные алгоритмы формирования теста заданной трудности. Под тестом заданной трудности понимается такой тест, оценка по которому для некоторой группы тестируемых примерно соотвествует оценке этой же группы человеком-экспертом. В идеале, вопросы и варианты ответов (отвлекающие) никак не должны пересекаться между собой, что на практике невозможно. По этой причине в классической теории тестирования вопросы в тесте выстраивают в порядке возрастания трудностей, так, чтобы начав с примитивных, постепенно дойти до вопросов, на которые никто не может ответить. По достижении этого момента и следует прекратить тестирование. В качестве оценки по тесту, в этом случае, можно исрользовать не только привычную сумму баллов, но и экзотические, на первый взгляд формулы типа: оценка=max(оценка1, оценка2 ... оценкаN).

Для первоначальной оценки трудности вопросов можно использовать методы экспертных оценок, такие, например, как методы согласования. Удобно, также, пользоваться процедурами нормирования и ранжирования. Применительно в нашему тесту по FoxPro возможна следующая последовательность:

генерируем (выбираем из готовых) вопрос "единичной" трудности, например "Что такое СУБД?" варианты ответов "система управления базой данных", "система управления банком данных", "нет правильного ответа".
все остальные вопросы оцениваем по N-бальной шкале (например, привычной 5-ти балльной) относительно первого.
В случае, когда мы затрудняемся оценить, какой в точности балл выставить тому или иному вопросу, применяем попарное сравнение, и, не выставляя баллов, просто выстраиваем вопросы в порядке "от более простых к сложным".
в случае, если все вопросы оценены баллами, считаем из сумму (максимальная оценка по тесту) и нормируем тест целиком в некоторый интервал, например [0..1].
в случае, если часть вопросов не имеет оценки, считаем сумму существующих оценок и количество вопросов и задаем максимальную оценку по тесту исходя из соображений относительной важности первой (оцененной) части теста и второй. Имея общую оценку по тесту и ранжированные вопросы нетрудно вычислить веса вопросов.

Дальнейшее уточнение весов вопросов требует проведения экспериментов на целевой выборке. В случае, если используется неклассический алгоритм тестирования, например с произвольным порядком вопросов или с циклическим, с условными переходами - веса следует вычислять иначе, в особо трудных случаях (психологические тесты) - динамически то есть уже в ходе тестирования.

Продолжение следует ...