Управленческая теория измерений. Часть 7. Рекомендации по использованию в системе показателей

Что такое качество измерений? Это способность передать эмпирическую систему отношений числами. Видим (пусть субъективно), Иванов работает лучше Петрова, а это значит, что и зарплата у него должна быть больше. Всё понятно, но как же сложно… Например, в компаниях используется маркетинговая информация. Качество, то есть надёжность и достоверность маркетинговой информации, определить весьма не просто. Ещё большее значение качество играет при измерении показателей компании. Ведь плохое качество измерения показателя дискредитирует всю систему показателей компании. В этой части статьи мы поговорим об информативности измерений, проанализируем приведённую в одной из предыдущих частей систему оценок в фигурном катании, а также обсудим использование теории измерений в системе показателей компании.

Незнание теории не освобождает от ответственности.

Информативность измерений

Информативность — это то новое, что вы узнаёте по результатам измерения.

Информативностью измерений мы будем называть порядковую или количественную меру новой информации, заключённую в измерении.

Количественная мера информативности сама по себе представляет интересный объект теории информации (см. врезку «Мера Шеннона»). Но вот беда: опять теория о своём, а практика совсем иная. Напрямую в системе показателей компании мера Шеннона практически неприменима. Но для практического использования в системе показателей компании это не важно. Гораздо важнее то, что мы уже отмечали: для большей достоверности выводов следует использовать менее информативные шкалы, соблюдая нужный баланс информативности и достоверности.

Информативность измерений изменяется в обратной пропорции к достоверности.

Например, завтра точно будет от –50° по Цельсию до +50°. Это достоверные сведения, только вот вряд ли вы в них нуждаетесь. То есть их информативность равна для вас нулю.

Надёжность и достоверность систем оценок в фигурном катании

Теперь, когда мы узнали теорию качества измерений, проанализируем системы оценок в фигурном катании, которая описана в предыдущей части, по критериям надёжности, информативности и достоверности. Это позволит нам увидеть, как работают требования достоверности и надёжности, а также показать алгоритм анализа подобных систем показателей.

Надёжность системы оценок приходится оценивать по интуиции. Нет критериев оценки самих критериев надёжности и достоверности. Каждый раз придётся творить.

Надёжность классической 6-балльной системы оценок. Старая система оценок предполагала простое сложение баллов за технику и артистичность в произвольной и обязательной программах, а затем все оценки за обе программы суммировались (или усреднялись, что одно и то же с точки зрения результата).

Правильность отдельных оценок, то есть приемлемость шкалы (0,0 — 6,0), была не стопроцентной, но к шкале фигуристы, тренеры и судьи приспособились, и как относительный инструмент измерений эта шкала работала. Специалисты отмечали, что примерно в 90% случаев она позволяла судьям отличать близкие по качеству выступления разных спортсменов или вариации качества выступлений одного и того же спортсмена. Поэтому правильность локальных оценок можно считать равной 90% 1.
Правильность интегральной оценки первоначально не вызывала особых сомнений. Действительно, суммируем оценки, тем самым учитываем все стороны мастерства фигуриста. Но мы знаем, что правильность интегральной оценки невелика. Она не даёт сбоев в типовом случае, если фигуристы примерно на одном уровне владеют произвольной и обязательной программами. Случай с Беатрис Шубой исключение, но на такие исключения и должна быть рассчитана хорошая система оценок. Поэтому моя оценка правильности интегральной оценки — 50% (поскольку она работает только в типовых случаях).
Обоснованность отдельных оценок. Близкие оценки, например, 5,1 и 5,2, отличались не очень чётко. За базу один судья брал лучший прокат, оценивая его в 5,8, а другой за то же самое ставил 5,9. Соответственно, и шаг снижения оценки, и конечный результат у них были разными. Градации шкал для всех программ и оценок устанавливались экспертно. Для разных оценок (школы, техники и артистичности в произвольной программе) эксперты и критерии были различны. Это крайне важно учитывать при анализе системы оценок. Тем не менее, система была достаточно хорошо разработана для мастеров фигурного катания 2. Моя оценка обоснованности локальных оценок — 80%.
Обоснованность интегральной оценки со временем становилась всё сложнее. Значение (вес, значимость) произвольной программы росло. Да и с самого начала она была важнее для зрителей, а в сегодняшнем мире это самое главное. Поэтому моя оценка обоснованности интегральной оценки — 70%.
Устойчивость локальных оценок характеризует степень совпадения результатов измерения при повторных применениях измерительной процедуры. С этим вообще было плохо. Многое зависело от того, какую страну представлял тот или иной спортсмен. Моя оценка устойчивости локальных оценок — 60%.
Устойчивость интегральной оценки. Мы уже знаем, что суммирование значений разных показателей, даже если они выражены в одинаковых шкалах, некорректно. Потому моя оценка устойчивости интегральной оценки — 50%.

Мера Шеннона

В теории информации самой знаменитым показателем информативности является мера Шеннона. Она вычисляется как разность энтропий до (H₀) и после измерения (H₁). Энтропия (Н) определяется так:

где p_i — вероятность события i, которых всего n. Соответственно, информативность (количество информации) равно разнице:
I = H₁ – H₀

Надёжность модифицированной 6-балльной системы оценок. Напомню, что изменилось правило подсчёта интегральной оценки: стали использовать веса и вес произвольной программы был выше. В результате, по моей оценке, правильность, обоснованность и устойчивость интегральной оценки возросли на 5 — 10%. Система явно улучшилась, но до приемлемой системы оценок было ещё далеко. Что и доказала Беатрис Шуба.

Надёжность системы суммы мест. Напомню, что балльную шкалу с большим количеством градаций заменили на порядковую, так как порядковая шкала более надёжная, чем балльная. Итог стали подводить по сумме мест с весами, а отдельные оценки судей сохранили 6-балльными для ориентировки судей и спортсменов. В итоге повысилась достоверность и надёжность за счёт перехода к измерениям в шкалах меньшей информативности. «Эффект Шубы» удалось нивелировать.

Надёжность и достоверность новой системы оценок, основанной на оценке всех элементов программы по отдельности, стала на порядок выше. Во-первых, она в максимально возможной степени защитила фигуристов от произвола судей, то есть повысилась объективность оценок. Во-вторых, — о чудо! — одновременно резко усилилась информативность. Оценки можно сравнивать во времени, их можно раскладывать по элементам. В-третьих, заложен механизм совершенствования. Критерии оценки элементов почти каждый год пересматриваются, дополняются. С точки зрения теории трудно предложить принципиально более совершенную систему. Фигуристы, тренеры и судьи могут совершенствовать отдельные оценки в рамках принципиально неизменной системы.

Достоверность системы оценок — совпадает ли результат измерений с действительным положением вещей — оценить трудно. Формальных измерителей достоверности нет.

Подведём итоги анализа системы оценок в фигурном катании.

Общие закономерности в вычислении качественного интегрального показателя на основе многих частных оценок есть, и они конструктивны. Их необходимо знать и использовать.
Субъективность системы оценок не может быть преодолена на 100%, но может быть снижена.
Надёжность, информативность и достоверность системы оценок измерить, определить трудно. Надо «спускаться» в предметную область и действовать по обстановке.
Надёжность системы оценок приходится оценивать по интуиции. Оказывается, степень разработанности аудита систем оценок близка к нулю. Нет критериев оценки самих критериев надёжности и достоверности. Каждый раз придётся творить.
Достоверность системы оценок оценить трудно.

Рекомендации по использованию теории измерений в системе показателей

Прежде всего, надо перенести в практику создания системы показателей деятельности общие требования к качеству — достоверности, надёжности и информативности. Пусть и на недостаточно разработанном уровне, но их необходимо учитывать. Все эти показатели комплексные, то есть не сводимые к одному свойству, к одному простому и хорошо измеряемому показателю. Остальные требования к качеству системы показателей деятельности надо взять из конкретных областей, в которых работает фирма.

Надёжность — отсутствие отклонений в результатах измерений. В системе показателей деятельности это означает, что два и более эксперта дают одну и ту же оценку, результат измерений не зависит от процедуры. Формальные измерители надёжности есть: она измеряется статистическими мерами связи и вариабельности. Однако использовать в системе показателей деятельности это можно только в случае опросов нескольких экспертов, что бывает относительно редко.

Достоверность — результат измерений совпадает с действительным положением вещей. Формальных измерителей достоверности нет. Эксперты должны однозначно понимать, что именно и в какой шкале они оценивают, чтобы избежать ситуаций, когда эксперты оценивают один и тот же показатель, характеризующий объект исходя из различных предпосылок.

Важные общие свойства измерений: как правило, чем больше информативность, тем меньше надёжность, а также, чем больше надёжность, тем меньше информативность.

Информативность — мера новой информации, заключённая в измерении. Она определяется разрешающей способностью шкалы измерения и нашими исходными представлениями об измеряемой величине. Если мы уже знаем измеряемую величину, то информативность измерения равна нулю, никакой новой информации мы не получаем. Но со значениями показателей деятельности всё ясно: мы потому их и измеряем, что заранее не знаем. Поэтому эта сторона информативности не актуальна. И в системе показателей деятельности информативность сводится к разрешающей способности шкал.

Возможные «противоречия» между показателями измерений. Измерение может быть (а может и не быть, обязательности здесь нет):

надёжным, но недостоверным;
достоверным, но ненадёжным.

Важные общие свойства измерений:

как правило, чем больше информативность, тем меньше надёжность;
как правило, чем больше надёжность, тем меньше информативность.

Итак, в системе показателей деятельности показатели качества измерений и оценок конкретизируются и упрощаются. Основные выводы без строго доказательства:

надёжность сводится к устойчивости;
правильность сводится к обоснованности;
информативность сводится к точности шкалы (чем сильнее шкала, тем больше точность);
многомерность = {количество независимых или частично-зависимых, но дополняющих друг друга показателей для одной цели} 3.

Очевидно, что в процессе построения в системе показателей деятельности происходит последовательная адаптация шкал и методик измерений под цели и задачи конкретной фирмы. Это облегчает решение задач качества измерений и делает представленные здесь методы необходимыми при проведении оригинальных измерений. Оценки и оценочные шкалы — это база технического инструментария.

* * *

Итак, мы видим, что плохое качество измерения показателя дискредитирует всю систему показателей компании. Аудит шкал измерений — задача несложная для квалифицированного консультанта, но очень важно не ошибиться. Поэтому, на мой взгляд, его нужно провести. Вот только наши консультанты такой мелочью не всегда занимаются. На такой работе со шкалами денег не заработаешь, да и некоторая квалификация нужна.

Литература

Комментарии 0

Чтобы оставить комментарий пожалуйста Авторизуйтесь

Управленческая теория измерений.

Информативность измерений

Надёжность и достоверность систем оценок в фигурном катании

Мера Шеннона

Рекомендации по использованию теории измерений в системе показателей

* * *

Литература

Подписка

Популярные статьи

Сборники статей