Материалы, посвящённые машинному обучению или, иными словами, новейшим методам анализа данных в бизнесе, обычно делятся на два полярных класса. Речь идёт либо о статьях, детально описывающих технические нюансы использования определённых алгоритмов, либо об общих футуристических рассуждениях относительно профессий будущего, или рассказах о том, как роботы вот-вот заменят человека. Гораздо меньше материалов о том, к чему должен быть готов бизнес прямо сейчас, и требует ли новая экономика от самих бизнес-руководителей хотя бы «точечного», но при этом принципиального переосмысления путей решения бизнес-задач и методов оценки получаемых результатов.
В западных СМИ подобные публикации хоть и изредка, но появляются, однако и их транслировать в дословном переводе тоже представляется малоэффективным. Во-первых, их передовые компании всё же более зрелы в понимании идей цифровой экономики, а в данном случае даже небольшой зазор уже очень чувствителен. Во-вторых, различия в бизнес-культуре и подходах к ведению дел, тоже даёт о себе знать.
Нам тоже необходимо говорить на эти темы, но сначала хотелось бы сказать не о технологиях и не о методиках, а о существовании типичных разночтений в оценке ситуации. Отсутствие должного взаимопонимания между бизнесом и ИТ вследствие разницы в терминологии и в подходах к решению задач, как известно, всегда было очень болезненной и часто обсуждаемой проблемой. Во что же она может вырасти в эпоху применения новых методов анализа данных?
В основе — статистика
В принципе хорошо известно, что применение методов пресловутого машинного обучения в бизнесе в целом основано на анализе взаимного расположения неких «точек» в многомерном пространстве признаков (характеризующих товар, клиента, процесс продаж, продукцию, логистику и т. д.). Если бы человек мог хорошо представлять себе это пространство и последствия его преобразований (хотя бы линейных), то 90% технологий машинного обучения были бы просто не нужны. Люди бы легко решали эти задач в уме. Пусть приблизительно и без должного математического обоснования, но для принятия бизнес-решений этого было бы более чем достаточно. Здесь важно подчеркнуть, что в отношении возможности умозрительно строить сложные геометрические интерпретации все, и бизнес, и ИТ, и пресловутые data scientists находятся в абсолютно равных условиях. Этой способности они все по определению лишены.
Следующий тезис состоит в том, что в основе «новой аналитики» всегда лежит статистика, или, иными словами, фактически любые исходные данные представляются здесь не в виде числа, а в виде функции распределения вероятности. В данной области между бизнесом и техническими специалистами (ИТ-, digital-директорами, data-scientists и т. д.) уже могут возникать разные трактовки ситуации. Статистические методы, конечно, использовались в экономике давно у нас в стране ещё с советских времён. Но те времена давно ушли вместе со специалистами. В постсоветской же экономике соответствующая культура могла бы поддерживаться, прежде всего, в таких управленческих дисциплинах как анализ рисков и управление качеством продукции. Именно о них, как о сферах, обеспечивающих преемственность использования статистических методов в новейшей экономике, иногда говорится в западных публикациях. У нас же, к сожалению, обе эти дисциплины, по ряду причин, широкого распространения так и не нашли. Есть, конечно, страхование, где статистика используется очень широко, но в масштабах совокупности всех отраслей это, скорее, исключение.
Среди руководства у нас всё ещё распространено мнение: статистические методы следует использовать тогда, когда мы по тем или иным причинам плохо владеем ситуацией. Считается, что это некая замена точным бизнес-показателям, которые существуют, но мы их просто не знаем. Как следствие такой точки зрения, возникает «ложная» бизнес-идея: давайте соберём дополнительные данные, проведём ещё один более подробный опрос, и это поможет нам принять более взвешенное решение. Увы, по достижении определённого порога не поможет, и вопрос должен вставать по другому — нужны ли в данной ситуации дополнительные данные и как оптимальным образом обработать уже имеющиеся.
Разночтения часто отражаются на трактовке исходных данных, и это чрезвычайно характерный пример. Бизнес при принятии решений привык полагаться на точную, достоверную информацию, которая либо стабильна, либо со временем меняется по понятному закону. И это вполне естественно. Но в обработке статистической информации, при поверхностном взгляде всё выглядит с точностью до наоборот: наибольшую ценность как раз представляют данные с наибольшей динамикой и вариативностью, которые, будучи нанесёнными на график, могут вообще выглядеть как полностью неупорядоченное «облако точек». Но именно в этом беспорядке кроются зёрна ценной информации, а неизменные данные, наоборот, никакой информации не несут. Да, технически работать с вариативными данными сложнее, частью полезной информации ради достижения устойчивости работы выбранных алгоритмов при этом приходится жертвовать. Но это уже нюансы и это не «про бизнес». Что касается бизнес-задач, то единство в трактовке исходных данных, а также в оценке, может быть, не очень точных результатов, безусловно, остаются в приоритете.
Точность против интерпретируемости
Приведём ещё один пример, свидетельствующий о необходимости сближения позиций бизнеса и специалистов по обработке информации. Во многих базовых курсах по машинному обучению сейчас рисуют уже вполне классический график, характеризующий возможности интерпретации результатов различных методов и моделей машинного обучения (см. рисунок).
Возможности интерпретации различных методов машинного обучения в зависимости от точности и сложности модели
Он предельно прост и его основная цель — продемонстрировать то, что при выборе каждого из алгоритмов приходится соблюдать баланс между его качеством (а стало быть точностью получаемых результатов) и возможностью с его помощью интерпретировать получаемые результаты. Эти характеристики, как видно, находятся в обратной зависимости. То, какой метод следует применять, зависит от конкретной задачи. Иногда важно просто получить данные с помощью качественного, но при этом довольно сложного алгоритма. Его работа при этом представляется в виде «чёрного ящика» для всех участников.
И не следует думать, что профессионалы анализа данных тут обладают каким-то особым видением. Для них это точно такой же «чёрный ящик». Однако, если нужно проинтерпретировать результаты, понять, что будет при изменении тех или иных параметров модели, выбирают более простые алгоритмы. Тут ситуация полностью противоположна: логика их функционирования абсолютно понятна для всех в равной степени.
Наиболее важно достигнуть консенсуса посередине, когда мы усложняем модель, повышаем качество анализа, но её интерпретируемость начинает понемногу «размываться». Соответственно понимание между бизнесом и «технарями» становится критически важным. Например, в результате некоторых преобразований исходных данных мы можем прийти к выводу, что главным фактором влияния на покупательскую способность служат не отдельные характеристики покупателя, а их линейная комбинация. И эта характеристика в данном случае выступает как единый фактор, независимый от других. Причём явного бизнес-смысла такой фактор, как правило, не имеет. Но если судить по зарубежным публикациям (хотя пока скорее, по неформальным блогам), бизнес постепенно привыкает к подобным «неудобностям», ставя во главу угла эффективную работу в новых условиях.
Чтобы оставить комментарий пожалуйста Авторизуйтесь