Сделать интеллект говорящим

Независимый обозреватель. На протяжении 15 лет был обозревателем, затем — заместителем главного редактора, а впоследствии занял пост главного редактора журнала Intelligent Enterprise.

Использование технологий искусственного интеллекта в бизнесе начинается с простых и понятных ситуаций — голосовых и текстовых помощников, или чатботов (chatbots). Есть заметные успехи: уже работают чатботы первого поколения, однако они умеют далеко не всё. На данный момент активно идет техническое совершенствование более продвинутых диалог-ориентированных чатботов, задачи которых выходят за рамки простых сценариев. Однако какие требования к ним предъявлять и что они смогут, пока до конца неясно. Это только начало, нам ещё предстоит провести классификацию таких решений, уловить важные нюансы и ответить на многие вопросы. Первые шаги на этом пути мы и сделаем в этой статье. В первой части статьи мы поговорим о базовых и низкоуровневых методах и технологиях NLP и относительно несложных чатботах первого поколения.

В начале 2000-х годов на российском рынке весьма стремительно начала приобретать популярность концепция CRM, ориентированная на методическую и информационную поддержку взаимодействия бизнеса со своими клиентами. Может быть, некоторые помнят, что начиналось все с примитивного, но понятного тезиса: CRM позволяет сохранять даты рождения клиентов. В нужный момент система напомнит нам о важной для клиента дате, мы его поздравим, и он останется лояльным к нашей компании.

Значительное время спустя, уже без громких разговоров рынок постепенно начал понимать всю глубину концепции взаимодействия с клиентами, ее классификацию, постигать многочисленные тонкие нюансы и необходимость интеграции с другими подходами.

Создается впечатление, что сейчас нечто подобное происходит и в сфере использования голосовых технологий и обработки текста в бизнесе. Так же как и в случае с CRM, в данном случае мы отталкиваемся от концепции взаимодействия с клиентами и точно так же начинаем с простых и понятных примеров — голосовых и текстовых помощников, или чатботов (chatbots). Внешние результаты работы подобных систем понятны и весьма эффектны, тем более что это направление хорошо укладывается в модный тренд цифровой трансформации. Их применение в ритейле и иных отраслях, ориентированных на массового розничного клиента, уже не редкость, в том числе и в России.

С речевой информацией огромное количество людей работают непрерывно, а это значит, что технологии обработки голоса должны работать в реальном времени и никак иначе.

Однако так же, как и в случае с CRM-системами, нам еще предстоит провести классификацию таких решений, уловить важные нюансы, уяснить для себя необходимость интеграции с традиционным ИТ-ландшафтом и ответить на многие вопросы. Важно помнить и то, что в случае с CRM на отечественном рынке мы шаг за шагом пытались освоить на тот момент уже зрелую концепцию, в случае обработки речи развитие технологий и их внедрение в виде продуктов очень часто происходит параллельно.

Из голоса — в текст, из текста — в смысл

Для начала отметим некоторые значимые с практической точки зрения моменты. Под термином «речевые технологии» будем объединять технологии обработки текста и голоса . Считается, что речь сейчас оперативно, дешево и весьма качественно переводится в текст (или, если угодно, последовательность слов, имеющих смысловую нагрузку), с которым потом и работают. Большинство роликов YouTube, равно как и новостных видеорепортажей (по крайней мере, англоязычных), уже транслированы в текст именно автоматическим способом, и качество может оценить каждый.

После трансляции в текстовой формат в игру вступают так называемые технологии обработки естественного языка (Natural Language Processing, NLP), их задача выделить максимум смысла из поступающего на вход потока отдельных слов и выражений, произвести некие логические операции и обратить смысл, полученный на выходе, опять-таки в адекватный, понятный человеку текст.

Задачи, которые решаются методами и технологиями «чистого» NLP, нечасто возникают на предприятиях, в основном они встают только перед крупнейшими компаниями электронного бизнеса. Однако «чистый» NLP всегда присутствует в бизнес-системах высокого уровня.

Сегодня в подавляющем большинстве случаев обработка речевой информации для целей бизнеса идет с использованием методов искусственного интеллекта. Технологии NLP сейчас принято относить к сфере Machine Learning, хотя они достаточно специфичны, как в области подготовки исходных данных, так и в сфере их обработки.

Однако в этом случае мы имеем одно важное отличие от применения массы других направлений искусственного интеллекта. Практически все они, как известно, направлены на то, чтобы заменить собой тех или иных сотрудников в конкретной бизнес-среде. Но почти все действия, которые они собой заменяют, выполняются сотрудниками дискретно с той или иной периодичностью. Люди не каждый час принимают решения, не все время вынуждены разглядывать фотографии, распознавая на них объекты, и т.д. С речевой же информацией огромное количество людей работают в непрерывном режиме, тратя на это до 95 процентов своего рабочего времени. А это значит, что заменяющие их системы должны лучше реагировать на непредвиденные ситуации, решая задачи в реальном времени, и никак иначе.

Что умеет «чистый» NLP?

Как уже было сказано, технологической основой обработки текста являются методы и инструменты NLP. Именно с помощью NLP-технологий исходный текст разбивается на отдельные слова, подбираются их синонимы, выделяются отдельные части речи, из текста при необходимости удаляются «лишние» слова, не несущие смысловой нагрузки и т. д. Теми же методами NLP, как и требуют универсальные каноны машинного обучения, исходные данные преобразуются в численную форму и нормализуются. Скажем, могут строиться числовые матрицы, характеризующие частоту вхождения каждого слова в интересующий нас документ. Затем числам присваиваются веса в соответствии с их общей популярностью в том или ином языке и т.д. После предварительной подготовки данные обрабатываются уже в значительной мере универсальными методами машинного обучения, решающими задачи классификации, регрессии или статистического анализа.

Что должен почерпнуть для себя из всего этого конечный пользователь? На сегодня, прежде всего, то, что NLP — это в большинстве случаев базовый и низкоуровневый, но при этом достаточно универсальный и постоянно пополняемый новыми функциями инструмент решения задач обработки текстовой информации. И хотя некоторые практически важные бизнес-задачи вполне можно уложить в рамки технологий и методов NLP, большинство из них (включая пресловутые чатботы) часто создаются с помощью более высокоуровневых оболочек, учитывающих, в частности, ряд специфических методических наработок. Приведем аналогию из мира привычных пользователю традиционных бизнес-систем: система обработки транзакций (читай элементарных бизнес-операций) основана на реляционной алгебре, то есть фактически на фундаментальной математике, специалистов в этой области на предприятиях почти не бывает, но любая транзакционная бизнес-система их использует, а обслуживающие ее специалисты успешно обходятся без глубокого знания этой фундаментальной дисциплины (хотя бывают и исключения).

Даже относительно простые чатботы первого поколения обучаются совсем не быстро, а обучение необходимо потому, что разные люди, даже сообщая ровно об одном и том же, делают это по-разному. Чтобы чатботы достигли нужного интеллектуального уровня и могли более или менее полноценно заменить собой живого человека, должно пройти время.

Посредством своего рода «чистого» NLP могут решаться, например, задачи определения близости (в том числе по количественным шкалам) общего содержания какой-либо совокупности документов, разделения их на категории, поиска синонимов, определения тонких смысловых различий того или иного термина в тексте и иные похожие задачи. Если говорить о специалистах, создающих подобный функционал, то тут ключевыми фигурами являются программист и Data Scientist (нередко в одном лице), желательно имеющие опыт именно в сфере NLP. Весь базовый программный инструментарий (как правило, язык Python и необходимые библиотеки) в этой сфере проработаны уже очень глубоко и качественно. Иногда может потребоваться помощь лингвиста, особенно если речь идет не об английском языке, однако потребность в бизнес-экспертизе здесь не очень сильна. Вместе с тем надо сказать, что в таком «чистом» виде подобные задачи нечасто решаются на предприятиях, а если они и есть, то в основном сосредоточены в крупнейших компаниях электронного бизнеса. Но, повторим, как и упомянутая фундаментальная математика, методы и технологии NLP всегда присутствуют в бизнес-системах высокого уровня.

Однако некоторые характерные примеры использования «чистого» NLP именно для бизнес-задач все-таки существуют. В основном это те сферы, где автоматизации диалога с пользователем не предусматривается, но работа с текстом при этом все равно предполагается весьма глубокая. Один из хороших примеров — формирование иерархического (или более сложного, граф-ориентированного) каталога продукции или сервисов крупной компании. Специалистами он формируется так, как им привычно и всегда примерно одинаково — в основном в соответствии с прямой иерархией по отраслевому, функциональному или же ценовому признаку. В то же время текстовой анализ описаний изделий в совокупности с анализом сообщений обратной связи пользователей, эксплуатирующих те или иные продукты, вполне может выявить скрытые, но очень важные нюансы. И, соответственно, появляется возможность сформировать иную структуру каталога, пусть пока альтернативную традиционному. Есть сведения, что подобные проекты сейчас активно пилотируются крупными игроками электронного бизнеса, и, по крайней мере они сами, экономический эффект видят очень ясно.

Иногда «чистый» NLP используют наиболее продвинутые маркетологи, скажем, для тонкой работы с ключевыми словами web-контента. При этом они должны не бояться попыток разобраться в этой области как в непростой технической дисциплине и к тому же не чураться программирования. Но массовой тенденцией это пока не стало. Снова возвращаясь к разговору о специалистах, отметим, что в случае использования «чистого» NLP полностью сохраняется потребность в разработчиках и специалистах в сфере Data Science. При этом более явно очерчивается необходимость в бизнес-экспертизе.

Чатботы первого поколения

Разговор о решениях, в которых над технологиями и методами NLP формируется более высокоуровневая инструментальная оболочка, начнем с самого простого примера, относящегося к чатботам первого поколения. В просветительской литературе на эту тему часто используется пример, связанный с запросом пользователя билета на авиарейсы. Он представляется весьма удачным, поэтому используем его и мы. В таких задачах появляются понятия сущностей (entity) и намерений (intents), которые «натренированный» чатбот, собственно, и должен распознавать. Сами эти понятия для сферы обработки речевых интерфейсов уже вполне традиционны, хотя их количество и смысл в каждом случае, конечно же, разные. В нашем случае в качестве намерений могут, скажем, выступать желания пользователя купить билет, обменять его на другой, перевести его из категории эконом в бизнес-класс, использовать накопившиеся бонусы, вовсе отменить покупку и т. д. Сущностями являются сам пассажир, авиакомпания (если, к примеру, есть дочерние), время или временной интервал, места отправки и назначения, стоимость и, возможно, некоторые другие. Предполагается, что выделением сущностей, формированием на этой основе всех возможных вариантов вопросов и ответов, определением возможных связей между ними занимаются бизнес-эксперты. В нашем случае с заказом авиабилетов почти все, в общем, очевидно и без них, но тем не менее.

Есть и более сложные сценарии. Сейчас они в значительно мере сосредоточены в медицине, где чатботы при взаимодействии с пациентами становятся все более популярными. В немедицинских изданиях соответствующие примеры описываются редко именно из-за сложной специфики их сущностей и намерений, равно как и более развитой логики взаимодействия. В качестве экспертов тут, безусловно, должны привлекаться и врачи различной специализации, и специалисты в области организации медицинского обслуживания. Но принципиально данная ситуация не намного отличается от приведенного примера с авиабилетами.

Отметим, что тут мы имеем вполне конкретную и существенно ограниченную в узких рамках отраслевую задачу. Набор реализуемых чатботом сценариев может быть большим или меньшим, но он всегда заранее ограничен. Именно на решение таких задач ориентированы чатботы первого поколения.

В отличие от использования технологий и методов NLP, мы уже оперируем не отдельными базовыми функциями обработки текста, а более комплексными функциями, доступными через специальный программный интерфейс (chatbot API). Вариантов таких интерфейсов конкретно для создания чатботов на рынке сейчас довольно много, они имеют свою классификацию, широту функционального охвата, детальность реализации отдельных функций и т. д. Но почти все они так или иначе работают с намерениями и сущностями, о которых мы говорили. Интеграционные потребности для нашего примера тоже весьма прозрачны, чатботы берут необходимую информацию из корпоративных систем, и только из них.

Однако и проблем с подобными чатботами первого поколения немало. Прежде всего, даже такие, относительно простые чатботы обучаются совсем не быстро, а обучение необходимо потому, что разные люди, даже сообщая ровно об одном и том же, делают это по-разному. Чтобы чатботы достигли нужного интеллектуального уровня и могли более или менее полноценно заменить собой живого человека, должно пройти время. Эффективно обучать их в большинстве случаев можно лишь в реальной среде взаимодействия с клиентами, пусть и на ограниченном пилотном проекте. Поэтому в первое время их внедрение вполне может вызвать разочарование.

На это накладывается и тот факт, что внутренняя логика работы бота зачастую остается черным ящиком для клиента. С одной стороны, ему вроде и не надо знать все подробности, с другой — не всегда понятно: то ли стоит набраться терпения и как следует натренировать бота на конкретный отраслевой диалог, то ли он изначально сделан не совсем правильно и ждать качественного результата вовсе бесполезно.

* * *

Когда мы слышим о применении чатботов в той или иной торговой/ресторанной сети, медицинском учреждении или транспортной компании, в основном речь идет именно о таких, относительно несложных задачах и сценариях. Вместе с тем рынок постепенно переходит к более развитым решениям, которые мы рассмотрим во второй части статьи.

© «УПРАВЛЯЕМ ПРЕДПРИЯТИЕМ»
Все права защищены. Все торговые марки являются собственностью их правообладателей.