Мария Шантаренкова

Редактор, специалист в области PR. Работала менеджером по маркетингу и PR компании ALP Group. С 2003 по 2014 г. была выпускающим редактором журнала Intelligent Enterprise.

Мы живем в эпоху бурного потока технологических инноваций, и нейронные сети оказываются в центре этого ветра перемен. За последний год технологии нейросетей совершили гигантский прорыв. И сделал это, по сути один проект – ChatGPT. Если ранее мы говорили, что большие языковые модели становятся все более привлекательными для бизнеса, то теперь произошел «фазовый переход». Сегодня те, кто не используют нейросети в бизнесе, уже теряют свои позиции и эффективность. Я поделюсь с вами основными моментами, которые каждый менеджер должен знать о нейросетях, чтобы успешно использовать их в своем бизнесе.


«Наибольшую выгоду, на наш взгляд, получат компании, которые правильно используют эту технологию, что означает, что они должны обладать знаниями в области ИИ и иметь огромные массивы собственных данных», - отмечает Кэти Вуд (Cathie Wood), знаменитый технологический инвестор и CEO компании ARK Investment Management. Мы не будем вдаваться в детали, не так важно разбираться, как именно они работают, это сложная математика. Однако тем, кто использует нейросети, необходимо кое-что понимать.

Что такое нейросети?

Нейросети – это компьютерные системы, опирающиеся на алгоритмы машинного обучения, и, в определенной степени, имитирующие работу человеческого мозга. Это некоторая математическая модель, которая состоит из большого количества связанных между собой узлов, называемых «нейронами». Каждый нейрон имеет вес, который определяет его важность в расчетах. Входные данные проходят через слои подобных нейронов, обрабатываются и передаются в следующий слой. И этот процесс повторяется многократно, до достижения удовлетворительного результата.

С математической точки зрения нейронные сети – это набор уравнений, используемых для предсказания, угадывания вероятности появления следующих слов в предложении. И с этой точки зрения все модели семейства GPT являются наследниками старой языковой модели T9, которая использовалась в телефонах еще в 90-х годах и помогала набирать текущее слово, угадывая его.

Ключевое отличие нейросетей от других ИТ-инструментов – это способность обучаться на основе заранее подготовленных данных и примеров, а также своего собственного опыта. Модель нейросети в процессе обучения сама создает свою структуру так, чтобы наилучшим образом реагировать на входящие запросы. Это очень важно понимать. Не нужно, как в обычном ПО, закладывать четкие условия и алгоритмы ответов и реакций системы на те или иные данные. Например, не нужно писать алгоритм для водителя: если на светофоре красный свет, то нужно остановиться. Можно просто обучить модель на реальных примерах, и она сама выяснит, что водителям надо останавливаться на красный свет.
Эта особенность обучаться в процессе изучения реальной жизни, делает нейросети похожими на людей.

Примерно так мы все и учились, когда были детьми. Каждый раз, когда нейросеть что-то отвечает, она получает от пользователя обратную связь, например, понравилось или нет. Она это учитывает и перестраивает внутреннюю модель так, чтобы отвечать лучше. Однако нейросети способны анализировать гораздо большие объемы данных и выявлять скрытые закономерности, которые далеко не всегда видны человеческому разуму.

Чтобы глубже понять, что произошло за последние несколько лет, обратимся к истории развития нейросетей.

 

Первый прорыв или сила самообучения

Очевидно, чем богаче модель, то есть чем больше у нее параметров (переменных), тем она лучше предсказывает. Поэтому стали появляться большие языковые модели (Large Language Models, LLM), в которых очень много параметров. Однако, не все так просто. До 2018 года нейронные модели естественного языка в основном использовали обучение на больших объемах данных, размеченных вручную. Но это ограничивало их и делало крайне дорогим и долгим обучение очень больших языковых моделей.

И тут на сцену выходит модель GPT (Generative Pre-trained Transformer, Генеративный предобученный трансформер). Архитектуру GPT придумали исследователи Google еще в 2017 году, но окончательно она оформилась в июне 2018 года, когда компания OpenAI опубликовала статью под названием Improving Language Understanding by Generative Pre-Training, в которой была представлена модель GPT. OpenAI предложила так называемое слабонадзорное (weak supervision) обучение, тем самым удалось сделать серьезный прорыв.


Оказалось, что можно тренировать модель на совершенно любом наборе текстовых данных, которые сделал человек, и их не нужно заранее размечать.


Упрощая, можно сказать, что если мы хотим научить нейросетевую модель предсказывать следующее слово на основании предыдущих слов в предложении, то можно использовать любой текст, который написан человеком, как огромный набор примеров. Это стало поворотным событием для всей индустрии искусственного интеллекта.

В том же 2018 году появилась модель GPT-1, которая оказалась на редкость эффективной в обработке огромных массивов данных и работе с большими моделями, тем самым доказав эффективность выбранного подхода. Помимо слабонадзорного обучения еще одно преимущество модели GPT в том, что ее архитектура состоит из очень простых блоков, которые легко комбинировать между собой и легко масштабировать. На этой основе следующие поколения этой модели стали активно наращивать объем и количество параметров. С тех пор все приложения искусственного интеллекта – обработка текста, изображения, звука, переводы и так далее – стали использовать технологию GPT.

 

Второй прорыв или количество, переходящее в качество

Чем мощнее модель, чем больше в ней «нейронов», тем более сложные задачи могут решать нейросети. И специалисты OpenAI решили воспользоваться преимуществами модели GPT и принялись активно ее масштабировать. Следующие два поколения GPT радикально и последовательно увеличивали ее по двум ключевым параметрам: набору тренировочных данных и количеству параметров. Если модель GPT-1 имела 117 миллионов параметров, то GPT-2, которая вышла в 2019 году, уже 1,5 миллиарда (более чем в 12 раз). Если модель GPT-1 была обучена на 4,5 ГБ текста из 7000 неизданных книг, то GPT-2 на 40 ГБ текста и 8 миллионах документов, за которые проголосовали пользователи форума Reddit.

Модель GPT-2 получилась настолько хорошей, что даже в OpenAI этого не ожидали. Так, она написала эссе от имени подростка на тему эффективного реагирования на изменения климата, текст был под псевдонимом отправлен на специальный конкурс эссе и жюри никакого подвоха не заметило. Эссе от модели GPT-2 было не хуже, чем от других подростков (но и не лучше). Таким образом было доказано, что увеличение параметров модели сильно улучшает генерацию текста и логичность изложения. Но это не все.

Выяснилось, что по мере роста размера модели у нее появляются новые свойства. И это достаточно удивительно.


Существуют специальные наборы задач на разрешение двусмысленности в естественном языке, которые уже очень давно используют для оценки разумности различных моделей. Ранее исследователи пытались натренировать специальные нейросети решать такие задачи, но у них получалось в лучшем случае 60 % правильных ответов (у среднего человека он более 90%). А модель GPT-2 сама научилась в 70 % случаев правильно решать такие задачи, хотя ее никто специально не тренировал на это (в объеме обучающих текстов таких примеров не было). Увеличение размера языковых моделей открывает новые возможности, от сочинения длинных эссе со связанным смыслом, до решения языковых задач, требующих зачатка интеллекта.

Воодушевленные, специалисты OpenAI решили еще увеличить размер модели. Вышедшая в 2020 году модель GPT-3 уже имела 175 миллиардов параметров (рост в 116 раз), а набор обучающих данных для обучения GPT-3 вырос до 570 гигабайт (более чем в 14 раз). Этот набор был таким, что живому человеку даже прочитать такой объем информации просто нереально: он включал огромное количество книг, английскую Википедию и т.д. Результат был уже закономерен – модель GPT-3 поумнела и научилась правильно отвечать на вопросы, которые очень редко или вообще не встречались в тренировочном наборе данных. Например, задачи на разрешение двусмысленности в естественном языке, она стала решать почти как человек, на уровне 90%.

И снова при увеличении количества параметров модели у нее появились новые специфические умения, которые никто специально не закладывал.


Например, перевод текстов с французского или немецкого на английский давался GPT-3 гораздо лучше, чем многим специализированным нейросетям, которые были натренированы именно на это. Что довольно удивительно, учитывая, что никто не учил GPT-3 переводить, она сама, каким-то образом, научилась этому. Но еще более невероятно, что GPT-3 смогла научиться арифметике! Вдумайтесь, языковую модель учили лишь писать тексты, а она сама смогла сообразить, как складывать четырехзначные числа.

 

Третий прорыв или сила обратной связи

Однако оставался важный нюанс – усложнение языковых моделей автоматически еще не означает, что их ответы будут хорошо восприняты человеком. GPT-3 – это просто языковая модель, которая обучена на огромном количестве текстов, в том числе из интернета. И нередко были случаи, когда нейросеть не понимала контекст, или выдавала неверную или бесполезную информацию. Поэтому следующую задачу, которую решали специалисты OpenAI – научить нейросеть давать точные и полезные ответы, но при этом корректно и никого не оскорбляя. То есть создать искусственный интеллект по поведенческим индикаторам совпадающий с культурным человеком. Один из лучших вариантов решения этой задачи – дать нейросети обратную связь от реальных людей. Большое количество людей оценивали ответы нейросети на различные темы, хорошие ли они и похожи ли на ожидания этих людей. И чем больше нейросеть получала обратной связи, тем лучше ответы подходили людям.

В марте 2022 года OpenAI выпустила модель GPT-3.5 (InstructGPT), количество параметров которой не увеличилось, формально она не стала умнее. Однако она была обучена на то, чтобы максимизировать оценку людьми выдаваемых ответов, чтобы ответ понравился наибольшему количеству людей. GPT-3 .5 (InstructGPT) – это первая нейросетевая модель, которая была обучена и воспитана людьми. Заметим, что этот этап до обучения нейросети на обратной связи от живых людей потребовал не много затрат.

Однако именно взаимодействие с живыми людьми стало третьим ключевым элементом, который сделал GPT-3.5, все последующие модели из семейства GPT, такими потрясающими.


После этого успех модели ChatGPT, которая вышла в ноябре 2022 года, уже не кажется таким невероятным. Судя по косвенным данным, ChatGPT не сильно отличался от исходной GPT-3.5. Известно, что модель немного обучили на дополнительном наборе данных, состоящих из диалогов, т.к. предыдущие модели этого не знали и не могли, например, переспросить пользователя, если что-то непонятно. Но это лишь небольшие доработки, а не кардинальные технические улучшения.

 

Удобный интерфейс – вишенка на торте

Сэм Альтман, исполнительный директор OpenAI, писал в Твиттере, что в компании удивились, что выход ChatGPT привел к такому буму. Ведь уже 10 месяцев в открытом доступе лежала похожая по способностям языковая модель (GPT-3.5). И это покажется странным, но, видимо, главный секрет успеха модели ChatGPT – всего лишь удобный интерфейс, как в привычном мессенджере. К модели GPT 3.5 можно было обращаться только через специальный API, и это могли только айтишники. А у обычных людей доступ к этой модели появился только с выходом ChatGPT и открытием публичного доступа. И сейчас большинство решений на базе искусственного интеллекта сделано на базе моделей GPT-3.5 или GPT-4, которые дообучены для решения конкретных задач.

Мультимодальность GPT-4

GPT-4 -- это самая новая нейросетевая модель семейства GPT. Самое интересное новшество, которое сразу бросается в глаза -- это добавление нового второго типа исходных данных, а именно картинок. Модель способна распознать объекты на картинке, установить между ними взаимосвязи, даже спрогнозировать, что с этими объектами может происходить дальше. Модели, которые понимали изображения и могли отвечать на вопросы о нем, существовали и до появления GPT-4 и назывались мультимодальными. Но GPT-4 оказалась заметно лучше и опережает специализированные мультимодальные модели в большинстве тестов. Во время презентации GPT-4 специалист OpenAI в режиме онлайн набросал от руки на листочке макет сайта, сфотографировал его и отправил GPT-4. И модель по этой информации сделала код сайта на базе этого макета. Про остальные успехи модели GPT-4 мы уже рассказали в первой части цикла.

Заметим, что, начиная с выпуска GPT-3 .5 (InstructGPT), компания OpenAI перестала открывать данные и результаты исследований своих моделей. Хотя изначально компания была задумана именно для открытой разработки технологии в интересах всего общества, чтобы ни одна коммерческая корпорация не смогла стать ее монопольным владельцем. Однако, видимо, что-то пошло не так… И, если про GPT-3 .5 еще была какая-то скудная информация, то про параметры модели GPT-4 (количество параметров и набор обучающих данных) мы практически ничего не знаем. Сэм Альтман, глава OpenAI, в интервью отмечал, что в GPT-4 было сделано множество небольших улучшений, которые, суммарно, дали достаточно хороший эффект.

Думаю, вы убедились, что нейросети имеют большой потенциал. Они обладают уникальными возможностями для решения задач в различных областях и бизнес-сценариях, прежде всего в маркетинге, продажах и HR. Об этом в следующей статье цикла.

 

Комментарии 0

Чтобы оставить комментарий пожалуйста Авторизуйтесь

© «УПРАВЛЯЕМ ПРЕДПРИЯТИЕМ»
Все права защищены. Все торговые марки являются собственностью их правообладателей.