Модели ChatGPT и Claude, которые будем тестировать
У платных моделей текстовых нейросеток есть важное преимущество – они умеют «читать» файлы. Мы подумали, что это их отличное свойство можно применить так: закинуть им pdf-файл с финансовой отчетностью компании и попросить, чтобы они ее проанализировали.
На результат работали две нейросетки:
- ChatGPT, модель 4о;
- Claude, модель 3 Opus.
Обе стоят по 20$ в месяц. И просто так из России ни в одну не зайдешь. Но, поверьте, квест с оплатой и поиском рабочего VPN стоят того, чтобы посмотреть на нейросетевое чудо.
Почему чудо? Потому что автор этой статьи восемь лет преподавала «Финансовый анализ». В течение целого семестра я рассказывала про формулы, учила писать выводы и строить графики. По итогам учебного полугодия студенты сдавали курсовую работу. Но не все. Потому что кто-то не справлялся. А из числа сданных курсовиков всегда был весомый процент брака с ошибками в расчетах и выводами из серии «Было столько, стало столько и это плохо». Некоторые студенты объясняли динамику финансовых процессов уж очень односложно и не могли увидеть за цифрами факты. А бездушный нейросетевой мозг все видит и в выводах за словом в карман не лезет. Показываем, какие результаты он продемонстрировал.
По какой схеме будем работать
Попросим ChatGPT и Claude выполнить пять шагов.
- Определить этапы для финансового анализа.
- Выделить из pdf-файла с бухгалтерской отчетностью необходимые для анализа данные.
- Провести финансовый анализ по этапам из первого шага.
- Написать выводы по расчетам, указать проблемные стороны и точки роста по результатам анализа.
- Собрать полученные значения в таблицу.
- Построить графики для рассчитанных показателей.
Для финансового анализа воспользуемся бухгалтерской отчетностью крупной металлургической компании за 2023 год. Скачали ее с сайта «Центр раскрытия корпоративной информации», и там она в pdf-файле. В этой статье не станем уделять внимание тому, как писать промпты. Про то, зачем задавать нейросети роль и как ставить ей задачу, мы рассказывали в публикации «Применяем ChatGPT для анализа – SWOT, PEST и финансового».
Шаг 1. Нейросети определяют этапы финансового анализа
Наш первый промпт был одинаковым для ChatGPT и Claude. Вот, как его сформулировали:
«ChatGPT/Claude, привет! Представь, что ты – опытный финансовый аналитик. Твоя задача – выполнить финансовый анализ по бухгалтерской отчетности. Для этого тебе нужно рассчитать финансовые коэффициенты и написать выводы по полученным результатам. Сможешь справиться с такой задачей?»
Обе нейросетки согласились взяться за такое. Причем Claude в первом же ответе выдал схему, по которой будет работать, правда, без конкретики. Ради нее пришлось написать еще один промпт:
«Пожалуйста, напиши, какие именно коэффициенты в каждой из четырех групп ты будешь считать. И сразу укажи формулы, которыми воспользуешься».
Ответы нейросетей будем показывать на скринах. Вот первая партия.
Claude
ChatGPT
Оба героя статьи предложили одинаковые группы коэффициентов. Тут они абсолютно правы – это ключевые аналитические показатели. И даже количество коэффициентов внутри групп почти совпало с одним исключением – Claude для деловой активности предложил четыре показателя, а не три, как ChatGPT.
Подводим итог первого шага и отдаем победу Claude. Во-первых, он не стал тратить токены и лить зазря воду. Мы спрашивали про расчет только финансовых коэффициентов – он про них и написал. Во-вторых, набор его показателей хоть на один да побольше.
Шаг 2. Нейросети извлекают данные для расчетов
Чтобы считать коэффициенты, нужны исходные значения. Поручим нейросеткам заняться их поиском. Отправим pdf-файл с отчетностью и попросим извлечь нужные цифры.
И вот тут начинаются неожиданные проблемы. Сперва мы поставили эту задачу ChatGPT. Он бодро выудил исходные данные и кинулся их складывать и перемножать. Не сразу заметили подвох, а он оказался весьма серьезным. Дело в том, что ни одна «выуженная» цифра не билась с первоисточником. Зачем ChatGPT их придумал и почему просто не написал, что не может адекватно обработать пдфку, – загадка.
Наученные этим опытом Claude мы сразу попросили:
«В файле, которые я тебе отправила есть значения за 2023 и 2022 годы. Пожалуйста, найди их. По ним ты сможешь провести финансовый анализ за два года.
Сейчас я бы хотела, чтобы ты сначала показал мне исходные цифры, которые ты возьмешь для расчета. Пожалуйста, напиши значения из отчетности, которые тебе нужны для анализа за 2022–2023 годы. Я хочу сравнить их с самой отчетностью и убедиться, что у тебя верная информация».
И опять та же история – все цифры оказались придуманными. У нас было два варианта, как решить эту проблему.
Первый. Вручную вбить значения из отчетности в сообщения для нейросеток. Но тогда бы развалился весь эксперимент. Его цель была как раз в том, чтобы просто отдать ИИ файл с отчетностью и получить от него готовый результат, а не тратить полчаса на перепечатку баланса и отчета о финансовых результатах.
Второй. Отправить исходные данные в другом формате, например, в вордовском docx. Вдруг все дело в том, что нейросетям трудно считывать цифры, по сути, из картиночного pdf. В Acrobat Reader сделали конвертацию pdf в docx, затем закинули нейросетям текстовый документ, и чудо произошло. Но немного с изъяном, потому что на поверку часть цифр все равно оказались неправильными. Понятия не имеем, почему так, и что сделать, чтобы исключить ошибку. Поэтому просто посоветуем: если отправляете нейросетям файлы с цифрами для распознавания, то отдавайте документы Word и проверяйте, какие значения нейросеть оттуда забрала.
Судейское решение по второму шагу таково: победителей нет. Есть дружеская ничья, в которой оба игрока сначала конкретно сплоховали. Потом исправились, но не до конца. А вот какой была переписка с ними.
Claude
ChatGPT
Шаг 3. Нейросети считают коэффициенты
С третьим шагом обе нейросетки справились хорошо. А еще очень быстро. Скорость выдачи результатов потрясает, особенно, когда видишь бегущие строчки с цифрами на экране впервые. Не засекали, но, как кажется, нейросетям не нужно и пяти минут на подсчет значений коэффициентов. Они вычисляют их еще скорее.
Теперь опять возвращаемся к рейтингу и назначаем Claude победителем третьего этапа. Это так потому, что ChatGPT снова промахнулся с исходными данными – вместо правильных остатков по запасам взял предполагаемое значение. А еще потому, что умница Claude при расчете рентабельности и деловой активности взял среднегодовые цифры из баланса. С этим, к слову, связаны расхождения в значениях коэффициентов у нейросеток.
Claude
ChatGPT
На предыдущем скрине значения для коэффициента задолженности не поместились в ширину строки, но они там есть.
Шаг 4. Нейросети пишут выводы
Нейросети сочиняют неплохие выводы. А если их чуток подтолкнуть и сказать, что это не просто какие-то там фразы, а сильно важные для отчета перед акционерами и руководством, то результат и вовсе выйдет замечательным. Вот, каким промптом мы их подталкивали:
«Пожалуйста, перепиши выводы и рекомендации по финансовому анализу с учетом двух моментов.
- Представь, что выводы будут читать акционеры компании. Среди них есть те, кто не очень разбирается в финансовых терминах, поэтому им нужно максимально понятно объяснить, что значат для организации вот такие значения показателей.
- Дай рекомендации по улучшению финансового состояния бизнеса. Представь, что их читает генеральный директор и он хочет увидеть в них конкретные пути решения проблем».
И опять первенство за Claude. Хотя, возможно, на этот раз наше судейство субъективно. Оценивали стиль текста и показалось, что Claude «говорит человечнее». Так оно на самом деле или нет, судите сами по скринам.
Claude
ChatGPT
Шаг 5. Нейросети сводят цифры в таблицу
Согласитесь, что ворох цифр, разбросанных по тексту, совсем не информативен. Чтобы сравнить, к примеру, рентабельность одного года с другим, нужно сначала выцепить глазом нужные значения. Табличный формат помогает в таком намного лучше. Поэтому попросили нейросетки свести рассчитанные величины в таблицу.
И опять Claude оказался на высоте. Потому что, кроме цифр, добавил колонку с нормативами, хотя в промпте про это ничего не было. Claude сам догадался, и это круто. Давайте смотреть, каким оказался табличный итог.
Claude
ChatGPT
Шаг 6. Нейросети строят графики
Чтобы еще лучше визуализировать цифры, попросили нейросетки построить графики. И вот тут супер-герой нашего рассказа Claude не вывез задачу. Дело в том, что он не умеет генерировать картинки в отличие от платного ChatGPT.
Удивительно, что Claude не отказался нарисовать диаграммы, а кинулся выполнять задание. Оплошность вскрылась на уровне, когда вместо графиков оказались пустые окошки с фразой «Show image», клик по которой перекидывает на 404-страницу сайта Imgur.com. Это онлайн-сервис загрузки, хранения и обмена фотографий и картинок.
Зато ChatGPT в графиках оказался большим умельцем. Сначала строил по одной «палке» на поле диаграмм. Потом объединил графики по группам финансовых коэффициентов в одной системе координат. И даже дал ссылку на скачивание итоговых картинок.
Claude
ChatGPT
Подводим итог и выбираем нейросетку-победителя
Победителем финансовых расчетов становится Claude. Про эту нейросетку трубят, кажется, меньше, чем про ChatGPT, но расчетные и текстовые задачи она решает на порядок лучше.
Клод пишет выводы более человеческим языком и не скупится на слова. Вот для сравнения, как откликнулись обе нейросети, когда узнали, что они участвуют в подготовке материалов для статьи. Целое «эмпатичное» сочинение от Claude на голову выше куцего ответа от ChatGPT.
Существенный минус Claude лишь в том, что даже в платной версии у него есть ограничения. Через какое-то количество запросов появляется «всплывашка», что в текущей сессии осталось только семь сообщений. В чате с финансовым анализом она появилась после того, как попросили построить графики.
Когда исчерпаете лимит в семь оставшихся сообщений, или ждите пять часов, или переходите на бесплатный Claude 3 Sonnet. Выглядит это так:
Общий итог нашему эксперименту таков: пока нельзя просто закинуть бухгалтерскую отчетность в ChatGPT или Claude и гарантированно получить идеальный финансовый анализ для компании. Главная проблема в том, что нейросети ошибаются в извлечении исходных данных и их нужно проверять и корректировать.
Чтобы оставить комментарий пожалуйста Авторизуйтесь