Технологические достижения в сфере искусственного интеллекта изменили интернет в 2022 году. То, что стало доступно широкой аудитории, проиллюстрировало сдвиг, который произошел в этой области. Опубликованное исследование представляет собой анализ текущих тенденций и прогнозы относительного будущего генеративного ИИ. В нем вы узнаете о направлениях развития, новых возможностях и проблемах, которые предстоит решить, а также то, как это может повлиять на творческие профессии, в том числе на UX-дизайнеров и разработчиков.

* * *

Новый мощный тип больших языковых моделей делает возможным мир, в котором машины пишут тексты, создают код, рисуют, создают новое с убедительными, а иногда и сверхчеловеческими результатами.

Люди умеют хорошо анализировать. Машины делают это еще лучше. Они могут анализировать набор данных и находить в них закономерности для множества случаев использования, будь то выявление мошенничества или спама, прогнозирование времени прибытия вашей доставки или предсказание того, какое видео TikTok показать вам следующим. Они становятся все умнее в решении этих задач. Это называется «аналитический AI», или традиционный искусственный интеллект.

Но люди хороши не только в анализе — мы также хороши в творчестве. Пишем стихи, разрабатываем дизайн продуктов, создаем игры и разрабатываем код. До недавнего времени у машин не было шансов конкурировать с людьми в творческой работе — они были ограничены анализом и заученным когнитивным трудом. Но машины уже начали осваивать создание чувственных и красивых вещей. Эта новая категория называется «генеративный ИИ», то есть машина генерирует что-то новое, а не анализирует уже существующее.

Генеративный искусственный интеллект на пути к тому, чтобы не просто быстрее и дешевле выполнять работу, которую делает человек — в некоторых случаях он делает это лучше. Социальные сети, игры, реклама, архитектура, программирование, графический дизайн, юриспруденция, разработка продуктов, маркетинг, продажи — каждая отрасль, где требуется творческая работа по созданию чего-либо, ждет своего часа. Одни функции могут быть полностью заменены генеративным ИИ, в то время как другие, скорее всего, будут процветать за счет плотного итеративного творческого цикла между человеком и машиной. Однако вне зависимости от рынка машины сделают креативные процессы качественнее, быстрее и дешевле. Компании мечтают, чтобы искусственный интеллект свел предельные издержки на создание и работу со знаниями к нулю, в разы повысив производительность труда и экономическую ценность готового продукта и рыночную капитализацию бизнеса.

В областях, к которым обращается генеративный ИИ — работа со знаниями и творческими задачами — заняты миллиарды работников. Он может сделать этих работников как минимум на 10% более эффективными и повысить их креативность: вместе со скоростью и продуктивностью растут их компетенции. Таким образом, его использование может принести триллионы долларов экономической выгоды.

Конечно, с ростом моделей растет их эффективность — сначала они достигли человеческих, а затем и сверхчеловеческих результатов.

Почему сейчас?

Ответ на этот вопрос для генеративного ИИ точно такой же, как и для искусственного интеллекта в целом: модели становятся лучше, могут обрабатывать больше данных и проводить больше вычислений. Изменения в этой области происходят быстрее, чем мы можем уловить. Чтобы понять, что происходит, можно сопоставить недавнюю историю с текущим контекстом.

Первая волна (до 2015 года): господство малых моделей

Более пяти лет назад передовым опытом в понимании языка считались небольшие модели. Они отлично справлялись с аналитикой, поэтому их применяют для выполнения разных задач в этой области: от прогнозирования времени доставки до классификации случаев мошенничества. Однако их ограниченность не позволяет выполнять общие генеративные задачи. Написание текстов на уровне человека или разработка кода на этом этапе остается неосуществимой мечтой.

Вторая волна (с 2015 года по сей день): гонка за масштабами

В знаковом документе Google Research (Attention is All You Need или «Внимание — это все, что вам нужно») описывается новая архитектура нейронных сетей для понимания естественного языка под названием transformers, которая может генерировать языковые модели более высокого качества. При этом она допускает больше параллелей, но требует значительно меньше времени на обучение. Такие модели обучаются в несколько заходов и могут быть относительно легко адаптированы к конкретным областям.

С увеличением размеров ИИ моделей они стали превосходить по своим характеристикам основные показатели производительности человека. Источники: © THE ECONOMIST NEWSPAPER LIMITED, Лондон, 11 июня 2022 года. Все права защищены.

Конечно, с ростом моделей растет их эффективность — сначала они достигли человеческих, а затем и сверхчеловеческих результатов. С 2015 по 2020 год количество вычислений, используемых для обучения этих моделей, увеличилось на 6 порядков, а их результаты превзошли человеческие показатели в области распознавания почерка, речи и изображений, чтения и понимания языка. Среди остальных выделяется модель GPT-3 от OpenAI: она совершает гигантский скачок в производительности по сравнению с GPT-2. Заманчивые примеры, продемонстрированные в Twitter, показывают, как она справляется с задачами от генерации кода до написания язвительных шуток.

Несмотря на весь прогресс в фундаментальных исследованиях, эти модели не получили широкого распространения, потому что они:

Слишком большие и сложные для запуска (требуют оркестровки GPU).
Недоступные для широкого круга пользователей: модели были полностью недоступны или существовали в виде закрытой бета-версии.
Дорогие для использования в качестве облачного сервиса.

Несмотря на эти ограничения, самые ранние приложения генеративного ИИ на этом этапе начинают вступать в борьбу.

Третья волна (с 2022): лучше, быстрее, дешевле

Вычисления становятся дешевле. Новые методы, такие как диффузионные модели, сокращают затраты, необходимые для обучения и обработки комбинаций. Исследовательское сообщество продолжает разрабатывать улучшенные алгоритмы и более крупные модели. Доступ разработчиков расширяется от закрытой бета-версии до открытой, а в некоторых случаях и до открытого исходного кода.

Для разработчиков, которые не имели доступа к большим языковым моделям, теперь открыты шлюзы для исследования и разработки приложений. Приложения начинают расцветать.

Иллюстрация, сгенерированная с помощью Midjourney

Четвертая волна (сейчас): появление приложений, переворачивающих рынок

С укреплением инфраструктуры, с изменениями моделей, которые становятся лучше, быстрее, дешевле, с открытым бесплатным доступом к ним — созрела возможность творческого прорыва в создании приложений.

Подобно тому, как мобильные устройства открыли новые типы приложений благодаря новым возможностям, таким как GPS, камеры и возможность подключения «на ходу», ожидается, что эти большие модели станут стимулом для новой волны приложений на базе генеративного ИИ. И так же, как десять лет назад точка перегиба в мобильной связи создала рынок для нескольких приложений, которые перевернули его, мы ожидаем появления подобных приложений с генеративным ИИ. Гонка продолжается.

Рыночный ландшафт

Ниже приведена схема, описывающая платформенный уровень, на котором будет работать каждая категория и потенциальные типы приложений, созданные на ее основе.

Модели

Текст — самая развитая область. Однако естественный язык трудно сделать правильным, здесь важно качество. На сегодняшний день модели достаточно хорошо справляются с типовым написанием коротких/средних текстов (но даже в этом случае они обычно используются для итераций или первых черновиков). Со временем, по мере совершенствования моделей, ожидается появление более качественных результатов, более длинных форм контента и улучшенной вертикальной настройки.
Генерирование кода, вероятно, окажет большое влияние на производительность труда разработчиков в ближайшей перспективе, как показывает GitHub CoPilot. Это также сделает творческое использование кода более доступным для тех, кто не является разработчиком.
Изображения — это совсем недавний феномен, но быстро ставший виральным: делиться в Twitter сгенерированными изображениями намного веселее, чем текстом. Мы видим, что будущие модели в этой сфере будут расширяться за счет разных эстетических стилей и техник для обработки или изменения сгенерированных картинок.
Синтез речи существует уже давно (привет Siri!), но потребительские и корпоративные приложения только начинают развиваться. Для приложений высокого класса, таких как фильмы и подкасты, планка достаточно высока. Одномоментно получить «человеческую» речь, которая не звучит механически — сложно. Но, как и в случае с изображениями, сегодняшние модели — это отправная точка для дальнейшего усовершенствования или создания пользовательских приложений.
Кривая развития видео и 3D-моделей стремительно уходит вверх. Люди в восторге от возможностей, которые могут открыть креативные рынки, например, кинопроизводство, игровая индустрия, VR, архитектура или дизайн физических продуктов. Исследовательские организации выпускают фундаментальные модели для 3D и видео уже сейчас.
В другие областях: фундаментальные исследования для разработки моделей проводятся в разных сфера — от аудио и музыки до биологии и химии (генеративные белки и молекулы).

Приведенная ниже схема показывает временные рамки потенциального прогресса фундаментальных моделей и связанных с ними приложений, которые становятся возможными благодаря развитию ниши. 2025 и последующие года — это только предположение.

Приложения

Здесь приводятся некоторые приложения, которые приводят нас в восторг. Их намного больше, чем мы указали в этом списке, но мы в полном восхищении от креативных приложений, которые придумывают основатели компаний и разработчики.

Копирайтинг: возрастающая нужда в персонализированном контенте для веба и e-mail-рассылок в рамках туннелей продаж и маркетинговых стратегий, как и клиентская поддержка — это идеальная среда для создания приложений на базе языковых моделей. Короткая форма и адаптация стиля общения под требования бренда в совокупности с давлением времени и расходов на написание текстов должны стимулировать спрос на автоматизированные и дополненные решения.
Ассистенты по написанию текстов с возможностью вертикальной настройки. Большинство сервисов по написанию текстов работают горизонтально (примечание: они не позволяют вносить правила и уточнять настройки, работая автономно). Мы считаем, что есть возможность разработать улучшенные генеративные приложения для специфических рынков — от подготовки юридических контрактов до написания сценариев. Главное отличие здесь — тонкая настройка моделей и паттернов UX для конкретных рабочих процессов.

Генерирование кода: нынешние приложения ускоряют работу разработчиков, в разы повышая их продуктивность — GitHub Copilot сейчас генерирует около 40% кода в проектах, где он установлен. Но еще больше возможностей может дать открытый доступ к программированию широкой аудитории потребителей. Обучаемые запросы могут стать совершенным языком программирования.
Генерирование искусства: весь мир истории искусства и поп-культуры теперь закодирован в этих больших моделях, что позволяет любому человеку изучать темы и стили, на освоение которых раньше ушла бы целая жизнь.
Игровая индустрия: главное стремление здесь — использовать естественные языковые конструкции для создания сложных сцен или моделей с возможностью оптимизации. До этого состояния, вероятно, еще далеко, но уже сейчас есть доступные опции, которые можно использовать в ближайшем будущем, например, генерирование текстур или фоновых изображений неба.
Медиа/реклама: представьте, какой потенциал заключен в технологиях для автоматизации работы агентств, быстрой оптимизации рекламных объявлений и креативов для аудитории. Здесь открываются возможности для мультимодального создания материалов, в рамках которого генерируются как продающие сообщения, так и дополняющие их визуальные эффекты.
Дизайн: создание прототипов цифровых и физических продуктов — трудоемкий процесс, требующий нескольких итераций. Высокоточная визуализация на основе черновых эскизов и простых запросов уже стала реальностью. С появлением 3D моделей процесс генеративного дизайна будет распространяться вплоть до производства и изготовления — от текста до объекта. Ваше следующее приложение для iPhone или кроссовки могут быть разработаны машиной.
Социальные сети и digital сообщества: существуют ли новые способы самовыражения с помощью генеративных инструментов? Новые приложения, такие как Midjourney, создают новый социальный опыт, поскольку потребители учатся творить на виду.

Лучшие компании, работающие в области генеративного искусственного интеллекта, могут создать устойчивое конкурентное преимущество за счет непрерывной работы, зацикленной в рамках вовлечения пользователя/данных и производительности модели.

Иллюстрация, сгенерированная с помощью Midjourney

Анатомия приложений на базе генеративного ИИ

Как будут выглядеть приложения на базе генеративного искусственного интеллекта? Приведем несколько прогнозов на этот счет.

Интеллект и тонкая настройка модели

Приложения генеративного ИИ строятся на основе больших моделей, таких как GPT-3 или Stable Diffusion. По мере того, как эти приложения получают больше пользовательских данных, они могут точнее настроить свои модели, чтобы:

улучшить качество/производительность модели для конкретного проблемного поля;
уменьшить размер/стоимость модели.

Мы можем рассматривать приложения генеративного искусственного интеллекта как уровень пользовательского интерфейса и «маленький мозг», который располагается поверх «большого мозга» — больших моделей общего назначения.

Фактор формы

Сегодня приложения генеративного ИИ в основном существуют как плагины в рамках экосистем программного обеспечения. Дополнение кода происходит в вашей IDE, генерация изображений происходит в Figma или Photoshop, даже боты Discord являются резервуарами для внедрения генеративного ИИ в цифровые/социальные сообщества. Есть также небольшое количество самостоятельных веб-приложений генеративного ИИ, таких как Jasper и Copy.AI для копирайтинга, Runway для редактирования видео и Mem для создания заметок.

Плагин может быть эффективным средством для создания собственного приложения, и это может быть разумным способом преодолеть проблему курицы и яйца, связанную с пользовательскими данными и качеством модели. Суть проблемы в том, что, с одной стороны, вам нужно получить большее распространение и привлечь достаточное количество пользователей, чтобы улучшить модель, а с другой — для привлечения пользователей уже нужны хорошие модели. Мы видели, как эта стратегия распространения окупается в других категориях рынка — таких, как потребительский или социальный.

Парадигма взаимодействия

Сегодня большинство демонстраций генеративного ИИ работают по принципу «раз — и готово»: вы вводите информацию, машина выдает результат, а вы можете оставить его или выбросить и попробовать снова. Все чаще модели становятся более итеративными, где вы можете работать с полученными данными, чтобы изменить, усовершенствовать их, поднять уровень и создать новые варианты.

Сейчас результаты работы генеративного искусственного интеллекта используются в качестве прототипов или первых набросков. Приложения отлично справляются с выдачей разных идей для запуска творческого процесса (например, варианты логотипа или архитектурного проекта), а также с предложением черновых вариантов, которые должны быть доработаны пользователем для достижения окончательного состояния (сообщения в блоге или автозаполнение кода). По мере того, как модели становятся все умнее, частично опираясь на данные пользователя, стоит ожидать, что эти черновики будут становиться все лучше и лучше, пока не станут достаточно хорошими для использования в качестве конечного продукта.

Устойчивое лидерство в категории

Шаг 1: обеспечить исключительное вовлечение пользователей

Шаг 2: конвертировать вовлечение пользователей в повышение производительности модели за счет улучшения запросов, тонких настроек модели, использования пользовательских выборов как маркированных данных для обучения.

Шаг 3: использовать повышенную производительность модели для расширения аудитории и увеличения вовлеченности пользователей.

Скорее всего, они будут заниматься конкретными проблемами (например, кодом, дизайном, играми), а не пытаться быть всем для всех. Вероятно, сначала они будут глубоко интегрироваться в приложения для влияния и распространения, а затем попытаются заменить существующие приложения рабочими процессами на базе ИИ. Потребуется время на создание этих приложений правильным образом, чтобы они собирали пользователей и данные. Однако мы верим — лучшие из них имеют все шансы на то, чтобы стать массовыми, и закрепиться на рынке надолго.

Генеративный ИИ все еще находится на ранней стадии. Платформенный уровень только начинает развиваться, а сфера приложений лишь набирает обороты.

Препятствия и риски

Несмотря на потенциал генеративного искусственного интеллекта, еще предстоит устранить множество недостатков в бизнес-моделях и технологиях. Вопросы, касающиеся таких важных проблем, как авторское право, доверие и безопасность, расходов — еще далеки от разрешения.

С широко открытыми глазами

Генеративный ИИ все еще находится на ранней стадии. Платформенный уровень только начинает развиваться, а сфера приложений только начинает набирать обороты.

Стоит прояснить этот момент. Большие языковые модели не могут написать роман Толстого, но это ничего не говорит об эффективности использования генеративного искусственного интеллекта. Уже сегодня эти модели достаточно хороши для написания первых черновиков сообщений в блогах и создания прототипов логотипов и интерфейсов продуктов. Однако в ближайшей и среднесрочной перспективе будет создано еще больше ценностей.

Эта первая волна приложений генеративного ИИ напоминает ландшафт мобильных приложений в то время, когда только вышел iPhone — несколько причудливый и тонкий, с неочевидной отстройкой от конкурентов и бизнес-моделью. Однако некоторые из этих приложений указывают на то, что может ждать нас в будущем. Увидев, как машина создает сложный функционирующий код или великолепные изображения, трудно представить себе будущее, в котором машины не будут играть фундаментальную роль в нашей работе и творчестве.

Если мы позволим себе помечтать на несколько десятилетий вперед, то легко представим будущее, в котором генеративный ИИ будет глубоко внедрен в то, как мы работаем, творим и играем:

записки, которые пишут сами себя;
3D-печать всего, что только можно себе представить;
переход от текста к фильму Pixar;
игровые возможности, подобные Roblox, которые генерируют богатые миры настолько быстро, насколько мы можем их представить.

Резюме

Хотя сегодня все эти возможности могут показаться научной фантастикой, темпы прогресса невероятно высоки: за несколько лет мы прошли путь от узких языковых моделей до автозаполнения кода, и если мы продолжим двигаться в том же направлении и следовать «закону Мура о больших моделях», то эти фантастические сценарии могут быстро перейти в область реального.

PS: Эта статья была написана в соавторстве с GPT-3. GPT-3 не написал всю статью, но он отвечал за борьбу с творческим кризисом, генерирование отдельных предложений и абзацев текста, а также за мозговой штурм различных вариантов использования генеративного ИИ. Написание этой статьи с помощью GPT-3 стало приятным знаком взаимодействия человека и компьютера, которое может стать новой нормой. Мы также создали иллюстрации для этой статьи с помощью Midjourney, что было очень весело!

Услуги, которые будут вам интересны

Анализ пользовательского интерфейса

Помогаем посетителю быстро найти самую ценную информацию на сайте

Оценка доверия к сайту

Выясним, почему вашему сайту не доверяют.

Понравилась статья? Жмите лайк или подписывайтесь на рассылку.

А также поделитесь статьей с друзьями в соцсетях.

Команда AskUsers