Ожидается, что Gemini станет самым мощным искусственным интеллектом из когда-либо созданных.
Он будет обладать сложными мультимодальными возможностями, владеть человекоподобным общением, языком и контентом, понимать и интерпретировать изображения, продуктивно и эффективно кодировать, управлять данными и аналитикой и использоваться разработчиками для создания новых приложений и API для искусственного интеллекта. Ожидается, что в ближайшем будущем Gemini будет существовать (или даже управлять) большинством продуктов и услуг Google.
За последний год война искусственного интеллекта (ИИ) между OpenAI, Microsoft, Google и другими компаниями привела к усилению революционной сферы, когда каждый из них конкурировал лицом к лицу с другими и выпускал новые и более мощные модели.
Хотя Google не была первой на рынке искусственного интеллекта, теперь она намерена подняться на вершину Олимпа с помощью Gemini — предположительно самой мощной моделью искусственного интеллекта, когда-либо существовавшей. Официально о Gemini мало что известно, поскольку разработчики придерживаются строжайшей конфиденциальности.
Однако посредством исследований и анализа, а также путем объединения уже имеющейся информации, пользователи и исследователи ИИ сумели создать почти полную картину о Gemini.
Google Gemini — мультимодальность с самого начала
С самого начала, когда 10 мая во время конференции разработчиков ввода-вывода Google сам генеральный директор Сундар Пичаи впервые анонсировал Gemini, стало ясно одно: Google создает ИИ следующего поколения. Проект, возглавляемый командами Google Brain Team и DeepMind, основан на PaLM 2.
PaLM 2, или Pathways Language Model 2 — это основная технология, которую Google использует для реализации возможностей искусственного интеллекта во всем своем наборе продуктов. Сюда входят продукты и услуги Google Cloud, Gmail, Google Workspace, аппаратные устройства, такие как смартфон Pixel или термостат Nest, и, конечно же, знаменитый чат-бот Bard с искусственным интеллектом.
В то время Gemini все еще находился в режиме предварительной разработки и обучения, но Пичаи рассказал, что будет отличать новый ИИ от остальных моделей.
Gemini выводит мультимодальный искусственный интеллект за рамки общепринятого.
«Gemini был создан с нуля как мультимодальный», — это была ключевая фраза Пичаи, и если существует одно слово, которое полностью описывает Gemini, то это, без сомнения, «multimodal». Хотя многие путают мультимодальный ИИ с любым ИИ, который может работать с различным контентом, например изображениями или текстом, для Google этот термин означает гораздо больше.
Недавно, 24 октября, во время отчета Alphabet о прибылях и убытках за третий квартал 2023 года, Пичаи обозначил очевидные признаки того, какой тип мультимодального ИИ они создают.
«Мы просто закладываем основу того, что я считаю серией моделей следующего поколения, которые мы будем выпускать в течение 2024 года», — сказал Пичаи, — «И темпы инноваций чрезвычайно впечатляют».
Gemini — более человечный ИИ
Так или иначе, мы уже стали свидетелями мультимодального ИИ. Такие компании, как OpenAI, ответственная за выпуск ChatGPT, или Microsoft, предлагают различные генеративные технологии искусственного интеллекта, которые могут работать с изображениями, текстом, данными и даже кодом. Однако все эти ранние системы искусственного интеллекта лишь незначительно прикасаются к мультимодальной технологии, поскольку интеграция различного контента и форматов данных в них неэффективна.
Причина, по которой генеративный ИИ пользуется таким ошеломительным успехом, заключается в том, что впервые машина может имитировать то, что делают люди. Но что именно могут сделать люди? Мы можем не только общаться, писать код, отчеты и создавать изображения, мы можем делать все это в единой связке.
Человеческий мозг удивительно сложен — он может одновременно интерпретировать и понимать различные форматы данных, включая текст, слова, звуки и изображения. Это позволяет нам осмысливать окружающий мир, реагировать на внешние стимулы и решать проблемы творческими и инновационными способами. И в этом вся суть Gemini от Google — новый ИИ, который практически приближается к тому, что и как на самом деле делают люди: многозадачный мультимодальный ИИ.
Gemini — это не одна модель, это множество ИИ вместе взятых
Есть только один способ создать элегантный и эффективный мультимодальный ИИ — это объединение разных моделей ИИ в одну более совершенную. Модели машинного обучения и искусственного интеллекта, такие как обработка графиков, компьютерное зрение, обработка звука, языковые модели, кодирование и программирование, а также 3D-модели, должны быть интегрированы и согласованы для достижения синергии при разработке мультимодального искусственного интеллекта. Это монументальная и сложная задача, и Google хочет вывести эту концепцию на новый, беспрецедентный уровень.
Открыт для разработчиков
Еще одно большое различие между Gemini и другими моделями (такими, как ChatGPT или Bing Chat) заключается в том, что в настоящее время разработчикам предоставляется ограниченный уровень доступа к этой технологии.
Но сразу же «Близнецы» ломают эту тенденцию — Google уже заверил, что Gemini будет доступен также для разработчиков и пользователей облака. Пичаи сказал во время разговора с инвесторами в третьем квартале 2023 года:
«Мы разрабатываем Gemini таким образом, чтобы он был доступен в различных размерах и возможностях, и мы будем немедленно использовать его во всех наших продуктах внутри компании, а также предоставлять его как разработчикам, так и клиентам облачных технологий».
Пичаи добавил, что Gemini будет «высокоэффективной благодаря инструментам и интеграции API». Это означает, что Google не просто работает над новым ИИ, который станет новаторством для Интернета, но и создает легкие и мощные версии Gemini, которые разработчики могут использовать и настраивать для создания собственных приложений и API ИИ.
ИИ для создания ИИ
Разработчики будут использовать Gemini для создания новых приложений ИИ и API. В середине сентября появились новости о том, что Google начал предоставлять пользователям доступ к ранней версии Gemini. Естественно, как и ожидалось, появились первые утечки информации о «Близнецах».
15 октября разработчик Javascript Бедрос Памбукян шокировал мир первыми скриншотами того, что казалось Gemini, интегрированным в Makersuite. Пакет MakerSuite от Google, выпущенный в начале 2023 года и работающий на платформе PaLM 2, используется разработчиками для создания приложений искусственного интеллекта.
MakerSuite — это, по сути, ИИ для создания ИИ. Он имеет простой пользовательский интерфейс, с помощью которого разработчики могут создавать инструменты генерации кода, приложения для обработки естественного языка (NLP) и многое другое.
Памбукян — первый, кто сообщил об интеграции Gemini в MarketSuite, он вскрыл верхушку айсберга мультимодальных возможностей Gemini. Утечка показывает, что Gemini уже имеет возможности распознавания текста и объектов и может писать комментарии и понимать подсказки, сочетающие произвольный текст с изображениями.
Gemini более мощный, чем ChatGPT?
Сравнивая Gemini с ChatGPT, многие эксперты говорят о параметрах. Параметры в системе ИИ — это переменные, значения которых корректируются или настраиваются на этапе обучения и которые ИИ использует для преобразования входных данных в выходные. В общих чертах, чем больше параметров имеет ИИ, тем он сложнее.
ChatGPT 4.0, самый продвинутый из ныне действующих ИИ, имеет 1,75 триллиона параметров. Сообщается, что Gemini превышает это число — в отчетах утверждается, что он будет иметь 30 триллионов или даже 65 триллионов параметров. Но мощь системы искусственного интеллекта заключается не только в большом количестве параметров.
Исследование SemiAnalysis уверяет нас, что Gemini «разобьет» ChatGPT 4.0. SemiAnalysis ожидает, что к началу 2024 года Gemini сможет превзойти ChatGPT 4.0 в пять раз, и потенциально станет в 20 раз мощнее.
Gemini, чипы и данные обучения
Хотя, как уже упоминалось, мультимодальные возможности ChatGPT все еще минимальны (он может работать с языком и кодом, но не с изображениями), Gemini объединит все это в единое целое.
«Google Gemini является мультимодальным, то есть может обрабатывать и генерировать текст, изображения и другие типы данных. Это делает его более универсальным, чем ChatGPT, который способен обрабатывать только текст», — говорится в отчете SemiAnalysis.
SemiAnalysis добавил, что Google «вложила беспрецедентные вычислительные мощности» в обучение Gemini, превысив GPT-4. Для обучения Gemini Google использует передовые обучающие чипы, известные как TPUv5. Сообщается, что эти чипы являются единственной технологией в мире, способной обеспечить совместную работу 16 384 чипов. Эти суперчипы — секрет, который позволяет Google обучать такую массивную модель.
Исследователи SemiAnalysis говорят: «В настоящее время никакие другие организации в этой области не обладают подобным потенциалом для проведения такого обучения».
Но обучение модели ИИ — это не только чипы, но и данные. А когда дело доходит до данных, Google является одним из правящих королей. «Google обладает обширной коллекцией данных, содержащих только код, оцениваемой примерно в 40 триллионов токенов, и этот факт уже подтвержден», — добавил SemiAnalysis.
Сорок триллионов токенов эквивалентны сотням петабайт или содержанию миллионов книг. По данным SemiAnalysis, один только набор данных Google в четыре раза больше, чем все данные, используемые для обучения ChatGPT 4.0, которые включают как кодовые, так и некодовые данные.
Google Gemini — конец игры?
Точно так же, как PaLM 2 лежит в основе всего бренда Google, ожидается, что Gemini сделает то же самое для искусственного интеллекта. Google заботится о Gemini и ожидает, что эта технология вырастет и станет основой всего искусственного интеллекта, встроенного и интегрированного в каждый продукт и услугу Google.
Какие конечные продукты и услуги мы увидим на базе Gemini? Если он заменит PaLM 2, Gemini будет обеспечивать поддержку всего: от Карт до Документов и Переводчика, всей среды и сервисов Google Workspace и Cloud, а также программного и аппаратного обеспечения и новых продуктов.
Хотя точных сроков выхода Gemini не существует, ожидается, что он выйдет к концу 2023 или началу 2024 года. Google полностью привержен созданию более мощного, универсального и контекстно-зависимого ИИ, способного понимать мир и взаимодействовать с ним новыми и беспрецедентными способами.
Программисты будут использовать Gemini для кодирования, автоматизации и улучшения облачных и периферийных операций, увеличения продаж, а также интеграции в чат-ботов и виртуальных помощников внутри носимых технических смартфонов Google, приложений, API и многого другого.
Если 2023 год будет считаться годом, когда ИИ станет широко известен и начнет использоваться, то 2024 год действительно может стать годом Gemini.
Ещё по теме: