Google запустила ИИ Gemini 2.5, который работает в браузере, как человек

Google представила Gemini 2.5

Фото: Unsplash

Google представила экспериментальную модель искусственного интеллекта Gemini 2.5 Computer Use, которая может работать в веб-браузере почти так же, как пользователь – кликать, листать страницы, вводить текст и даже заполнять формы.

Как работает новая модель Gemini 2.5

Gemini 2.5 Computer Use применяет “визуальное понимание и логические рассуждения”, чтобы анализировать запросы пользователя и выполнять конкретные действия в интерфейсе, разработанном для людей. Например, система способна самостоятельно заполнять форму или отправлять ее.

Технологию можно использовать для тестирования интерфейсов или работы с платформами, которые не имеют открытого API.

Подобные модели уже применялись во внутренних проектах Google – в частности, в AI Mode и исследовательском проекте Project Mariner, где ИИ мог выполнять действия в браузере, такие как добавление товаров в корзину по списку ингредиентов.

Google опубликовала демонстрационные видео, где модель выполняет различные действия в браузере. Все ролики ускорены в три раза. Компания уверяет, что ее система превосходит конкурентов по результатам ряда тестов для веб- и мобильных интерфейсов.

Конкуренция с OpenAI и Anthropic

Анонс Google состоялся на следующий день после того, как OpenAI на своем Dev Day представила новые приложения для ChatGPT и продемонстрировала функцию ChatGPT Agent, которая способна выполнять сложные задачи вместо пользователя.

Конкурент Anthropic еще в прошлом году запустил версию своей модели Claude с подобной возможностью computer use.

Впрочем, в отличие от ChatGPT Agent или инструмента от Anthropic, модель Google имеет доступ только к браузеру, а не ко всей компьютерной среде. Сейчас она поддерживает 13 типов действий, среди которых — открытие браузера, ввод текста, перетаскивание элементов и т. д.

Где протестировать Gemini 2.5

В Google отмечают, что модель пока не оптимизирована для полного управления операционной системой компьютера.

Gemini 2.5 Computer Use доступна разработчикам через Google AI Studio и Vertex AI.

Кроме того, существует публичная демонстрация на платформе Browserbase, где пользователи могут наблюдать, как ИИ выполняет задачи типа “сыграть в 2048” или “просмотреть обсуждение на Hacker News”.

Читайте также
OpenAI запускает свой “TikTok”: ленту будет полностью генерировать ИИ
Источник: The Verge
Татьяна Штерева редактор раздела Стиль жизни