Google запустила ШІ Gemini 2.5, що працює у браузері, як людина
Google представила експериментальну модель штучного інтелекту Gemini 2.5 Computer Use, яка може працювати у веббраузері майже так само, як користувач – клікати, гортати сторінки, вводити текст і навіть заповнювати форми.
Як працює нова модель Gemini 2.5
Gemini 2.5 Computer Use застосовує “візуальне розуміння та логічні міркування”, щоб аналізувати запити користувача і виконувати конкретні дії в інтерфейсі, розробленому для людей. Наприклад, система здатна самостійно заповнювати форму або надсилати її.
Технологію можна використовувати для тестування інтерфейсів або роботи з платформами, які не мають відкритого API.
Схожі моделі вже застосовувалися у внутрішніх проєктах Google – зокрема в AI Mode та дослідницькому проєкті Project Mariner, де ШІ міг виконувати дії у браузері, як-от додавати товари до кошика за списком інгредієнтів.
Google опублікувала демонстраційні відео, де модель виконує різні дії у браузері. Усі ролики пришвидшені утричі. Компанія запевняє, що її система перевершує конкурентів за результатами низки тестів для веб- і мобільних інтерфейсів.
Конкуренція з OpenAI та Anthropic
Анонс Google відбувся наступного дня після того, як OpenAI на своєму Dev Day представила нові застосунки для ChatGPT і продемонструвала функцію ChatGPT Agent, яка здатна виконувати складні завдання замість користувача.
Конкурент Anthropic ще торік запустив версію своєї моделі Claude із подібною можливістю computer use.
Втім, на відміну від ChatGPT Agent чи інструмента від Anthropic, модель Google має доступ лише до браузера, а не до всього комп’ютерного середовища. Наразі вона підтримує 13 типів дій, серед яких – відкриття браузера, введення тексту, перетягування елементів тощо.
Де протестувати Gemini 2.5
В Google зазначають, що модель поки не оптимізована для повного керування операційною системою комп’ютера.
Gemini 2.5 Computer Use доступна розробникам через Google AI Studio та Vertex AI.
Крім того, існує публічна демонстрація на платформі Browserbase, де користувачі можуть спостерігати, як ШІ виконує завдання на кшталт “зіграти у 2048” або “переглянути обговорення на Hacker News”.