Включение «воображения» искусственного интеллекта

лицо распознавание

Представьте себе оранжевого кота. А теперь представьте того же кота, но с угольно-черной шерстью. А теперь представьте кошку, идущую вдоль Великой Китайской стены. При этом в результате быстрой серии активаций нейронов в вашем мозгу возникнут вариации представленной картины, основанные на ваших предыдущих знаниях о мире.

Другими словами, людям легко представить себе объект с разными атрибутами. Но, несмотря на достижения в области глубоких нейронных сетей, которые соответствуют или превосходят человеческие возможности в определенных задачах, компьютеры все еще борются с человеческим навыком «воображения».

воображение

Новая система ИИ черпает вдохновение у людей: когда человек видит цвет одного объекта, мы можем легко применить его к любому другому объекту, заменив исходный цвет новым.

Теперь исследовательская группа USC разработала искусственный интеллект, который использует человеческие способности, чтобы представить ранее невиданный объект с различными атрибутами. Документ под названием Zero-Shot Synthesis with Group-Supervised Learning был опубликован на Международной конференции 2021 года по обучающим репрезентациям 7 мая.

«Мы были вдохновлены способностями человека к визуальному обобщению, чтобы попытаться имитировать человеческое воображение в машинах», — сказал ведущий автор исследования Юнхао Ге, аспирант информатики, работающий под руководством Лорана Итти, профессора информатики.

«Люди могут разделить полученные знания по атрибутам — например, форме, позе, положению, цвету — а затем рекомбинировать их, чтобы представить новый объект. В нашей статье делается попытка смоделировать этот процесс с помощью нейронных сетей».

Проблема обобщения ИИ

Например, вы хотите создать систему ИИ, которая генерирует изображения автомобилей. В идеале вы должны предоставить алгоритму несколько изображений автомобиля, и он сможет сгенерировать множество типов автомобилей — от Porsche до Pontiacs и пикапов — любого цвета и под разными углами.

Это одна из долгожданных целей ИИ: создание моделей, которые можно экстраполировать. Это означает, что с учетом нескольких примеров модель должна уметь извлекать базовые правила и применять их к огромному количеству новых примеров, которых она раньше не видела. Но машины чаще всего обучаются на типовых объектах, например на пикселях, без учета атрибутов объекта.

Наука воображения

В этом новом исследовании исследователи пытаются преодолеть это ограничение, используя концепцию, называемую распутыванием. Распутывание можно использовать для создания дипфейков, например, распутывая движения человеческого лица и идентичность. Делая это, сказал Ге, «люди могут синтезировать новые изображения и видео, которые заменяют личность исходного человека другим человеком, но сохраняют исходное движение».

Точно так же новый подход берет группу образцов изображений — а не по одному образцу за раз, как это делали традиционные алгоритмы — и обнаруживает сходство между ними для достижения того, что называется «управляемым обучением распутанному представлению».

Затем он рекомбинирует эти знания для достижения «управляемого синтеза нового изображения» или того, что вы могли бы назвать воображением. «Например, возьмем фильм« Трансформер »в качестве примера, — сказал Ге, — он может иметь форму автомобиля Мегатрона, цвет и позу желтого автомобиля Шмеля и фон Таймс-сквер в Нью-Йорке. В результате получится Шмель — окрашенный автомобиль Megatron, проезжающий по Таймс-сквер, даже если этот образец не был засвидетельствован во время тренировки».

Это похоже на то, как мы, люди, экстраполируем: когда человек видит цвет одного объекта, мы можем легко применить его к любому другому объекту, заменив исходный цвет новым. Используя свою технику, группа создала новый набор данных, содержащий 1,56 миллиона изображений, которые могут помочь в будущих исследованиях в этой области.

Понимание мира

Хотя распутывание запутанных вещей не является новой идеей, исследователи говорят, что их структура может быть совместима практически с любыми типами данных или знаний. Это расширяет возможности для приложений. Например, разделение знаний, связанных с расой и полом, для создания более справедливого ИИ путем полного удаления чувствительных атрибутов из уравнения.

В области медицины это могло бы помочь врачам и биологам открыть больше полезных лекарств, отделив функцию лекарства от других свойств, а затем рекомбинируя их для синтеза нового лекарства. Наполнение машин воображением также может помочь в создании более безопасного ИИ, например, позволяя автономным транспортным средствам воображать и избегать опасных сценариев, ранее невиданных во время обучения.

«Глубокое обучение уже продемонстрировало непревзойденную производительность и перспективность во многих областях, но слишком часто это происходило из-за поверхностной имитации и без более глубокого понимания отдельных атрибутов, которые делают каждый объект уникальным», — сказал Лоран Итти, профессор компьютерных наук. «Этот новый метод распутывания впервые по-настоящему раскрывает новое чувство воображения в системах ИИ, приближая их к человеческому пониманию мира».

(Visited 1 times, 1 visits today)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *