Исследование, проведенное учеными из Ланкастерского университета и Калифорнийского университета в Беркли в рамках трех экспериментов, показало, что лица, синтезированные искусственным интеллектом (дипфейки), неотличимы от настоящих лиц, и люди считают первые более надежными.
Отчет об исследовании , авторами которого являются Софи Джей Найтингейл и Хани Фарид, был опубликован в Proceedings of the National Academy of Sciences of the United States.
Использовали 400 синтетических лиц
Для исследования исследователи использовали 400 синтетических лиц, сгенерированных StyleGAN2, обеспечив равное представительство по полу (200 женщин и 200 мужчин), предполагаемому возрасту (лица, которые, кажется, соответствуют диапазону возрастов от детства до пожилых людей) и расе (100 чернокожих, 100 европеоидов, 100 восточноазиатских и 100 южноазиатских). Чтобы уменьшить эффект, который могли иметь внешние сигналы, исследователи использовали только изображения с однородным фоном и без явных артефактов рендеринга.
Для каждого из 400 синтетических лиц исследователи выбрали подходящее лицо (с точки зрения общего внешнего вида, расы, пола и т. д.) из базы данных лиц, используемой в StyleGAN2. Нейронная сеть использовалась для извлечения низкоразмерного представления каждого лица для сравнения с базой данных реальных лиц для получения наиболее похожего лица в каждом случае.
В первом эксперименте 315 участников одно за другим классифицировали 128 из 800 лиц как настоящие или синтезированные. Участники смогли угадать со средней точностью всего 48,2%, что близко к 50% вероятности.
Средняя точность была выше для лиц мужчин из Восточной Азии
Для реальных лиц наблюдалось значительное взаимодействие между полом и расой и результатами. Средняя точность была выше для лиц мужчин из Восточной Азии, чем для лиц женщин из Восточной Азии. Он также был выше для белых лиц мужского пола, чем для белых лиц женского пола. Исследование не выявило такого значительного взаимодействия между расой, полом и результатами для синтетических лиц.
Во втором эксперименте 219 новых участников классифицировали 128 лиц, взятых из 800 лиц, но на этот раз с обучением и последовательной обратной связью. Средняя точность немного улучшилась до 59%, но с течением времени точность не улучшилась, несмотря на предоставление обратной связи от испытания к испытанию. Средняя точность составила 59,3% для первого набора из 64 лиц и 58,8% для следующего набора из 64.

Распределение точности участников для эксперимента 1 и эксперимента 2. (Изображение предоставлено PNAS)
Есть ли разница в воспринимаемой достоверности между искусственными и реальными лицами?
Третий эксперимент был разработан, чтобы выяснить, есть ли разница в воспринимаемой достоверности между искусственными и реальными лицами. В общей сложности 223 участника оценили надежность 128 лиц, взятых из того же набора из 800 лиц, по шкале от одного до семи (одно для очень ненадежных и семь для очень заслуживающих доверия).
В конце эксперимента средний рейтинг для настоящих лиц составил всего 4,48 по сравнению с 4,82 для искусственных лиц. Несмотря на то, что разница составляет всего 7,7%, она значительна из-за высокого t-значения и низкого p-значения эксперимента (t(222)=14,6, P<0,001).

Четыре наиболее заслуживающих доверия лица (вверху) и четыре наименее заслуживающих доверия лица (внизу). S – синтетический. R – реальный. Это средний рейтинг надежности по шкале от 1 до 7. (Изображение предоставлено PNAS)
Женщины были оценены значительно более надежными, чем мужчины, со средним рейтингом 4,94 по сравнению с рейтингом лиц мужчин 4,36. Был также небольшой эффект, когда чернокожие лица считались более надежными, чем лица из Южной Азии. В третьем эксперименте не было никакого другого значительного влияния на расу.
