Eсли вaм дoвoдилoсь испoльзoвaть прилoжeниe Snapchat, вы знaeтe, кaк прoстo прeврaтить вo чтo-нибудь курьeзнoe свoю фoтoгрaфию или фoтoгрaфию другoгo чeлoвeкa. Нeчтo пoдoбнoe, тoлькo с сoвeршeннo инoй цeлью, сoздaлa группa исслeдoвaтeлeй из Импeрскoгo кoллeджa в Лондоне (Imperial College London, ICL). Эти исследователи создали самую точную на сегодняшний день цифровую модель «среднего» человеческого лица, которая может быть использована для создания трехмерных моделей человеческих лиц на компьютере, создания персонифицированных персонажей в компьютерных играх, для систем безопасности, технологий распознавания лиц и т.п.
Когда компьютер обрабатывает изображение человеческого лица, он в большинстве случаев использует метод трехмерной морфологической модели (3D morphable model, 3DMM). В качестве опорной точки в этом методе используется нечто вроде модели среднестатистического человеческого лица, а модель реального лица представляет собой набор параметров, характеризующих величину отклонения ключевых точек на реальном лице от ключевых точек «среднего» лица. Помимо отклонений, в описание реального лица может быть включена дополнительная информация о возрасте, половой принадлежности и других признаков, но все описание лица обычно умещается всего в пару-тройку сотен числовых значений.
Для того, чтобы метод 3DMM работал должным образом, ему в качестве опорной точки нужна универсальная средняя модель человеческого лица, подходящая для работы с лицами людей различных национальностей, пола и возрастов. Процесс создания такой модели является кропотливым занятием, для этого необходимо взять снимки множества людей и тщательно промаркировать на них все ключевые точки. Самые лучшие средние модели основаны на данных, полученных со снимков максимум двух сотен людей, преимущественно взрослых, что снижает уровень их универсальности.
Исследователи из Имперского колледжа в Лондоне разработали метод полной автоматизации процесса составления 3DMM-моделей, что позволяет включить в них данные, полученные от достаточно большого количества людей. Созданный алгоритм автоматически может маркировать все ключевые точки, такие, как кончик носа, мочки ушей и т.п. Во-вторых, алгоритм автоматически выстраивает снимки лица одного человека согласно их пространственной ориентации и составляет на их базе трехмерную модель. И, в-третьих, алгоритм способен самостоятельно детектировать сделанные им же ошибки и удалить их из конечных результатов.
Созданному исследователями алгоритму был «скормлен» огромный объем данных изображений лиц людей различного возраста, национальности и пола, полученных из разных источников, в том числе с камер наблюдения, установленных в Лондонском музее науки и техники. В результате обработки этих данных была составлена новая модель среднего человеческого лица (large scale facial model, LSFM), которая, как оказалось позже, является практически идеальной моделью.
Используя данные новой LSFM-модели, исследователи на основе фотоснимков сгенерировали модели лиц детей разного возраста. И в данном случае все лица детей были похожи именно на детские лица, в отличие от лиц, построенных по более примитивным 3DMM-моделям, которые больше всего напоминают взрослых людей, остановившихся на детском уровне развития. Более того, программное обеспечение, использующее новую LSFM-модель, смогло более точно установить возраст, пол и даже национальную принадлежность человека по его фотоснимку.
Кроме всего вышеперечисленного, новая LSFM-модель была использована для генерации 100 тысяч изображений, использованных для обучения системы искусственного интеллекта на базе нейронной сети. После такого обучения нейронная сеть стала способна преобразовывать случайные двухмерные снимки лиц людей в достаточно точные трехмерные модели. Так же этот метод может быть использован для того, что бы посмотреть, как будет выглядеть тот или иной человек через 20 лет или как он выглядел лет 20 назад.
Следующим шагом, которые намерены сделать исследователи, станет введение во все новые алгоритмы понятия выражения лица. Это позволит составлять еще более точные LSFM и 3DMM-модели и проводить распознавание по снимкам, на которых человек улыбается, плачет, испытывает другие эмоции или просто гримасничает.