itmo_conspects

Лекция 7. Методы оценки положения объектов в пространстве

Карта глубины

Карта глубины - изображение, в котором для каждого пикселя вместо цвета хранится его расстояние до камеры

Для того, чтобы построить карту глубины, используют:

LIDAR (LIght Detection And Ranging) - технология, в которой лазер отражается от объекта, оценивая его дальность от камеры. Работает на расстоянии 1-100 метров с точностью в 3-7 см
ToF-камеры (Time-of-Flight) - камеры, которые замеряют задержку посланного света, отраженного от объектов. Работает на расстоянии 0.1-10 метров
Профилометр - устройство, использующее лазерный луч под углом. Обладает точностью до 0.07 мм, используется в промышленности
Структурированные световые камеры - камеры, которые проецируют на объект горизонтальные и вертикальные инфракрасные полоски света, далее по смещению полосок можно определить расстояния до объекта
Стереокамера - камера, использующие два фотосенсора, расположенных на расстоянии
Пленоптическая камера (Light Field camera) - камера, фиксирующая векторное поле световых лучей, создаваемого изображением

Если такого дорогого оборудования нет, то используют нейросети. Применяют несколько подходов:

По одному изображению
По двум изображениям, сделанных на расстоянии
По нескольким изображениям (такой подход называется фотограмметрией)

Рассмотрим модели, которые распознают по одному изображению:

Модель MiDaS, основанный на сверточной сети ResNet (поздние версии используют другие бекбоуны)

Такие модели предсказывают не абсолютную глубину в метрах, а относительную, то есть насколько далек объект по сравнению с остальными на изображении. Это помогает универсально обучать и применять модели на разных изображениях

В качестве метрик используют MAE, RMSE или Weighted Human Disagreement Rate (WHDR)
Другая модель NeW CRFs (Neural Window CRFs), в основе которой модель Conditional Random Fields (CRFs), разбивает изображения на окна и обрабатывает их, используя многоголовое внимание. В качестве кодировщика используется swin-transformer, а декодер основан на FC-CRF
Еще одна нейросеть PlaneNet (на основе DRN, Dilated Residual Networks) вместо глубины предсказывает плоскости, ее параметры и сегментацию плоскости. Полезна для работы со зданиями

Карты глубины используются для:

Поиска дефектов
Распознавания жестов
Навигации роботов и беспилотных автомобилей
Приложений дополненной реальности
Построения 3D-моделей (людей, улиц и других объектов)
Распознавания лица

Также карты глубины используются для разделения объекта на переднем фоне и задний фон, определив маску прозрачности (такой процесс извлечения объекта называется альфа-маттингом, Alpha matting)

Чтобы сделать альфа-маттинг, используют алгоритмы из библиотек Pymatting, RemBg, OpenCV

Для этого также можно использовать нейросеть MODNet, которая в реальном времени может разделить объект (например, человека) от фона, что можно применять, например, в конференциях в Zoom

Такие модели принимают на вход изображение и маску, в которой выделен объект, или тернарную маску, где указаны объект, задний фон и места в изображении, которые не определены

Поиск похожих изображений

В компьютере изображения представлены в виде чисел. Поиск похожих изображений - сложная задача, так как представления будут сильно отличаться при малейшем несоответствии изображений

Как же тогда сравнивать изображения:

Можно искать по шаблону через корреляцию или разницу квадратов, но на реальных фотографиях не сработает из-за вариаций
Сравнение цветовых гистограмм
Преобразование Фурье, позволяющее перейти от яркостей пикселей к частотам
Представление изображения как взвешенную сумму других изображений, то есть разложение изображения по базису, например, с помощью метода главных компонент
Можно описать картинку в виде вектора с помощью дескрипторов ключевых точек (такими как SIFT и ORB), которые используют классические алгоритмы
Также векторное представление изображения (или эмбеддинг) как результат сверточной нейросети (такого как VGG или ResNet) может быть сравнено с представлениями других изображений

Обычно такие сети имеют два разных входа, на которые подаются изображения, в результате получаются вектора, расстояния между которыми сравниваются (используя евклидово или косинусное расстояние)

Такие сети называются сиамскими

Нейросети, которые ищут похожие изображения, обучают несколькими способами:

Обучение без предпросмотра (Zero-shot learning) - нейросеть при обучении не видела примеров из тестовой выборки
Обучение с первого взгляда (One-shot learning) - нейросеть видела ровно одно изображение каждого объекта
Обучение с нескольких взглядов (Few shot learning) - обучение на 2-5 объектах из каждого интересующего класса

Можно улучшать поиск картинок, добавляя картинки того же объекта в разных положениях (например, из видео), мета-информацию об объекте (теги, размеры), текстовое описание картинки или объекта

Распознавание лиц

Чтобы распознавать лица на изображении, изображение можно представить в виде эмбеддинга (вектора чисел). Далее можно сравнить расстояние между векторами лиц

Скалярное произведение двух нормализованных векторов лиц одного и того же человека должно быть как можно ближе к 1

Далее задача распознавания лиц сводится к тренировке такого бекбоуна модели, который выдает вектора лиц, которые можно сравнить, причем лица разных людей должны давать наиболее далекие эмбеддинги друг от друга

В обучении ест два подхода:

Метрическое обучение - можно научить модель оценивать сходство, прямо работая с парами или тройками изображений

Здесь используют функции потерь:
- Contrastive Loss (Контрастная потеря)
  
  Основная цель - минимизировать расстояние между векторами похожих изображений и максимизировать его для разных
  
  Модели подаются пары изображений с лицами. Если лица принадлежат одному человеку, сеть учится делать их эмбеддинги максимально близкими. Если разным, то наоборот, отдалять их друг от друга, но только до определенного порога
- Triplet Loss (Триплетная потеря)
  
  Этот метод стал известен благодаря работе FaceNet от Google. Вместо пары он использует триплет, состоящий из якоря (базовое изображение человека), положительного изображения (другое изображение того же человека) и негативного изображения (другого человека)
  
  Цель обучения: сделать так, чтобы эмбеддинг якоря был значительно ближе к положительную, чем к негативному изображения, на заданную величину отступа $\alpha$
  
  Это позволяет не просто отдалять классы, а создавать четкую иерархию сходства. Функция выглядит так: $L = \max(d(a, p) - d(a, n) + \alpha, 0)$, где $a$ - якорь, $p$ - положительное, $n$ - негативное изображение, $d$ - функция расстояния
  
  Основной недостаток - сложность и время обучения, так как число возможных триплетов в датасете огромно
Классификационные функции отступа (margin-функции) - модифицировать функцию Softmax, чтобы она принудительно “раздвигала” разные классы и сильнее “сжимала” схожие
- Softmax Loss
  
  У базовой функции Softmax есть два серьёзных недостатка:
  - Она не оптимизирует метрики напрямую: Минимизируя ошибку классификации, он не гарантирует, что похожие лица будут близки в пространстве признаков.
  - Она не гарантирует “разрывов” между классами: Качество разделения может быть разным в зависимости от данных.
- Center Loss делает признаки внутри каждого класса (для одного человека) более компактными, одновременно с этим удерживая центры классов друг от друга
  
  Работает так: сеть обучается вместе с двумя функциями: основная - стандартный Softmax для классификации, и Center Loss - для притягивания признаков каждого лица к центру их класса
- SphereFace (или A-Softmax)
  
  Работает так: функция вводит угловой отступ $m$, на который нужно умножить угол между вектором признака и вектором весов класса: $\cos(\theta \cdot m)$
- CosFace (Large Margin Cosine Loss) - такой метод уже напрямую работает с косинусом угла, делая его основой для сравнения лиц
  
  Работает так: добавляется косинусный отступ $m$ к целевому значению косинуса, напрямую увеличивая требуемое сходство для правильного класса: $L(y_i) = -\log \frac{e^{s (\cos \theta_{y_i} - m)}}{e^{s (\cos \theta_{y_i} - m)} + \sum_{j \neq y_i} e^{s \cos \theta_j}}$, где $s$ - масштабирующий коэффициент, а $m$ - гиперпараметр отступа
- ArcFace (Additive Angular Margin Loss)
  
  На сегодняшний день ArcFace считается одним из самых эффективных и популярных решений в задачах распознавания лиц
  
  Ключевое отличие: если CosFace штрафует косинус угла, то ArcFace применяет аддитивный угловой отступ $m$, который вычитается непосредственно из угла $\theta$ между признаком и вектором весов: $\cos(\theta + m)$
  
  Получаем: $L(y_i) = -\log \frac{e^{s \cos (\theta_{y_i} + m)}}{e^{s \cos (\theta_{y_i} + m)} + \sum_{j \neq y_i} e^{s \cos \theta_j}}$
  
  Это лучше, потому что работая напрямую с углом, ArcFace обеспечивает более четкое разделение классов на гиперсфере и часто показывает лучшие результаты, чем CosFace и SphereFace в большинстве реальных сценариев
- AirFace (Additive Angular Margin Loss)
  
  Аналогичен ArcFace, но используется $\frac{\pi - 2 \theta}{\pi}$ вместо косинуса угла $\theta$
  
  Получаем: $L(y_i) = -\log \frac{e^{s \frac{\pi - 2 (\theta_{y_i} + m)}{\pi}}}{e^{s \frac{\pi - 2 (\theta_{y_i} + m)}{\pi}} + \sum_{j \neq y_i} e^{s \frac{\pi - 2 \theta_{j}}{\pi}}}$

Для современных решений оптимальным выбором будет ArcFace - такой метод обеспечивает высокое качество и является отраслевым стандартом. Для обучения и экспериментов, особенно когда датасет небольшой, стоит начать с Triplet Loss. Простота реализации подхода поможет быстро получить работающий прототип

This site is open source. Improve this page.