Компьютерное зрение. Урок 32. Словари.
Автор megabax   
03.01.2018 г.
New Page 1

Компьютерное зрение. Урок 32. Словари.

Чтобы смотреть урок полностью, а также скачать исходники к уроку, подпишитесь на платный раздел.

В платном разделе статья находится здесь.


До сих пор мы рассматривали ситуации (см. уроки, начиная с Компьютерное зрение. Урок 27. Представление изображений), когда размерность представления изображения меньше, чем или равна, чем самого изображения. Но есть любопытный случай, когда размерность представления существенно больше, чем самой картинки:

Компьютерное зрение. Урок 32. Словари.

Длина вектора, кодирующего исходный сигнал, больше чем длина вектора самого сигнала. Ситуация кажется абсурдной. Но тут мы можем наблюдать несколько интересных явлений. В частности, сигнал y можно представить как комбинацию некоторого небольшого подмножества из D. Причем, представить можно несколькими разными способами, так что x - уже неоднозначно. В этом случае матрица D называется словарем. И мы можем на представление x накладывать различные ограничения. Для чего это нужно?

Для того, чтобы ответить на этот вопрос, вернемся к вопросу о том, как кодируется информация в мозгу человека. Существуют две точки зрения:

  • Цель кодирования сделать хранение информации более компактным, сжать ее.

  • Но есть и альтернативная гипотеза, суть которой состоит в том, что нужен не  вообще любой сигнал представить маленьким количеством бит, а  вообще нужно представить сигнал минимальным количеством активных единиц. То есть, пусть у нас имеется очень большой словаhь, но для представления каждого сигнала нужна активность только нескольких элементов этого словаря.

Компьютерное зрение. Урок 32. Словари.

Такое представление, когда почти все векторы этого представления равны нулю и лишь только нескорые из них активны, называется разряженным представлением. В последнее время данный вид представления стал очень популярным. ...

...

...

...Обновляем коэффициенты:

Компьютерное зрение. Урок 32. Словари.

И так до сходимости.

Для более лучшего понимания привожу перевод статьи из английской википедии https://en.wikipedia.org/wiki/Matching_pursuit:...

...

...

...Итак, мы с вами разобрали один из методов, как получить разряженное представление. На следующем уроке попробуем реализовать этот метод программно.

Последнее обновление ( 03.01.2018 г. )