Доклад по результатам работы над алгоритмом классификации изображений
Классификация изображений
Детекторы признаков
Инвариантные детекторы
Инвариантные детекторы
Дескрипторы признаков
Визуальный поиск и распознавание
Визуальный поиск и распознавание
Плотные визуальные слова
Визуальный поиск и распознавание
FERNS
BRIEF
Оценка классификатора
Дескрипторы
Классификаторы
Методы классификации
Обнаружение людей
Обнаружение людей
Обнаружение людей
PASCAL Visual Object Classes (VOC) Challenge
PASCAL Challenge
Распознавание действий
Распознавание действий
Распознавание действий
Тестовые базы
PASCAL
PETS
15 classes
INRIA
Программное обеспечение
Патентное исследование
46.48M
Category: informaticsinformatics

Классификация изображений

1. Доклад по результатам работы над алгоритмом классификации изображений

Этап 1. Обзор методов
классификации

2. Классификация изображений


Популярный подход к анализу изображений
Визуальные слова
Детекторы: Харрис, LoG, DoG, Harris-Laplace
Дескрипторы: SIFT, C-SIFT, PCA-SIFT и др.
Классификаторы: SVM (линейные, нелинейные, хиквадрат) и др.
• Randomized Trees [Amit & Geman, 1997];
• Random Forests [Breiman, 2001].
• Обнаружение людей

3.

4.

5.

6.

7.

8.

9.

10.

11. Детекторы признаков


Эллиптический детектор признаков
Hessian-Affine detector
Maximally stable regions (MSER)
Регионы внимания

12. Инвариантные детекторы

• Characteristic scales (size of region)
– Lindeberg and Garding ECCV 1994
– Lowe ICCV 1999
– Mikolajczyk and Schmid ICCV 2001
• Affine covariance (shape of region)
– Baumberg CVPR 2000
– Matas et al BMVC 2002 Maximally
stable regions
– Mikolajczyk and Schmid ECCV 2002
– Schaffalitzky and Zisserman ECCV
2002
– Tuytelaars and Van Gool BMVC 2000
– Mikolajczyk et al., IJCV 2005
• Нормализация формы и поворота

13. Инвариантные детекторы

14.

15. Дескрипторы признаков


SIFT (распределение градиентов в патче)
SURF
HOG – Histogram of Gradients
FERNS
BRIEF [ECCV’10]
STIP (Spatial-Temporal)
Mikolajczyk and Schmid CVPR 2003 сравнений дескрипторов

16.

17. Визуальный поиск и распознавание

• В каждом кадре
обнаружить признаки с
помощью инвариантного
детектора
• Описать признаки при
помощи дескриптора
• Найти ближайшее
соответствие между
признаками двух кадров
(Nearest Neighbor)
• Поиск: оценить каждый
кадр базы данных в
соответствии с
количеством совпадений

18. Визуальный поиск и распознавание

• Bag-of-words - гистограмма
изображения по visual words
• Отбрасывание
пространственной
информации обеспечивает
инвариантность
• Хорошо для классификации
кадра
• Плохо для локализации
объекта в кадре
• 98.3-100% правильного
распознавания
• Csurka et al 2004, Zhang et al
2005

19. Плотные визуальные слова

20. Визуальный поиск и распознавание

• Sivic, J. and Zisserman, A.




Video Google: A Text Retrieval Approach to Object Matching in Videos
Proceedings of the International Conference on Computer Vision (2003)
http://www.robots.ox.ac.uk/~vgg/publications/papers/sivic03.pdf
Demo: http://www.robots.ox.ac.uk/~vgg/research/vgoogle/
• Chum, O., Philbin, J., Isard, M., Sivic, J. and Zisserman, A.





Total Recall: Automatic Query Expansion with a Generative Feature Model for
Object Retrieval
Proceedings of the International Conference on Computer Vision (2007)
http://www.robots.ox.ac.uk/~vgg/publications/papers/chum07b.pdf
Demo: http://www.robots.ox.ac.uk/~vgg/research/oxbuildings/
• Philbin, J. and Zisserman, A.
– Object Mining using a Matching Graph on Very Large Image Collections
– Proc. of the Indian Conference on Vision, Graphics and Image Processing
(2008)
– http://www.robots.ox.ac.uk/~vgg/publications/papers/philbin08b.pdf

21. FERNS


Альтернативный подход: очень
быстрый и в меру точный
классификатор
Бинарный тест, эффективно делящий
классы
Использовать несколько деревьев по
случайным сабсетам исходного
тренировочного набора
Ссылки:
– Jamie Shotton, Andrew FItzgibbon, Mat
Cook, Toby Sharp, Mark Finocchio, Richard
Moore, Alex Kipman, Andrew Blake. Realtime Human Pose Recognition in Parts from
Single Depth Images, CVPR'11
– Gall et Lempitsky, Scalable Multi-class Object
Detection, CVPR'11
– Vincent Lepetit. Random FERNS: a simplified
tree-like classifier
– Vincent Lepetit. Real-Time Computer Vision,
Microsoft Computer Vision School’11

22. BRIEF

http://cvlab.epfl.ch

23. Оценка классификатора

• точность-полнота
(Precison-Recall),
Average Precision

24. Дескрипторы

Number
Feature name
15 classes
SUN(397)
GENKI Face
INRIA Horse
Caltech Face
IRI Freestyle Motocross
UIUC car
Dataset
Dataset
Dataset
Dataset
dataset
OT(8)
3 classes
Caltech 101
1
Dense SIFT
81.2
21.5
-
-
-
-
-
-
-
-
2
HOG2x2
81.0
27.2
-
-
-
-
-
-
-
-
3
Texton Histogram
77.8
17.6
-
-
-
-
-
-
-
-
4
SSIM
77.2
22.5
-
-
-
-
-
-
-
-
5
GIST
74.7
16.3
-
-
-
-
-
-
-
-
6
Sparse SIFT Histograms
56.6
11.5
-
-
-
-
-
-
-
-
7
Geometric Classification
55.0
6.0
-
-
-
-
-
-
-
-
8
Straight Line Histograms
50.9
5.7
-
-
-
-
-
-
-
-
9
Geometry Texton
-
23.5
-
-
-
-
-
-
-
-
Map
Histograms
10
LBP
-
18.0
-
-
-
-
-
-
-
-
11
LBPHF
-
12.8
-
-
-
-
-
-
-
-
12
Geometry Color
-
9.1
-
-
-
-
-
-
-
-
13
Color Histograms
-
8.2
-
-
-
-
-
-
-
-
Histograms
14
Tiny Image
-
5.5
-
-
-
-
-
-
-
-
15
All Features(1-14)
88.1
38.0
-
-
-
-
-
-
-
-
16
BB Random FERNS
-
-
83.2
77.0
99.6
89.1
97.9
-
-
-
17
Color SIFT + pLSA model
-
-
-
-
-
-
-
87.1
-
-
18
SURF
-
-
-
-
-
-
-
-
86.19
-
19
PHOG + PHOW
-
-
-
-
-
-
-
-
-
81.3

25. Классификаторы

SVM
KNN
M-SVM
Random Forest
Random Ferns
Decisio
ANN
n Tree
Naïve Bayesian
Rule-
classifier
learner
15 classes
72.6
71.0
-
-
-
-
-
-
-
SUN(397)
38.0
13.0
-
-
-
-
-
-
-
Caltech-101
-
-
81.3
80.0
79.2
-
-
-
-
Caltech-256
-
-
-
45.3
44.0
-
-
-
-
OT(8)
87.1
86.6
-
-
-
-
-
-
-
Open vs. Close
-
-
-
-
-
-
-
94%
-
Natural vs. Artificial
-
-
-
-
-
-
-
94%
-
Accuracy in general
****
**
-
-
-
**
***
*
**
Speed of learning with
*
****
-
-
-
***
*
****
**
Speed of classification
****
*
-
-
-
****
****
****
****
Tolerance to missing values
**
*
-
-
-
***
*
****
**
Tolerance to irrelevant
****
**
-
-
-
***
*
**
**
***
**
-
-
-
**
**
*
**
***
*
-
-
-
**
***
*
**
**(not discrete)
***(not directly discrete)
-
-
-
****
***(not
***(not
***( not
discrete)
continuous)
respect to number of
attributes and the number of
instances
attributes
Tolerance to redundant
attributes
Tolerance to highly
interdependent attributes (e.g.
parity problems)
Dealing with
discrete/binary/continuous
directly
continuous)
attributes
Tolerance to noise
**
*
-
-
-
**
**
***
*
Dealing with danger of
**
***
-
-
-
**
*
***
*
**
****
-
-
-
**
***
****
*
*
**
-
-
-
****
*
****
****
*
***
-
-
-
***
*
****
***
overfitting
Attempts for incremental
learning
Explanation
ability/transparency of
knowledge/classifications
Model parameter handling

26. Методы классификации

Methods
1
Features
Gabor filters
Vocabular
Additional
Classifie
y
Features
r
Textons
using spatial
Vocabular
information
Databases
In vs.
Natural
13
15
Caltech
Caltech
Open
caltech
xerox
Out
vs.
classe
classes
-101
-256
vs.
6
7
Arti cial
s
graz
pascal
4
-01
classe
Closed
s
SVM
94.5
97.48
84
79.43
-
-
-
-
-
-
-
-
-
-
85.9
83.7
-
-
-
-
-
-
-
-
-
-
-
-
80
45.3
-
-
-
-
-
-
y
2
Dense SIFT
Visual
words
SVM or
or
Vocabular
histogram +
KNN
image patches
y
using pLSA
model with
discriminativ
e learning
3
PHOW and
Visual
using ROI
Random
PHOG
Vocabular
Ferns
y
or
Random
Forest
4
SIFT, SPIN and
Signature
RIFT
or
-
SVM
-
-
-
-
53.9
-
-
97.93
94.7
93.1
93.6
-
-
Bayesian
-
94
-
-
-
-
94
-
-
-
-
89.25
Visual
Vocabular
y
5
Power
Spectrum
-
classi er

27. Обнаружение людей

• HOG: Histogram of
Oriented Gradients +
SVM
• Методы, основанные
на контурах, устарели
• Dalal & Triggs CVPR
2005 Pedestrian
detection
• Работает со многими
другими категориями

28. Обнаружение людей

• Полный поиск скользящим окном – слишком долго
• Каскадная классификация: начинать с более простых
классификаторов

29. Обнаружение людей

Methods
MIT pedestrian
Daimler Pedestrian
MIT face
INRIA
Caltech
database
Classification
dataset
dataset
Pedestrians
Pascal 06
Database
Histograms of Oriented
89%
-
-
77%
-
-
-
88%
-
-
-
-
-
-
77.8%
-
-
-
Integral Channel Features
Part-Based Feature Synthesis for
Human Detection
-
-
-
86%
60%
-
-
-
-
89.3%
30%
Object Detection with
-
-
-
-
-
86.9%
-
94.7%
-
-
-
67.5%
-
-
Gradients for Human Detection
Using Local Steering Kernels to
Detect People in
Videos
Robust Real-Time Face Detection
(Viola-Jones)
Discriminatively Trained
Part Based Models
An HOG-LBP Human Detector
-
with Partial Occlusion Handling
A Performance Evaluation of
Single and
Multi-feature People Detection
-
-

30. PASCAL Visual Object Classes (VOC) Challenge

31. PASCAL Challenge

32. Распознавание действий

• STIP – Spatial-Temporal
Interesting Points
• Распознавание
различных действий в
видеопоследовательностях
• Ходьба, ползание,
прыжки, курение, еда,
вождение автомобиля
и т.п.

33. Распознавание действий

• Оптический поток – основной
источник информации о
движении в сцене, один из
базовых инструментов для
компьютерного зрения
• Для распознавания видео мы
можем использовать те же
подходы, что и к изображению,
но переведя их в трёхмерные
пространственно-временной
объём
– Скользящее окно
– Особенности, детекторы и
дескрипторы
– Мешок слов и методы
классификации

34. Распознавание действий

• Базы: Hollywood2, UCF Sports Actions, KTH Actions
• Alexei A. Efros, Alexander C. Berg, Greg Mori and Jitendra Malik.
Recognizing Action at a Distance. ICCV 2003
• I. Laptev and T. Lindeberg; "Space-Time Interest Points”,
ICCV’2003
• Ivan Laptev’s code
http://www.irisa.fr/vista/Equipe/People/Laptev/download.html#sti
p
• Piotr's Image & Video Toolbox for Matlab
http://vision.ucsd.edu/~pdollar/toolbox/doc/index.html
• Много полезных функций (k-means, meanshift, PCA, ferns,
RBF, DOG-фильтры и т.д.)
Hessian executables:
http://homes.esat.kuleuven.be/~gwillems/research/Hes-STIP

35. Тестовые базы


Zurich building image database


Caltech 101, 256


http://labelme.csail.mit.edu/index.html
Amazon Mechanical Turk (торговая площадка для классификации)
Oxford buildings dataset
Flicr, Bing, Google, Yandex
Middlebury stereo page

http://www.image-net.org
~1.2 млн. классифицированных изображений, половина размечена рамками
LabelMe

30К+ изображений, 1.3GB
http://www.vision.caltech.edu/Image_Datasets/Caltech101/
ImageNet


0.5GB
http://www.vision.ee.ethz.ch/showroom/zubud/index.en.html
http://vision.middlebury.edu/stereo/
MRF Minimization

http://vision.middlebury.edu/MRF/
Multi-view stereo
Optical flow


https://netfiles.uiuc.edu/jbhuang1/www/resources/vision/index.html
The Automatic Labeling Environment

http://www.alphamatting.com/
Списки наработок (Computer Vision Resources по разделам)

http://vision.middlebury.edu/flow/
Матирование изображений

http://vision.middlebury.edu/mview/
http://cms.brookes.ac.uk/staff/PhilipTorr/ale.htm
ГрафиКон

36. PASCAL


Конкурсы
Классификация
Поиск (bounding box)
Сегментация (точный
контур)
• Набор тестовых баз
• Выделенный сервер
для анализа
поданных данных
• Итоговый семинар
http://pascallin.ecs.soton.ac.uk/challenges/VOC/voc2009/index.html

37. PETS

• Performance evaluation of tracking and video
surveillance workshop
• Разные задачи




Слежение
Распознавание действий
Определение оставленных предметов
Набор видео для каждой задачи с нескольких
камер
• http://winterpets09.net/

38. 15 classes

39. INRIA

40. Программное обеспечение

• VLFeat
http://www.vlfeat.org/
• STAIR Vision Library
http://ai.stanford.edu/~sgould/svl/
• Infer.NET - фреймворк для решения задач машинного обучения,
оптимизации, чего-то байесовского и т.п., предназначен для
использования с .NET-языками
• OpenCV - динамично развивающаяся библиотека для компьютерного
зрения
• Matlab как основной инструмент лабораторных работ
• Maple - хороший решатель для небольших задач (до 10-й
размерности)
• LibSVM
• Pegasos: Primal Estimated sub-GrAdient SOlver for SVM
• Другие библиотеки – почти НИКТО не может всё сделать сам

41. Патентное исследование

• Наиболее эффективные методы, такие как
SVM, SIFT, SURF, Viola-Jones – запатентованы
в США, в РФ эти методы пока могут
использоваться свободно
• Существуют модификации алгоритмов:
Viola-Jones без каскадов, PCA-SIFT, C-SIFT
English     Русский Rules