Доклад по результатам работы над алгоритмом классификации изображений

PASCAL Visual Object Classes (VOC) Challenge

46.48M

Category:

informatics

Классификация изображений

1. Доклад по результатам работы над алгоритмом классификации изображений

Этап 1. Обзор методов
классификации

2. Классификация изображений

Популярный подход к анализу изображений
Визуальные слова
Детекторы: Харрис, LoG, DoG, Harris-Laplace
Дескрипторы: SIFT, C-SIFT, PCA-SIFT и др.
Классификаторы: SVM (линейные, нелинейные, хиквадрат) и др.
• Randomized Trees [Amit & Geman, 1997];
• Random Forests [Breiman, 2001].
• Обнаружение людей

3.

4.

5.

6.

7.

8.

9.

10. 11. Детекторы признаков

Эллиптический детектор признаков
Hessian-Affine detector
Maximally stable regions (MSER)
Регионы внимания

12. Инвариантные детекторы

• Characteristic scales (size of region)
– Lindeberg and Garding ECCV 1994
– Lowe ICCV 1999
– Mikolajczyk and Schmid ICCV 2001
• Affine covariance (shape of region)
– Baumberg CVPR 2000
– Matas et al BMVC 2002 Maximally
stable regions
– Mikolajczyk and Schmid ECCV 2002
– Schaffalitzky and Zisserman ECCV
2002
– Tuytelaars and Van Gool BMVC 2000
– Mikolajczyk et al., IJCV 2005
• Нормализация формы и поворота

13. Инвариантные детекторы

14. 15. Дескрипторы признаков

SIFT (распределение градиентов в патче)
SURF
HOG – Histogram of Gradients
FERNS
BRIEF [ECCV’10]
STIP (Spatial-Temporal)
Mikolajczyk and Schmid CVPR 2003 сравнений дескрипторов

16. 17. Визуальный поиск и распознавание

• В каждом кадре
обнаружить признаки с
помощью инвариантного
детектора
• Описать признаки при
помощи дескриптора
• Найти ближайшее
соответствие между
признаками двух кадров
(Nearest Neighbor)
• Поиск: оценить каждый
кадр базы данных в
соответствии с
количеством совпадений

18. Визуальный поиск и распознавание

• Bag-of-words - гистограмма
изображения по visual words
• Отбрасывание
пространственной
информации обеспечивает
инвариантность
• Хорошо для классификации
кадра
• Плохо для локализации
объекта в кадре
• 98.3-100% правильного
распознавания
• Csurka et al 2004, Zhang et al
2005

19. Плотные визуальные слова

20. Визуальный поиск и распознавание

• Sivic, J. and Zisserman, A.
–
–
–
–
Video Google: A Text Retrieval Approach to Object Matching in Videos
Proceedings of the International Conference on Computer Vision (2003)
http://www.robots.ox.ac.uk/~vgg/publications/papers/sivic03.pdf
Demo: http://www.robots.ox.ac.uk/~vgg/research/vgoogle/
• Chum, O., Philbin, J., Isard, M., Sivic, J. and Zisserman, A.
–
–
–
–
–
Total Recall: Automatic Query Expansion with a Generative Feature Model for
Object Retrieval
Proceedings of the International Conference on Computer Vision (2007)
http://www.robots.ox.ac.uk/~vgg/publications/papers/chum07b.pdf
Demo: http://www.robots.ox.ac.uk/~vgg/research/oxbuildings/
• Philbin, J. and Zisserman, A.
– Object Mining using a Matching Graph on Very Large Image Collections
– Proc. of the Indian Conference on Vision, Graphics and Image Processing
(2008)
– http://www.robots.ox.ac.uk/~vgg/publications/papers/philbin08b.pdf

21. FERNS

Альтернативный подход: очень
быстрый и в меру точный
классификатор
Бинарный тест, эффективно делящий
классы
Использовать несколько деревьев по
случайным сабсетам исходного
тренировочного набора
Ссылки:
– Jamie Shotton, Andrew FItzgibbon, Mat
Cook, Toby Sharp, Mark Finocchio, Richard
Moore, Alex Kipman, Andrew Blake. Realtime Human Pose Recognition in Parts from
Single Depth Images, CVPR'11
– Gall et Lempitsky, Scalable Multi-class Object
Detection, CVPR'11
– Vincent Lepetit. Random FERNS: a simplified
tree-like classifier
– Vincent Lepetit. Real-Time Computer Vision,
Microsoft Computer Vision School’11

22. BRIEF

http://cvlab.epfl.ch

23. Оценка классификатора

• точность-полнота
(Precison-Recall),
Average Precision

24. Дескрипторы

Number
Feature name
15 classes
SUN(397)
GENKI Face
INRIA Horse
Caltech Face
IRI Freestyle Motocross
UIUC car
Dataset
Dataset
Dataset
Dataset
dataset
OT(8)
3 classes
Caltech 101
1
Dense SIFT
81.2
21.5
-
-
-
-
-
-
-
-
2
HOG2x2
81.0
27.2
-
-
-
-
-
-
-
-
3
Texton Histogram
77.8
17.6
-
-
-
-
-
-
-
-
4
SSIM
77.2
22.5
-
-
-
-
-
-
-
-
5
GIST
74.7
16.3
-
-
-
-
-
-
-
-
6
Sparse SIFT Histograms
56.6
11.5
-
-
-
-
-
-
-
-
7
Geometric Classification
55.0
6.0
-
-
-
-
-
-
-
-
8
Straight Line Histograms
50.9
5.7
-
-
-
-
-
-
-
-
9
Geometry Texton
-
23.5
-
-
-
-
-
-
-
-
Map
Histograms
10
LBP
-
18.0
-
-
-
-
-
-
-
-
11
LBPHF
-
12.8
-
-
-
-
-
-
-
-
12
Geometry Color
-
9.1
-
-
-
-
-
-
-
-
13
Color Histograms
-
8.2
-
-
-
-
-
-
-
-
Histograms
14
Tiny Image
-
5.5
-
-
-
-
-
-
-
-
15
All Features(1-14)
88.1
38.0
-
-
-
-
-
-
-
-
16
BB Random FERNS
-
-
83.2
77.0
99.6
89.1
97.9
-
-
-
17
Color SIFT + pLSA model
-
-
-
-
-
-
-
87.1
-
-
18
SURF
-
-
-
-
-
-
-
-
86.19
-
19
PHOG + PHOW
-
-
-
-
-
-
-
-
-
81.3

25. Классификаторы

SVM
KNN
M-SVM
Random Forest
Random Ferns
Decisio
ANN
n Tree
Naïve Bayesian
Rule-
classifier
learner
15 classes
72.6
71.0
-
-
-
-
-
-
-
SUN(397)
38.0
13.0
-
-
-
-
-
-
-
Caltech-101
-
-
81.3
80.0
79.2
-
-
-
-
Caltech-256
-
-
-
45.3
44.0
-
-
-
-
OT(8)
87.1
86.6
-
-
-
-
-
-
-
Open vs. Close
-
-
-
-
-
-
-
94%
-
Natural vs. Artificial
-
-
-
-
-
-
-
94%
-
Accuracy in general
****
**
-
-
-
**
***
*
**
Speed of learning with
*
****
-
-
-
***
*
****
**
Speed of classification
****
*
-
-
-
****
****
****
****
Tolerance to missing values
**
*
-
-
-
***
*
****
**
Tolerance to irrelevant
****
**
-
-
-
***
*
**
**
***
**
-
-
-
**
**
*
**
***
*
-
-
-
**
***
*
**
**(not discrete)
***(not directly discrete)
-
-
-
****
***(not
***(not
***( not
discrete)
continuous)
respect to number of
attributes and the number of
instances
attributes
Tolerance to redundant
attributes
Tolerance to highly
interdependent attributes (e.g.
parity problems)
Dealing with
discrete/binary/continuous
directly
continuous)
attributes
Tolerance to noise
**
*
-
-
-
**
**
***
*
Dealing with danger of
**
***
-
-
-
**
*
***
*
**
****
-
-
-
**
***
****
*
*
**
-
-
-
****
*
****
****
*
***
-
-
-
***
*
****
***
overfitting
Attempts for incremental
learning
Explanation
ability/transparency of
knowledge/classifications
Model parameter handling

26. Методы классификации

Methods
1
Features
Gabor filters
Vocabular
Additional
Classifie
y
Features
r
Textons
using spatial
Vocabular
information
Databases
In vs.
Natural
13
15
Caltech
Caltech
Open
caltech
xerox
Out
vs.
classe
classes
-101
-256
vs.
6
7
Arti cial
s
graz
pascal
4
-01
classe
Closed
s
SVM
94.5
97.48
84
79.43
-
-
-
-
-
-
-
-
-
-
85.9
83.7
-
-
-
-
-
-
-
-
-
-
-
-
80
45.3
-
-
-
-
-
-
y
2
Dense SIFT
Visual
words
SVM or
or
Vocabular
histogram +
KNN
image patches
y
using pLSA
model with
discriminativ
e learning
3
PHOW and
Visual
using ROI
Random
PHOG
Vocabular
Ferns
y
or
Random
Forest
4
SIFT, SPIN and
Signature
RIFT
or
-
SVM
-
-
-
-
53.9
-
-
97.93
94.7
93.1
93.6
-
-
Bayesian
-
94
-
-
-
-
94
-
-
-
-
89.25
Visual
Vocabular
y
5
Power
Spectrum
-
classi er

27. Обнаружение людей

• HOG: Histogram of
Oriented Gradients +
SVM
• Методы, основанные
на контурах, устарели
• Dalal & Triggs CVPR
2005 Pedestrian
detection
• Работает со многими
другими категориями

28. Обнаружение людей

• Полный поиск скользящим окном – слишком долго
• Каскадная классификация: начинать с более простых
классификаторов

29. Обнаружение людей

Methods
MIT pedestrian
Daimler Pedestrian
MIT face
INRIA
Caltech
database
Classification
dataset
dataset
Pedestrians
Pascal 06
Database
Histograms of Oriented
89%
-
-
77%
-
-
-
88%
-
-
-
-
-
-
77.8%
-
-
-
Integral Channel Features
Part-Based Feature Synthesis for
Human Detection
-
-
-
86%
60%
-
-
-
-
89.3%
30%
Object Detection with
-
-
-
-
-
86.9%
-
94.7%
-
-
-
67.5%
-
-
Gradients for Human Detection
Using Local Steering Kernels to
Detect People in
Videos
Robust Real-Time Face Detection
(Viola-Jones)
Discriminatively Trained
Part Based Models
An HOG-LBP Human Detector
-
with Partial Occlusion Handling
A Performance Evaluation of
Single and
Multi-feature People Detection
-
-

30. PASCAL Visual Object Classes (VOC) Challenge

31. PASCAL Challenge

32. Распознавание действий

• STIP – Spatial-Temporal
Interesting Points
• Распознавание
различных действий в
видеопоследовательностях
• Ходьба, ползание,
прыжки, курение, еда,
вождение автомобиля
и т.п.

33. Распознавание действий

• Оптический поток – основной
источник информации о
движении в сцене, один из
базовых инструментов для
компьютерного зрения
• Для распознавания видео мы
можем использовать те же
подходы, что и к изображению,
но переведя их в трёхмерные
пространственно-временной
объём
– Скользящее окно
– Особенности, детекторы и
дескрипторы
– Мешок слов и методы
классификации

34. Распознавание действий

• Базы: Hollywood2, UCF Sports Actions, KTH Actions
• Alexei A. Efros, Alexander C. Berg, Greg Mori and Jitendra Malik.
Recognizing Action at a Distance. ICCV 2003
• I. Laptev and T. Lindeberg; "Space-Time Interest Points”,
ICCV’2003
• Ivan Laptev’s code
http://www.irisa.fr/vista/Equipe/People/Laptev/download.html#sti
p
• Piotr's Image & Video Toolbox for Matlab
http://vision.ucsd.edu/~pdollar/toolbox/doc/index.html
• Много полезных функций (k-means, meanshift, PCA, ferns,
RBF, DOG-фильтры и т.д.)
Hessian executables:
http://homes.esat.kuleuven.be/~gwillems/research/Hes-STIP

35. Тестовые базы

Zurich building image database
–
–
Caltech 101, 256
–
–
http://labelme.csail.mit.edu/index.html
Amazon Mechanical Turk (торговая площадка для классификации)
Oxford buildings dataset
Flicr, Bing, Google, Yandex
Middlebury stereo page
–
http://www.image-net.org
~1.2 млн. классифицированных изображений, половина размечена рамками
LabelMe
–
30К+ изображений, 1.3GB
http://www.vision.caltech.edu/Image_Datasets/Caltech101/
ImageNet
–
–
0.5GB
http://www.vision.ee.ethz.ch/showroom/zubud/index.en.html
http://vision.middlebury.edu/stereo/
MRF Minimization
–
http://vision.middlebury.edu/MRF/
Multi-view stereo
Optical flow
–
–
https://netfiles.uiuc.edu/jbhuang1/www/resources/vision/index.html
The Automatic Labeling Environment
–
http://www.alphamatting.com/
Списки наработок (Computer Vision Resources по разделам)
–
http://vision.middlebury.edu/flow/
Матирование изображений
–
http://vision.middlebury.edu/mview/
http://cms.brookes.ac.uk/staff/PhilipTorr/ale.htm
ГрафиКон

36. PASCAL

Конкурсы
Классификация
Поиск (bounding box)
Сегментация (точный
контур)
• Набор тестовых баз
• Выделенный сервер
для анализа
поданных данных
• Итоговый семинар
http://pascallin.ecs.soton.ac.uk/challenges/VOC/voc2009/index.html

37. PETS

• Performance evaluation of tracking and video
surveillance workshop
• Разные задачи
–
–
–
–
Слежение
Распознавание действий
Определение оставленных предметов
Набор видео для каждой задачи с нескольких
камер
• http://winterpets09.net/

38. 15 classes

39. INRIA

40. Программное обеспечение

• VLFeat
http://www.vlfeat.org/
• STAIR Vision Library
http://ai.stanford.edu/~sgould/svl/
• Infer.NET - фреймворк для решения задач машинного обучения,
оптимизации, чего-то байесовского и т.п., предназначен для
использования с .NET-языками
• OpenCV - динамично развивающаяся библиотека для компьютерного
зрения
• Matlab как основной инструмент лабораторных работ
• Maple - хороший решатель для небольших задач (до 10-й
размерности)
• LibSVM
• Pegasos: Primal Estimated sub-GrAdient SOlver for SVM
• Другие библиотеки – почти НИКТО не может всё сделать сам

41. Патентное исследование

• Наиболее эффективные методы, такие как
SVM, SIFT, SURF, Viola-Jones – запатентованы
в США, в РФ эти методы пока могут
использоваться свободно
• Существуют модификации алгоритмов:
Viola-Jones без каскадов, PCA-SIFT, C-SIFT

English Русский Rules