Similar presentations:
№13__Дәріс[1] (1)
1.
АЛМАТЫ ТЕХНОЛОГИЯЛЫҚ УНИВЕРСИТЕТІhttps://atu.kz/
«ИжАТ» ФАКУЛЬТЕТІ
«АЖ» КАФЕДРАСЫ
«Machine Learning»
№ 13 Дәріс
Уйпалакова Динара Мукановна техника ғылымдарының магистрі, АЖ кафедрасының
лекторы
Жұмыс тел: 8 (727) 396-71-33 (109)
Эл.почта: dinara-007@bk.ru
2.
№13 Дәріс.Свертпелі нейрондық желілер. Компьютерлік көру
міндеттері және свертпелі желілер
3. Жоспар
1. Свертпелі нейрондық желілердің негізгі қабаттары2. CNN жұмысының кезеңдері
3. CNN жұмысының артықшылығы, қолданылу салалары
4. CNN архитектурасы, сиамдық желілер
5. Компьютерлік көру (Computer Vision)
4. Свертпелі нейрондық желілер
КіріспеСвертпелі нейрондық
желілер
Свертпелі
нейрондық
желілер
–
компьютерлік
көру
(Computer
Vision)
міндеттерінде ең кең қолданылатын терең
оқыту
архитектураларының
бірі.
CNN
суреттерді,
бейнелерді,
мәтінді
және
сигналдарды өңдеуде жоғары нәтижелер
көрсетеді.
CNN кіріс ретінде сурет матрицасын
қабылдайды. Свертпелі қабаттар суреттен
ерекшеліктерді
(features)
бөліп
алады:
сызықтар, жиектер, текстуралар. Әр қабат
сайын белгілердің күрделілігі артып, соңында
объектіні толық тануға мүмкіндік береді.
5. Негізгі қабаттар
Теориялық бөлімНегізгі қабаттар
Негізгі қабаттар. Свертпелі қабат (Convolution
Layer)
Арнайы фильтр (ядро) қолданылады.
Мақсаты – белгілерді бөліп алу (мысалы, тік сызық,
көлденең сызық, бұрыш).
Активация функциясы
Көбіне ReLU (Rectified Linear Unit) қолданылады.
Теріс мәндерді 0-ге айналдырып, желінің сызықтық
емес мүмкіндігін арттырады.
Біріктіру қабаты (Pooling Layer)
Өлшемді кішірейтеді, есептеуді жеңілдетеді.
Max Pooling: ең үлкен мәнді таңдайды.
Average Pooling: орташа мәнді алады.
Толық қосылған қабаттар (Fully Connected – FC)
Соңғы шешім қабылдайды.
Классификация міндетінде softmax қолданылады.
6. CNN жұмысының кезеңдері
Теориялық бөлімCNN жұмысының кезеңдері
Кіріс сурет → матрица түрінде
беріледі.
Свертка қабаты арқылы негізгі
белгілер бөлінеді.
Pooling қабаты арқылы өлшем
қысқарады.
Бірнеше қабат өткен соң белгілер
абстрактілі болады (мысалы, «көз»,
«мұрын»).
FC
қабаты
арқылы
объект
классификацияланады.
7. CNN артықшылықтары
Теориялық бөлімCNN артықшылықтары
Суреттегі белгілерді автоматты
түрде бөліп алады (қолмен feature
engineering
қажет
емес).
Инварианттылық:
объект
орналасуына,
бұрылуына,
масштабына тәуелді емес. Үлкен
деректерде жақсы нәтиже береді.
8. Қолдану салалары
Теориялық бөлімҚолдану салалары
Компьютерлік көру: бет тану,
автокөлікті автономды басқару.
Медицина:
рентген,
МРТ
суреттерін
талдау.
Ауыл
шаруашылығы: дрондар арқылы
егіннің
жағдайын
бақылау.
Қауіпсіздік:
бейнебақылау
жүйелерінде объект тану.
9. Белгілі CNN архитектуралары
Теориялық бөлімБелгілі CNN архитектуралары
LeNet-5 – алғашқы CNN модельдерінің бірі
(қолжазбаны тануда). AlexNet – ImageNet
байқауында революциялық нәтиже көрсеткен.
VGGNet – қарапайым құрылымды, тереңдігі
жоғары. GoogLeNet (Inception) – тиімді
архитектура, аз параметрлер. ResNet – өте терең
желілерге арналған (skip-connections).
Суреттерді өңдеу идентификация (cv1),
верификация (cv2), тану (cv3) және объектінің
көрінетін сипаттамаларын (жылдамдығы, өлшемі,
қашықтығы және т.б.) анықтау (cv4) міндеттерін
қамтиды. cv1 мен cv3 міндеттерін шешудегі ең
табысты алгоритм – YOLO, ол объектінің
шекарасын «бір өтуде» анықтау үшін свертка
желісін пайдаланады. Алматыдағы трафикті
бағалау үшін YOLO қолдану мысалы суретте
көрсетілген.
10. CV2 міндеті
Теориялық бөлімCV2 міндеті
CV2 міндеті көбінесе сиамдық
желілердің
(siamese
networks)
көмегімен шешіледі, мұнда екі бейне
алдын ала үйретілген екі бірдей желі
арқылы өңделеді.
Алынған
нәтижелер
(бейненің
векторлық көріністері) триплеттік
шығын
функциясы
арқылы
салыстырылады.
Ол
триплет
эмбеддинг арақашықтығы немесе
триплет ықтималдық эмбеддингі
ретінде жүзеге асырылуы мүмкін.
11. Қолдану салалары
Теориялық бөлімҚолдану салалары
Медицина:
ауруларды
ерте
анықтау (рентген, МРТ суреттері).
Ауыл
шаруашылығы:
дрондардан
алынған
суреттерді
талдау, өнімділік болжау.
Қаржы: алаяқтықты анықтау,
автоматты сауда.
Автомобиль: автономды көліктер.
Ақпараттық технологиялар: чатботтар, автоматты аударма, сөйлеуді
тану.
12.
Теориялық бөлімСиамдық желілер
Сиамдық
желілер
(
Siamese
Networks ) — бұл бірдей салмақтармен
(weights) бөлісетін екі немесе одан да
көп нейрондық желілерден тұратын
архитектура.
Яғни,
олардың
құрылымы,
параметрлері
және
үйренген үлгілері бірдей болады.
Сиамдық желілер екі объектінің
(мысалы, екі сурет, екі мәтін, екі
сигнал)
ұқсастығын
немесе
айырмашылығын
анықтау
үшін
қолданылады.
13. Сиамдық желілердің қолданылуы
Теориялық бөлім✔ Қолтаңба сәйкестендіру (signature
verification)
✔ Бет тану (FaceNet, DeepFace)
✔ Құжаттарды салыстыру
✔ Ұқсас тауарларды табу (recommender
systems)
✔ Медициналық суреттерді салыстыру
✔ Text similarity (sentence similarity models)
Siamese Network — ұқсастықты өлшеуге арналған,
салмақтары ортақ екі нейрондық желіден тұратын
архитектура.
14. CV1–CV4 міндеттері
Теориялық бөлімCV1–CV4 міндеттері
CV1–CV4 міндеттерін шешудің сапасы
пәндік аймаққа және деректер жиындарына
(data set – DS) байланысты. Терең нейрондық
желілерді баптау үшін кеңінен қолданылатын
белгіленген суреттер жиындарына ImageNet
[120], Open Images [121], COCO Dataset [122],
FaceNet жатады. Алайда қазіргі DS жиындары
шешілетін міндеттердің ерекшеліктерін толық
ескермейді және тек шектеулі объектілер
санын (85 түрін) тануды қамтамасыз етеді.
Компьютерлік көру (computer vision)
саласындағы жетістіктер свертка желілері
архитектурасының пайда болуы мен дамуына
байланысты.
15. Компьютерлік көрудің дамуы
Теориялық бөлімКомпьютерлік көрудің
дамуы
Компьютерлік
көрудің
даму
бастауында
зерттеушілер компьютерді бейненің сипаттамалық
бөліктерін бөліп көрсетуге үйретуге тырысты. Ол үшін
Кальман, Собель, Лаплас және басқа да фильтрлер
кеңінен қолданылды. Суреттердің сипаттамалық
қасиеттерін бөліп алуға арналған алгоритмдерді қолмен
баптау жекелеген жағдайларда жақсы нәтижелер берді.
Мысалы, егер бет бейнелері өлшемдері мен сапасы
стандартталған фотосуреттер түрінде ұсынылса.
Алайда суреттердің ракурсы, жарықтандырылуы
немесе масштабы өзгергенде тану сапасы күрт нашарлап
кететін.
Свертка желілері (Convolutional Neural Networks,
CNN) бұл мәселені негізінен шешуге мүмкіндік берді.
Свертка желісі – үлкенірек архитектуралардың тек
бір
бөлігі
ғана.
16. Свертка желісінің архитектураларының негізгі компоненттері
Теориялық бөлімСвертка желісінің
архитектураларының негізгі
компоненттері
• Свертка қабаттары (Convolution –
Conv)
–
кіріс
деректерінен
ерекшеліктерді
бөліп
алу
үшін
қолданылады.
• Біріктіру қабаттары (Pooling –
Pool) – деректердің өлшемін азайтып,
маңызды белгілерді сақтайды (мысалы,
max pooling, average pooling).
• Толық қосылған қабаттар (Fully
Connected layers – FC) – соңғы шешім
қабылдау үшін қолданылады.
17. Компьютерлік көрудің негізгі құралы
Теориялық бөлімКомпьютерлік көрудің негізгі
құралы
Свертпелі нейрондық желілер – компьютерлік
көрудің негізгі құралы. Олар қарапайым
белгілерден
бастап,
күрделі
объектілерді
анықтауға дейін жұмыс істейді. CNN-нің
арқасында қазіргі заманда бет тану, автономды
көліктер
және
медициналық
диагностика
салалары айтарлықтай дамыды.
Компьютерлік көру (Computer Vision) –
жасанды интеллекттің суреттерді, бейнелерді
және сигналдарды түсіну, өңдеу және талдау
саласы. Оның басты мақсаты – машинаны адам
сияқты көруге және қоршаған ортадан ақпарат
алуға үйрету.
18. Компьютерлік көру (Computer Vision)
Теориялық бөлімКомпьютерлік көру (Computer Vision)
Компьютерлік көру (Computer Vision) – жасанды интеллекттің суреттерді,
бейнелерді және сигналдарды түсіну, өңдеу және талдау саласы. Оның басты мақсаты
– машинаны адам сияқты көруге және қоршаған ортадан ақпарат алуға үйрету.
Идентификация (Identification, cv1).Объектіні анықтау, «Бұл не?» деген сұраққа
жауап беру. Мысалы: суреттен мысықты немесе итті тану.
Верификация (Verification, cv2). Екі объектінің сәйкестігін тексеру. Мысалы:
адамның бет-жүзін биометриялық базамен салыстырып тексеру.
Рекогниция (Recognition, cv3). Объектіні белгілі бір классқа жатқызу. Мысалы:
көлікті маркасына қарай ажырату.
Объект сипаттамаларын анықтау (Detection, cv4). Объектінің орналасуын,
өлшемін, жылдамдығын немесе басқа да сипаттамаларын табу. Мысалы: жолдағы
көліктің жылдамдығын немесе жаяу жүргіншінің орнын анықтау.
19. Қосымша міндеттері
Теориялық бөлімҚосымша міндеттері
Сегментация: суретті аймақтарға бөлу (мысалы, әр пішінді бөлек көрсету).
Pose estimation: адам денесінің қимыл-қозғалысын бағалау.
Object tracking: бейнедегі объектіні уақыт бойынша бақылау.
Scene understanding: толық көріністегі объектілер арасындағы байланысты
анықтау.
Қолдану салалары: Қауіпсіздік (бейнебақылау), Медицина (рентген, МРТ
талдау), Автомобиль өнеркәсібі (автономды жүргізу), Ауыл шаруашылығы
(егін мен топырақ жағдайын бақылау), Сауда және маркетинг (тауарларды
автоматты тану).
Компьютерлік көру міндеттері адамның көру қабілетін имитациялауға
бағытталған. Олар қарапайым идентификациядан бастап, күрделі сахна
талдауына дейінгі ауқымды қамтиды.
20. Бақылау сұрақтары
1. Свертпелі қабаттың негізгі міндеті қандай?2. Pooling қабаты не үшін қолданылады?
3. Softmax қандай мақсатта қолданылады?
4. CNN-нің дәстүрлі нейрондық желілерден артықшылығы неде?
5. Компьютерлік көрудің негізгі міндеттерін атаңыз.
6. CNN қай салаларда кеңінен қолданылады?
7. Softmax функциясының міндеті қандай?
8. Компьютерлік көрудің негізгі 4 міндетін атаңыз.
9. Верификация мен идентификацияның айырмашылығы қандай?
10.Detection мен Recognition қай жерде қолданылады?