Дәріс № 6
ЖІКТЕЛУІ, БОЛЖАМДАРЫ
Жіктелу - екі сатылы процесс
ЖІКТЕУ ПРОЦЕСІ (1): ҮЛГІНІ ТҰРҒЫЗУ
ЖІКТЕУ ПРОЦЕСІ (2): БОЛЖАМДАРДА ҮЛГІ ТҰРҒЫЗУДЫ ҚОЛДАНУ
СҰРАҚТАР(1): ДЕРЕКТЕРДІ ДАЙЫНДАУ
Issues(2): Evaluating Classification Methods Сұрақтар(2): жіктеу әдістерін бағалау
Classification by Decision Tree Induction Ағашты индукциялау шешімі бойынша жіктеу
Training Dataset - Оқу деректер жиынтығы
Output: A Decision Tree for “buys_computer” Қорытынды: шешім ағашы бойынша «компьютер сатып алады»
What is Data Mining? Деректерді жинақтау дегеніміз не?
Data Mining: A KDD Process
Architecture: Typical Data Mining System
Data Mining: Confluence of Multiple Disciplines Деректерді өңдеу: Бірнеше пәндерді біріктіру
Multi-Dimensional View of Data Mining Көпөлшемді деректерді өңдеу көрінісі
Computational View of Big Data Үлкен деректердің есептік көрінісі
571.50K

Дәріс 6

1. Дәріс № 6

ДӘРІС № 6
Деректерді талдау. Деректерді
басқару

2.

Деректерді талдау негіздері
2) деректер үлгісінің сипаттамасы
3) жіктеу, болжау
4) Ағашты индукциялау шешімі бойынша жіктеу
5 Деректерді өндіру дегеніміз не?
6) Үлкен деректер дегеніміз не?

3.

Деректерді талдау негіздері
Деректерді талдау - пайдалы ақпаратты табуға,
анықтамалар мен шешім қабылдауды қолдауға
арналған деректерді тексеру, тазалау, түрлендіру және
модельдеу процесі.
Деректерді талдау түрлі атаулармен әр түрлі
әдістерді қамтитын және бір уақытта бизнес, ғылым
және әлеуметтік ғылымдардың түрлі салаларында
қолданылатын бірнеше аспектілер мен тәсілдерді
қамтиды.

4.

Деректер талдауы
Әр
түрлі
көздерден
(мысалы,
форумдар,
электрондық хаттар, емтихан журналдары, электронды
оқыту жүйелеріндегі чат журналдары) шикізаттық
деректерді жинақтау жемісті үлгілер мен қарымқатынастарды анықтау үшін пайдаланылуы мүмкін (Bose,
2009)
Зерттеу визуализациясы - аналитикалық деректерді
талдауды пайдаланады, мүмкін белгісіз қатынастарды
немесе кем дегенде формальды түрде тұжырымдалады.
Қайта растайтын визуализация – теорияға негізделген

5.

Деректер үлгісінің сипаттамасы
Кез-келген есепте немесе мақалада үлгінің құрылымы
нақты сипатталуы керек. Ішкі топтың талдауы негізгі талдау
кезеңінде жүзеге асырылатын кезде іріктеу құрылымын
(және, атап айтқанда, кіші топтардың өлшемін) дәл анықтау
өте маңызды.
Деректер үлгісінің сипаттамаларын төмендегідей
қарап шығуға болады:
- маңызды айнымалылардың негізгі статистикасы;
- нүктелік сайттар;
- Корреляция және қауымдастық;
- кестелер.

6. ЖІКТЕЛУІ, БОЛЖАМДАРЫ

Classification
• категориялық сынып белгілерін болжайды (дискретті немесе
номиналды);
• классификациялық атрибуттардағы жаттығу жиынтығы мен
мәндеріне (сынып белгілеріне) негізделген деректерді жіктейді
(үлгі жасайды) және оларды жаңа деректерді жіктегенде
пайдаланады.
Prediction
• модельдердің үздіксіз функциялары, мысалы, белгісіз немесе
жетіспейтін мәндерді болжайды.
Typical applications:
• Credit approval – несиені растау;
• Target marketing – мақсатты маркетинг;
• Medical diagnosis – медициналық диагностика;
• Fraud detection – алаяқты анықтау.

7. Жіктелу - екі сатылы процесс

ЖІКТЕЛУ - ЕКІ САТЫЛЫ ПРОЦЕСС
• Үлгіні тұрғызу: алдын-ала анықталған кластардың жиынтығы
• Әрбір үлгі/кортеж сыныптың белгі атрибутымен
анықталған сыныпқа жатады деп есептеледі;
алдын
ала
• Модельді құрастыру үшін пайдаланылатын бірнеше топтамалар:
оқыту жиынтығы;
• Модель жіктеу ережелері, шешім ағаштары немесе математикалық
формулалар түрінде ұсынылған.
• Үлгіні пайдалану: болашақ немесе белгісіз нысандарды жіктеу
• Үлгінің дәлдігін бағалау:
• Сынақ үлгісінің белгілі белгісі үлгінің құпиялы нәтижесімен
салыстырылады;
• Дәлдік - үлгімен дұрыс жіктелетін сынақ үлгісінің пайызы;
• Сынақ жиынтығы жаттығу жиынынан тәуелді емес, әйтпесе қайта
жабдықталатын болады.

8. ЖІКТЕУ ПРОЦЕСІ (1): ҮЛГІНІ ТҰРҒЫЗУ

Training
Data
NAME RANK
YEARS TENURED
Mike Assistant Prof
4
no
Mary Assistant Prof
10
yes
Bill
Professor
5
yes
Jim
Associate Prof 11
yes
Dave Assistant Prof
5
no
Anne Associate Prof
3
no
Classification
Algorithms
Classifier
(Model)
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’

9. ЖІКТЕУ ПРОЦЕСІ (2): БОЛЖАМДАРДА ҮЛГІ ТҰРҒЫЗУДЫ ҚОЛДАНУ

Classifier
Testing
Data
Unseen Data
(George, Professor, 5)
NAME RANK
YEARS TENURED
Tom
Assistant Prof
2
no
Merlisa Associate Prof
7
no
George Professor
5
yes
Joseph Assistant Prof
7
yes
Tenured?

10. СҰРАҚТАР(1): ДЕРЕКТЕРДІ ДАЙЫНДАУ

• Data cleaning – деректерді тазалау;
• Шуды азайту және жетіспейтін мәндерді ұстау үшін
деректерді алдын-ала өңдеу;
• Relevance
analysis
(feature
selection)
Релеванттық талдау (функцияны таңдау);
• Керек емес
тастаңыз;
немесе
артық
атрибуттарды
алып
• Data transformation - деректерді түрлендіру;
• Деректерді жинақтау және/немесе қалыпқа келтіру.

11. Issues(2): Evaluating Classification Methods Сұрақтар(2): жіктеу әдістерін бағалау

ISSUES(2): EVALUATING CLASSIFICATION METHODS
СҰРАҚТАР(2): ЖІКТЕУ ӘДІСТЕРІН БАҒАЛАУ
• Predictive accuracy - болжалды дәлдік
• Speed and scalability - жылдамдық және масштабталу
• time to construct the model - модель құру уақыты;
• time to use the model - модельді пайдалану уақыты.
• Robustness – төзімділігі
• handling noise and missing values - шу және жоқ мәндерді өңдеу;
• Scalability – масштабталу
• efficiency in disk-resident databases - дискіде тұрғылықты базалардың
тиімділігі;
• Interpretability – түсініктілік
• understanding and insight provded by the model – қамтылатын модельдің
түсінігі;
• Goodness of rules – ережелер
• decision tree size - шешім ағашының өлшемі;
• compactness of classification rules - ықшам
ережелері.
классификациялық

12. Classification by Decision Tree Induction Ағашты индукциялау шешімі бойынша жіктеу

CLASSIFICATION BY DECISION TREE INDUCTION
АҒАШТЫ ИНДУКЦИЯЛАУ ШЕШІМІ БОЙЫНША
ЖІКТЕУ
Decision tree – шешім ағашы
• Ағаш құрылымының блок-схемасы
• Ішкі түйін атрибуттарды тексеруді білдіреді
• Филиал тест нәтижесін білдіреді.
• Соңғы түйіндер сынып белгілері немесе сыныпты таратуды білдіреді
Decision tree generation consists of two phases - шешім қабылдау ағашы екі
кезеңнен тұрады
• Tree construction - Ағаш құрылымы
• Бастапқыда барлық оқу мысалдары тамырда орналасады.
• Бөлім мысалдары рекурсивті таңдалған атрибуттарға негізделген.
• Tree pruning – Ағаштарды кесу
• Шуды немесе сыртқа шығаруды көрсететін тармақтарды анықтау
және жою.
Use of decision tree: Classifying an unknown sample – шешім ағашын
пайдалану: белгісіз үлгіні жіктеу
• Шешім тармағына сәйкес төлсипат мәндерін тексеріңіз.

13. Training Dataset - Оқу деректер жиынтығы

TRAINING DATASET - ОҚУ ДЕРЕКТЕР
ЖИЫНТЫҒЫ
Бұл
Quinlan's
ID3
мысалына
сәйкес
келеді
age
<=30
<=30
31…40
>40
>40
>40
31…40
<=30
<=30
>40
<=30
31…40
31…40
>40
income student credit_rating
high
no fair
high
no excellent
high
no fair
medium
no fair
low
yes fair
low
yes excellent
low
yes excellent
medium
no fair
low
yes fair
medium
yes fair
medium
yes excellent
medium
no excellent
high
yes fair
medium
no excellent

14. Output: A Decision Tree for “buys_computer” Қорытынды: шешім ағашы бойынша «компьютер сатып алады»

OUTPUT: A DECISION TREE FOR “BUYS_COMPUTER”
ҚОРЫТЫНДЫ: ШЕШІМ АҒАШЫ БОЙЫНША
«КОМПЬЮТЕР САТЫП АЛАДЫ»
age?
30..40
<=30
student?
overcast
yes
>40
credit rating?
no
yes
excellent
fair
no
yes
no
yes

15. What is Data Mining? Деректерді жинақтау дегеніміз не?

WHAT IS DATA MINING?
ДЕРЕКТЕРДІ ЖИНАҚТАУ ДЕГЕНІМІЗ НЕ?
• Интеллектуалды деректерді талдау (деректерден
білімді табу), үлкен деректерден қызықты (жасырын,
бұрын белгісіз және пайдалы) үлгілерді немесе
білімдерді шығарып алу.
• Alternative name – балама атауы
• Knowledge discovery in databases (KDD) - Деректер
базасында білімдер ашу;
• Query processing – өтінімді өңдеу;
• Expert systems or statistical programs - Сарапшы
жүйелер немесе статистикалық бағдарламалар.

16. Data Mining: A KDD Process

DATA MINING: A KDD PROCESS
Data mining - негізгі
білімді ашу процесі
Pattern Evaluation –
Үлгіні бағалау
Task-relevant Data – Data Mining
Тапсырмаға
қатысты деректер
Data Warehouse –
деректерді сақтау
Selection-Таңдау
Data Cleaning –
Деректерді
тазалау
Data Integration - Деректерді біріктіру
Databases – деректер қоры

17. Architecture: Typical Data Mining System

ARCHITECTURE: TYPICAL DATA MINING
SYSTEM
Graphical user interface
Pattern evaluation
Data mining engine
Knowledge-base
Database or data
warehouse server
Data cleaning & data integration
Databases
Filtering
Data
Warehouse

18. Data Mining: Confluence of Multiple Disciplines Деректерді өңдеу: Бірнеше пәндерді біріктіру

DATA MINING: CONFLUENCE OF MULTIPLE
DISCIPLINES
ДЕРЕКТЕРДІ ӨҢДЕУ: БІРНЕШЕ ПӘНДЕРДІ БІРІКТІРУ
Database
Systems
Machine
Learning
Algorithm
Statistics
Data Mining
Visualization
Other
Disciplines

19. Multi-Dimensional View of Data Mining Көпөлшемді деректерді өңдеу көрінісі

MULTI-DIMENSIONAL VIEW OF DATA MINING
КӨПӨЛШЕМДІ ДЕРЕКТЕРДІ ӨҢДЕУ КӨРІНІСІ
• Data to be mined - өнімге арналған деректер
- Реляциялық, деректерді сақтау, транзакция, ағын,
нысанға бағытталған/реляциялық, белсенді, кеңістіктік,
уақыттық қатарлар, мәтін, мультимедиа, гетерогенді,
WWW
• Knowledge to be mined – өнімге арналған білімдер
Сипаттау,
дискриминациялау,
қауымдастық,
классификация,
кластерлеу,
тренд/ауытқу,
шығарындыларды талдау және т.б.
- Бірнеше/интеграцияланған функциялар және бірнеше
деңгейде тау-кен жұмыстарын жүргізу.

20.

What is “big data”?
«Үлкен деректер» дегеніміз не?
«Үлкен деректер - бұл үлкен көлемді, жоғары
жылдамдықты және / немесе әртүрлі ақпараттық
активтерді өңдеу процестерінің жаңа формаларын
талап ететін, шешім қабылдауды жетілдіру, процестерді
анықтау және оңтайландыру».
Күрделі (интеллектуалдық) деректерді талдау
шағын деректерді «көрінетін» «үлкен» етіп жасай
алады.
Қорытынды: ағымдағы өңдеу мүмкіндіктерінен
асатын кез келген деректер «үлкен» деп саналуы
мүмкін.

21. Computational View of Big Data Үлкен деректердің есептік көрінісі

COMPUTATIONAL VIEW OF BIG DATA
ҮЛКЕН ДЕРЕКТЕРДІҢ ЕСЕПТІК КӨРІНІСІ
Data Visualization
Data Access
Data Analysis
Data Understanding
Data Integration
Formatting, Cleaning
Storage
Data
English     Русский Rules