Similar presentations:
Інформаційні технології у фізичній хімії. Представлення сполук і реакцій
1. ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ У ФІЗИЧНІЙ ХІМІЇ
МОДУЛЬ ІПРЕДСТАВЛЕННЯ СПОЛУК І РЕАКЦІЙ
2. ХІМІЧНА ІНФОРМАТИКА
1.Визначення хімічної інформатики2.Основні напрямки хімічної
інформатики
3.Хімічна інформація
4.Основні джерела хімічної
інформації
5.Рівні представлення хімічної
інформації
3. ТЕРМІНОЛОГІЯ
ХІМІЧНАІНФОРМАТИКА
CHEMICAL
INFORMATICS
ХEМІІНФОРМАТИКА
CHEMIINFORMATICS
Cheminformatics
vs.
CHEMOChemoinformatics INFORMATICS
ХEМOНФОРМАТИКА
4. ВИЗНАЧЕННЯ ХІМІЧНОЇ ІНФОРМАТИКИ
• Використання комп'ютерів таінформаційних технологій для
вирішення наукових задач і проблем
хімії.
• Застосування інформаційних технологій
для вивчення, аналізу, розповсюдження
та збереження хімічної інформації.
5. F. K. Brown, Chemoinformatics: what is it and how does it impact drug discovery? Annual Reports in Medicinal Chemistry 1998, 33, 375-384
• Хемоінформатика - сумісневикористання інформаційних ресурсів,
необхідних для перетворення даних в
інформацію та інформації в знання з
метою швидкого прийняття (пошуку)
найкращих рішень в області ідентифікації
та розробці сполук-лідерів для створення
лікарських препаратів.
6. Greg Paris (1999 ACS Meeting) (http://www.warr.com/warrzone)
Хемі(о)інформатика - це узагальнений термін,який
охоплює
дизайн,
створення,
організацію, зберігання, керування, пошук,
аналіз, розповсюдження, візуалізацію та
використання хімічної інформації, а також
використання цієї інформації як заміни або
індексів для інших даних, інформації або
знань.
7. ЗВ’ЯЗОК ХІМІЧНОЇ ІНФОРМАТИКИ З ІНШИМИ ДИСЦИПЛІНАМИ
8. ОСНОВНІ ЗАДАЧІ ХІМІЧНОЇ ІНФОРМАТИКИ
Збір, аналіз та управління хімічними данимиПредставлення та обмін хімічною інформацією
Дизайн та організація баз хімічних даних
Прогнозування хімічної структури та властивостей,
включаючи подібність лікам
Аналіз молекулярної подібності та різнорідності
Класифікація та вибір хімічних сполук
Створення моделей кількісного співвідношення між
структурою та властивостями
Використання теорії інформації для вирішення хімічних
задач
Використання статистичних моделей та дескрипторів в
хімії
9. Актуальні напрямки хімічної інформатики
Представлення хімічнихструктур
Представлення хімічних
реакцій
Організація баз
хімічних даних
10. Актуальні напрямки хімічної інформатики
Розрахунок фізичних тахімічних параметрів
Розрахунок структурних
дескрипторів
Оптимізація методів
пошуку і аналізу даних
11. Актуальні напрямки і застосування хімічної інформатики
Прогнозшляхів та
A
продуктів
органічних
реакцій
Органічна
хімія
Комп’ютерне
B планування
органічного
синтезу
12. Актуальні напрямки і застосування хімічної інформатики
Прогнозування фізикохімічних A
параметрів
сполук
В
Фізична
хімія
Прогнозуван
ня фізикохімічних
параметрів
хімічних
реакцій
13. Актуальні напрямки і застосування хімічної інформатики
Аналізрезультатів з A
метою
прогнозування
складу, джерела
та віку
досліджуваних
об’єктів
В
Аналітична
хімія
Ідентифікація
структури
хімічної частинки
на основі
спектроскопічних
даних (експертні
системи)
14. Актуальні напрямки і застосування хімічної інформатики
QSAR/QSPRB
Ідентифікація
і оптимізація
A
сполуклідерів
Дизайн
ліків
Створення і
аналіз
C
хімічних
бібліотек
15.
Класифікація основних інформаційнихджерел з хімії
• Паперові
• Електронні
– CD-диски з електронними виданнями
– Інтернет-ресурси
– Бази даних (локальні та інтерактивні)
• Особисте спілкування
16.
Наукометрические данные по химии« …В мире около 10 тыс. периодических изданий, интересных
для химика, ежегодно появляется 200 тыс. научных статей, 5
тыс. книг, 30 тыс. патентов, 20 тыс. отчетов. Если бы химик,
владеющий 30 языками, читал 40 часов в неделю со скоростью
4 публикации в час, за год он ознакомился бы лишь с 1/20
вышедших публикаций».
«Средний же химик за свою жизнь прочитывает примерно
0,5% опубликованной специальной литературы, причем и из
этого числа половина не имеет отношения к выполняемой им
работе»
А.Н. Несмеянов
1965 г.
17. Представлення хімічної структури: бензол
БензолID #:
MUSE00000002
CAS #:
71-43-2
Інші назви:
Бензен
циклогекса-1,3,5-трієн
Таблиця зв'язків:
Benzene
-ISIS- 08200115272D
6 6 0 0
-1.0306
0
-1.0318
0
-0.3169
0
0.3995
0
0.3966
0
-0.3187
0
1 2 2 0
3 4 2 0
4 5 1 0
2 3 1 0
5 6 2 0
6 1 1 0
M END
b2u
0 0 0 0 0 0999 V2000
-1.4375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0
-2.2648
0.0000 C 0 0 0 0 0 0 0 0 0 0 0
-2.6777
0.0000 C 0 0 0 0 0 0 0 0 0 0 0
-2.2644
0.0000 C 0 0 0 0 0 0 0 0 0 0 0
-1.4338
0.0000 C 0 0 0 0 0 0 0 0 0 0 0
-1.0247
0.0000 C 0 0 0 0 0 0 0 0 0 0 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
e1g
a2u
H
Лінійна нотація
•Wiswesser:
•MDL LN:
•SMILES:
•InChI
e2u
H
H
H
H
H
H
H
H
H
H
RH
C-C=C-C=C-C=@1
c1ccccc1
InChI=1/C6H6/c1-2-4-6-5-3-1/h1-6H
H
18. Рівні представлення хімічної інформації
19. Рівні представлення хімічної інформації
1DНазва, формула, лінійні коди
(нотації), чисельне представлення
фізико-хімічних даних
2D
3D
Визначення Декартових
координат усіх атомів хімічної
частинки
4D
5D
Графічне пласке зображення хімічної
структури сполуки, представлення у
вигляді двумірних матриць
Інформація на рівні хімічних
реакцій
Інформація про поверхні
сольватації, електростатичного
потенціалу
20. 1D-РІВЕНЬ ПРЕДСТАВЛЕННЯ ХІМІЧНОЇ ІНФОРМАЦІЇ
21. 1D-рівень представлення хімічної інформації
1D1D-рівень представлення
хімічної інформації
• Тривіальна назва
• Систематична назва
• Номенклатура ІЮПАК
• Брутто-формула: С3Н6О2
• Раціональна формула: С2Н5COОН
• Раціональна формула у напіврозгорнутому
вигляді: СН3СН2COОН
22. IUPAC НОМЕНКЛАТУРА
1DIUPAC НОМЕНКЛАТУРА
ПЕРЕВАГИ:
– Стандартизована
систематична
класифікація
– враховується
стереохімія
– широко
розповсюджена
– дозволяє відтворити
структуру з назви
НЕДОЛІКИ:
- складні правила
- можливі
альтернативні назви
(не завжди є
однозначною)
- довгі складні імена
23. Брутто-формула (Система Хілла, 1900)
1DБрутто-формула
(Система Хілла, 1900)
Порядок розташування елементів:
а) речовина містить атоми С:
1. Карбон,
2. Гідроген,
3. Інші елементи в алфавітному порядку.
C3H6O2
C3H5BrO2
C3H7NO2
C3H6O2S
24.
1DБрутто-формула
(Система Хілла, 1900)
Порядок розташування елементів:
б) атоми С відсутні:
Усі елементи перераховуються в
алфавітному порядку
• BaH2O2 - Ba(OH)2
• HNO4Zn - (ZnOH)NO3
25. 1D-рівень представлення хімічної інформації
1D1D-рівень представлення
хімічної інформації
Ідентифікатор
(реєстраційний
номер)
для однозначного
позначення хімічної
речовини у великій
базі даних
26.
1DІдентифікатори
(реєстраційні номери)
UN number, UN ID
United Nations
Позначення небезпечних при транспортувнні хімічних
речовин
UN 1035
RTECS number
Registry of Toxic Effects of Chemical Substances
Позначення небезпечних (токсичних) хімічних
речовин
RTECS KH3800000
27.
1DІдентифікатори
(реєстраційні номери)
EC number, EC-No, EC#
The European Commission number
Позначення хімічних речовин у країнах ЄС
EC number 200-814-8
28.
1DІдентифікатори
(реєстраційні номери)
CAS Registry Number
(CASRN, CAS RN, CAS Number, CAS#)
Chemical Abstracts Service Registry Number
www.cas.org
Позначення хімічних речовин у
Chemical Abstracts Service
CAS number 74-84-0
http://www.commonchemistry.org
1 лютого 2011
29. Лінійні коди (нотації)
1DЛінійні коди (нотації)
• Представляють структуру у вигляді лінійної
послідовності літер та цифр
• Лінійні нотації є компактними, це перевага при
зберіганні структурної інформації в комп’ютері
(особливо коли обмеженим є дисковий простір)
• Лінійні нотації дозволяють легкий обмін
структурною інформацією, (використання у
пошукових системах типу Google, спеціалізованих
базах даних, обмін через e-mail)
30. Лінійні коди (нотації)
1DЛінійні коди (нотації)
Лінійна
нотація
Вісвессера A
(WLN)
SMILES
SLN
B
(Sybyl Line Notation)
Лінійні
нотації
D
C
InChI (Key)
Універсальна
нотація ІЮПАК
31. Simplified Molecular Input Line Entry Specification (SMILES) code
1DSimplified Molecular Input Line Entry
Specification (SMILES) code
Специфікація Спрощенного
Представлення Молекул в Рядку Вводу
система правил (специфікація) однозначного
описанння складу і структури хімічної частинки
з використанням рядка символів ASCII.
Артур і Дэвід Вейнінгер (Weininger)
Daylight Chemical Information Systems, Inc
http://www.daylight.com/smiles/
32. Принципи побудови лінійної нотації SMILES
1DПринципи побудови лінійної
нотації SMILES
http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html
• Атоми представляються у вигляді хімічних
символів.
• Атоми водню не враховуються.
• Сусідні атоми представляються
один за одним.
• Подвійні зв’язки позначають через ‘=‘,
потрійні - через ‘#’.
• Розгалуження ланцюга позначається дужками.
• Кільця позначаються шляхом розміщення
цифр біля двох атомів, що замикають цикл.
33.
1DПринципи побудови лінійної
нотації SMILES
Об’єкт
формула
SMILES
Метан
Аміак
Вода
СН4
NH3
H2O
С
N
O
Сірководень
Хлороводень
Арсін
H2S
HCl
AsH3
S
Cl
[AsH3]
Етан
Пропан
Вуглекислий газ
CH3CH3
CH3CH2CH3
CO2
CC
CCC
O=C=O
Синільна кислота
HCN
C#N
34. SMILES: Циклічні сполуки
1DSMILES: Циклічні сполуки
NH
C1CCCCC1
c1ccccc1
N
c21ccccc1\C=N/NCC2
http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html
35.
1DSMILES: йони та йонні сполуки
Об’єкт
Fe2+
H3O+
NH4+
NaOH
SMILES
[Fe2+]
[OH3+]
[NH4+]
[Na+].[OH-]
http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html
36.
1DЦис-ізомери:
/ = \ або \ = /
SMILES: стереохімія
Br
CH3
C\C=C/Br
CH3
Транс-ізомери:
\ = \ або / = /
Br
C/C=C/Br
37. Simplified Molecular Input Line Entry Specification (SMILES) code
ClO C
Cl
Структурна формула
O=C(Cl)Cl
Канонічний запис
O=C(Cl)Cl
ClC(Cl)=O
ClC(=O)Cl
C(Cl)(Cl)=O
Альтернативні варіанти
38.
Simplified Molecular Input Line EntrySpecification (SMILES) code
Канонічні SMILES
Daylight Chemical Information Systems, Inc
http://www.daylight.com/smiles/
39.
1DГенерування SMILES
Власноруч відповідно до
правил
На основі 2D-ескізів
молекул засобами хімічних
редакторів
На основі 2D-ескізів
молекул засобами онлайнресурсів
40. Генерування SMILES
1DГенерування SMILES
41.
1DГенерування SMILES
42.
1DГенерування SMILES
43.
1DSMILES: переваги та недоліки
ПЕРЕВАГИ:
Простий лінійний код
Легко сприймається
Є зручним форматом для швидкого обміну даними
Підтримує позначення для структур Маркуша
Можливе врахування стереохіміє
Можливе використання для кодування хімічних
реакцій
НЕДОЛІКИ:
Не унікальний (необхідно використовувати канонічний
варіант)
Деякі проблеми з представленням ароматичних сполук
44.
1DThe IUPAC International Chemical
Identifier (InChITM)
http://www.iupac.org/inchi/
Міжнародний ідентифікатор хімічних
речовин для використання в друкованих та
електронних джерелах хімічної інформації
IUPAC Project 2000-025-1-800 (2000-2004)
Комп’ютеризований варіант систематичної
назви хімічної сполуки
Етанол:
45.
1DМодульна структура InChI
46.
1DМодульна структура InChI
Основні модулі InChI:
1. Формула
2. Зв’язаність атомів
(без вказання порядку зв’язків)
a. Незв’язані метали
b. Зв’язані метали
3. Ізотопи
4. Стереохімія
InChI=1/C5H5N5O/c6-5-9-3-2(4(11)10-5)7a. Подвійні зв’язки
1-8-3/h1H,(H4,6,7,8,9,10,11)/f/h8,10H,6H2
3
b. гібридизація (sp )
5. Таутомери
47.
1DThe IUPAC International Chemical
Identifier (InChITM)
Програмне забезпечення:
ACD Labs: ChemSketch www.acdlabs.com
CambridgeSoft: ChemDraw www.cambridgesoft.com
ChemAxon: Marvin www.chemaxon.com
BKChem: http://bkchem.zirael.org/inchi_en.html
CACTVS structure editor csed:
www.xemistry.com/academic
PubChem Online Sketcher: pubchem.ncbi.nlm.nih.gov/edit
Symyx Software: Symyx Draw www.symyx.com
48.
The IUPAC International ChemicalIdentifier (InChITM)
1D
Бази даних:
•NIST WebBook http://webbook.nist.gov
•NIH PubChem http://pubchem.ncbi.nlm.nih.gov
•UC-SF ZINC project http://blaster.docking.org/zinc
•Carcinogenic Potency http://potency.berkeley.edu/structure.html
•Wiley Registry of Mass Spectral Data www.wiley.com
•ChemBank http://chembank.broad.harvard.edu
•Specs.net: www.specs.net
•ChemSpider www.chemspider.com
•Protein Databank (PDB)
http://remediation.wwpdb.org/downloads.html
•Chemical Synthesis Database www.chemsynthesis.com
49.
1DThe IUPAC International Chemical
Identifier (InChIKey)
Універсальний ідентіфікатор сполук в базах даних