ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ У ФІЗИЧНІЙ ХІМІЇ
ХІМІЧНА ІНФОРМАТИКА
ТЕРМІНОЛОГІЯ
ВИЗНАЧЕННЯ ХІМІЧНОЇ ІНФОРМАТИКИ
F. K. Brown, Chemoinformatics: what is it and how does it impact drug discovery? Annual Reports in Medicinal Chemistry 1998, 33, 375-384
Greg Paris (1999 ACS Meeting) (http://www.warr.com/warrzone)
ЗВ’ЯЗОК ХІМІЧНОЇ ІНФОРМАТИКИ З ІНШИМИ ДИСЦИПЛІНАМИ
ОСНОВНІ ЗАДАЧІ ХІМІЧНОЇ ІНФОРМАТИКИ
Актуальні напрямки хімічної інформатики
Актуальні напрямки хімічної інформатики
Актуальні напрямки і застосування хімічної інформатики
Актуальні напрямки і застосування хімічної інформатики
Актуальні напрямки і застосування хімічної інформатики
Актуальні напрямки і застосування хімічної інформатики
Представлення хімічної структури: бензол
Рівні представлення хімічної інформації
Рівні представлення хімічної інформації
1D-РІВЕНЬ ПРЕДСТАВЛЕННЯ ХІМІЧНОЇ ІНФОРМАЦІЇ
1D-рівень представлення хімічної інформації
IUPAC НОМЕНКЛАТУРА
Брутто-формула (Система Хілла, 1900)
1D-рівень представлення хімічної інформації
Лінійні коди (нотації)
Лінійні коди (нотації)
Simplified Molecular Input Line Entry Specification (SMILES) code
Принципи побудови лінійної нотації SMILES
SMILES: Циклічні сполуки
Simplified Molecular Input Line Entry Specification (SMILES) code
Генерування SMILES
1.89M
Categories: informaticsinformatics chemistrychemistry

Інформаційні технології у фізичній хімії. Представлення сполук і реакцій

1. ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ У ФІЗИЧНІЙ ХІМІЇ

МОДУЛЬ І
ПРЕДСТАВЛЕННЯ СПОЛУК І РЕАКЦІЙ

2. ХІМІЧНА ІНФОРМАТИКА

1.Визначення хімічної інформатики
2.Основні напрямки хімічної
інформатики
3.Хімічна інформація
4.Основні джерела хімічної
інформації
5.Рівні представлення хімічної
інформації

3. ТЕРМІНОЛОГІЯ

ХІМІЧНА
ІНФОРМАТИКА
CHEMICAL
INFORMATICS
ХEМІІНФОРМАТИКА
CHEMIINFORMATICS
Cheminformatics
vs.
CHEMOChemoinformatics INFORMATICS
ХEМOНФОРМАТИКА

4. ВИЗНАЧЕННЯ ХІМІЧНОЇ ІНФОРМАТИКИ

• Використання комп'ютерів та
інформаційних технологій для
вирішення наукових задач і проблем
хімії.
• Застосування інформаційних технологій
для вивчення, аналізу, розповсюдження
та збереження хімічної інформації.

5. F. K. Brown, Chemoinformatics: what is it and how does it impact drug discovery? Annual Reports in Medicinal Chemistry 1998, 33, 375-384

• Хемоінформатика - сумісне
використання інформаційних ресурсів,
необхідних для перетворення даних в
інформацію та інформації в знання з
метою швидкого прийняття (пошуку)
найкращих рішень в області ідентифікації
та розробці сполук-лідерів для створення
лікарських препаратів.

6. Greg Paris (1999 ACS Meeting) (http://www.warr.com/warrzone)

Хемі(о)інформатика - це узагальнений термін,
який
охоплює
дизайн,
створення,
організацію, зберігання, керування, пошук,
аналіз, розповсюдження, візуалізацію та
використання хімічної інформації, а також
використання цієї інформації як заміни або
індексів для інших даних, інформації або
знань.

7. ЗВ’ЯЗОК ХІМІЧНОЇ ІНФОРМАТИКИ З ІНШИМИ ДИСЦИПЛІНАМИ

8. ОСНОВНІ ЗАДАЧІ ХІМІЧНОЇ ІНФОРМАТИКИ

Збір, аналіз та управління хімічними даними
Представлення та обмін хімічною інформацією
Дизайн та організація баз хімічних даних
Прогнозування хімічної структури та властивостей,
включаючи подібність лікам
Аналіз молекулярної подібності та різнорідності
Класифікація та вибір хімічних сполук
Створення моделей кількісного співвідношення між
структурою та властивостями
Використання теорії інформації для вирішення хімічних
задач
Використання статистичних моделей та дескрипторів в
хімії

9. Актуальні напрямки хімічної інформатики

Представлення хімічних
структур
Представлення хімічних
реакцій
Організація баз
хімічних даних

10. Актуальні напрямки хімічної інформатики

Розрахунок фізичних та
хімічних параметрів
Розрахунок структурних
дескрипторів
Оптимізація методів
пошуку і аналізу даних

11. Актуальні напрямки і застосування хімічної інформатики

Прогноз
шляхів та
A
продуктів
органічних
реакцій
Органічна
хімія
Комп’ютерне
B планування
органічного
синтезу

12. Актуальні напрямки і застосування хімічної інформатики

Прогнозуван
ня фізикохімічних A
параметрів
сполук
В
Фізична
хімія
Прогнозуван
ня фізикохімічних
параметрів
хімічних
реакцій

13. Актуальні напрямки і застосування хімічної інформатики

Аналіз
результатів з A
метою
прогнозування
складу, джерела
та віку
досліджуваних
об’єктів
В
Аналітична
хімія
Ідентифікація
структури
хімічної частинки
на основі
спектроскопічних
даних (експертні
системи)

14. Актуальні напрямки і застосування хімічної інформатики

QSAR/QSPR
B
Ідентифікація
і оптимізація
A
сполуклідерів
Дизайн
ліків
Створення і
аналіз
C
хімічних
бібліотек

15.

Класифікація основних інформаційних
джерел з хімії
• Паперові
• Електронні
– CD-диски з електронними виданнями
– Інтернет-ресурси
– Бази даних (локальні та інтерактивні)
• Особисте спілкування

16.

Наукометрические данные по химии
« …В мире около 10 тыс. периодических изданий, интересных
для химика, ежегодно появляется 200 тыс. научных статей, 5
тыс. книг, 30 тыс. патентов, 20 тыс. отчетов. Если бы химик,
владеющий 30 языками, читал 40 часов в неделю со скоростью
4 публикации в час, за год он ознакомился бы лишь с 1/20
вышедших публикаций».
«Средний же химик за свою жизнь прочитывает примерно
0,5% опубликованной специальной литературы, причем и из
этого числа половина не имеет отношения к выполняемой им
работе»
А.Н. Несмеянов
1965 г.

17. Представлення хімічної структури: бензол

Бензол
ID #:
MUSE00000002
CAS #:
71-43-2
Інші назви:
Бензен
циклогекса-1,3,5-трієн
Таблиця зв'язків:
Benzene
-ISIS- 08200115272D
6 6 0 0
-1.0306
0
-1.0318
0
-0.3169
0
0.3995
0
0.3966
0
-0.3187
0
1 2 2 0
3 4 2 0
4 5 1 0
2 3 1 0
5 6 2 0
6 1 1 0
M END
b2u
0 0 0 0 0 0999 V2000
-1.4375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0
-2.2648
0.0000 C 0 0 0 0 0 0 0 0 0 0 0
-2.6777
0.0000 C 0 0 0 0 0 0 0 0 0 0 0
-2.2644
0.0000 C 0 0 0 0 0 0 0 0 0 0 0
-1.4338
0.0000 C 0 0 0 0 0 0 0 0 0 0 0
-1.0247
0.0000 C 0 0 0 0 0 0 0 0 0 0 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
e1g
a2u
H
Лінійна нотація
•Wiswesser:
•MDL LN:
•SMILES:
•InChI
e2u
H
H
H
H
H
H
H
H
H
H
RH
[email protected]
c1ccccc1
InChI=1/C6H6/c1-2-4-6-5-3-1/h1-6H
H

18. Рівні представлення хімічної інформації

19. Рівні представлення хімічної інформації

1D
Назва, формула, лінійні коди
(нотації), чисельне представлення
фізико-хімічних даних
2D
3D
Визначення Декартових
координат усіх атомів хімічної
частинки
4D
5D
Графічне пласке зображення хімічної
структури сполуки, представлення у
вигляді двумірних матриць
Інформація на рівні хімічних
реакцій
Інформація про поверхні
сольватації, електростатичного
потенціалу

20. 1D-РІВЕНЬ ПРЕДСТАВЛЕННЯ ХІМІЧНОЇ ІНФОРМАЦІЇ

21. 1D-рівень представлення хімічної інформації

1D
1D-рівень представлення
хімічної інформації
• Тривіальна назва
• Систематична назва
• Номенклатура ІЮПАК
• Брутто-формула: С3Н6О2
• Раціональна формула: С2Н5COОН
• Раціональна формула у напіврозгорнутому
вигляді: СН3СН2COОН

22. IUPAC НОМЕНКЛАТУРА

1D
IUPAC НОМЕНКЛАТУРА
ПЕРЕВАГИ:
– Стандартизована
систематична
класифікація
– враховується
стереохімія
– широко
розповсюджена
– дозволяє відтворити
структуру з назви
НЕДОЛІКИ:
- складні правила
- можливі
альтернативні назви
(не завжди є
однозначною)
- довгі складні імена

23. Брутто-формула (Система Хілла, 1900)

1D
Брутто-формула
(Система Хілла, 1900)
Порядок розташування елементів:
а) речовина містить атоми С:
1. Карбон,
2. Гідроген,
3. Інші елементи в алфавітному порядку.
C3H6O2
C3H5BrO2
C3H7NO2
C3H6O2S

24.

1D
Брутто-формула
(Система Хілла, 1900)
Порядок розташування елементів:
б) атоми С відсутні:
Усі елементи перераховуються в
алфавітному порядку
• BaH2O2 - Ba(OH)2
• HNO4Zn - (ZnOH)NO3

25. 1D-рівень представлення хімічної інформації

1D
1D-рівень представлення
хімічної інформації
Ідентифікатор
(реєстраційний
номер)
для однозначного
позначення хімічної
речовини у великій
базі даних

26.

1D
Ідентифікатори
(реєстраційні номери)
UN number, UN ID
United Nations
Позначення небезпечних при транспортувнні хімічних
речовин
UN 1035
RTECS number
Registry of Toxic Effects of Chemical Substances
Позначення небезпечних (токсичних) хімічних
речовин
RTECS KH3800000

27.

1D
Ідентифікатори
(реєстраційні номери)
EC number, EC-No, EC#
The European Commission number
Позначення хімічних речовин у країнах ЄС
EC number 200-814-8

28.

1D
Ідентифікатори
(реєстраційні номери)
CAS Registry Number
(CASRN, CAS RN, CAS Number, CAS#)
Chemical Abstracts Service Registry Number
www.cas.org
Позначення хімічних речовин у
Chemical Abstracts Service
CAS number 74-84-0
http://www.commonchemistry.org
1 лютого 2011

29. Лінійні коди (нотації)

1D
Лінійні коди (нотації)
• Представляють структуру у вигляді лінійної
послідовності літер та цифр
• Лінійні нотації є компактними, це перевага при
зберіганні структурної інформації в комп’ютері
(особливо коли обмеженим є дисковий простір)
• Лінійні нотації дозволяють легкий обмін
структурною інформацією, (використання у
пошукових системах типу Google, спеціалізованих
базах даних, обмін через e-mail)

30. Лінійні коди (нотації)

1D
Лінійні коди (нотації)
Лінійна
нотація
Вісвессера A
(WLN)
SMILES
SLN
B
(Sybyl Line Notation)
Лінійні
нотації
D
C
InChI (Key)
Універсальна
нотація ІЮПАК

31. Simplified Molecular Input Line Entry Specification (SMILES) code

1D
Simplified Molecular Input Line Entry
Specification (SMILES) code
Специфікація Спрощенного
Представлення Молекул в Рядку Вводу
система правил (специфікація) однозначного
описанння складу і структури хімічної частинки
з використанням рядка символів ASCII.
Артур і Дэвід Вейнінгер (Weininger)
Daylight Chemical Information Systems, Inc
http://www.daylight.com/smiles/

32. Принципи побудови лінійної нотації SMILES

1D
Принципи побудови лінійної
нотації SMILES
http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html
• Атоми представляються у вигляді хімічних
символів.
• Атоми водню не враховуються.
• Сусідні атоми представляються
один за одним.
• Подвійні зв’язки позначають через ‘=‘,
потрійні - через ‘#’.
• Розгалуження ланцюга позначається дужками.
• Кільця позначаються шляхом розміщення
цифр біля двох атомів, що замикають цикл.

33.

1D
Принципи побудови лінійної
нотації SMILES
Об’єкт
формула
SMILES
Метан
Аміак
Вода
СН4
NH3
H2O
С
N
O
Сірководень
Хлороводень
Арсін
H2S
HCl
AsH3
S
Cl
[AsH3]
Етан
Пропан
Вуглекислий газ
CH3CH3
CH3CH2CH3
CO2
CC
CCC
O=C=O
Синільна кислота
HCN
C#N

34. SMILES: Циклічні сполуки

1D
SMILES: Циклічні сполуки
NH
C1CCCCC1
c1ccccc1
N
c21ccccc1\C=N/NCC2
http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html

35.

1D
SMILES: йони та йонні сполуки
Об’єкт
Fe2+
H3O+
NH4+
NaOH
SMILES
[Fe2+]
[OH3+]
[NH4+]
[Na+].[OH-]
http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html

36.

1D
Цис-ізомери:
/ = \ або \ = /
SMILES: стереохімія
Br
CH3
C\C=C/Br
CH3
Транс-ізомери:
\ = \ або / = /
Br
C/C=C/Br

37. Simplified Molecular Input Line Entry Specification (SMILES) code

Cl
O C
Cl
Структурна формула
O=C(Cl)Cl
Канонічний запис
O=C(Cl)Cl
ClC(Cl)=O
ClC(=O)Cl
C(Cl)(Cl)=O
Альтернативні варіанти

38.

Simplified Molecular Input Line Entry
Specification (SMILES) code
Канонічні SMILES
Daylight Chemical Information Systems, Inc
http://www.daylight.com/smiles/

39.

1D
Генерування SMILES
Власноруч відповідно до
правил
На основі 2D-ескізів
молекул засобами хімічних
редакторів
На основі 2D-ескізів
молекул засобами онлайнресурсів

40. Генерування SMILES

1D
Генерування SMILES

41.

1D
Генерування SMILES

42.

1D
Генерування SMILES

43.

1D
SMILES: переваги та недоліки
ПЕРЕВАГИ:
Простий лінійний код
Легко сприймається
Є зручним форматом для швидкого обміну даними
Підтримує позначення для структур Маркуша
Можливе врахування стереохіміє
Можливе використання для кодування хімічних
реакцій
НЕДОЛІКИ:
Не унікальний (необхідно використовувати канонічний
варіант)
Деякі проблеми з представленням ароматичних сполук

44.

1D
The IUPAC International Chemical
Identifier (InChITM)
http://www.iupac.org/inchi/
Міжнародний ідентифікатор хімічних
речовин для використання в друкованих та
електронних джерелах хімічної інформації
IUPAC Project 2000-025-1-800 (2000-2004)
Комп’ютеризований варіант систематичної
назви хімічної сполуки
Етанол:

45.

1D
Модульна структура InChI

46.

1D
Модульна структура InChI
Основні модулі InChI:
1. Формула
2. Зв’язаність атомів
(без вказання порядку зв’язків)
a. Незв’язані метали
b. Зв’язані метали
3. Ізотопи
4. Стереохімія
InChI=1/C5H5N5O/c6-5-9-3-2(4(11)10-5)7a. Подвійні зв’язки
1-8-3/h1H,(H4,6,7,8,9,10,11)/f/h8,10H,6H2
3
b. гібридизація (sp )
5. Таутомери

47.

1D
The IUPAC International Chemical
Identifier (InChITM)
Програмне забезпечення:
ACD Labs: ChemSketch www.acdlabs.com
CambridgeSoft: ChemDraw www.cambridgesoft.com
ChemAxon: Marvin www.chemaxon.com
BKChem: http://bkchem.zirael.org/inchi_en.html
CACTVS structure editor csed:
www.xemistry.com/academic
PubChem Online Sketcher: pubchem.ncbi.nlm.nih.gov/edit
Symyx Software: Symyx Draw www.symyx.com

48.

The IUPAC International Chemical
Identifier (InChITM)
1D
Бази даних:
•NIST WebBook http://webbook.nist.gov
•NIH PubChem http://pubchem.ncbi.nlm.nih.gov
•UC-SF ZINC project http://blaster.docking.org/zinc
•Carcinogenic Potency http://potency.berkeley.edu/structure.html
•Wiley Registry of Mass Spectral Data www.wiley.com
•ChemBank http://chembank.broad.harvard.edu
•Specs.net: www.specs.net
•ChemSpider www.chemspider.com
•Protein Databank (PDB)
http://remediation.wwpdb.org/downloads.html
•Chemical Synthesis Database www.chemsynthesis.com

49.

1D
The IUPAC International Chemical
Identifier (InChIKey)
Універсальний ідентіфікатор сполук в базах даних
English     Русский Rules