Similar presentations:
Краткий экскурс в историю становления биоинформатики
1.
Школа «Науки о данных»Трек «Биоинформатика» 25-26 апреля
2. Краткий экскурс в историю становления биоинформатики
• Для биологаРяд Нобелевских
• Для биоинформатика
премий 1950-1970
3.
Вторичная структура – альфа-спираль и бета-листНобелевская премия по химии 1954
Лайнус Полинг
Белки - текст,
написанный на
алфавите
Из 20 букв
Альфа-субъединица АТФ-синтетазы
4.
Вторичная структура ДНК - спиральНобелевская премия по физиологии и медицине 1962
Геном - текст,
написанный на
алфавите
из 4 букв
Лайнус Полинг - Нобелевская
премия мира 1962 г.
5. 1968 - Нобелевская премия по физиологии и медицине
Ниренберг, Хорана,Холли
Соответствие между
4-буквенным и 20буквенным
алфавитами
6.
Рождение технологий7.
Метод секвенирования Сэнгера1992 г
Нобелевская премия по химии 1980 г.
• 1977 год
Начал с получения полной
аминокислотной
последовательности инсулина в
1951-52
The Wellcome Trust Sanger Institute, 1992
8. Первый отсеквенированный геном
• 1995 г.бактерия Haemophilus
influenzae –гемофильная
палочка или палочка
Пфейфера
5 Mb
9. Human Genome Project
• Started in 1990• Finished 2001/2003
• Sanger Sequencing
3 Gb
10.
11. Next Generation Sequencing, or NextGenSeq, or NGS
12.
13.
14. NextGen Sequencing Revolution
To print is more expensive than to sequenceHuman genome –
130 Volumes, double-sided,
4pt, ~ 43,000 chars per page
15. Next Generation Sequencing
DNA-seq
RNA-seq
Chip-Seq
MNase-Seq
Hi-C
Massive parallel sequencing
1 million to 43 billion short reads per instrument run
16. Data Accumulation
17. ENCODE: Encyclopedia of DNA Elements
And many more18.
Relationshipof figure
panels
highlights
data set
dimensions
19. Machine-Learning for cracking the codes
20.
Nature 200621.
Nature 201022. Epigenetic code
Nature 201023. 2005-2015 много статей по распознаванию функциональных элементов генома методами “классического” машинного обучения
24. Deep Learning
25. Convolution Neural Network
26. DNA as picture?
Nature Methods volume 12, pages 931–934 (2015)Nature 2015
27.
DeepBindnature biotechnology 2015
28.
29.
30.
Not justone hot encoding
Bioinformatics, 2016
31.
Plusstructure
information
Bioinformatics, 2018,
32.
Filter informationextraction
33.
The Inceptionarchitecture
of GoogLeNet
Bioinformatics,
2018
34.
35.
36. 2019 - 2024
• Take the best solution from AI several yearslater it was introduced in non-biological area
image recognition
language recognition
language translation (RNN)
• Apply it to the DNA
37. DNA Computing
38.
• Basic Idea:–Perform molecular biology
experiment to find solution
to math problem.
39. HAMILTONIAN PATH PROBLEM
• Given a network of nodes and directedconnections between them, is there a path
through the network that begins with the start
node and concludes with the end node visiting
each node only once (“Hamiltonian path")?
• “Does a Hamiltonian path exist, or not?”
40.
Hamiltonian path does exist!End city
Detroit
Chicago
Boston
Start city
Atlanta
41.
Hamiltonian path does not exist!Start city
Detroit
Chicago
Boston
End city
Atlanta
42. DNA Polymerase
• - Protein that produces complementaryDNA strand
• - A -> T, T -> A, C -> G, G -> C
• - Enables DNA to reproduce
A
G
T
T
C
G
A
A
C
G
DNA
Polymerase
T
A
T
C
G
G
A
T
43. Polymerase in Action
• The “bio” nanomachine:– hops onto DNA strand
– slides along
– reads each base
– writes its complement
onto new strand
44.
CITYDNA NAME
ATLANTA
ACTTGCAG
BOSTON
TCGGACTG
CHICAGO
GGCTATGT
DETROIT
CCGAGCAA
CONNECTING PATH
ATLANTA-BOSTON
ATLANTA-DETROIT
BOSTON-CHICAGO
BOSTON-DETROIT
BOSTON-ATLANTA
CHICAGO-DETROIT
COMPLEMENT
TGAACGTC
AGCCTGAC
CCGATACA
GGCTCGTT
DNA PATH
GCAGTCGG
GCAGCCGA
ACTGGGCT
ACTGCCGA
ACTGACTT
ATGTCCGA
45. DNA encoding of city-network
BostonAtlanta
Atlanta -Boston
GCAGTCGG
TGAACGTC AGCCTGAC
Atlanta
Boston
46.
End cityDetroit
Chicago
Boston
Start city
Atlanta
Atlanta-Boston Boston-Chicago Chicago-Detroit
Atlanta*
Boston*
Chicago*
Detroit*
47.
End cityDetroit
Chicago
Boston
Start city
Atlanta
Boston-Atlanta
Boston*
Atlanta-Detroit
Atlanta*
Detroit*
48. DNA Experiment Set-up
Ingredients and tools needed:• - DNA strands that encode city names and
connections between them
• - Ligase, water, salt, other ingredients
• - Polymerase chain reaction (PCR) set
• - Gel electrophoresis tool (that filters out
non-solution strands)
49. How Dense is the Information Storage?
• Nucleotides are spaced at 0.35 nm along DNA• data density is over a 1 mln Gbits/inch
• 7 Gbits/inch in typical high performance HDD.
Deepthi Bollu
49
50. How enormous is the parallelism?
• A test tube of DNA can contain trillions of strands.Each operation on a test tube of DNA is carried out
on all strands in the tube in parallel !
Deepthi Bollu
50
51. How extraordinary is the energy efficiency?
• Adleman figured his computer was running2 x 1019 operations per joule.
Deepthi Bollu
51
52. Сomputer that ‘grows as it computes’
201753.
Nondeterministic universal Turing machine (NUTM)“Here, we demonstrate the first physical design of an NUTM”
54. Nondeterministic universal Turing machine (NUTM)
• Electronic computers need to choose whichpath to follow first.
• DNA computer doesn’t need to choose, it
follows both paths at the same time.
• Quantum computers can also follow both
paths, but only if the maze has certain
symmetries, which greatly limits their use.
55. A universal Thue system.
Аксель Туэ (Axel Thue)1863-1922
The application of a Thue rule
to a string therefore produces
a new string — equivalent to
change of state in a UTM.
Turing machines can be
viewed as rewrite systems
56. DNA computing.
57. Implementation of a DNA NUTM
14 paralleling executing processors (one each for both direction of the seven Thuerules) and a mixing vessel.
58.
“As DNA molecules are very small a desktopcomputer could potentially utilize more
processors than all the electronic computers in
the world combined - and therefore outperform
the world’s current fastest supercomputer, while
consuming a tiny fraction of its energy.”
59.
60. Human disease-gene networks
61.
Рэй Курцвейл62.
• 2020 – Персональные компьютерыдостигнут вычислительной мощности,
сравнимой с человеческим мозгом.
• …
• 2028 – Солнечная энергия станет
настолько дешевой и распространенной,
что будет удовлетворять всей суммарной
энергетической потребности человечества.
• …
• 2033 – Самоуправляемые автомобили
заполнят дороги.
63.
• 2036 – Используя подход к биологии, как кпрограммированию, человечеству впервые
удастся запрограммировать клетки для
лечения болезней, а использование 3Dпринтеров позволит выращивать новые ткани и
органы.
• 2037 – Гигантский прорыв в понимании тайны
человеческого мозга. Некоторые из алгоритмов
будут расшифрованы и включены в
нейронные сети компьютеров.
64. Нобелевская премия по физиологии и медицине
• 203X год - за открытиеалгоритмов работы генома
• 203X год – за
программирование клеток