Технология секвенирования генома и сборка генома
ДНК секвенирование
Применение NGS
Основные термины
Первые методы секвенирования
Секвенирование по Сенгеру (Золотой стандарт)
Полногеномное секвенирование с использованием метода Сенгера
Проект геном человека
Секвенирование по Сенгеру
New Generation Sequencing
Основные принципы подготовки ДНК библиотек
Стратегия полногеномного секвенирования использует NGS платформы
Контиг (Contig) - группа перекрывающихся прочтений, представляющие участок генома.
Scaffold (Скафолд) – реконструированная часть генома, полученная в результате анализа библиотек большого размера и правильного
Таргетное секвенирование
Индексирование (Баркодинг)
Примеры индексов
Платформы
454 Sequencing Technology
Ion Torrent
Ion Torrent полупроводниковое секвенирование
Ion Torrent полупроводниковое секвенирование
Ion Torrent полупроводниковое секвенирование
Ion Torrent полупроводниковое секвенирование
SOLiD
SOLiD
SOLiD
SOLiD
Все описанные технологии обеспечивают односторонние прочтения ДНК
Подготовка библиотеки ДНК
Illumina
Pacific Biosciences single molecule real-time (SMRT) sequencing Одномолекулярное секвенирование в реальном времени
Сравнение платформ NGS
Контроль качества данных
Алгоритм контроля качества
Зачем чистить данные?
FASTA и FASTQ форматы
Шкала качества Фред (Phred)
Таблица ASCII символов
Разные Phred шкалы
Cборка генома
FastQC – инструмент для контроля качества данных
FastQC
FastQC: распределение качества по остаткам
Шаги препроцессинга
У нас есть очищенные данные. Что дальше?
Сборка de novo
Секвенирование геномов с использованием коротких ридов
План сборки
Разноразмерные библиотеки ДНК
Сборка генома в идеальном случае
Сборка генома в реальности
Выбор правильной программы - сборщика геномов (ассемблер)
Сборщики геномов
Оценка качества сборки генома
N50
QUAST - QUality ASsesment Tool for Genome Assemblies
Реальные графы де Брюйна
Улучшение сборки генома
Гибридная сборка
Сборка на основе данных PacBio
Получение финишного генома
Зачем нужны финишные геномы?
GOLD: Genomes OnLine Database
Статистика GOLD
Статистика GOLD
Статистика GOLD
Статистика GOLD
NCBI Genome
NCBI Genome
NCBI Genome
NCBI Genome
NCBI SRA database
21.15M
Categories: biologybiology informaticsinformatics

Технология секвенирования генома и сборка генома. Лекция 8

1. Технология секвенирования генома и сборка генома

Лекция 8
Многие слайды и материалы используемые в презентации взяты из курса
«Введение в биоинформатику» Санкт-Петербурского государственного
университета
21.12.2019
1

2. ДНК секвенирование

Подход для определения
нуклеотидной
последовательности ДНК
(дезоксирибонуклеиновой
кислоты)
21.12.2019
2

3.

21.12.2019
3

4.

21.12.2019
4

5. Применение NGS

Применение
Решаемая задача
Полногеномное секвенирование de novo
Реконструкция работы клетки и организма на
молекулярном уровне, эволюционная геномика
Полногеномное повторное секвенирование
Метагеномное секвенирование
Поиск генетических вариаций
Исследование биоценоза, поиск новых видов
живых систем
Исследование генной экспрессии, аннотация
генома
Исследование генной экспрессии
Поиск генетических вариаций
Исследование профиля ДНК
Секвенирование транскриптомов
Секвенирование малых РНК
Таргетное секвенирование
Секвенирование обработанной бисульфидом
ДНК
Секвенирование иммунопреципитированного
хроматина (ChIP)
Секвенирование единичных клеток
21.12.2019
Полногеномное картирование ДНК-белковых
взаимодействий
Исследование генной экспрессии,
секвенирование некультивируемых бактерий
5

6. Основные термины

Первые методы секвенирования
• Maxam-Gilbert (1976-1977)
• Sanger (1977)
21.12.2019
7

7. Первые методы секвенирования

Нуклеотид-специфическая
деградация ДНК при
обработке различными
веществами
21.12.2019
8

8.

Секвенирование по Сенгеру
(Золотой стандарт)
Длинна секвенирования:
300-1000 bp
Ошибки: 0.1-1%
Phi X 174 (ΦX174) бактериофаг был
первым секвенированным ДНК геномом
(5386 нуклеотидов) в 1977 году
21.12.2019
9

9. Секвенирование по Сенгеру (Золотой стандарт)

Полногеномное
секвенирование с
использованием
метода Сенгера
21.12.2019
10

10. Полногеномное секвенирование с использованием метода Сенгера

Проект геном человека
Размер генома – 3.2 Гб
Длительность – 10 лет
1990 – 2000
Цена – 3 млрд. $
Метод - секвенирование
по Сенгеру
21.12.2019
11

11. Проект геном человека

Секвенирование по Сенгеру
Плюсы:
• Относительно низкий уровень ошибок
• Удобное и дешевое секвенирование небольших
фрагментов генома (16S РНК, Hsp65, и т.д.)
Минусы:
• Высокая стоимость полногеномного секвенирования
• Трудоемкость
• Низкая производительность
21.12.2019
12

12. Секвенирование по Сенгеру

21.12.2019
13

13.

New Generation Sequencing
Плюсы:
• Простая подготовка ДНК библиотек (пробоподготовка)
• Высокая производительность
• Низкая стоимость секвенирования
Минусы:
• Короткие риды
• Относительно высокий уровень ошибок
21.12.2019
14

14. New Generation Sequencing

Основные принципы подготовки ДНК библиотек
1.
2.
3.
4.
21.12.2019
Фрагментация ДНК
Отбор размера
Лигирование адаптора
Амплификация
библиотеки
15

15. Основные принципы подготовки ДНК библиотек

Стратегия полногеномного секвенирования
использует NGS платформы
21.12.2019
16

16. Стратегия полногеномного секвенирования использует NGS платформы

Контиг (Contig) - группа перекрывающихся
прочтений, представляющие участок генома.
Contig is a group of overlapping clones representing regions of the genome; the contiguous
sequence of DNA created by assembling these overlapping chromosome fragments.
Definition from: NCI Thesaurus via Unified Medical Language System at the National Library of Medicine
21.12.2019
17

17. Контиг (Contig) - группа перекрывающихся прочтений, представляющие участок генома.

Scaffold (Скафолд) – реконструированная часть генома,
полученная в результате анализа библиотек большого
размера и правильного взаимного расположения контигов
Scaffold is a portion of the genome sequence reconstructed from end-sequenced
whole-genome shotgun clones. Scaffolds are composed of contigs and gaps.
Definition from: http://genome.jgi-psf.org/help/scaffolds.html
21.12.2019
18

18. Scaffold (Скафолд) – реконструированная часть генома, полученная в результате анализа библиотек большого размера и правильного

21.12.2019
19

19.

Таргетное секвенирование
Nature Methods 7, 111 - 118 (2010)
21.12.2019
20

20. Таргетное секвенирование

Индексирование (Баркодинг)
Можно за один запуск секвенатора прочитать
несколько геномов или геномных участков
Индексы – короткие олигонуклеотиды с
различной
последовательностью,
которые
фланкируют ДНК библиотеки и секвенируются
вместе с целевой ДНК. На основе известной
индексной
последовательности
можно
дифференцировать
несколько
образцов
секвенированных в одно время.
21.12.2019
21

21. Индексирование (Баркодинг)

Примеры индексов
21.12.2019
22

22. Примеры индексов

Платформы
21.12.2019
23

23. Платформы

21.12.2019
24

24.

454 Sequencing Technology
Фрагментация ДНК
Подготовка библиотеки
Пришивание адапторов к молекулам
ДНК с двух концов.
21.12.2019
25

25. 454 Sequencing Technology

Один фрагмент = одна бусина (bead)
Библиотека фрагментов ДНК прикрепляется к
бусинам после денатурации ДНК. Каждая бусина
имеет уникальный фрагмент библиотеки. Шарики
эмульгируют с реагентами амплификации в смеси
вода-в-масле.
emPCR: Эмульсионная ПЦР-амплификация
Амплификация ведется в эмульсии параллельно,
чтобы создать миллионы клонных копий каждого
фрагмента библиотеки на каждом шарике. Если
фрагмент не присоединяется к шарику, то он
остается гладким.
21.12.2019
Секвенирование: один шарик = один рид
Шарик помещается в лунку, где дизайн поверхности
допускает только один шарик. Отдельные
нуклеотиды протекают последовательно через
лунки.
Каждое
включение
нуклеотида,
комплементарное к матричной нити, приводит к
хемилюминесцентному
световому
сигналу,
записанному камерой.
26

26.

Секвенирование начинается с
присоединения праймера, потом
присоединение комплементарного
нуклеотида приводит к
высвобождению пирофосфата,
который взаимодействуя с
сулфирилазой и люциферазой
приводит к образованию светового
сигнала, детектируемого камерой.
По интенсивности сигнала
определяется какое количество
нуклеотидов присоединяется. При
этом зная какие нуклеотиды
подаются в текущее время
определяют последовательность
ДНК.
21.12.2019
27

27.

21.12.2019
28

28.

Ion Torrent
Подготовка библиотеки похожа на Roche 454
• фрагментация ДНК
• Прикрепление адаптера
• Эмульсионная ПЦР
Технология секвенирования отличается
21.12.2019
29

29. Ion Torrent

полупроводниковое секвенирование
Во время секвенирования, последовательно подаются нуклеотиды, при
встраивании которых выделяются ионы водорода.
21.12.2019
30

30. Ion Torrent полупроводниковое секвенирование

Выделение ионов водорода приводит к изменению кислотности среды, что
детектируются высокочувствительным pH-метром
21.12.2019
31

31. Ion Torrent полупроводниковое секвенирование

21.12.2019
32

32. Ion Torrent полупроводниковое секвенирование

21.12.2019
33

33. Ion Torrent полупроводниковое секвенирование

21.12.2019
34

34.

SOLiD
Подготовка библиотеки похожа на Roche 454
• фрагментация ДНК
• Прикрепление адаптера
• Эмульсионная ПЦР
• Технология секвенирования отличается секвенирование путем лигирования
олигонуклеотидов
21.12.2019
35

35. SOLiD

21.12.2019
36

36. SOLiD

Происходит последовательное взаимодействие олигонуклеотида, состоящего из
специфичного динуклеотида, пяти неспецифичных нуклеотидов и флуорафора, что
приводит к специфическому связыванию динуклеотида (лигирование) и отщеплению
флуорафора и детекция флуоресцентного сигнала.
21.12.2019
37

37. SOLiD

Для борьбы с неспецифичными нуклеотидами используют новые праймеры,
которые короче на 1,2,3,4 нуклеотида (всего 5 раундов секвенирования). Это
увеличивает точность секвенирования, т.к. каждый нуклеотид прочитывается
дважды, но длина ридов небольшая.
21.12.2019
38

38. SOLiD

Все описанные технологии обеспечивают
односторонние прочтения ДНК
21.12.2019
39

39. Все описанные технологии обеспечивают односторонние прочтения ДНК

21.12.2019
40

40.

Подготовка библиотеки ДНК
21.12.2019
41

41. Подготовка библиотеки ДНК

Illumina
• Гибридизация ДНК-библиотек
• Генерация кластеров (ПЦР)
• Секвенирование синтезом
http://www.youtube.com/watch?v=HMyCqWhwB8E
21.12.2019
42

42. Illumina

21.12.2019
43

43.

Illumina
21.12.2019
44

44.

Pacific Biosciences
single molecule real-time (SMRT) sequencing
Одномолекулярное секвенирование в реальном времени
• Секвенировании без амплификации
• Очень длинные риды
– Производит чтения со средней длиной от 10 000 до
15 000 пар оснований, причем самые длинные риды
могут быть более 30 000 пар оснований
21.12.2019
45

45. Pacific Biosciences single molecule real-time (SMRT) sequencing Одномолекулярное секвенирование в реальном времени

21.12.2019
46

46.

21.12.2019
47

47.

Сравнение платформ NGS
21.12.2019
48

48. Сравнение платформ NGS

Контроль качества данных
21.12.2019
49

49. Контроль качества данных

21.12.2019
50

50.

Алгоритм контроля качества
Проверка качества
Определение проблемы
Решение проблемы
Проверка качества
Последующий анализ
21.12.2019
51

51. Алгоритм контроля качества

Зачем чистить данные?
• Риды низкого качества
• Контаминация (примесь ДНК другого организма)
• Служебные последовательности (адаптеры, индексы)
• Артефакты создания библиотек (некоторые
последовательности встречаются чаще, а не
равномерно)
• Различный формат данных
• Человеческий фактор
21.12.2019
52

52. Зачем чистить данные?

FASTA и FASTQ форматы
FASTA
FASTQ
1.
2.
3.
4.
Линия начинающаяся с @ содержит идентификатор последовательности
Последовательность
Линия начинающаяся с + заполняется факультативно
Линия с величинами качества прочтения, кодируемые в ASCII формате
21.12.2019
53

53. FASTA и FASTQ форматы

Шкала качества Фред (Phred)
Оценки качества нуклеотида Q определяются как величина, которая
логарифмически зависит от вероятностей ошибки P
21.12.2019
54

54. Шкала качества Фред (Phred)

Таблица ASCII символов
21.12.2019
55

55. Таблица ASCII символов

Разные Phred шкалы
21.12.2019
56

56. Разные Phred шкалы

Cборка генома
21.12.2019
57

57. Cборка генома

21.12.2019
58

58.

FastQC – инструмент для контроля качества
данных
• На вход – исходные данные с секвенатора
• HTML отчет
• Графический интерфейс и версия с командной
строкой
www.bioinformatics.babraham.ac.uk/projects/fastqc
21.12.2019
59

59. FastQC – инструмент для контроля качества данных

FastQC
21.12.2019
60

60. FastQC

FastQC: распределение качества по остаткам
Плохое
Хорошее
У Illumina качество ридов обычно уменьшается к 3' концу
21.12.2019
61

61. FastQC: распределение качества по остаткам

FastQC: распределение качества по ридам
Плохое
Хорошее
Мы можем выделить группы ридов с низким и высоким
качеством
21.12.2019
62

62.

FastQC: распределение качества по составу остатков
Плохое
Хорошее
Мы можем определить адаптеры или сдвиг
21.12.2019
63

63.

FastQC: распределение ридов по GC составу
Плохо
Хорошо
GC пики могут свидетельствовать о контаминации
21.12.2019
64

64.

FastQC: уровни дупликаций последовательностей
Плохо
Хорошо
Высокий уровень дупликации свидетельствует об
оверамплификации некоторых последовательностей при PCR
21.12.2019
65

65.

FastQC: Overrepresented sequences
Плохо
Перепредставленные последовательности
могут показывать источник контаминации
Хорошо
21.12.2019
66

66.

FastQC: Качество ячеек
Плохо
Хорошо
У Illumina можно определить проблемы с ячейками
21.12.2019
67

67.

Шаги препроцессинга
• Фильтрация данных по качеству
– Удаление ридов, качество которых ниже
определенного порога;
– Обрезание части ридов, где качество плохое
• Удаление контаминации
– Биологическая контаминация: определение и
удаление ридов
– Контаминация адапторами: вырезание
адапторов и удаление поврежденных ридов
21.12.2019
68

68. Шаги препроцессинга

У нас есть очищенные данные. Что дальше?
• Сборка de novo
• Сборка по референсному геному
• Выравнивание с референсным геномом
21.12.2019
69

69. У нас есть очищенные данные. Что дальше?

Сборка de novo
Возьмем большое количество
коротких секвенированных ридов
и поместим их вместе, чтобы
воссоздать полный оригинальный
геном из которого они были
получены
21.12.2019
70

70. Сборка de novo

Секвенирование геномов с использованием
коротких ридов
21.12.2019
71

71. Секвенирование геномов с использованием коротких ридов

План сборки
21.12.2019
72

72. План сборки

Разноразмерные библиотеки ДНК
21.12.2019
73

73. Разноразмерные библиотеки ДНК

http://lucigen.com/landingpage/matepair/
21.12.2019
74

74.

Сборка генома в идеальном случае
Однородное покрытие ридами, нет ошибок и контаминации
21.12.2019
75

75. Сборка генома в идеальном случае

Сборка генома в реальности
21.12.2019
76

76. Сборка генома в реальности

21.12.2019
Кафедра биоинформатики МБФ РНИМУ
77

77.

Выбор правильной программы - сборщика
геномов (ассемблер)
• На сколько большой геном?
• Существуют ли известные особенности этого генома
(например, наличие большого числа повторов, GC состав)?
• Какое количество данных ожидается?
• Какого типа данные у вас есть?
• Какое качество данных и необходим ли их препроцессинг
перед сборкой генома?
21.12.2019
78

78. Выбор правильной программы - сборщика геномов (ассемблер)

Сборщики геномов
21.12.2019
79

79. Сборщики геномов

Оценка качества сборки генома
Количество контигов
Общая длинна всех контигов
Длинна наибольшего контига
Количество неправильно собранных
контигов
• Количество идентифицированных генов
• GC состав %
• N50
21.12.2019
80

80. Оценка качества сборки генома

N50
Размер контига, который представляет из себя
наиболее длинный контиг, такой, начиная с которого,
все остальные контиги составляют не менее 50%
длинны генома.
21.12.2019
81

81. N50

QUAST - QUality ASsesment Tool for Genome
Assemblies
http://quast.bioinf.spbau.ru/
21.12.2019
82

82. QUAST - QUality ASsesment Tool for Genome Assemblies

21.12.2019
83

83.

Реальные графы де Брюйна
21.12.2019
84

84. Реальные графы де Брюйна

Улучшение сборки генома
21.12.2019
85

85. Улучшение сборки генома

Гибридная сборка
21.12.2019
86

86. Гибридная сборка

Сборка на основе данных PacBio
21.12.2019
87

87. Сборка на основе данных PacBio

Получение финишного генома
21.12.2019
88

88. Получение финишного генома

Зачем нужны финишные геномы?
• Функциональные геномные исследования требуют высококачественной,
полной последовательности генома в качестве отправной точки
• Сравнительная геномика имеет смысл только в терминах полных
последовательностей генома
• Исследования бактериальных геномов требует по крайней мере одной
полной эталонной последовательности генома
• Финишные геномы помогают в идентификации источника вспышки
инфекций и филогенетическом анализе
• Полный геном - это постоянный научный ресурс
• Полный геном человека является наилучшим источником для улучшения
лечения пациентов (переход к персонализированной медицине)
21.12.2019
89

89. Зачем нужны финишные геномы?

GOLD: Genomes OnLine Database
21.12.2019
90

90. GOLD: Genomes OnLine Database

Статистика GOLD
21.12.2019
91

91. Статистика GOLD

21.12.2019
92

92. Статистика GOLD

21.12.2019
93

93. Статистика GOLD

21.12.2019
94

94. Статистика GOLD

NCBI Genome
21.12.2019
95

95. NCBI Genome

21.12.2019
96

96. NCBI Genome

21.12.2019
97

97. NCBI Genome

21.12.2019
98

98. NCBI Genome

NCBI SRA database
21.12.2019
99

99. NCBI SRA database

21.12.2019
100
English     Русский Rules