Почему нас интересует локальное сходство последовательностей?

BLAST – Basic Local Alignment and Search Tool

Родной BLAST – NCBI (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi)

Одною з розповсюджених прикладних задач є пошук гомологів відомих білків у повністю розшифрованих геномах.

5.19M

Category:

biology

Биоинформатика. Поиск гомологов в базах данных. (Тема 5)

2. Поиск гомологов в базах даных

BLAST
FASTA

>EC_Tr : MQNRLTIKDIARLSGVGKSTVSRVLNNEYR
>EC_Fr : MKLDEIARLAGVSRTTASYVINGKAKQYR
При аналізі первинних структур процедура
вирівнювання
виявляє
сходство
між
послідовностями (sequence similarity), яке
може свідчити про гомологію (homology),
тобто еволюційну спорідненість макромолекул.
Геп – пропуск в
послідовності
>EC_Tr : MQNRLTIKDIARLSGVGKSTVSRVLNNE---YR
>EC_Fr : ----MKLDEIARLAGVSRTTASYVINGKAKQYR

4.

Гомологичные последовательности –
последовательности, имеющие общее
происхождение (общего предка).
Признаки гомологичности белков
сходная 3D-структура
в той или иной степени похожая
аминокислотная последовательность
разные другие соображения…

5. Что изображено?

Название
последовательнос
ти
Консервативный
остаток
Номер столбца
выравнивания
Функционально
консервативная
позиция
Номер последнего в строке остатка
ИЗ ЭТОЙ ПОСЛЕДОВАТЕЛЬНОСТИ

6.

«Идеальное» выравнивание – запись
последовательностей одна под другой так, чтобы
гомологичные фрагменты оказались друг под
другом.
домовой
скупидом
водомерка
лесовоз
ледоход
?
?
Гэп – пропуск в
последовательности
---лесо---воз
лед---оход---

7.

Попарное выравнивание:
*
20
XYLR_ECOLI : GYPSLQYFYSVFKKAYDTTPKEYR : 24
XYLR_HAEIN : GYPSIQYFYSVFKKEFEMTPKEFR : 24
Множественное выравнивание:
*
20
APPY_ECOLI : GYNSTSYFICAFKDYYGVTPSHYF
CELD_ECOLI : GYSSPSLFIKTFKKLTSFTPKSYR
CFAD_ECOLI : GISSASYFIRVFNKHYGVTPKQFF
ENVY_ECOLI : GYSSTSYFISVFKAFYGLTPLNYL
FAPR_ECOLI : GYTSVSYFIKTFKEYYGVTPKKFE
MELR_ECOLI : GFRSSSRFYSTFGKYVGMSPQQYR
RHAS_ECOLI : GFSDSNHFSTLFRREFNWSPRDIR
ROB_ECOLI : RFDSQQTFTRAFKKQFAQTPALYR
TETD_ECOLI : QFDSQQSFTRRFKYIFKVTPSYYR
XYLR_ECOLI : GYPSLQYFYSVFKKAYDTTPKEYR
XYLR_HAEIN : GYPSIQYFYSVFKKEFEMTPKEFR
g s
F
Fk
tP
:
:
:
:
:
:
:
:
:
:
:
24
24
24
24
24
24
24
24
24
24
24

8. Ортологи и паралоги

Ортологи – гени з різних організмів, що
розійшлися при видоутворенні.
◦ Мається на увазі, що ортологи мають
спільного «предка» і однакову функцію (якщо
тиск відбора слабкий, то функція может
«плисти»).
Паралоги – гени, що розійшлися при дуплікації
(«копіюванні»).
◦ Копії гена не зазнавали тиска відбора, а
значить, могли змінити функцію.

9. BLAST

Что такое выравнивание
Выравнивание 2х последовательностей
BLAST на NCBI:
◦
◦
◦
◦
◦
Что это такое
Как выбрать правильную программу
Как выбрать правильную базу данных
Как запустить
Как интерпретировать результаты

10. Почему нас интересует локальное сходство последовательностей?

Мы верим, что:
1. функцию, структуру и многие другие свойства
белка/ДНК определяет последовательность;
2. родственные белки имеют похожие свойства
молекулы, похожие по последовательности,
похожи и по свойствам
Т.о. свойства можно предсказать, анализируя
изученные последовательности, похожие на
данную

11.

Гомологи
Ортологи
Паралоги
Ксенологи
?
(W.M.Fitch, Syst.Zool.19,99(1970)

12. Схожие 3D структуры

Вставка в «синей»
последовательности

13. Матрицы замен

Матрица 20*20 на пересечении 2х aa их уровень
сходства (?):
◦ Похожесть по свойствам (объем, гидрофильность, заряд
и т.д.)
◦ Эволюционное родство – частота замен 1ой aa на другую
в изученных белках
2 сорта последних:
РАМ (Point Accepted Mutations) – на выравниваниях очень
близких белков (РАМ20 = РАМ^20)
BLOSUM (BLOck Scoring Matrix) – на блоках выравниваний
далеких белков (без делеций) (BLOSUM62 – на белках со
средним уровнем сходства 62% попарно)

14. Делеции/инсерции

Общий штраф
Значительно чаще 1 длинная делеция, чем
много коротких => штраф за внесение
делеции + штраф за удлинение делеции

15. Типы выравнивания

Локальное – поиск фрагментов наиболее похожих
друг на друга
домовой
домовой
скупидом
водомерка
домовой
водомерка
Глобальное – сравнение последовательностей
целиком: каждый нуклеотид (аминокислота) находит
себе пару
лесовоз
ледоход
?
---лесо---воз
лед---оход---

16. Критерии качества выравнивания

Количество идентичных (похожих)
аминокислот/нуклеотидов
◦ Для белков – более 25% id при длине > 100 aa
◦ Для ДНК – более 70% id при длине > 100 nt
Длина выравнивания
Вероятность наблюдать такое сходство
случайным образом
◦ Зависит от базы данных
Score
– общая мера сходства:
◦ Зависит от программы

17. Поиск гомологов в базах даных

FASTA (Pearson and Lipman, 1988)
BLAST (Altschul et al., 1990)

18. FASTA

1.A lookup table is generated consisting of short stretches of amino acids or
nucleotides from a database. The size of these stretches is determined
from the ktup parameter. If ktup ј 3 for a protein search, then the query
sequence is examined in blocks of three amino acids against matches of
three amino acids found in the lookup table. The FASTA program
identifies the 10 highest scoring segments that align for a given ktup.
2. These 10 aligned regions are rescored, allowing for conservative
replacements, using a scoring matrix such as PAM250.
3. High-scoring regions are joined together if they are part of the same
proteins.
4. FASTA then performs a global (Needleman–Wunsch) or local (Smith–
Waterman) alignment on the highest scoring sequences, thus optimizing
the alignments of the query sequence with the best database matches.
Thus, dynamic programming is applied to the database search in a limited
fashion, allowing FASTA to return its results very rapidly because it
evaluates only a portion of the potential alignments.

19. FASTA

http://www.ebi.ac.uk/Tools/sss/fasta/

20. BLAST – Basic Local Alignment and Search Tool

Локальное выравнивание
Главная задача – поиск похожих
последовательностей в базах данных (=> главное
достоинство – скорость)
Неточно восстанавливает сходство
Основная программа поиска по БД
Для специализированных БД часто предлагается
на сайте БД
Для поиска среди известных
последовательностей есть специальные сервера

21. Родной BLAST – NCBI (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi)

22.

Алгоритм BLAST
Basic Local Alignment Search Tool
Также, как FASTA, требует параметр k (длина
слова).
◦ Белки k= 3 letter words
◦ ДНК k= 11 letter words.

23. Алгоритм BLAST (шаг 1)

1. Поиск идентичных\похожих участков
2. Попытка «удлинить» эти участки насколько
возможно (т.е. пока score растёт)
В результате: High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN

24.

Алгоритм BLAST (шаг 2)
Попытка соединить соседние HSPs путем
выравнивания последовательностей
между ними:
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

25. Blast

Blast – это семейство программ: BlastN, BlastP, BlastX,
tBlastN
Query:
ДНК
Белок
Database:
ДНК
Белок
BlastN - ДНК vs ДНК
BlastP – белок vs белок
BlastX - translated ДНК vs белок
tBlastN - белок vs translated ДНК

26. Blast

27. Одною з розповсюджених прикладних задач є пошук гомологів відомих білків у повністю розшифрованих геномах.

пряме співставлення амінокислотної
послідовності проти нуклеотидної є
неможливим
дві можливі стратегії аналізу

28. Стратегія 1

Ми
перетворюємо
цільову
амінокислотну
послідовність в набір нуклеотидних послідовностей,
згідно стандартного генетичного коду.
На виході отримуємо величезну купу нуклеотидних
послідовностей, кількість яких не може бути
спрогнозовано,
внаслідок
виродженності
генетичного коду. Як наслідок, задачу співставлення
цього масиву послідовностей з вмістом нуклеотидної
бази даних, взагалі не може бути вирішено за
розумний проміжок часу

29. Стратегія 2

Ми перетворюємо (транслюємо) вміст нуклеотидної
бази даних в амінокислотні послідовності.
На виході отримуємо 6 варіантів на кожну
нуклеотидну послідовність, відповідно до кількості
можливих рамок зчитування. Таким чином, кількість
порівняльних процедур системи замість з неосяжної
кількості зменшується до шести, і може бути
проведено за розумний проміжок часу, що і виконує
програма TBLASTN

30. Поиск гомологов

По ДНК или по белку?
Какой поиск предпочтительней?

31. ДНК или белок?

Какая последовательность более
постоянна в эволюционном плане?
UCAUAC
Or
Serine -Tyrosine

32.

Поиск гомологов
Генетический код избыточен – почти все
аминокислоты кодируются более, чем 1 кодоном
(тройка нуклеотидов)
Последовательность ДНК может меняться, в то
время, как последовательность белка остается
постоянной.
Ser-Tyr….
UCAUAC
UCUUAC
UCGUAC
U……

33.

Поиск гомологов
Нуклеотиды – 4-х буквенный алфавит.
Аминокислоты – 20-и буквенный алфавит
Две случайные последовательности ДНК будут
идентичны ~ 25%.
Две случайные белковые последовательности будут
идентичны ~ 5%.

34.

Поиск гомологов
Матрицы для сравнения белков более
чувствительны, чем матрицы для ДНК.
Базы данных ДНК намного больше
белковых → будут случайные совпадения.

35.

Поиск гомологов
Использование белковых
последовательностей более
предпочтительно при поиске гомологов

36. Специализированные инструменты

ДНК:
◦ megaBLAST – другой алгоритм для сравнения ДНК.
Оптимизирован для длинных похожих
последовательностей. Оптимален для поиска хитов в
родном геноме или очень близких видах
◦ Discontiguous megaBLAST – аналогично, параметры
подобраны для более далеких видов
Белок:
◦ PSI-BLAST (Position-Specific Iterated -BLAST) поиск
удаленных белковых гомологов с использованием PSSM
(position-specific scoring matrix)
◦ PHI-BLAST (Pattern-Hit Initiated -BLAST) ищет
гомологичные белки, удовлетворяющие заданному
паттерну

37. Специализированные инструменты

38. Какую программу выбрать?

Белок
ДНК
Локализацию в
родном геноме
Изученного
гомолога
Свой ген или гомолога в
определенном геноме
Гомолога
с заданной
Возможно,
весьма
функцией
удаленного
гомолога
Ортологичный локус
в близком виде
BLAST
Похожую, возможно,
некодирующую, ДНК
Белок-кодирующий ген в
последовательности

39. Стандартный input

40. Промежуточная страница - СD

41. Output - I

42. Output - II

43. Output - III

44. Output IV

45. E-value, bit score

E-value
(математическое ожидание, the
expectation value) – оценка числа раз
наблюдать хит такого же качества при таком
размере базы данных (0 - e-6 – хорошо, > 0.001
- 0.01 – плохо)
Как правило, BLAST недооценивает e-value!

46. 47. E-value, bit score

Bit
Score – мера статистической значимости
(вес – сумма стоимостей всех точечных замен)
выравнивания - меньше 50 – плохо)

48. Параметры выравнивания

Матрица:BLOSUM для локального выравнивания обычно лучше,
чем PAM
◦ Чем выше номер BLOSUM – тем строже выравнивание (BLOSUM80 вместо
BLOSUM45 – более короткие выравнивания)
◦ РАМ – чем ниже, тем строже
Штрафы за делеции:
◦ Чем больше штраф за внесение, тем короче выравнивания
◦ Меняете матрицу – надо менять и штраф
◦ Чем ниже номер BLOSUM (выше РАМ), тем меньше штраф за внесение
делеции
◦ Штраф за удлинение ~10 раз ниже, чем за внесение
Если сравниваете удаленных гомологов, то лучше всего
довольно высокий штраф за внесение делеции и низкий за
удлинение
Близкие гомологи – штрафы ближе друг к другу

49. Сообщение о параметрах

В конце файла текстовая информация об
использованный параметрах:
◦
◦
◦
◦
◦
◦
◦
Использованная матрица замен
Штрафы за внесение и продление делеции
Дата
Использованная БД
Размер БД
Количество полученных хитов
…

50. Выбор параметров

Меняйте параметры только, если по
умолчанию не работает (параметры по
умолчанию подобраны хорошо для
большинства ситуаций)
Для того, чтобы выбрать более
подходящие параметры надо очень
ТОЧНО сформулировать задачу

51. Какие параметры менять? Фильтрация

Low-complexity region – другой aa-состав
Фильтрация: если Ваш белок содержит
большой регион низкой сложности –
попробуйте использовать BLAST без
соответствующей фильтрации
Если Ваш белок содержит очень часто
встречающиеся домены, их тоже можно
отфильтровать – в ручную
ДНК – геном-специфичные повторы!

52. Параметры output-формата

Количество хитов
Выбор базы данных (организм)
Выбор порога - Expect (если хитов
мало, то можно смотреть на более
подозрительные)
Entrez query – ключевые слова
(например, “protease AND human”)

53. PSI - BLAST

Алгоритм:
◦ Несколько раундов поиска
◦ Первый раунд – просто blastp (BLOSUM62)
◦ Построение PSSM на основе полученных хитов
(можете выбрать те, что надо)
◦ Следующий раунд на основе этой PSSM
◦ Методов итераций, пока множество хитов не
перестанет меняться

54. PSSM

Portion of a PSSM from a PSI-BLAST search using RBP4 (NP_006735) as a query. The 199 amino
acid residues of the query are represented in rows; the 20 amino acids are in columns. Note that for
a given residue such as alanine the score can vary (compare A14, A15, and A16, which receive scores
of 3, 2, and 4). The tryptophan in position 40 is invariant in several hundred lipocalins. Compare the
score of W40, W3, or W5 (each receives ю12) with W13 (ю7); in the W3, W5, and W40 positions a
match is rewarded more highly, and the penalties for mismatches are substantially greater. A PSSM
such as this one allows PSI-BLAST to perform with far greater sensitivity than standard blastp
searches

55. PHI - BLAST

Query – белок + паттерн, которому этот белок
удовлетворяет
Пример:
>P28332|ADH6_HUMAN Alcohol dehydrogenase 6 - Homo sapiens
(Human)
MSTTGQVIRCKAAILWKPGAPFSIEEVEVAPPKAKEVRIKVVATGLCGTEMKVLGSKHLD
LLYPTILGHEGAGIVESIGEGVSTVKPGDKVITLFLPQCGECTSCLNSEGNFCIQFKQSK
TQLMSDGTSRFTCKGKSIYHFGNTSTFCEYTVIKEISVAKIDAVAPLEKVCLISCGFSTG
FGAAINTAKVTPGSTCAVFGLGGVGLSVVMGCKAAGAARIIGVDVNKEKFKKAQELGATE
CLNPQDLKKPIQEVLFDMTDAGIDFCFEAIGNLDVLAAALASCNESYGVCVVVGVLPASV
QLKISGQLFFSGRSLKGSVFGGWKSRQHIPKLVADYMAEKLNLDPLITHTLNLDKINEAV
ELMKTGKW
G - H - E - x - {EL} - G - {AP} - x(4) - [GA] - x(2) - [IVSAC]

56. НММ-профиль

Hidden Markov models describe
alignments based on the probability of
amino acids occurring in an aligned column.
This is conceptually related to the positionspecific scoring matrix used by PSI-BLAST.
(a) An alignment of five globins is shown.
The five proteins are a nonsymbiotic plant
hemoglobin from rice (Oryza sativa)
(1D8U), human neuroglobin (1OJ6A),
human beta globin (2hhbB), leghemoglobin
from the soybean Glycine max(1FSL), and
human myoglobin (2MM1). (b) The
probability of each residue occurring in
each aligned column of residues is
calculated. (c) From these probabilities, a
score is derived for any query such as
HARTV. Note that the actual score will also
account for gaps and other parameters.
Also note that this is a position-specific
scoring scheme; for example, there is a
different probability of the amino acid
residue lysine occurring in position 3
versus 4. (d) The probabilities associated
with each position of the alignment can be
displayed in boxes representing states.

57. Пример простого мотива

Алкогольдегидрогеназа 6
(человек)
68 - 82:
GHEgAGIvesiGegV
Алкогольдегидрогеназа
класса 3 (рис)
70 - 84:
GHEaAGIvesvGegV
Алкогольдегидрогеназа,
специфичная к пропанолу
(кишечная палочка)
57 - 71:
GHEgIGVvaevGpgV
Распознающее правило типа «паттерн»:
G - H - E - x - {EL} - G - {AP} - x(4) - [GA] - x(2) - [IVSAC]
Паттерн – регулярное выражение UNIX’a:
Например, выражение [AC]-x-V-x(4)-{ED} читается как
Ala или Cys- х-Val- х- х- х - х- (любой остаток, но не Glu и не Asp)

58.

Другие программы поиска по БД:
◦ FASTA (www.ebi.ac.uk/fasta33/)
◦ Ssearch (алгоритм Smith-Waterman)
(www.ch.embnet.org)
◦ BLAT (genome.ucsc.edu)

English Русский Rules