Similar presentations:
Предсказание магнитных свойств наночастиц для биомедицинских применений. Сбор данных
1.
Предсказание магнитныхсвойств наночастиц для
биомедицинских применений
Сбор данных
2.
Работа с данными в ML проектахПод сбором данных понимается непосредственно сбор данных из самых разных источников,
первичная обработка и анализ целевых показателей
Нужно четко понимать задачу, которую нам надо решить
Это помогает выбрать данные, которые необходимо собрать
Качество данных напрямую влияет на эффективность моделей МО
2
3.
Способы сбора данныхКак мы можем собирать данные?
- Публичные базы данных (PubChem, ChEMBL, ZINC, Protein Data Bank,
Crystallography Open Database) – пожалуй, лучший из имеющихся источников
- Лабораторный журнал – долго оцифровывать бумажки
- Инструментальные данные – редко когда сырые данные пригодны для
использования
- Опубликованные статьи – успешные кейсы
- Неопубликованные данные – неуспешные кейсы
- -Компьютерное моделирование (пример – методы Монте-Карло)
Основная проблема состоит в том, что данных огромное количество, однако систематизированных данных
меньше в разы
Поэтому публичные базы данных непригодны для определенных классов проблем (как например,
наночастицы