5.43M
Category: informaticsinformatics

Источники данных и работа с ними

1.

Источники данных
и работа с ними
Дисциплина: Системная аналитика
Преподаватель: Карпов Егор Константинович

2.

Работа
с текстовыми файлами

3.

Проверка установки ПО
1. В меню “Пуск” начните вводить Jupyter
2. Запустите её и проверьте браузер
3. Если не открылось окно, то сами перейдите на
адрес: http://localhost:8888/tree
4. Если Jupyter’а нет, качаем:
ссылка: https://disk.yandex.ru/d/Ag--V3Y2-X7iBQ

4.

Работа с текстами
- “Зачем нам работать с текстами?”
- Комментарии и текстовые блоки
- Где добавлять слова для удаления и как
повторно выполнить часть кода или весь код

5.

Задания
Задание состоит из 3 задач, каждая из которых оценивается в 1 балл.
Максимум: 3 балла
1. Установите Jupyter и выполнить программу анализа текста (1 балл)
2. Выберите три статьи по одной научной тематике и выполните
программу анализа текста для них (1 балл)
3. По результатам анализа частоты употребления слов в текстах статей
удалите незначащие для данной научной тематики слова и составьте
список ключевых слов для всех трёх текстов (1 балл)

6.

Первичный анализ
данных в таблицах

7.

Работа с таблицами
- “Зачем нам работать с таблицами?”
- Новые команды и зачем они нужны
- Примеры ошибок

8.

Типы ошибок в исходных данных
- Пропуски
- Ошибки в типах данных – текст вместо числа
- Повторы – когда удаляем, когда оставляем
- Анализ уникальных значений столбца

9.

Оформление результата
- Функция для анализа таблицы
- Вывод о наличии ошибки в строке или столбце
- Предложение метода исправления ошибки
- Функция исправления ошибки

10.

Задания с текстами и числами в таблице
Задание состоит из 3 задач, каждая из которых оценивается в 1 балл.
Максимум: 3 балла
1. Загрузите в Jupyter демонстрационный файл и повторите команды
предварительной обработки данных, итоговую таблицу сохраните в
файл (1 балл)
2. Загрузите в Jupyter один из файлов, содержащих пропуски и ошибки в
данных. Найдите их и напишите в комментариях к блокам кода,
способы удаления/исправления этих ошибок/пропусков (1 балл)
3. Исправьте все ошибки и пропуски средствами Python, не изменяя
исходный файл, выведите информацию об итоговой таблице (1 балл)
English     Русский Rules