23.48M
Category: informaticsinformatics

Источники данных и работа с ними

1.

Источники данных
и работа с ними
Дисциплина: Системная аналитика
Преподаватель: Карпов Егор Константинович
Воронцова Анна Викторовна

2.

Работа
с текстовыми файлами

3.

Проверка установки ПО
1. В меню “Пуск” начните вводить Jupyter
2. Запустите её и проверьте браузер
3. Если не открылось окно, то сами перейдите на
адрес: http://localhost:8888/tree
4. Если Jupyter’а нет, качаем:
ссылка: https://disk.yandex.ru/d/Ag--V3Y2-X7iBQ

4.

Организационные вопросы
-
-
-
Дополнительные баллы за отправку скриншотов по ассесменту
Если есть вопросы по ним – пишите Карпову Егору
Константиновичу в Яндекс-Мессенджер
Дисциплина реализуется в очной форме. Ходить на пары надо.
В конце дисциплины – проект, о нём узнаете ближе к 15 паре
Если у кого-то установлен Jupyter, то пусть создают сами пустой
файл Python 3 и открывают на lms курс Основы
программирования – он им понадобится*

5.

Работа с текстами
- “Зачем нам работать с текстами?”
-
работаем с большими массивами информации: собираем, структурируем, изучаем и
интерпретируем ее, т.к. не всегда сведения хранятся в централизованном месте в строго
систематизированной форме, зачастую информацию собирают ее в самых неоднородных
источниках. Этот огромный, постоянно обновляющийся поток нужно видеть, обрабатывать и
превращать в материал для выводов и принятия решений
- Комментарии и текстовые блоки
- Где добавлять слова для удаления и как
повторно выполнить часть кода или весь код

6.

Работа с текстами

7.

Работа с текстами
• Открыли сохранили
• Считали с диска текста и
сохранили
• Посчитали символы=22986

8.

Работа с текстом
• Вывели 300 первых
символов начинаем
1 обработку текста…

9.

Работа с текстом
• Переводим в единый
регистр… все слова с
маленькой буквы
загрузить пунктуацию ,
чтобы потом удалить…
• Символы =обратное
деление с \n=удалить
служебные символы
• Можно не погружаться
в прогромирование , а
применить весь юблок
целиком

10.

Работа с текстом

11.

Работа с текстом

12.

Работа с текстом
• Погружаем в
массив в =23п
убираем стоп
слова
• Применяется
=выделение
ключевых слов
из статей
• Как меняется
массив

13.

Задания
Задание состоит из 3 задач, каждая из которых оценивается в 1 балл.
Максимум: 3 балла
1. Установите Jupyter и выполнить программу анализа текста (1 балл)
2. Выберите три статьи по одной научной тематике и выполните
программу анализа текста для них (1 балл)
3. По результатам анализа частоты употребления слов в текстах статей
удалите незначащие для данной научной тематики слова и составьте
список ключевых слов для всех трёх текстов (1 балл)

14.

Первичный анализ
данных в таблица

15.

Работа с таблицами
- “Зачем нам работать с таблицами?”
- Новые команды и зачем они нужны
- Примеры ошибок

16.

Работа с таблицами

17.

Типы ошибок в исходных данных
- Пропуски
- Ошибки в типах данных – текст вместо числа
- Повторы – когда удаляем, когда оставляем
- Анализ уникальных значений столбца

18.

Работа с таблицами
Загрузка файлов
• Указываем
название
переменной
внутри нашей
программы
• Pd
• прочесть excel
• Указываем
адрес нашего
файла
• Файл не
изменяем

19.

Работа с таблицами
• Получаем информацию о нашей тб:
правильно ли загрузилась информация,
количество столбцов …
• 1 метод= голова-видим пустоты и текстовые
значения
• 2метод название столбцов= если их 500, то
при первом методе увидим первые и
последние, авместо середины будут ………

20.

Работа с таблицами
При обработке информации, если
обнаружена ошибок на входе надо
сообщить
Типы информации
Объект=работать как с текстом
Числовые столбцы= математические
операции(можем найти среднее)
11 столбец д? числа ? Объекты?=надо
работать для предобработки –
выписываем как проблему
12 пропуски удалить, заменить на
значение( нельзя отсекать слишком
много данных, но чем заполнять
данные сделать предположение)
исходную тб не правим работаем внутри
прораммы (автоматизируем , а не в
ручную)

21.

Работа с таблицами Loc
• 1 строка –
название, отсчет
элементов с
нулевого
• 8А-9строка

22.

Работа с таблицами Loc –наполнение команды
• Вывели 2 столбца не
соседних=можем выделить
нужную либо итоговую
информацию
• Увидели не всю тб , а
начальную и конечную
информацию

23.

Работа с таблицами Loc –наполнение команды
Строки начиная с 9 до конца- строчки в которых дубликаты и мы
видим только их
Далее можно по определенному участку- 2:5
Команды печатаем

24.

Работа с таблицами
• Можно
выводить
фрагменты тб
по условиям
• Значение
определенного
столбца для тех
струк у которых
в другом
столбце есть
конкретное
значение
• Далее метод
.count посчитать

25.

Оформление результата
- Функция для анализа таблицы
- Вывод о наличии ошибки в строке или столбце
- Предложение метода исправления ошибки
- Функция исправления ошибки

26.

Задания с текстами и числами в таблице
Задание состоит из 3 задач, каждая из которых оценивается в 1 балл.
Максимум: 3 балла
1. Загрузите в Jupyter демонстрационный файл и повторите команды
предварительной обработки данных, итоговую таблицу сохраните в
файл (1 балл)
2. Загрузите в Jupyter один из файлов, содержащих пропуски и ошибки в
данных. Найдите их и напишите в комментариях к блокам кода,
способы удаления/исправления этих ошибок/пропусков (1 балл)
3. Исправьте все ошибки и пропуски средствами Python, не изменяя
исходный файл, выведите информацию об итоговой таблице (1 балл)
English     Русский Rules