Similar presentations:
Источники данных и работа с ними
1.
Источники данныхи работа с ними
Дисциплина: Системная аналитика
Преподаватель: Карпов Егор Константинович
Воронцова Анна Викторовна
2.
Работас текстовыми файлами
3.
Проверка установки ПО1. В меню “Пуск” начните вводить Jupyter
2. Запустите её и проверьте браузер
3. Если не открылось окно, то сами перейдите на
адрес: http://localhost:8888/tree
4. Если Jupyter’а нет, качаем:
ссылка: https://disk.yandex.ru/d/Ag--V3Y2-X7iBQ
4.
Организационные вопросы-
-
-
Дополнительные баллы за отправку скриншотов по ассесменту
Если есть вопросы по ним – пишите Карпову Егору
Константиновичу в Яндекс-Мессенджер
Дисциплина реализуется в очной форме. Ходить на пары надо.
В конце дисциплины – проект, о нём узнаете ближе к 15 паре
Если у кого-то установлен Jupyter, то пусть создают сами пустой
файл Python 3 и открывают на lms курс Основы
программирования – он им понадобится*
5.
Работа с текстами- “Зачем нам работать с текстами?”
-
работаем с большими массивами информации: собираем, структурируем, изучаем и
интерпретируем ее, т.к. не всегда сведения хранятся в централизованном месте в строго
систематизированной форме, зачастую информацию собирают ее в самых неоднородных
источниках. Этот огромный, постоянно обновляющийся поток нужно видеть, обрабатывать и
превращать в материал для выводов и принятия решений
- Комментарии и текстовые блоки
- Где добавлять слова для удаления и как
повторно выполнить часть кода или весь код
6.
Работа с текстами7.
Работа с текстами• Открыли сохранили
• Считали с диска текста и
сохранили
• Посчитали символы=22986
8.
Работа с текстом• Вывели 300 первых
символов начинаем
1 обработку текста…
9.
Работа с текстом• Переводим в единый
регистр… все слова с
маленькой буквы
загрузить пунктуацию ,
чтобы потом удалить…
• Символы =обратное
деление с \n=удалить
служебные символы
• Можно не погружаться
в прогромирование , а
применить весь юблок
целиком
10.
Работа с текстом11.
Работа с текстом12.
Работа с текстом• Погружаем в
массив в =23п
убираем стоп
слова
• Применяется
=выделение
ключевых слов
из статей
• Как меняется
массив
13.
ЗаданияЗадание состоит из 3 задач, каждая из которых оценивается в 1 балл.
Максимум: 3 балла
1. Установите Jupyter и выполнить программу анализа текста (1 балл)
2. Выберите три статьи по одной научной тематике и выполните
программу анализа текста для них (1 балл)
3. По результатам анализа частоты употребления слов в текстах статей
удалите незначащие для данной научной тематики слова и составьте
список ключевых слов для всех трёх текстов (1 балл)
14.
Первичный анализданных в таблица
15.
Работа с таблицами- “Зачем нам работать с таблицами?”
- Новые команды и зачем они нужны
- Примеры ошибок
16.
Работа с таблицами17.
Типы ошибок в исходных данных- Пропуски
- Ошибки в типах данных – текст вместо числа
- Повторы – когда удаляем, когда оставляем
- Анализ уникальных значений столбца
18.
Работа с таблицамиЗагрузка файлов
• Указываем
название
переменной
внутри нашей
программы
• Pd
• прочесть excel
• Указываем
адрес нашего
файла
• Файл не
изменяем
19.
Работа с таблицами• Получаем информацию о нашей тб:
правильно ли загрузилась информация,
количество столбцов …
• 1 метод= голова-видим пустоты и текстовые
значения
• 2метод название столбцов= если их 500, то
при первом методе увидим первые и
последние, авместо середины будут ………
20.
Работа с таблицамиПри обработке информации, если
обнаружена ошибок на входе надо
сообщить
Типы информации
Объект=работать как с текстом
Числовые столбцы= математические
операции(можем найти среднее)
11 столбец д? числа ? Объекты?=надо
работать для предобработки –
выписываем как проблему
12 пропуски удалить, заменить на
значение( нельзя отсекать слишком
много данных, но чем заполнять
данные сделать предположение)
исходную тб не правим работаем внутри
прораммы (автоматизируем , а не в
ручную)
21.
Работа с таблицами Loc• 1 строка –
название, отсчет
элементов с
нулевого
• 8А-9строка
22.
Работа с таблицами Loc –наполнение команды• Вывели 2 столбца не
соседних=можем выделить
нужную либо итоговую
информацию
• Увидели не всю тб , а
начальную и конечную
информацию
23.
Работа с таблицами Loc –наполнение командыСтроки начиная с 9 до конца- строчки в которых дубликаты и мы
видим только их
Далее можно по определенному участку- 2:5
Команды печатаем
24.
Работа с таблицами• Можно
выводить
фрагменты тб
по условиям
• Значение
определенного
столбца для тех
струк у которых
в другом
столбце есть
конкретное
значение
• Далее метод
.count посчитать
25.
Оформление результата- Функция для анализа таблицы
- Вывод о наличии ошибки в строке или столбце
- Предложение метода исправления ошибки
- Функция исправления ошибки
26.
Задания с текстами и числами в таблицеЗадание состоит из 3 задач, каждая из которых оценивается в 1 балл.
Максимум: 3 балла
1. Загрузите в Jupyter демонстрационный файл и повторите команды
предварительной обработки данных, итоговую таблицу сохраните в
файл (1 балл)
2. Загрузите в Jupyter один из файлов, содержащих пропуски и ошибки в
данных. Найдите их и напишите в комментариях к блокам кода,
способы удаления/исправления этих ошибок/пропусков (1 балл)
3. Исправьте все ошибки и пропуски средствами Python, не изменяя
исходный файл, выведите информацию об итоговой таблице (1 балл)