Similar presentations:
Основы Big DAta
1.
ОСНОВЫ BIG DATAСеминар 1
Не база, а генштаб
2.
ПРЕДУСТАНОВКА• Регаем гугл аккаунт
• Запускаем google colab
• Создаем новый ноутбук: File → New Notebook.
• Качаем файл economic_data_large.xlsx
• Закидываем в рабочую панель колаба
3.
УСТАНОВКА И ИМПОРТБИБЛИОТЕК
• import pandas as pd # Работа с таблицами
• import matplotlib.pyplot as plt # Графики
• import seaborn as sns # Красивые графики
• # Настройки для визуализации
• sns.set_style("whitegrid")
• plt.rcParams["figure.figsize"] = (10, 5)
4.
СЧИТЫВАЕМ ФАЙЛ• # Указываем путь к загруженному файлу
• file_path = "/content/economic_data_large.xlsx"
• # Загружаем данные
• df = pd.read_excel(file_path)
• # Выводим первые строки
• df.head()
5.
ПРОВЕРКА СТРУКТУРЫ ДАННЫХ• df.info()
• Выведется информация о столбцах:
• Типы данных (числовые, строковые).
• Количество строк и столбцов.
• Есть ли пропущенные значения.
• Готовим отчет
6.
ОПИСАТЕЛЬНАЯ СТАТИСТИКА• df.describe()
• Покажет:
• Среднее (mean).
• Минимум, максимум (min, max).
• Дисперсию (std).
• Квартильные значения (25%, 50%, 75%).
7.
ВИЗУАЛИЗАЦИЯ ДАННЫХ• Распределение ВВП по странам:
• plt.figure(figsize=(12, 6))
• sns.barplot(x="Country", y="GDP (Billion USD)", data=df.sort_values(by="GDP (Billion
USD)", ascending=False), palette="viridis")
• plt.xticks(rotation=90)
• plt.title("ВВП стран в миллиардах долларов")
• plt.xlabel("Страны")
• plt.ylabel("ВВП (млрд USD)")
• # Сохраняем график в файл
• plt.savefig("/content/gdp_plot.jpg", dpi=300, bbox_inches='tight')
• plt.show()
8.
СВЯЗЬ ИНФЛЯЦИИ ИБЕЗРАБОТИЦЫ
• plt.figure(figsize=(8, 5))
• sns.scatterplot(x="Inflation (%)", y="Unemployment Rate (%)", data=df,
hue="Country", palette="deep")
• plt.title("Связь инфляции и безработицы")
• plt.xlabel("Инфляция (%)")
• plt.ylabel("Уровень безработицы (%)")
• plt.show()
• отчет
9.
СОХРАНЕНИЕОТСОРТИРОВАННЫХ ДАННЫХ
• df_sorted = df.sort_values(by="GDP (Billion USD)", ascending=False)
• # Сохраняем отсортированные данные
• df_sorted.to_excel("/content/sorted_economic_data.xlsx", index=False)
10.
ЗАДАНИЕ ТУТ• Выполнить сортировку по уровню инфляции по возрастанию, сохранить
файл
11.
ДЗ• Я пришлю файл, обработать его таким же образом, выполнить
сортировку по населению и визуализировать данные, проверить связь ввп
и населения, сделать отчет
programming