922.96K
Category: programmingprogramming

Основы Big DAta

1.

ОСНОВЫ BIG DATA
Семинар 1
Не база, а генштаб

2.

ПРЕДУСТАНОВКА
• Регаем гугл аккаунт
• Запускаем google colab
• Создаем новый ноутбук: File → New Notebook.
• Качаем файл economic_data_large.xlsx
• Закидываем в рабочую панель колаба

3.

УСТАНОВКА И ИМПОРТ
БИБЛИОТЕК
• import pandas as pd # Работа с таблицами
• import matplotlib.pyplot as plt # Графики
• import seaborn as sns # Красивые графики
• # Настройки для визуализации
• sns.set_style("whitegrid")
• plt.rcParams["figure.figsize"] = (10, 5)

4.

СЧИТЫВАЕМ ФАЙЛ
• # Указываем путь к загруженному файлу
• file_path = "/content/economic_data_large.xlsx"
• # Загружаем данные
• df = pd.read_excel(file_path)
• # Выводим первые строки
• df.head()

5.

ПРОВЕРКА СТРУКТУРЫ ДАННЫХ
• df.info()
• Выведется информация о столбцах:
• Типы данных (числовые, строковые).
• Количество строк и столбцов.
• Есть ли пропущенные значения.
• Готовим отчет

6.

ОПИСАТЕЛЬНАЯ СТАТИСТИКА
• df.describe()
• Покажет:
• Среднее (mean).
• Минимум, максимум (min, max).
• Дисперсию (std).
• Квартильные значения (25%, 50%, 75%).

7.

ВИЗУАЛИЗАЦИЯ ДАННЫХ
• Распределение ВВП по странам:
• plt.figure(figsize=(12, 6))
• sns.barplot(x="Country", y="GDP (Billion USD)", data=df.sort_values(by="GDP (Billion
USD)", ascending=False), palette="viridis")
• plt.xticks(rotation=90)
• plt.title("ВВП стран в миллиардах долларов")
• plt.xlabel("Страны")
• plt.ylabel("ВВП (млрд USD)")
• # Сохраняем график в файл
• plt.savefig("/content/gdp_plot.jpg", dpi=300, bbox_inches='tight')
• plt.show()

8.

СВЯЗЬ ИНФЛЯЦИИ И
БЕЗРАБОТИЦЫ
• plt.figure(figsize=(8, 5))
• sns.scatterplot(x="Inflation (%)", y="Unemployment Rate (%)", data=df,
hue="Country", palette="deep")
• plt.title("Связь инфляции и безработицы")
• plt.xlabel("Инфляция (%)")
• plt.ylabel("Уровень безработицы (%)")
• plt.show()
• отчет

9.

СОХРАНЕНИЕ
ОТСОРТИРОВАННЫХ ДАННЫХ
• df_sorted = df.sort_values(by="GDP (Billion USD)", ascending=False)
• # Сохраняем отсортированные данные
• df_sorted.to_excel("/content/sorted_economic_data.xlsx", index=False)

10.

ЗАДАНИЕ ТУТ
• Выполнить сортировку по уровню инфляции по возрастанию, сохранить
файл

11.

ДЗ
• Я пришлю файл, обработать его таким же образом, выполнить
сортировку по населению и визуализировать данные, проверить связь ввп
и населения, сделать отчет
English     Русский Rules