• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Основы анализа данных в Python

2023/2024
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс обязательный
Когда читается:
3-й курс, 1, 2 модуль

Преподаватель

Программа дисциплины

Аннотация

Дисциплина нацелена на развитие навыков обработки количественных данных в Python без углубления в математические основы и статистическую теорию. Элементы статистической теории в этом курсе используются, однако акцент делается на процедурах подготовки данных к анализу (чистка данных, фильтрация, группировка, агрегирование, элементы визуализации), а также использовании и интерпретации коэффициентов корреляции и регрессии (линейной и логистической) - наиболее широко применяемых инструментах анализа данных в социальных науках.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение базовых инструментов анализа данных в Python. Подготовка к независимому экзамену по анализу данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • определять шкалы данных и выбирать подходящие для них способы визуализации и анализа
  • уметь вычислять описательные статистики в Python и интерпретировать их
  • уметь интерпретировать различные виды графиков
  • уметь строить доверительный интервал для доли и для среднего в Python и интерпретировать полученные интервалы
  • уметь интерпретировать статистические выдачи из Python
  • уметь проверять гипотезы о равенстве доли числу, о равенстве среднего числу и о равенстве средних средствами Python
  • уметь вычислять в Python коэффициент корреляции Пирсона и проверять его статистическую значимость
  • уметь реализовывать в Python проверку независимости признаков в качественной шкале с помощью критерия хи-квадрат Пирсона
  • уметь реализовывать в Python метод k-ближайших соседей
  • уметь оценивать в Python модель линейной регрессии и интерпретировать полученные результаты
  • уметь оценивать в Python модель логистической регрессии и интерпретировать полученные результаты
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в выборочные обследования
  • Описание данных
  • Визуализация данных
  • Выборочное оценивание
  • Проверка статистических гипотез
  • Меры связи
  • Введение в машинное обучение
  • Примеры прогнозирования в машинном обучении: линейная регрессия
  • Примеры классификации в машинном обучении: логистическая регрессия
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Набор заданий по обработке и анализу данных в Python (сдается в виде ipynb-файлов с кодом и текстом).
  • неблокирующий Тест
    Письменный тест с заданиями в формате независимого экзамена по анализу данных по пройденным темам (вопросы с выбором ответа, вопросы на поиск соответствий, вопросы с кратким ответом). Во время выполнения теста нельзя пользоваться никакими материалами.
  • неблокирующий Контрольная работа
    Письменная работа на 80 минут в формате независимого экзамена по пройденным темам. Включает две части: тестовая (задания на бумаге без использования компьютера) и практическая (задания на обработку и анализ данных в Python).
  • неблокирующий Экзамен
    Письменный экзамен в формате независимого экзамена по анализу данных (офлайн). Продолжительность экзамена 150 минут.
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 2 модуль
    0.28 * Домашнее задание + 0.21 * Контрольная работа + 0.21 * Тест + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • AP Statistics : most up-to-date review and practice tests currently available, Sternstein, M., 2017
  • Введение в статистическое обучение с примерами на языке R, Джеймс, Г., 2016
  • Теория вероятностей и математическая статистика для социологов и менеджеров : учебник для вузов, Пашкевич, А. В., 2020

Рекомендуемая дополнительная литература

  • Голая статистика : самая интересная книга о самой скучной науке, Уилан, Ч., 2016