• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Глава в книге
VIA AI: Reliable Deep Reinforcement Learning for Traffic Signal Control

Герасёв М. С., Kiselev D., Beketov M. et al.

In bk.: 2024 IEEE International Conference on Data Mining (ICDM) Workshops (ICDMW). Curran Associates, 2024. P. 887-890.

Препринт
A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models

Kardanova E., Ivanova A., Tarasova K. et al.

Computation and Language (cs.CL); Artificial Intelligence (cs.AI). cs.CL. arXiv, 2024

Анализ данных на Python

2024/2025
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 4 модуль

Преподаватели

Программа дисциплины

Аннотация

Для образовательной программы дисциплина «Анализ данных на Python» является обязательной. Дисциплина подразделяется на три блока. Первый блок посвящен работе с основными структурами данных в Python, таких как списки, кортежи, словари и массивы. Второй блок посвящен обработке и визуализации данных с помощью библиотек NumpPy, Pandas, Matplotlib и Scipy. Третий блок посвящен решению прикладных задач в Python и включает темы, связанные со сбором и анализом данных: работа с API, обработка JSON и HTML, применение статистических критериев и построение моделей линейной и логистической регрессии.
Цель освоения дисциплины

Цель освоения дисциплины

  • Использовать средства отладки современных систем программирования; реализовать алгоритм на языке Python, используя наиболее подходящие конструкции и структуры данных.
  • Освоить базовые инструменты анализа и визуализации данных в Python
Планируемые результаты обучения

Планируемые результаты обучения

  • уметь применять методы на индексируемых структурах данных Python;
  • уметь выполнять операции на массивах NumPy
  • уметь вычислять и интерпретировать числовые характеристики выборки
  • уметь загружать и обрабатывать данные с помощью библиотеки pandas
  • уметь выполнять предварительную обработку текста и строить облака слов
  • уметь выполнять сериализацию и десериализацию JSON в Python
  • уметь выполнять парсинг HTML c помощью bs4, уметь выполнять поиск по тэгам и атрибутам
  • уметь строить и интерпретировать графики для визуализации качественных и количественных данных
  • уметь осуществлять проверку статистических гипотез о доли и среднем с помощью модуля stats и интерпретировать полученные результаты
  • уметь строить доверительные интервалы для доли и среднего с помощью модуля stats и интерпретировать полученные результаты
  • уметь выявлять связи в количественных данных с помощью библиотеки pandas и модуля stats
  • уметь реализовывать иерархический кластерный анализ в Python и интерпретировать полученные результаты
  • уметь строить модели линейной регрессии с помощью библиотеки statsmodels и интерпретировать полученные результаты
  • владеть навыками работы с базовыми структурами данных в Python
  • уметь создавать и обрабатывать массивы NumPy
  • уметь вычислять в Python описательные статистики и реализовывать статистические критерии для сравнения групп
  • уметь обрабатывать и преобразовывать датафреймы Pandas
  • уметь оценивать в Python модель линейной регрессии и интерпретировать результаты
  • уметь вычислять в Python коэффициент корреляции Пирсона и Спирмена, строить корреляционные матрицы
  • уметь оценивать в Python модель логистической регрессии и оценивать качество классификации
  • определять шкалы данных и выбирать подходящие для них способы визуализации, уметь строить различные виды графиков с помощью matplotlib и seaborn
  • уметь десериализовывать JSON в Python, уметь обрабатывать строки и файлы JSON с помощью pandas
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Индексируемые структуры данных
  • Массивы NumPy и операции на массивах
  • Неиндексируемые структуры данных
  • Описание данных и проверка статистических гипотез
  • Датафреймы Pandas и операции на датафреймах
  • Визуализация данных
  • Меры связи и линейная регрессия
  • Классификация и логистическая регрессия
Элементы контроля

Элементы контроля

  • неблокирующий Homework
    Мини-проекты, посвященные анализу и визуализации данных (библиотеки NumPy, Pandas, Scipy, Matplotlib), а также сбору и обработке данных (форматы JSON и HTML, подключение к API). Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%. Домашние задания, сданные позже, не принимаются и не оцениваются.
  • неблокирующий Activity
    Участие в квизах, опросах и групповых заданиях на семинарах
  • неблокирующий Test
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 4th module
    0.15 * Activity + 0.6 * Homework + 0.25 * Test
Список литературы

Список литературы

Рекомендуемая основная литература

  • McKinney, W. (2018). Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython (Vol. Second edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1605925
  • Груздев, А. В. Изучаем Pandas / А. В. Груздев, М. Хейдт , перевод с английского А. В. Груздева. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2019. — 700 с. — ISBN 978-5-97060-670-4. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131693 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Чарльз Уилан - Голая статистика - 9785001008231 - МИФ - 2016 - https://hse.miflib.ru/#/book/14957 - 14957

Авторы

  • Тамбовцева Алла Андреевна