About this Course
4.6
1,671 ratings
324 reviews
Не так давно получил распространение термин «большие данные», обозначивший новую прикладную область — поиск способов автоматического быстрого анализа огромных объёмов разнородной информации. Наука о больших данных ещё только оформляется, но уже сейчас она очень востребована — и в будущем будет востребована только больше. С её помощью можно решать невероятные задачи: оценивать состояние печени по кардиограмме, предсказывать зарплату по описанию вакансии, предлагать пользователю музыку на основании его анкеты в интернете. Большими данными может оказаться что угодно: результаты научных экспериментов, логи банковских транзакций, метеорологические наблюдения, профили в социальных сетях — словом, всё, что может быть полезно проанализировать. Самым перспективным подходом к анализу больших данных считается применение машинного обучения — набора методов, благодаря которым компьютер может находить в массивах изначально неизвестные взаимосвязи и закономерности. На факультете компьютерных наук ВШЭ и в Школе анализа данных есть люди, активно использующие машинное обучение и разрабатывающие новые подходы к нему. Именно они — преподаватели этого курса. Вы изучите основные типы задач, решаемых с помощью машинного обучения — в основном речь пойдёт о классификации, регрессии и кластеризации. Узнаете об основных методах машинного обучения и их особенностях, научитесь оценивать качество моделей — и решать, подходит ли модель для решения конкретной задачи. Наконец, познакомитесь с современными библиотеками, в которых реализованы обсуждаемые модели и методы оценки их качества. Для работы мы будем использовать реальные данные из реальных задач. Краткая программа курса: Неделя 1. Введение. Примеры задач. Логические методы: решающие деревья и решающие леса. Неделя 2. Метрические методы классификации. Линейные методы, стохастический градиент. Неделя 3. Метод опорных векторов (SVM). Логистическая регрессия. Метрики качества классификации. Неделя 4. Линейная регрессия. Понижение размерности, метод главных компонент. Неделя 5. Композиции алгоритмов, градиентный бустинг. Нейронные сети. Неделя 6. Кластеризация и визуализация. Частичное обучение. Неделя 7. Прикладные задачи анализа данных: постановки и методы решения. Слушателю нужно знать об основных понятиях математики: функциях, производных, векторах, матрицах. Для выполнения практических заданий потребуются базовые навыки программирования. Очень желательно знать Python. Задания рассчитаны на использование этого языка и его библиотек numpy, pandas и scikit-learn. Чтобы успешно завершить курс, нужно набрать проходную сумму баллов за тесты и практические задания, а также выполнить финальный проект, посвящённый решению прикладной задачи анализа данных. Мы уверены, что этот курс будет полезен каждому, кто хочет постичь искусство предсказательного моделирования и освоить интеллектуальный анализ данных....
Globe

100% online courses

Start instantly and learn at your own schedule.
Calendar

Flexible deadlines

Reset deadlines in accordance to your schedule.
Clock

Approx. 34 hours to complete

Suggested: 7 недель исследования, 3-5 часов / неделю...
Comment Dots

Russian

Subtitles: Russian...

Skills you will gain

Python ProgrammingMachine Learning (ML) AlgorithmsMachine LearningPandas
Globe

100% online courses

Start instantly and learn at your own schedule.
Calendar

Flexible deadlines

Reset deadlines in accordance to your schedule.
Clock

Approx. 34 hours to complete

Suggested: 7 недель исследования, 3-5 часов / неделю...
Comment Dots

Russian

Subtitles: Russian...

Syllabus - What you will learn from this course

Week
1
Clock
5 hours to complete

Знакомство с анализом данных и машинным обучением

Добро пожаловать! В первом модуле курса мы расскажем о задачах, которые решает машинное обучение, определим базовый набор понятий и введем необходимые обозначения. Также мы расскажем про основные библиотеки языка Python для работы с данными (NumPy, Pandas, Scikit-Learn), которые понадобятся для выполнения практических заданий на протяжении всего курса....
Reading
5 videos (Total 57 min), 4 readings, 2 quizzes
Video5 videos
Формальная постановка задачи машинного обучения14m
Примеры применения машинного обучения — 110m
Примеры применения машинного обучения — 213m
Проблема переобучения. Методология решения задач машинного обучения.15m
Reading4 readings
Приветствие и вводная информация10m
FAQ10m
Python для анализа данных10m
Работа с векторами и матрицами в NumPy10m
Quiz1 practice exercise
Основные понятия машинного обучения8m
Clock
4 hours to complete

Логические методы классификации

Логические методы делают классификацию объектов на основе простых правил, благодаря чему являются интерпретируемыми и легкими в реализации. При объединении в композицию логические модели позволяют решать многие задачи с высоким качеством. В этом модуле мы изучим основной класс логических алгоритмов — решающие деревья. Также мы поговорим про объединение деревьев в композицию, называемую случайным лесом....
Reading
4 videos (Total 35 min), 2 quizzes
Video4 videos
Алгоритм построения решающего дерева6m
Обработка пропусков. Достоинства и недостатки решающих деревьев.8m
Способы устранения недостатков решающих деревьев12m
Quiz1 practice exercise
Решающие деревья4m
Week
2
Clock
7 hours to complete

Метрические методы классификации

Метрические методы проводят классификацию на основе сходства, благодаря чему могут работать на данных со сложной структурой — главное, чтобы между объектами можно было измерить расстояние. Мы изучим метод k ближайших соседей, а также способ его обобщения на задачи регрессии с помощью ядерного сглаживания....
Reading
4 videos (Total 34 min), 3 quizzes
Video4 videos
Метод окна Парзена8m
Метрические методы классификации в задаче восстановления регрессии9m
Обнаружение выбросов6m
Quiz1 practice exercise
Метрические методы4m
Clock
4 hours to complete

Линейные методы классификации

Линейные модели — один из наиболее изученных классов алгоритмов в машинном обучении. Они легко масштабируются и широко применяются для работы с большими данными. В этом модуле мы изучим метод стохастического градиента для настойки линейных классификаторов, познакомимся с регуляризацией и обсудим некоторые тонкости работы с линейными методами....
Reading
5 videos (Total 31 min), 2 quizzes
Video5 videos
Градиентные методы численной минимизации и алгоритм SG5m
Алгоритм SAG3m
Метод стохастического градиента. Достоинства и недостатки.10m
Проблема переобучения5m
Quiz1 practice exercise
Линейные методы и градиентный спуск6m
Week
3
Clock
10 hours to complete

Метод опорных векторов и логистическая регрессия

Линейные методы имеют несколько очень важных подвидов, о которых пойдет речь в этом модуле. Метод опорных векторов максимизирует отступы объектов, что тесно связано с минимизацией вероятности переобучения. При этом он позволяет очень легко перейти к построению нелинейной разделяющей поверхности благодаря ядровому переходу. Логистическая регрессия позволяет оценивать вероятности принадлежености классам, что оказывается полезным во многих прикладных задачах....
Reading
5 videos (Total 38 min), 5 quizzes
Video5 videos
Метод опорных векторов. Обобщение для нелинейного случая8m
Логистическая регрессия6m
Пример применения логистической регрессии5m
Регуляризованная логистическая регрессия2m
Quiz2 practice exercises
Особенности метода опорных векторов6m
Логистическая регрессия4m
Clock
4 hours to complete

Метрики качества классификации

В машинном обучении существует большое количество метрик качества, каждая из которых имеет свою прикладную интерпретацию и направлена на измерение конкретного свойства решения. В этом модуле мы обсудим, какие бывают метрики качества бинарной и многоклассовой классификации, а также рассмотрим способы сведения многоклассовых задач к двухклассовым....
Reading
3 videos (Total 31 min), 2 quizzes
Video3 videos
Метрики качества классификации — 212m
Многоклассовая классификация7m
Quiz1 practice exercise
Метрики качества классификации6m
Week
4
Clock
3 hours to complete

Линейная регрессия

В этом модуле мы изучим линейные модели для регрессии и обсудим их связь с сингулярным разложением матрицы "объекты-признаки"....
Reading
3 videos (Total 23 min), 1 quiz
Clock
3 hours to complete

Понижение размерности и метод главных компонент

В прикладных задачах часто возникает потребность в уменьшении количества признаков — например, для ускорения работы моделей. В этом модуле мы обсудим подходы к отбору признаков, а также изучим метод главных компонент, один из самых популярных методов понижения размерности....
Reading
1 video (Total 14 min), 1 quiz

Instructors

Константин Вячеславович Воронцов

Профессор
Факультет компьютерных наук НИУ ВШЭ, Школа анализа данных Яндекса

Evgeny Sokolov

Senior Lecturer
HSE Faculty of Computer Science

About National Research University Higher School of Economics

National Research University - Higher School of Economics (HSE) is one of the top research universities in Russia. Established in 1992 to promote new research and teaching in economics and related disciplines, it now offers programs at all levels of university education across an extraordinary range of fields of study including business, sociology, cultural studies, philosophy, political science, international relations, law, Asian studies, media and communications, IT, mathematics, engineering, and more. Learn more on www.hse.ru...

About Yandex School of Data Analysis

В Школе анализа данных в течение двух лет студенты осваивают машинное обучение, компьютерное зрение, анализ текстов на естественном языке и другие направления современных компьютерных наук. Эти предметы обычно не входят в университетские программы, но при этом пользуются огромным спросом в отраслях, где уже применяются наукоёмкие информационные технологии. Некоторые выпускники Школы попадают на стажировку в Яндекс, где применяют только что полученные знания....

Frequently Asked Questions

  • Once you enroll for a Certificate, you’ll have access to all videos, quizzes, and programming assignments (if applicable). Peer review assignments can only be submitted and reviewed once your session has begun. If you choose to explore the course without purchasing, you may not be able to access certain assignments.

  • When you purchase a Certificate you get access to all course materials, including graded assignments. Upon completing the course, your electronic Certificate will be added to your Accomplishments page - from there, you can print your Certificate or add it to your LinkedIn profile. If you only want to read and view the course content, you can audit the course for free.

More questions? Visit the Learner Help Center.