[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Всем привет! Тема сегодняшней лекции — классификация. И в этом уровне мы будем говорить только про классификации, и сегодня мы рассмотрим некоторые основные моменты классификации. Во-первых, поговорим сначала о самой задаче, то есть что требуется. Итого, у нас есть некоторые объекты, которые описаны рядом признаков. И мы знаем принадлежность этих объектов к некоторым классам. И наша задача построить такую функцию либо разделяющую поверхность прямую, которая бы позволила эти объекты разделить на эти классы, и любой произвольный объект, который будет появляться у нас, также понять, к какому классу он относится. Здесь нам требуется обучающая выборка, и это задача отличается от задачи, допустим, кластерного анализа, когда, как вы помните, тоже делили как-то объекты на классы, в том, что мы это делаем как-бы для будущего. То есть в кластерном анализе мы просто смотрели на данные и надеялись, что как-то они разделены, и как-то их делили, говорили, что это кластер один, кластер два, как-то описывали данные, то здесь мы уже знаем, сколько у нас классов, и пытаемся как раз придумать некоторую функцию, которая бы разделяла уже будущие объекты. Например, если рассмотрим двумерное пространство объектов, наша цель здесь — построить некоторую прямую, разделяющую наши классы. Соответственно, когда приходит новый какой-то объект, если он попадает левее, то это один класс, если правее, то это другой класс, то есть мы его классифицируем. Вообще, задачи классификации можно разделить в зависимости от типов классов по количеству классов. То есть если у нас два класса, то это называется двухклассовая классификация, это наиболее простой случай в техническом плане. Однако, он может служить основой для решения более сложных задач, и, на самом деле, он очень широко распространён. Также существует многоклассовая классификация, это уже более сложные модели здесь. И здесь, конечно, потребуются значительные усилия, чтобы построить классификатор такого вида. Кроме того, можно разделять классификацию в зависимости от того, как классы пересекаются. То есть существуют непересекающиеся классы, существуют пересекающиеся классы, когда объект может относиться одновременно к нескольким классам. И также существуют нечёткие классы, где требуется определить степень принадлежности объекта к каждому из классов. И обычно это некоторое число от нуля до единицы. В рамках данного модуля мы будем говорить только про двухклассовую классификацию и про непересекающиеся классы. Несмотря на то, что это кажется довольно простым, это часто является основой для более сложных задач и часто этого даже хватает для решения очень сложных задач. Формально постановка задачи выглядит следующим образом: у нас есть X большое — это множество всех объектов, Y — это конечное множество классов. И предполагается, что есть некоторое отображение У, которое ставит в соответствие множество объектов, множество классов, значение которых известно только по обучающей выборке. То есть есть некоторая выборка Xm, где мы имеем вполне конкретные объекты, и знаем, к какому классу он принадлежит, при этом каждый объект описывается рядом признаков. При этом, признаки можете даже придумывать сами, то есть признаки — это некоторые характеристики объекты. Так, если у нас есть, пришёл какой-то человек, он является нашим объектом для классификации, мы можем всё, что мы сможем из него получить, любые измерения, там рост, вес, возраст, семейное положение даже, всё, что сможем, — это будет являться его признаком. То есть некоторый способ описать объект. И нам требуется построить такой алгоритм a, который бы как раз отображал из множества X в Y и был способен классифицировать произвольный объект из множества X. Если рассмотреть вероятностную постановку, то она является более общей, также предполагается, что множество P — объект классов XY, и XY является вероятностным пространством с неизвестной вероятностной мерой. Также существует некоторая обучающая выборка, сгенерированная согласно опять же некоторой этой вероятностной мере, и тоже необходимо построить алгоритм a, который бы позволял классифицировать произвольный объект из множества X. Самые популярные методы, я думаю многие слышали о них, это Байесовский классификатор, это логит-, прогит-модель, логистическая регрессия, деревья решений, я думаю, тоже многие слышали, и нейронные сети, которые сейчас почему-то набирают очень большую популярность. Например, посмотрим некоторые задачи. Я думаю, все, к сожалению, сталкивались с такой задачей, как эта. Медицинская классификация, то есть когда вы приходит к врачу, вы являетесь фактически объектом и вас необходимо классифицировать. То есть, во-первых, необходимо сказать, больной или здоровый. Здесь мы имеем простую классификацию с двумя классами. И даже если вы больной, то здесь уже более сложная классификация, то есть у нас есть классы, это болезни, и необходимо отнести человека к какой-то из болезней. Снимаются различные признаки, то есть в этом случае будет являться там давление, пульс, температура, всё, что угодно. И при этом также это задача пересекающихся классов, потому что человек, к сожалению, может болеть несколькими болезнями одновременно, поэтому, получается, каждый врач постоянно решает задачи классификации, может быть, даже не зная об этом. Кроме того, очень популярная задача сейчас это кредитоспособность заёмщика. То есть люди приходят куда-то и просят денег, им могут их либо дать, либо не дать. То есть почему их могут не дать? Так же смотрят, куда человек попадёт, вероятность, в класс, где люди возвращают деньги, либо в класс, где люди деньги не возвращают. Соответственно, опять же опрашивают человека о доходах, какую-то кредитную историю смотрят и выносят вердикт. То есть куда он относится: вернёт деньги — дадут деньги, не вернёт — не дают деньги, ну и так далее. Кроме того, задачи распознавания речи, образов, тоже всё относится к классификации, и кроме того, к классификации относится даже задача поиска аномалий, о которых мы уже говорили. Потому что там мы фактически пытались взять и разделить все наши данные на нормальные и на аномальные, то есть здесь у нас было также два класса. Дальше, конечно, можно уже и аномалии делить там на выбросы, на какие-то интервенции, и так далее. Таким образом, как видите, очень много задач связано с классификацией. Хорошо бы хоть немного знать о классификации. И в следующий раз мы уже будем говорить о конкретных методах классификаций.