分類とクラスタリングの区別

Hello,everyone, はくです。

データマイニングの初心者です。 データマイニングの知識不足で痛感があったため、データマイニングの学習をはじめました。

始まったばかりで、まだ体系的ご紹介できませんが、気になった点をメモ程度で共有します。

今回は分類とクラスタリングの区別を話します。

■Classification 分類

Wikiの解説によると、分類は複数の事物や現象を、何らかの基準に従って区分することによって体系づけること。そうして作られたグループをカテゴリという。

ポイントは「何らかの基準」です。

分類は必ず基準があります、基準は事前に決める必要があって、その基準でカテゴリを作ります。作ったカテゴリ数は基本変わらず、分析時に、各データはどのカテゴリに所属するかを判別します。

■Clustering クラスタリング

Google先生に聞くと、クラスタリングは、簡単にいうとデータなどの集合体を、機能やカテゴリごとに分けて集めることです。

分類と似ているよね。なかなか区別できなかったが、ポイントはカテゴリです。

分類は事前にカテコりを決めて、数は固定です。

クラスタリングはデータの特徴に従い、カテゴリを自動定義します。数は固定ではありません。

例で話すと、

1)銀行はAさんに対して、ローン審査を行って、許可するかどうかの場合、分類です。

→極論言えば、答えは「返済できる人」と「返済できない人」カテゴリしかないため

2)銀行は顧客価値を向上したく、顧客に相応しい金融商品を開発したい時、クラスタリング。

→どんな顧客群があって、その特徴はなんですかは不明のため。

以上。