教師なし学習
この記事は英語版の対応するページを翻訳することにより充実させることができます。(2024年5月) 翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
機械学習および データマイニング |
---|
Category:データマイニング |
教師なし学習(きょうしなしがくしゅう, 英: Unsupervised Learning)とは、機械学習の手法の一つである。
既知の「問題」xiに対する「解答」yiを「教師」が教えてくれる手法である教師あり学習、と対比して「問題」xiに対する「出力すべきもの(正解=教師)」があらかじめ決まっていないという点で教師なし学習と呼ばれ、データの背後に存在する本質的な構造を抽出するために用いられる。
概要
[編集]教師なし学習は教師あり学習と違い、目的変数yに相当するものがそもそも存在しないか、あっても知る事ができない。未知の確率分布に従う変数が訓練データとしてアルゴリズムに与えられる。アルゴリズムが解くべきタスクは、確率分布やその重要な性質を何らかの形で学習し、の特性を直接推定する事である[1]。教師あり学習と違い、明確な「正解」yが存在しないので、教師なし学習では出力の妥当性を直接評価する評価尺度は存在せず[1]、妥当か否かの判断は主観的なものになり[1]、ヒューリスティックな議論が必要となる[1]。
教師なし学習の興味の一つは確率密度関数それ自身を推定する密度推定のタスクであり、カーネル密度推定など統計学で様々なノンパラメトリック密度推定の手法が知られている[1]。しかしxの次元が高い場合は次元の呪いが原因でこうした推定はうまくいかず[1]、それゆえ多くの教師なし学習では、の何らかのパラメトリックなモデルでを近似することを試みたり、訓練データからの何らかの重要な性質を抽出するといったアプローチが取られる。
具体的なタスクとして以下のようなものがある。
アルゴリズム
[編集]この節の加筆が望まれています。 |
自己教師あり学習
[編集]自己教師あり学習(英: self-supervised learning)は学習データのラベルを学習データに基づいて生成する学習手法である[2]。教師ラベルがないという点で教師なし学習の一種とみなせる[3]。
脚注
[編集]- ^ a b c d e f #ESL p559-561
- ^ "Obtain 'labels' from the data itself by using a “semiautomatic” process." Liu, et al. (2021). Self-supervised Learning: Generative or Contrastive. p.2.
- ^ "Self-supervised learning can be viewed as a branch of unsupervised learning since there is no manual label involved." Liu, et al. (2021). Self-supervised Learning: Generative or Contrastive. p.2.
参考文献
[編集]- Hastie, Trevor、Tibshirani, Robert、Friedman, Jerome『統計的学習の基礎 データマイニング・推論・予測』杉山将、井手剛、神嶌敏弘、栗田多喜夫、前田英作、井尻善久、岩田具治、金森敬文、兼村厚範、烏山昌幸、河原吉伸、木村昭悟、小西嘉典、酒井智弥、鈴木大慈、竹内一郎、玉木徹、出口大輔、冨岡亮太、波部斉、前田新一、持橋大地、山田誠 翻訳、共立出版、2014年6月25日。ISBN 978-4320123625。
- “The Elements of Statistical Learning: Data Mining, Inference, and Prediction.”. スタンフォード大学. 2020年11月10日閲覧。:上述の書籍の英語版公式サイト。無料pdfあり。