こんにちは。管理人のピヨ猫でーす。
日本ディープラーニング協会(JDLA)が実施している機械学習の認定試験のG検定って何かすごいらしいねー。この前、機械学習のセミナーでG検定に合格したという方が講師していて、みんな「おっ!」てしていたよ。僕も機械学習の仕事に就きたいからG検定取りたいけど、機械学習って分野が広すぎて何をどう勉強して良いかわからないんだー。
日本ディープラーニング協会(JDLA)がG検定の推薦図書を出してくれているから、これに従って勉強すれば良いんだよ。すごく分かり易く書かれているから、今まで理解できないと思っていたこともすんなり理解できるようになるよ。これから詳しく勉強方法を説明するね。
1.日本ディープラーニング協会(JDLA)のG検定とは
日本ディープラーニング協会(JDLA)とは
日本ディープラーニング協会(JDLA)は、ディープラーニングを中心とする技術による日本の産業競争力の向上を目指し、2017年6月1日設立日された一般社団法人です。
詳しくは以下の記事を参照ください。
日本ディプラーニング協会のG検定とは?
G検定とは
G検定は日本ディープラーニング協会(JDLA)が実施している機械学習の検定試験です。
『ディープラーニングの基礎知識を有し、適切な活用方針を決定して事業応用する能力を持つ人材であることを測る検定』です。
2.G検定の勉強方法
日本ディープラーニング協会(JDLA)の推薦書籍
G検定の勉強方法は至ってシンプルです。
日本ディープラーニング協会(JDLA)が「G検定の問題はここから出す」と言っている、日本ディープラーニング協会(JDLA)が推薦する書籍があります。
日本ディープラーニング協会(JDLA)のG検定の問題はここからでる!!
![]() |
深層学習教科書 ディープラーニング G検定(ジェネラリスト) 公式テキスト (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ] 価格:3,024円 |
なので、基本的にはこの本を読んで書いてあることが分かればG検定に合格できます。
この本はG検定の合格目的でなくてもとても良い本です。
機械学習を始める上での入門書と言った感じで、とても分かり易く順序立てて機械学習を行う上で必要なことが書かれています。機械学習を始める方は絶対に読んだ方が良いでしょう。
G検定の勉強のコツ
理解度を深めるコツとしては、
本を読む → キーワードを抑える → キーワードを見て意味が分かる程度になるまで、また本を読む
を繰り返すのが良いと思います。人それぞれですので、これが必ずしも良いということはありませんので、自分に合った勉強法があれば、自分に合った方法で勉強するのが良いかと思います。どうすれば良いかわからないという方は、上記の方法を試してみて下さい。
本記事で『深層学習教科書 ディープラーニング G検定(ジェネラリスト) 公式テキスト』の第四章のキーワードを纏めましたので、良ければ利用して下さい。
第四章~機械学習の具体的手法~のキーワード
4-1. 代表的な手法
1.学習の種類
- 教師あり学習
- 教師なし学習
- 強化学習
教師あり学習
- 分類問題
- 回帰問題
教師なし学習
- 入力データを分類
2.代表的な手法(教師あり学習)
2.1 線形回帰(linear regression)
- データの分布に近い直線を求める
- 回帰問題に用いる手法
- ラッソ回帰(lasso regression)
- リッジ回帰(ridge regression)
- ラッソ回帰、リッジ回帰は線形回帰に正規化項を加えた手法
2.2 ロジスティク回帰(logistic regression)
- 分類問題に用いる手法
- 回帰という名称だが分類問題を解く手法
- 回帰曲線を用いて分類
◆シグモイド関数
- 任意の値を0~1の間に写像
- 正列(+1)、負列(0)
- 確率を求める
- 閾値は基本は0.5
- 問題に応じて閾値は変える
例.迷惑メール検知はフィルターし過ぎないように閾値下げる
二つに分類する
◆ソフトマックス関数
- たくさんの種類に分類
2.3 ランダムフォレスト(random forest)
- 決定木を用いる
- 特徴量ごとに決定木を作る
- 特徴量をランダムに選ぶ
- 全データからサンプルでデータを選ぶ
- ブーストラップサンプリング
- それぞれの結果を用いて多数決を取る
- アンサンブル学習
- バギング
2.4 ブースティング(boosting)
- 一部のデータを繰り返し用いて複数のモデルを学習する。
- AdaBoost
- 勾配ブースティング(gradient boosting)
- XgBoost
◆ バギング(2.3 ランダムフォレストの手法)
- 複数のデータを用いて複数のモデルを学習
- 並列処理
- 早い
- モデルは決定木
◆ブースティング
- 一部のデータを繰り返し用いて複数のモデルを学習
- 逐次処理
- 精度が良い
- 時間がかかる
- モデルは決定木
2.5 サポートベクターマシン(Support Vector Machine)
- SVM
- ディープラーニング前は最も人気
- 各データ点との距離が最大になる境界線を求めてパターン分類
- マージン最大化
- 扱うデータは高次元
- 線形回帰できないデータもある問題に対処が必要
- 高次元に写像
- カーネル関数
- カーネルトリック
2.6 ニューラルネットワーク(neural network)
- 人間の脳の構造
- ニューロン
- 神経回路
- 単純パーセプトロン(simple perceptron)
- 入力層
- 出力層
- 重み
- シグモイド関数
- ロジスティク回帰と数式上の表現は同じ
- 活性化関数
- 単純パーセプトロンは線形分類しか出来ない
- 更に層を追加する
- 多層パーセプトロン(multi-layer perceptron)
- 隠れ層
- 非線形分類も可能
- 誤差逆伝播法(backpropagation)
(ディープラーニング登場前は)ブースティング、SVNより精度が低い
3.代表的な手法(教師あり学習)
3.1 k-means
- 入力データの特徴を掴むもの
- クラスタ(cluster)(=グループ)
- クラスタ分析
- データをk個のグループに分ける→重心を求める→最も重心に近くなるようにデータを再グループ化の繰り返しを重心が変わらなくなるまで行う
3.2 主成分分析(Prinipal Component Analysis PCA)
- データの構造を分析
- 相関(データと特徴量の関係)を掴む
- 多数の特徴量から少数の特徴量に次元削減
- 主成分を見つける
- 次元削減すると学習時間が減る
補足
書籍に記載の無いことですが、この前出たセミナーで講師の方が教師なし学習はクラスタを見つけるために使用するもので、最終的には教師あり学習を使うとおっしゃってました。
4-2. 手法の評価
1 データの扱い
- 予測性能の評価
- 未知のデータに対しての予測能力を見る
- 手元のデータから擬似的に未知のデータを作り出す
- 訓練データ
- テストデータ
- 交差検証
- ホールドアウト検証
- 全体のデータを訓練データとテストデータに分割
- k-分割交差検証
データが少ない時に取る手法。同じデータに対し訓練データとテストデータの分割を複数回行う - 訓練データを分割
訓練データを訓練データと検証データに分割。訓練データで学習し検証データでテストしテストデータで最終検証
2.評価指標
- 何を評価するのかを明確にする
- 目的に沿った指標を選択する
- テストデータで評価
- 混同行列(confusion matrix)
- 真陽性、偽陽性、偽陰性、真陰性
- 訓練データで正解率が高くてもテストデータで正解であるが低いと意味がない
- オーバーフィッティング(overfitting)
- 正則化
重みの取りうる範囲を制御。訓練データに特化するのを防ぐ。 - アンダーフィッティング
◆指標
- 正解率= (真陽性の数+真陰性の数)/全データ
全データ中で予測が当たったものの割合。故障率などに使うと故障を見つけてなくても高くなることもあるので注意 - 適合率=真陽性の数/(真陽性の数+偽陽性の数)
予測が正の中で実際に正だった割合 - 再現率=真陽性の数/(真陽性の数+偽陰性の数)
実際に正で正と予測できた割合 - F値=(2×適合率×再現率)/(適合率+再現率)
適合率と再現率の調和平均
◆正則化
- L1正則化
一部のパラメタの値を0にすることで特徴選択する - L2正則化
パラメータの大きさに応じてゼロに近づけることで滑らかな汎化ができる
◆線形回帰
- ラッソ回帰
線形回帰にL1適用したもの
-リッジ回帰
線形回帰にL2適用したもの - Elastic Net
ラッソ回帰+リッジ回帰
第四章~機械学習の具体的手法~のポイントの復習
本章のポイントはAIにはまだまだ解決しないとならない課題があるということです。
どんな問題があるかキーワードと概要を押さえておきましょう。
ディープラーニングの手法で、教師あり学習、教師なし学習、強化学習の3つの違いは必ず把握しておいた方が良いです。ここの違いが分からないと機械学習について全く知らないと見られてしまうので。
また、ディープラーニング以前の機械学習方法も名前と概要は押さえて起きましょう。
教師あり学習
- 線形回帰
- ロジスティク回帰
- ランダムフォレスト
- ブースティング
- サポートベクターマシン
- ニューラルネットワーク
教師なし学習
- k-mean
- 主成分分析
また、評価指標の正解率、適合率、再現率、F値はディープラーニングを用いた分析で必ず使うのでしっかり把握しておいた方が良いです。
↓↓↓ 詳しくはこちら
第四章はこれで終了です。次章も頑張りましょー
(参考)日本ディープラーニング協会(JDLA)のその他の推薦図書
![]() |
◆◆AI白書 2019 / 情報処理推進機構AI白書編集委員会/編 / 角川アスキー総合研究所 価格:3,888円 |
![]() |
人工知能は人間を超えるか ディープラーニングの先にあるもの (角川EPUB選書) [ 松尾豊 ] 価格:1,512円 |