G検定試験対策①（随時更新）

G検定の試験対策として出題されそうな用語や意味などをまとめたものです。現在は筆者が試験対策として情報をまとめていますが、今後受験される方に役立てるよう随時修正する予定です。

ニューラルネットワーク

ニューラルネットワーク

過学習に対する改善方法

過学習とは訓練データに対しては良い性能を出せるものの、訓練データに対し特化しすぎているために未知データに対しては性能が悪くなってしまう問題のことを指す。

バッチ正規化

一部の層の出力を正規化する。入力データを制限することにより、学習毎の入力データ差異を小さくするのが目的。入力データを標準正規分布に変換した後、アフィン変換を行う。

標準正規分布

正規分布のうち、平均が０、分散が１であるものを標準正規分布という。正規分布はガウス分布とも呼ばれる。

アフィン変換(アフィン写像)

一次変換に平行移動を加えたもの。y=ax+b

アフィン変換の例は以下

平行移動
拡大縮小
回転
せん断

ドロップアウト

学習時に一部ノードを無効化する。特定のノードを常に無効とするのではなく、更新毎に別のノードを無効化し学習を行う。ノードを少なくすることで汎化性能を向上させることが狙い。隠れ層を5割程度無効にすると良い。アンサンブル学習の近似。

アンサンブル学習

複数モデルの結果の組み合わせて使用することで汎化性能を上げる手法。

データ拡張

十分な学習データがない場合に、元データセットから別のデータを作り出し、データ量を拡張させる。学習データが画像であれば、反転、回転、一部背景を置き換える等。

L2正則化(リッジ回帰)

リッジ回帰ともいう。損失関数に特定の項(ペナルティ項)を足す手法のことを「正則化」と言い、重みの大きな値に対しペナルティを課すことで、重みを小さい値に保つ。「L2」は移動距離を意味する「ノルム」の種類を表す。

L1正則化(ラッソ回帰)というものもあるが、過学習の抑制にはL2正則化が好まれる。L1正則化は主に次元圧縮(スパース)に用いられる。（学習に不要な次元を削除する。）

関連して、Elastic Netというものもあり、L1正則化とL2正則化の中間に相当する。

リッジ回帰(1970年)→ラッソ回帰(1996年)→Elastic Net(2005年)

バッチ学習(最急降下法)

入力する学習データを全て用いて学習を行う手法。学習データの数を「バッチサイズ」と呼ぶ。複数の学習データで重みを更新するため計算時間が短縮でき、偏ったデータの影響を軽減できる。大きな重みの更新がされにくくなるため、一部のデータに最適化されてしまう可能性がある。

オンライン学習(確率的勾配降下法)

一つ一つの学習データで重みを更新する手法。学習データ数は全数またはランダム。計算時間がかかるが一部のデータに最適化される局所解の可能性を軽減できる。

ミニバッチ学習

バッチ学習とオンライン学習の中間的な手法で、学習データを分割し、グループごとに重みを更新する手法。

最適解を見つける

学習率

重みを最適化するにあたり、どの程度の精度で学習を行うかを決めるハイパーパラメータ。

学習率が小さい場合

学習率が小さいと試行回数が増え、収束にかかる時間も増える。また、局所的最適解から抜け出せなくなることがある。大域的最適解に向かって収束した場合にはより最適解に近いパラメータとなり、コスト関数も小さな値となる。

学習率が大きい場合

学習率が大きいと試行回数が減り、収束にかかる時間も減る。また、コスト関数は大きな値となる。

学習率の決め方

初期学習率の決め方として使用される手法にLR range testがある。特定の幅で学習率を少しずつ増加させ、AccuracyやLossを観察する。

ディープニューラルネットワーク(DNN)

隠れ層が複数存在するニューラルネットワークのこと。勾配消失問題を克服する手法が提案されたことが一因で普及した。

勾配消失問題

誤差逆伝播法(バックプロパゲーションともいう)の際、入力層へ近づくにつれ損失関数のパラメータ勾配が急速にゼロに近づいてしまい、学習が収束しなくなる問題。勾配消失問題を防ぐには、事前学習にてより良い重みの初期値を計算させておく方法や、活性化関数として正規化線形関数(ReLU関数)を使用すると良い。

ReLU関数

ReLUはRectifier Liner Unitの意。0を起点と、0以下なら0を、0より大きければ入力値と同じ値を返す活性化関数。

勾配爆発問題

勾配消失問題とは逆の、入力層へ近づくにつれ誤差が大きくなり、学習が収束しない問題。

大規模なディープニューラルネットワーク

大規模なDNNの学習では学習対象となるパラメータ数が非常に多くなる。Googleは深層分散学習のフレームワークであり分散並列技術を実装したDistBeliefを開発した。TensorFlowの前身となるシステム。

内部共変量シフト

訓練中に前の層のパラメータが変化することで各層の入力分布も変化してしまう問題。対策としてバッチ正規化が有効。

ディープラーニング(深層学習)

ディープニューラルネットワーク(DNN)による機械学習手法のこと。特徴量を自動的に抽出できる特徴があるが、解釈可能性・説明性が低い。(なぜこの結果に至ったのか人間が解釈・説明することが難しい)　なお、説明可能なAIのことをXAI (Explainable AI)という。

プーリングの種類

最大プーリング
平均プーリング
Lpプーリング(周りの値をp乗し、その標準偏差を取る)

ハイパーパラメータのチューニング手法

グリッドサーチ

適切な範囲を持つパラメータを複数用意し、総当たりで最良のハイパーパラメータを探す方法。

ランダムサーチ

グリッドサーチとは異なり、ランダムにパラメータを組み合わせ最良のハイパーパラメータを探す方法。

ベイズ最適化

過去の試行結果より次の試行範囲を確立分布より計算する方法。

自己符号化器

ニューラルネットワークを使用した次元圧縮のためのアルゴリズム。教師なし学習。

主成分分析(PCA)

教師なし学習の一つで、学習データの分散が大きい箇所を主成分として分析する。

貪欲法

層ごとに計算を行い、その時点で最も良い結果を選択するアルゴリズム。目先の結果だけで選択しており、後のことは考えない。

再帰型ニューラルネットワーク(RNN)

時系列データを扱えるニューラルネットワーク。時系列に沿ってネットワーク構造が深くなるため、勾配消失問題が起きやすい。

LSTM(Long short-term memory)

時系列データに対するモデル、構造の一種。3種のゲート(入力ゲート、出力ゲート、忘却ゲート)を持つ。

Adagrad

学習率をパラメータに適応させることで自動的に学習率を調整することができるDNNのパラメータ最適化手法の一つ。勾配を二乗した値を蓄積し、既に大きく更新されたパラメータ程更新量を小さくする。

Adam

勾配の平均と分散をオンラインで推定し利用する。

醜いアヒルの子の定理

認知できるすべての客観的な特徴に基づくとすべての現象は同程度に類似しており、特徴を選択しない限りは表現の類似度に基づく分類は不可能である。

ノーフリーランチ定理

全てのタスクに対して常に他より優れている万能的なアルゴリズムは存在しない

ディープラーニングのモデル

深層信念ネットワーク

確定的モデルに分類される

深層ボルツマンマシン

確率的モデルに分類される

局所コントラスト正規化

画像処理分野において減算正規化と徐さん正規化の処理を行う前処理のこと

bag-of-words

自然言語処理の分野において文章に単語が含まれているかどうかを考えテキストデータを数値化できるもの

TF-IDF

自然言語処理の分野において文章に含まれる単語の重要度を特徴とするもの

VAE(Variational Autoencoder)

自己符号化器の潜在変数に確率分布を導入したディープニューラルネットの生成モデル。訓練データをもとにその特徴を捉え訓練データセットに似たデータを生成することができる。

GAN

訓練データと生成器が生成したデータを識別機で判別させることによって学習を進める。

DQN

強化学習において行動価値関数の関数近似に畳み込みニューラルネットワークを用いた手法

内部共変量シフト

入力の分布が学習途中で大きく変わってくる問題

モメンタム

以前に適用した勾配方向を現在のパラメータ更新にも影響させる手法

RMSprop

AdaGradの欠点である、一度更新量が飽和した重みはもう更新されないという欠点を指数移動平均を蓄積することにより解決した手法

鞍点(あんてん)

ある方向で見ると極大値だが、別の方向で見ると極小値となる点。