「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」は略語が頻出します。そこで、繰り返し登場する略語について一覧にまとめました。スムーズに読み進めるためのお役に立てば幸いです。
なお、本記事の内容は(改訂2版)を基準としていますが、初版でも活用できると思われます。
用語の説明は可能な限り同書を参考にしましたが、まとめが難しかったケースではAIで生成しています。その場合、"(AI)"と記載しています。
並び順はページ数を基準としています。
| 略称 | 英語 | 日本語 | 説明 | ページ |
|---|---|---|---|---|
| PCA | Principal Component Analysis | 主成分分析 | 多数の特徴量を、主成分軸上に投影したデータの分散が最大になるように主成分軸の方向を順に決め、少数の互いに直交する軸へ変換する手法です。これにより、情報の損失を抑えながらデータを低次元化し、サンプル間の関係を可視化できます。(AI) | 26 |
| t-SNE | t-distributed Stochastic Neighbor Embedding | t-SNEとは、高次元空間におけるサンプル間の類似度を同時確率分布で表し、その分布と低次元空間における類似度の分布との差が小さくなるようにサンプルを配置する次元削減手法です。低次元空間ではスチューデントの t 分布を用いることで、近いサンプル同士を近く、異なる集団を離して可視化しやすくします。(AI) | 43 | |
| OLS (MLR) | Ordinary Least Squares (Multiple Linear Regression) | 最小二乗法による線形重回帰分析 | 目的変数を複数の説明変数の線形結合で表し、実測値と推定値との差である残差の二乗和が最小となるように各説明変数の回帰係数を決定する手法です。(AI) | 53 |
| MAE | Mean Absolute Error | 誤差の絶対値の平均値。 | 58 | |
| RMSE | Root-Mean-Squared Error | 誤差を2乗して平均値を計算し1/2乗したもの。 | 58 | |
| PCR | Principal Component Regression | 主成分回帰 | 説明変数を選択せずに、PCAで説明変数を互いに無相関な主成分に変換してから、主成分と目的変数との間でOLSを行うこと。 | 61 |
| CV | Cross Validation | クロスバリデーション | データを複数のグループに分け、一部を学習用、残りを検証用として交代で用いることで、未知のデータに対するモデルの予測性能を評価する方法です。複数回の評価結果をまとめることで、特定のデータ分割に左右されにくい性能評価ができます。(AI) | 62 |
| PLS | Partial Least Squares | 部分的最小二乗法 | 主成分間の無相関性を維持しながら目的変数の情報を考慮して主成分を計算し、主成分と目的変数との間で回帰モデルを構築する手法の1つ。目的変数と主成分との間の共分散が最大になるように主成分軸の方向が決められます。 | 64 |
| SVR | Support Vector Regression | サポートベクター回帰 | SVMを回帰分析に応用した手法で、基本的にはOLS,PCR,PLSのような線形の回帰分析手法ですが、カーネルトリックという手法により非線形手法に拡張できます。 | 70 |
| DCV | Double Cross-Validation | ダブルクロスバリデーション | 外側のCVで分けたトレーニングデータに対して内側のCVを行い、ハイパーパラメータを最適化した後、その条件で構築したモデルを外側のテストデータに適用することで、モデルの予測性能をより適切に評価する方法です。(AI) | 80 |
| k-NN | k-Nearst Neighbors algorithm | k近傍法 | あるサンプルのクラスを推定するときに、クラスがすでにわかっているサンプルの中から、クラスを推定したいサンプルに最も近いk個のサンプルを選び、それらのクラスで多数決をとってクラスを決定する方法です。 | 82, 102 |
| SVM | Support Vector Machine | サポートベクターマシン | SVRの基になった手法であり、2つのクラスを分類します。 | 87 |
| DT | Decision Tree | 決定木 | 説明変数に対する条件でサンプルを順に分割し、各ノードに含まれるサンプルのクラスができるだけ偏るように分岐条件を決め、終端ノードに到達したサンプルのクラスを推定する分類手法です。(AI) | 93 |
| RF | Random Forests | ランダムフォレスト | DTモデルをたくさんつくり、新しいサンプルにおけるクラスの推定結果を、各DTモデルの推定結果を多数決することで決めます。 | 96 |
| AD | Applicability Domain | モデルの適用範囲 | 回帰モデルやクラス分類モデルが本来の推定性能、つまりモデルを構築するときに用いたデータセットに対して示す性能、を発揮できる説明変数のデータ領域のこと。 | 99 |
| OCSVM | One-Class Support Vector Machine | 主に正常とみなされるトレーニングサンプルの分布を学習し、カーネル関数を用いてサンプルが密集する領域を囲む境界を求める手法です。新しいサンプルがその領域の内側にあれば既知のデータ分布に近いサンプル、外側にあれば外れサンプルとして判定できるため、異常検知やモデルの適用範囲(AD)の評価に用いられます。 | 103 |




