このコラムでは、統計・機械学習の専門用語について説明します。
最近、筆者は統計や機械学習の英文サイトを調査しているのですが、コンピュータやソフトウェアの分野と比べて、統計や機械学習の分野の専門用語は日本語に翻訳されたものが多いと感じています。英語を読むときに英語の単語が日本語では何と訳されているのかを意識しながら読むことが必要で、容易に想像がつくものとつかないものがあり、違和感があります。
これは、日本語に翻訳された専門用語が良くないといっているわけではなく、Supervised learningの翻訳が教師有り学習となっているのは、なかなか妙訳だと思っています。
しかし、ソフトウェアの分野であれば、ほとんどの専門用語が外来語としてカタカナ表記されており、英文のドキュメントを読んでも違和感がありません。
統計の用語については、日本においての学問としての歴史もありますし、これから学ぼうという人にとっては、日本語の専門用語を使った方が分かりやすいのは事実だと思います。
しかし、機械学習や深層学習の分野は日進月歩であり、毎日新しいアルゴリズムが開発されているといっても過言ではないと思いますので、機械学習や深層学習などの専門用語は、いっそカタカナ表記にしたら良いのではと感じています。直前の文章も「マシン・ラーニングやディープ・ラーニングなどの専門用語は、いっそカタカナ表記にしたら良いのではと感じています。」としても、違和感はないと思います。
ただ、問題なのは、統計の分野で使われている専門用語がマシン・ラーニングやディープ・ラーニングの世界でも使われていて、マシン・ラーニングやディープ・ラーニングはカタカナ表記、統計は日本語表記とすると同じことを表すのに2種類の用語が存在してしまい、かえって混乱するのではと思っています。
言葉は使われていくうちに自然に淘汰されていきますから、それを待つのが良い方法なのかもしれません。
それまでは、少しやりづらくても2言語を我慢するしかないと思いますが、とりあえず、簡単な対応表を作りましたので、もしよかったら使っていただければと思います。
対応表を以下に記載します。こう見ると、カタカナ表記になっているものが結構あることが分かります。カタカナ表記になっているものは、日本語に翻訳すること自体意味がないものが多いです。
No. | 英語 | 日本語 |
---|---|---|
1 | anomaly | 異常、例外 |
2 | attribute | 特徴量 |
3 | auto encoder | 自己符号化器 |
4 | batch | バッチ |
5 | Bayesian regression | ベイズ回帰 |
6 | bagging | バギング |
7 | binarization | 2進化、2値化 |
8 | blending | ブレンディング |
9 | boosting | ブースティング |
10 | box and whisker | 箱ひげ図 |
11 | canonical correlation analysis | 正準相関分析 |
12 | classification | クラス分類 |
13 | classification report | クラス分類レポート、クラシフィケーションレポート |
14 | coefficient | 係数 |
15 | confusion matrix | コンフュージョンマトリクス |
16 | convolution | 畳込み、回旋 |
17 | convolutional neural network | 畳込みニューラルネットワーク |
18 | correlation | 相関 |
19 | correlation matrix | 相関行列 |
20 | covariance | 共分散 |
21 | curse of dimensionality | 次元の呪い |
22 | decision tree | 決定木 |
23 | deep learning | 深層学習 |
24 | dimensionality | 次元 |
25 | dimensionality reduction | 次元削減 |
26 | discrimination analysis | 判別分析 |
27 | distribution | 分布 |
28 | drop out | ドロップアウト |
29 | ensemble | アンサンブル |
30 | epoc | エポック |
31 | Euclidean distance | ユークリッド距離 |
32 | f1-score | F値 |
33 | factor analysis | 因子分析 |
34 | feature | 特徴量 |
35 | Gaussian distribution | 正規分布、ガウス分布 |
36 | Gaussian Process | ガウス過程 |
37 | imputation | データ補完 |
38 | independent component analysys(ICA) | 独立成分分析 |
39 | independent term | 切片値 |
40 | inlier | 正常値 |
41 | kernel ridge regression | カーネルリッジ回帰 |
42 | K-means | K-平均法 |
43 | K-nearest neighbor | K近傍法 |
44 | Lasso | least absolute shrinkage and selection operator |
45 | Lasso regression | ラッソ回帰 |
46 | least squares method | 最小二乗法 |
47 | linear regression | 直線回帰 |
48 | logistic regression | ロジスティック回帰 |
49 | mean | 平均値 |
50 | mean shift | 平均値シフト法 |
51 | median | 中央値、メジアン |
52 | minibatch | ミニバッチ |
53 | mode | 最頻値 |
54 | multi-dimensional entry | 多次元データ |
55 | multiple linear regression analysis | 重回帰分析 |
56 | multivariate | 多次元データ |
57 | multivariate analysis | 多変量解析 |
58 | naive Bayes | ナイーブベイズ |
59 | nearest neighbors | k近傍法 |
60 | neuron | ニューロン |
61 | neural network | ニューラルネットワーク |
62 | non-negative matrix factorization (NMF or NNMF) | 非負値行列因子分解 |
63 | normal distribution | 正規分布 |
64 | normalization | 正規化 |
65 | outlier | 異常値、外れ値 |
66 | over fitting | 過学習、過適合 |
67 | perceptron | パーセプトロン |
68 | polynomial | 多項式(の) |
69 | polynomial regression | 多項式回帰 |
70 | precision | 精度 |
71 | principal component analysys(PCA) | 主成分分析 |
72 | quantity | 量 |
73 | random forest | ランダムフォレスト |
74 | recall | 再現率 |
75 | recurrent neural network | 再帰型ニューラルネットワーク |
76 | regularization | 正則化 |
77 | reinforcement learning | 強化学習 |
78 | ridge regression | リッジ回帰 |
79 | residues | 残余 |
80 | scatter plot | 散布図 |
81 | sparse PCA | スパースPCA |
82 | sparsity | 希薄、まばら |
83 | spectral clustering | スペクトラルクラスタリング |
84 | spot-checking | スポットチェッキング |
85 | stochastic gradient descent(SGD) | 確率的勾配降下法 |
86 | support vector machine(SVM) | サポートベクターマシン |
87 | target variable | 目的変数 |
88 | variance | 分散 |
89 | vector quantization | ベクトル量子化 |