本文へスキップ

岩通ソフトシステム株式会社はソフトウェア開発からサービスまでをトータルで提供するソリューションプロバイダです。

統計・機械学習の専門用語 Terms for stats and MLmachine learning, deep learning

 このコラムでは、統計・機械学習の専門用語について説明します。

日本語と英語の専門用語について

 最近、筆者は統計や機械学習の英文サイトを調査しているのですが、コンピュータやソフトウェアの分野と比べて、統計や機械学習の分野の専門用語は日本語に翻訳されたものが多いと感じています。英語を読むときに英語の単語が日本語では何と訳されているのかを意識しながら読むことが必要で、容易に想像がつくものとつかないものがあり、違和感があります。
 これは、日本語に翻訳された専門用語が良くないといっているわけではなく、Supervised learningの翻訳が教師有り学習となっているのは、なかなか妙訳だと思っています。
 しかし、ソフトウェアの分野であれば、ほとんどの専門用語が外来語としてカタカナ表記されており、英文のドキュメントを読んでも違和感がありません。
 統計の用語については、日本においての学問としての歴史もありますし、これから学ぼうという人にとっては、日本語の専門用語を使った方が分かりやすいのは事実だと思います。
 しかし、機械学習や深層学習の分野は日進月歩であり、毎日新しいアルゴリズムが開発されているといっても過言ではないと思いますので、機械学習や深層学習などの専門用語は、いっそカタカナ表記にしたら良いのではと感じています。直前の文章も「マシン・ラーニングやディープ・ラーニングなどの専門用語は、いっそカタカナ表記にしたら良いのではと感じています。」としても、違和感はないと思います。
 ただ、問題なのは、統計の分野で使われている専門用語がマシン・ラーニングやディープ・ラーニングの世界でも使われていて、マシン・ラーニングやディープ・ラーニングはカタカナ表記、統計は日本語表記とすると同じことを表すのに2種類の用語が存在してしまい、かえって混乱するのではと思っています。
 言葉は使われていくうちに自然に淘汰されていきますから、それを待つのが良い方法なのかもしれません。
 それまでは、少しやりづらくても2言語を我慢するしかないと思いますが、とりあえず、簡単な対応表を作りましたので、もしよかったら使っていただければと思います。

対応表

 対応表を以下に記載します。こう見ると、カタカナ表記になっているものが結構あることが分かります。カタカナ表記になっているものは、日本語に翻訳すること自体意味がないものが多いです。

No.英語日本語
1anomaly異常、例外
2attribute特徴量
3auto encoder自己符号化器
4batchバッチ
5Bayesian regressionベイズ回帰
6baggingバギング
7binarization2進化、2値化
8blendingブレンディング
9boostingブースティング
10box and whisker箱ひげ図
11canonical correlation analysis正準相関分析
12classificationクラス分類
13classification reportクラス分類レポート、クラシフィケーションレポート
14coefficient係数
15confusion matrixコンフュージョンマトリクス
16convolution畳込み、回旋
17convolutional neural network畳込みニューラルネットワーク
18correlation相関
19correlation matrix相関行列
20covariance 共分散
21curse of dimensionality次元の呪い
22decision tree決定木
23deep learning深層学習
24dimensionality次元
25dimensionality reduction次元削減
26discrimination analysis判別分析
27distribution 分布
28drop outドロップアウト
29ensembleアンサンブル
30epocエポック
31Euclidean distanceユークリッド距離
32f1-scoreF値
33factor analysis因子分析
34feature特徴量
35Gaussian distribution正規分布、ガウス分布
36Gaussian Processガウス過程
37imputationデータ補完
38independent component analysys(ICA)独立成分分析
39independent term切片値
40inlier 正常値
41kernel ridge regressionカーネルリッジ回帰
42K-meansK-平均法
43K-nearest neighbor K近傍法
44Lassoleast absolute shrinkage and selection operator
45Lasso regressionラッソ回帰
46least squares method最小二乗法
47linear regression直線回帰
48logistic regressionロジスティック回帰
49mean平均値
50mean shift平均値シフト法
51median中央値、メジアン
52minibatchミニバッチ
53mode最頻値
54multi-dimensional entry多次元データ
55multiple linear regression analysis重回帰分析
56multivariate多次元データ
57multivariate analysis多変量解析
58naive Bayesナイーブベイズ
59nearest neighborsk近傍法
60neuronニューロン
61neural networkニューラルネットワーク
62non-negative matrix factorization
(NMF or NNMF)
非負値行列因子分解
63normal distribution正規分布
64normalization正規化
65outlier異常値、外れ値
66over fitting過学習、過適合
67perceptronパーセプトロン
68polynomial多項式(の)
69polynomial regression多項式回帰
70precision精度
71principal component analysys(PCA)主成分分析
72quantity
73random forestランダムフォレスト
74recall再現率
75recurrent neural network再帰型ニューラルネットワーク
76regularization正則化
77reinforcement learning 強化学習
78ridge regressionリッジ回帰
79residues残余
80scatter plot散布図
81sparse PCAスパースPCA
82sparsity希薄、まばら
83spectral clusteringスペクトラルクラスタリング
84spot-checkingスポットチェッキング
85stochastic gradient descent(SGD)確率的勾配降下法
86support vector machine(SVM)サポートベクターマシン
87target variable目的変数
88variance 分散
89vector quantizationベクトル量子化