コラム - 統計・機械学習の専門用語 - 岩通ソフトシステム株式会社

統計・機械学習の専門用語 Terms for stats and MLmachine learning, deep learning

　このコラムでは、統計・機械学習の専門用語について説明します。

日本語と英語の専門用語について

　最近、筆者は統計や機械学習の英文サイトを調査しているのですが、コンピュータやソフトウェアの分野と比べて、統計や機械学習の分野の専門用語は日本語に翻訳されたものが多いと感じています。英語を読むときに英語の単語が日本語では何と訳されているのかを意識しながら読むことが必要で、容易に想像がつくものとつかないものがあり、違和感があります。
　これは、日本語に翻訳された専門用語が良くないといっているわけではなく、Supervised learningの翻訳が教師有り学習となっているのは、なかなか妙訳だと思っています。
　しかし、ソフトウェアの分野であれば、ほとんどの専門用語が外来語としてカタカナ表記されており、英文のドキュメントを読んでも違和感がありません。
　統計の用語については、日本においての学問としての歴史もありますし、これから学ぼうという人にとっては、日本語の専門用語を使った方が分かりやすいのは事実だと思います。
　しかし、機械学習や深層学習の分野は日進月歩であり、毎日新しいアルゴリズムが開発されているといっても過言ではないと思いますので、機械学習や深層学習などの専門用語は、いっそカタカナ表記にしたら良いのではと感じています。直前の文章も「マシン・ラーニングやディープ・ラーニングなどの専門用語は、いっそカタカナ表記にしたら良いのではと感じています。」としても、違和感はないと思います。
　ただ、問題なのは、統計の分野で使われている専門用語がマシン・ラーニングやディープ・ラーニングの世界でも使われていて、マシン・ラーニングやディープ・ラーニングはカタカナ表記、統計は日本語表記とすると同じことを表すのに2種類の用語が存在してしまい、かえって混乱するのではと思っています。
　言葉は使われていくうちに自然に淘汰されていきますから、それを待つのが良い方法なのかもしれません。
　それまでは、少しやりづらくても2言語を我慢するしかないと思いますが、とりあえず、簡単な対応表を作りましたので、もしよかったら使っていただければと思います。

対応表

　対応表を以下に記載します。こう見ると、カタカナ表記になっているものが結構あることが分かります。カタカナ表記になっているものは、日本語に翻訳すること自体意味がないものが多いです。

No.	英語	日本語
1	anomaly	異常、例外
2	attribute	特徴量
3	auto encoder	自己符号化器
4	batch	バッチ
5	Bayesian regression	ベイズ回帰
6	bagging	バギング
7	binarization	2進化、2値化
8	blending	ブレンディング
9	boosting	ブースティング
10	box and whisker	箱ひげ図
11	canonical correlation analysis	正準相関分析
12	classification	クラス分類
13	classification report	クラス分類レポート、クラシフィケーションレポート
14	coefficient	係数
15	confusion matrix	コンフュージョンマトリクス
16	convolution	畳込み、回旋
17	convolutional neural network	畳込みニューラルネットワーク
18	correlation	相関
19	correlation matrix	相関行列
20	covariance	共分散
21	curse of dimensionality	次元の呪い
22	decision tree	決定木
23	deep learning	深層学習
24	dimensionality	次元
25	dimensionality reduction	次元削減
26	discrimination analysis	判別分析
27	distribution	分布
28	drop out	ドロップアウト
29	ensemble	アンサンブル
30	epoc	エポック
31	Euclidean distance	ユークリッド距離
32	f1-score	F値
33	factor analysis	因子分析
34	feature	特徴量
35	Gaussian distribution	正規分布、ガウス分布
36	Gaussian Process	ガウス過程
37	imputation	データ補完
38	independent component analysys(ICA)	独立成分分析
39	independent term	切片値
40	inlier	正常値
41	kernel ridge regression	カーネルリッジ回帰
42	K-means	K-平均法
43	K-nearest neighbor	K近傍法
44	Lasso	least absolute shrinkage and selection operator
45	Lasso regression	ラッソ回帰
46	least squares method	最小二乗法
47	linear regression	直線回帰
48	logistic regression	ロジスティック回帰
49	mean	平均値
50	mean shift	平均値シフト法
51	median	中央値、メジアン
52	minibatch	ミニバッチ
53	mode	最頻値
54	multi-dimensional entry	多次元データ
55	multiple linear regression analysis	重回帰分析
56	multivariate	多次元データ
57	multivariate analysis	多変量解析
58	naive Bayes	ナイーブベイズ
59	nearest neighbors	k近傍法
60	neuron	ニューロン
61	neural network	ニューラルネットワーク
62	non-negative matrix factorization (NMF or NNMF)	非負値行列因子分解
63	normal distribution	正規分布
64	normalization	正規化
65	outlier	異常値、外れ値
66	over fitting	過学習、過適合
67	perceptron	パーセプトロン
68	polynomial	多項式（の）
69	polynomial regression	多項式回帰
70	precision	精度
71	principal component analysys(PCA)	主成分分析
72	quantity	量
73	random forest	ランダムフォレスト
74	recall	再現率
75	recurrent neural network	再帰型ニューラルネットワーク
76	regularization	正則化
77	reinforcement learning	強化学習
78	ridge regression	リッジ回帰
79	residues	残余
80	scatter plot	散布図
81	sparse PCA	スパースPCA
82	sparsity	希薄、まばら
83	spectral clustering	スペクトラルクラスタリング
84	spot-checking	スポットチェッキング
85	stochastic gradient descent(SGD)	確率的勾配降下法
86	support vector machine(SVM)	サポートベクターマシン
87	target variable	目的変数
88	variance	分散
89	vector quantization	ベクトル量子化

岩通ソフトシステム株式会社はソフトウェア開発からサービスまでをトータルで提供するソリューションプロバイダです。

統計・機械学習の専門用語 Terms for stats and MLmachine learning, deep learning

日本語と英語の専門用語について

対応表

このページの先頭へ

ナビゲーション

サブナビゲーション