机器学习的第一件事是需要将训练所用的未处理的数据(raw data)转化为具有一定格式的数据(structured data)。这个过程就是特征工程。例如对于自然语言处理而言,从文档到词向量嵌入(word embedding)的过程就是特征工程。在最初的机器学习中,很多特征工程是根据一些算法得出数据的特征,进而进行编码,但深度学习时代来临后,找寻特征这一过程也可以根据不同的任务让网络自己学习,例如 word embedding 所得到的上百维的向量,其实并不能指出每一个维度到底代表什么样的特征。在众多类型的数据中,图属于比较难表示的数据,因此入门图网络的第一课就是找寻图的表示学习方法。
0%