embedding
embedding:把一个样本映射到一个 n 维向量
embedding 的本质是“压缩”,用较低维度的 k 维特征去描述有冗余信息的较高维度的 n 维特征,也可以叫用较低维度的 k 维空间去描述较高维度的 n 维空间. 和 one-hot 相比,embedding 能通过较少的维度表示出每个类别,并且还可以一定的表现出不同类别变量之间的关系
Example
问:
用向量方式从智力层面描述小明。已知:小明的语文成绩88,数学成绩3,英语成绩18,身高149,体重35公斤,父亲是大学教授,母亲是音乐家,立定跳远2.1米,50米自由泳个人记录93秒。
答:
根据已有信息(特征),小明的完整向量表示为:[88, 3, 18, 149, 35, 大学教授, 音乐家, 2.1, 93]。
根据先验知识,身高、体重、立定跳远、游泳成绩、家世和智力无明显关系,摒弃掉,仅保留[语文成绩,数学成绩,英语成绩] 三个维度的特征。
得小明的智力向量: [88, 3, 18]。
这就是 Embedding 方法。
这个例子好的地方在于,它不仅揭示了 Embedding 技术压缩数据的本质(9维数据压缩到3维),还体现出了 Embedding 的一个特点:Embedding 通常是丢失信息的。
链接:https://www.zhihu.com/question/283751866/answer/1639626458
embedding 有以下 3 个主要目的:
- 在 embedding 空间中查找最近邻,这可以很好的用于根据用户的兴趣来进行推荐。
- 作为监督性学习任务的输入。
- 用于可视化不同离散变量之间的关系。