小象自然语言处理项目实战训练营

2022-09-16 11:07 作者:超绝可爱邹园缘 0人读过 | 我要投稿

自然语言处理实战

文本表示方法大致分为三类，（底部评）即基于向量空间模型、基于主题模型和基于神经网络的方法。

向量空间模型是将文本表示成实数值分量所构成的向量，一般而言，每个分量对应一个词项，相当于将文本表示成空间中的一个点。向量不仅可以用来训练分类器，而且计算向量之间的相似度可以度量文本之间的相似度。最常用的是TF-IDF计算方式，即向量的维度对应词表的大小，对应维度使用TF-IDF计算。向量空间模型的优点是简单明了，向量维度意义明确，效果不错，但也存在明显的缺点，其一，维度随着词表增大而增大，且向量高度稀疏；其二，无法处理“一义多词”和“一词多义”问题。

标签：

小象自然语言处理项目实战训练营

自然语言处理实战

小象自然语言处理项目实战训练营的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

小象自然语言处理项目实战训练营

自然语言处理实战

本文作者的其他文章

小象自然语言处理项目实战训练营的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

小象自然语言处理项目实战训练营的评论 (共条)