欢迎光临散文网 会员登陆 & 注册

小象自然语言处理项目实战训练营

2022-09-16 11:07 作者:超绝可爱邹园缘  | 我要投稿

自然语言处理实战

文本表示方法大致分为三类,(底部评)即基于向量空间模型、基于主题模型和基于神经网络的方法。

向量空间模型是将文本表示成实数值分量所构成的向量,一般而言,每个分量对应一个词项,相当于将文本表示成空间中的一个点。向量不仅可以用来训练分类器,而且计算向量之间的相似度可以度量文本之间的相似度。最常用的是TF-IDF计算方式,即向量的维度对应词表的大小,对应维度使用TF-IDF计算。向量空间模型的优点是简单明了,向量维度意义明确,效果不错,但也存在明显的缺点,其一,维度随着词表增大而增大,且向量高度稀疏;其二,无法处理“一义多词”和“一词多义”问题。



小象自然语言处理项目实战训练营的评论 (共 条)

分享到微博请遵守国家法律