文本可读性计算方法(最全)
【文本分析介绍】最全的文本可读性计算方法
财务会计金融领域的小伙伴,在对年报或者审计事项进行文本分析的时候,经常会用到文本可读性指标。
我们在这里进行汇总介绍,总共介绍五种可读性的计算方法。
1. 句子生成概率,使用word2vec模型输出的句子生成概率衡量可读性,概率越大,可读性越高
2 句均含字量,计算每个句子的平均含字量,取其相反数构建句均含字量。值越大时,可读性越强。
3. 常见字密度,常见字越多,读者的阅读障碍越小,文本的可理解性越强。采用常用字占总字数的比例衡量。值越大时,可读性越强。
4. 专业术语密度,大量财务会计术语(如“损益”“减值”等)的存在,增加了年报的理解难度,使其难度接近高度专业化的科技或学术论文水平。运用每百字中包含会计专业术语个数的相反数来衡量可读性。值越大时,可读性越强。
5. 逆接成分密度 当句子和段落间存在逆转词汇(“但是”“然而”等)时,上下文衔接的意思存在较大差异,背离既定的思维惯性,增加了文本逻辑的复杂度,报告使用者的阅读难度加大网。运用每百字中包含逆接关系连接成分个数的相反数来衡量。值越大,表示可读性越强。



