欢迎光临散文网 会员登陆 & 注册

【BanG Dream!】小学五年级就能理解的台词——台词文本复杂度分析

2021-12-23 19:23 作者:涼风_青叶  | 我要投稿

写在前面

        文本复杂度(Text Complexity)指的是一段文本的难读程度,受词语长短、词语生僻程度、句式等因素影响。

        不知道诸位对去年(2020年)的“考场神作”《生活在树上》是否还有印象。如果要举例子的话,这篇文章就是文本复杂度高的典型案例……

现代社会以海德格尔的一句“一切实践传统都已经瓦解完了”为嚆矢。滥觞于家庭与社会传统的期望正失去它们的借鉴意义。但面对看似无垠的未来天空,我想循卡尔维诺“树上的男爵”的生活好过过早地振翮[1]。

——浙江一考生

        在以往的多篇文本分析专栏中,我都提到过角色台词特点和角色本身的特点是相关的。比如说正经系的角色会在台词中使用更多的汉字而非假名,使用第二人称“あなた”会产生距离感,等等[2-3]。角色台词的文本复杂度会不会也与角色特点有关呢?这是本文尝试探讨的问题。

怎么用Python判断文本复杂度

        textstat是一个可以计算文本复杂度的Python包,内置了16种文本复杂度算法。只要编写程序,输入角色台词,就能用textstat中量化文本复杂度的函数计算并比较角色台词的文本复杂度。

        这段Python代码可以读取SampleText1.txt、SampleText2.txt、SampleText3.txt中的文字,并在SampleResult.xlsx中输出结果。

        SampleText1的内容是一篇英语随笔《A Puppy for Poppy》,这篇随笔被选为浙江省2020年1月英语高考的续写题。以下是文章选摘:

“I’m going to miss you so much, Poppy,” said the tall, gangly teenager. He bent down to hug his old golden retriever farewell. He stood up, hugged his parents, and smiled, trying not to let his emotions get the better of him[4].

        SampleText2的内容是从China Daily上摘录的英语新闻片段。以下是新闻选摘:

China's economic growth momentum will pick up next year, supported by a moderate policy easing, and rebalancing will become more significant as the country's development shifts toward a high-quality model, the World Bank said on Wednesday[5].

        从输出结果中可以看到,大概六年级~初一的学生就可以理解SampleText1(在中国作为英语高考题),而SampleText2需要15~16年级才能理解(?)。

数据处理

        textstat中很多算法只支持分析英语文本,所以我们首先要取得各个角色台词的英语版本。台词获取范围是国际服截至2021年12月21日实装的所有活动剧情、卡面小故事和回忆小故事、主线剧情和乐队剧情。角色覆盖范围是35个主要角色、米歇尔和麻里奈,共37位。

【噜】翻译成英文是【boppin'】……

        然后用以下代码处理英语台词。

        得到如下结果。

        注意到其中dale_chall_readability_score()和difficult_words()两个函数输出的复杂度结果对角色台词量的依赖比较严重(RAS和Morfonica的数据明显和其它乐队的数据不一样),在之后的数据分析中弃去不用。

        text_standard()返回的结果集中在五年级左右。不过看不出什么差异,在后续的分析过程中也弃去不用。

        根据剩下的13个函数的返回结果,将各个角色的台词按从难读到易读的顺序进行排名,名次并列时取平均排名,再对13个排名求平均排名,即得到如下结果。

结论与分析

  • PAREO、纱夜、瑠唯、薰、千圣的英语台词最复杂,表现为使用的单词较长、较少用等。香澄、MASKING、育美、心、透子的英语台词最简单易懂。

  • 但不论台词有多复杂多简单,理解台词只需要拥有英语国家五年级的文字水平,最多不超过六年级。

        台词文本复杂度与角色特点之间,总的来讲还是有规律可循的。

        在台词复杂度最高的5个角色中,就包括了纱夜、瑠唯、千圣3个邦邦正经人担当

        台词复杂度最低的5个角色又正好相反,包括了香澄、育美、心、透子等邦邦熊孩子担当,更巧的是这5个角色的发色和代表色都是暖色调……■

参考资料

[1]生活在树上_百度百科[EB/OL].(2021-10-15)[2021-12-23]. https://baike.baidu.com/item/%E7%94%9F%E6%B4%BB%E5%9C%A8%E6%A0%91%E4%B8%8A/53236417?fr=aladdin

[2]涼风_青叶. 【BanG Dream!】谁是全邦最大的话痨?分角色的剧情文本字数统计[EB/OL].(2021-10-03)[2021-12-23]. https://www.bilibili.com/read/cv13439222

[3]涼风_青叶. 哪个角色最常用“?”和“!”?邦邦日服现有活动剧情的爬取,及其词频分析!(上)[EB/OL].(2021-05-15)[2021-12-23]. https://www.bilibili.com/read/cv11287090

[4]RV Staff Writer J.C.. A Puppy for Poppy[EB/OL].[2021-12-23]. https://www.readingvine.com/passages/a-puppy-for-poppy

[5]CHEN JIA. Policy easing key to nation's economic growth momentum[EB/OL]. (2021-12-23)[2021-12-23]. http://www.chinadaily.com.cn/a/202112/23/WS61c3b41fa310cdd39bc7cf88.html


【BanG Dream!】小学五年级就能理解的台词——台词文本复杂度分析的评论 (共 条)

分享到微博请遵守国家法律