欢迎光临散文网 会员登陆 & 注册

[Kindle英英词典] Microsoft Encarta Dictionary

2021-03-27 15:39 作者:满星MAX  | 我要投稿

    由MDX格式转制而来,个人非常喜欢的一本英英词典,两年前曾尝试过,后来发现标签太复杂就放弃了。这次重新看了下,发现是xml标签,且都比较齐备,用beautifulsoup试了下,可以完整提取,便制作了此词典。

mdx词典信息

    一共300行代码,写到最后头有点晕。不过没想到调试几次就成了,且最后零异常跑完,泪目...

    由于这次能接触到原始数据,结合我对Kindle查词界面渲染机制的理解,重写了HTML,使其能以最佳状态显示。

修改内容:

    1. 提取除例句外所有内容,跳了各种词以收集特殊标签,不过不排除有漏网之鱼。例句时我刻意不提去的,至于原因,长时间使用过Kindle的人应该明白。

    2. 剔除Kindle无法查询的102条词条。

    3. 为每个词条独立添加变形词,优点是可以绕过Kindle对变形词标签总长255字节的限制,以使绝大部分变形词 及 大部分以动词开头的短语动词如looked out等都能查询,缺点是文件会变大3-4倍。


词典生成后上机测试时发现单词的各种时态及变形有点影响查词,比如go词条:

像变形词多到这个程度的词应该不多,所以不作进一步处理了。

以下是样图:

链接: https://pan.baidu.com/s/1n2tV_mP8AoTeNEZpE8UkZA 提取码: v4s9

[Kindle英英词典] Microsoft Encarta Dictionary的评论 (共 条)

分享到微博请遵守国家法律