[Kindle英英词典] Microsoft Encarta Dictionary

由MDX格式转制而来,个人非常喜欢的一本英英词典,两年前曾尝试过,后来发现标签太复杂就放弃了。这次重新看了下,发现是xml标签,且都比较齐备,用beautifulsoup试了下,可以完整提取,便制作了此词典。

一共300行代码,写到最后头有点晕。不过没想到调试几次就成了,且最后零异常跑完,泪目...

由于这次能接触到原始数据,结合我对Kindle查词界面渲染机制的理解,重写了HTML,使其能以最佳状态显示。
修改内容:
1. 提取除例句外所有内容,跳了各种词以收集特殊标签,不过不排除有漏网之鱼。例句时我刻意不提去的,至于原因,长时间使用过Kindle的人应该明白。
2. 剔除Kindle无法查询的102条词条。
3. 为每个词条独立添加变形词,优点是可以绕过Kindle对变形词标签总长255字节的限制,以使绝大部分变形词 及 大部分以动词开头的短语动词如looked out等都能查询,缺点是文件会变大3-4倍。
词典生成后上机测试时发现单词的各种时态及变形有点影响查词,比如go词条:

像变形词多到这个程度的词应该不多,所以不作进一步处理了。
以下是样图:



链接: https://pan.baidu.com/s/1n2tV_mP8AoTeNEZpE8UkZA 提取码: v4s9