将单词表自动查询并导出为excel
最近在备考N2,在背单词书的时候发现如果可以将单词输出为excel就会很方便,查遍网络没有找到成型的工具,作为一个6年Android开发肯定不会被这点问题难住。考虑到是在mac上执行操作,就选择了python,作为开发语言。业务流程如下。
获取单词书词汇索引文本,通常单词书可以找到pdf版本,通过ABBYY FineReader工具将pdf的文本提取出来

2.将全部文本分割为单个单词,因为识别会有误差,所以需要进行一些判断排除错误
3.通过有道词典API查询单词词义
日语为小语种,不会返回词性、音调等信息,需要通过访问返回的url获取。
4.访问网页使用BeautifulSoup获取有用信息
用一些逻辑判断获取中文、音调、词性等信息
5.输出到excel中

6.将输出的单词与pdf文本的单词循环对比,查找出未能通过API翻译的单词,输出到另一个excel中。