欢迎光临散文网 会员登陆 & 注册

自制mdx格式蒙古语词典

2022-06-12 08:46 作者:竹城的梦  | 我要投稿

最新版:https://forum.freemdict.com/tag/%E8%92%99%E5%8F%A4%E8%AF%AD

专栏不方便编辑,后续的发布和更新也移到那里了。


虽然现在有许多优秀的蒙古语在线词典,但地址分散,不能屏幕取词或词条内跳转,所以UP就进行了集中抓取并各自制成了mdx+mdd格式词典。

mdx词典是通用的离线词典形式,可在诸多软件上使用,最有名的三个是GoldenDict、MDICT和欧路词典。欧路词典免费版有功能限制。电脑端UP推荐GoldenDict(屏幕取词、词条内点击跳转等很多功能),移动端MDICT AD(屏幕取词等),都是免费的。很多人认为移动版欧路词典最好用,但免费版我的体验很差,指定目录的词典无法读取。

mdx+mdd是html+css+javascript的架构。mdx内是词典的内容,而mdd内存放的格式文件、字体、图片、音频等等。二者需要放在同一目录下,使用同一名称。如果只有mdx文件,词典的文字内容可以正常使用。因为音频文件比较大,且在移动端不一定能播放,所以UP采用单独打包的方式。例如,BolorToli附有音频,文件BolorToli.mdx是词典文字内容,BolorToli.mdd是字体和格式文件,BolorToli.1.mdd是音频。电脑端三者都下载,可以播放音频(仅测试过GoldenDict),移动端为了节约空间,可仅下载BolorToli.mdx和BolorToli.mdd。移动端的音频播放问题比较复杂,UP自己本身没有需求,还望有兴趣的高手可以联系UP解决这个问题。


1、蒙汉词典

①《蒙汉词典》(增订本)内蒙古大学出版社 1999

电子版来源:http://hkuri.cneas.tohoku.ac.jp/ 在线词典,使用说明 http://hkuri.cneas.tohoku.ac.jp/guide/p01/menghan_dic_guide_chinese.pdf

注:在线词典配有发音,但不是母语者录的,质量不高,故没有收录。在线词典和原书相比:增添了对应的西里尔文,修改了罗马字转写方案。在线词典的罗马字转写方案参见上述使用说明。

第一行:西里尔文、书面读音(拉丁转写)、IPA、传统蒙古文Unicode编码名称。

支持检索:蒙古文、西里尔文、拉丁转写

PC版Goldendict演示:

词典文件名称就是图片中显示的词典名称。文件名称可自行修改,但mdx和mdd文件名必须一致。

竖排的兼容性比横排差,受平台和软件的影响大,可能会显示成横排。

②《新蒙汉词典》商務印書館1999

电子版来源:http://hkuri.cneas.tohoku.ac.jp/ 在线词典

注:相比于原书,在线词典增添了罗马字转写,但极少部分词条没有精校,存在明显的乱码。MDX版使用过程中,若UP发现了乱码,会进行精校。

支持检索:蒙古文、西里尔文、拉丁转写

PC版Goldendict演示:

2、蒙英词典

③Bolor Toli

来源:http://www.bolor-toli.com/ 在线词典

支持检索:蒙古文(新增)、西里尔文

注:只抓取了蒙英部分。点击蓝色的BT按钮可以发音。目前可能存在一些遗漏和重复。

额,这个排版很丑……但我真的不知道该弄成什么样。朋友们,你们怎么想?

④Bawden

Charles Bawden, mongolian-English Dictionary, Kegan Paul International, 1997

电子版来源:http://hkuri.cneas.tohoku.ac.jp/ 在线词典

注:比较有名的蒙英词典,收词多。

3、蒙蒙词典

⑤Mongol Toli

来源:https://mongoltoli.mn/

注:附有音频,点击蓝色的MT按钮可发音

支持检索:蒙古文、西里尔文

⑥Toli Query

来源:https://toli.query.mn/files

注:用的是网站提供的csv文件,不清楚是不是包含了在线查询的所有词条。原网站的蒙古文显示有一点问题。

二、专业词典

1、西里尔文正字法词典

⑦МОНГОЛ КИРИЛ БИЧГИЙН ЗӨВ БИЧИХЗҮЙН ТОЛЬ. МОНСУДАР, 2011

电子版来源:http://hkuri.cneas.tohoku.ac.jp 在线词典

注:UP没有原书,有些词条中的符号不知道是什么意思。

⑧Зөв Бичих Дүрмийн Журамласан Толь 2018

原书:https://president.mn/wp-content/uploads/2018/06/HBUZ-Toli-2018-06-14-1.pdf

电子版来源:http://hkuri.cneas.tohoku.ac.jp 在线词典

注:权威新蒙文正字法词典。官网是http://toli.gov.mn/,带有infelectional suffixes的词可以查到拆分,这是pdf、mdx版没有的。

mdx
http://toli.gov.mn

2、外来词词典

⑨МОНГОЛ ХЭЛНИЙ ХАРЬ ҮГИЙН ТОЛЬ 1999

电子版来源:http://hkuri.cneas.tohoku.ac.jp 在线词典

3、词源词典

⑩mongolian Etymology - starlingdb

来源:https://starlingdb.org/

注:收词有限,基本都是阿尔泰语族词汇。抓取的时候Nostratic并没有展开,下一版本会纠正。

4、缩写词典

⑪蒙古语缩写

直接来源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/mongolian_abbreviations.csv

注:最终来源不明。

5、国家、首都名词典

⑫Countries-Capital

直接来源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/countries.csv

注:最终来源不明。

支持检索:国家名、国家名全称、首都

6、人名库

⑬Улсын Бүртгэлийн Ерөнхий Газар - Нэрийн Сан - Нэр

直接来源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/mongolian_personal_names.csv.gz

最终来源:http://opendata.burtgel.gov.mn/civil 蒙古国国家统计局

注:直接来源并没有涵盖官网的最新数据

7、姓氏库

⑭Улсын Бүртгэлийн Ерөнхий Газар - Нэрийн Сан - Ургийн Овог

直接来源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/mongolian_personal_names.csv.gz

最终来源:http://opendata.burtgel.gov.mn/civil 蒙古国国家统计局

注:直接来源并没有涵盖官网的最新数据

各个在线词典传统蒙古文的编码并不一致,现阶段并没有进行统一,仅仅是采用原网页的蒙古文字体,达到和原网页相同的文字显示的正确率。

后续更新和优化,新词典的补充会在本文章进行更新。

有问题的话可以在这里反馈。


链接: https://pan.baidu.com/s/1kX4smM13l4v3k-SwwD5D8A 提取码: yyft 复制这段内容后打开百度网盘手机App,操作更方便哦
--来自百度网盘超级会员v8的分享



更新日志

2022-7-3

《蒙汉词典》:

  • 修复拉丁索引,每个词条单词成索引

《新蒙汉词典》

  • 个别词条精校

  • 设置传统蒙古文为索引,拉丁文、西里尔文跳转

  • 删除拉丁文词头中的符号

MongolToli

  • 无损地统一音量

BolorToli

  • 增加第二轮遍历的搜索结果

  • 增加传统蒙古文索引,修正西里尔文索引

  • 修改排版,索引为西里尔文时传统蒙古文横排,为传统蒙古文时竖排,并且避免重复显示

  • 去除重复词条

  • 优化音频文件结构,去除重复音频,修正空白音频

  • 无损地统一音量

2022-8-16
新增词典
1、wordNet (derivational suffix 构词拆分)



2、蒙英词典 БАТ-ИРЭЭДҮЙ, БААСАНБАТ, Монгол-англи сурагчийн толь 2005



3、蒙蒙词典 Цэвэл, МОНГОЛ ХЭЛНИЙ ТОВЧ ТАЙЛБАР ТОЛЬ 1966


更新词典


BolorToli
添加第三轮、第四轮遍历的结果,扩充收词量
Unicode名称缩短,并且仅在含有控制符时显示
修正双击同时选中蒙古文和Unicode名称的错误
传统蒙古文字母kh改为k
精校
排版:以传统蒙古文分段,只显示一次传统蒙古文,并改为竖排
补充缺乏的传统蒙古文(西里尔文对传统蒙古文1对1的情况)
处理缺乏西里尔文的词条
添加拉丁索引,实现用拉丁转写查词
去除重复词义
按内蒙正字法校正传统蒙古文拼写
改为Universal Mongolian White字体(Unicode,标准2010)

MongolToli
Unicode名称缩短,并且仅在含有控制符时显示

按内蒙正字法校正传统蒙古文拼写
空格 Ugei → NNBSP Ugei
传统蒙古文字母kh改为k
精校
补充缺乏的传统蒙古文(西里尔文对传统蒙古文1对1的情况)
处理缺乏西里尔文的词条
修正多词义词条无音频的问题(目前存在大量重复音频,导致mdd文件较大)
改为Universal Mongolian White字体(Unicode,标准2010)

Зөв Бичих Дүрмийн Журамласан Толь 2018
从官网添加外来词
原词条仅提供单词的变位、变格分类以及每类的变化规则,这里补充涉及到的每个单词的变形形式
将变形后的形式添加到索引,比如搜索унтаазай,会自动跳转到унтах词条

蒙汉词典
Unicode名称缩短,并且仅在含有控制符时显示
空格 Ugei → NNBSP Ugei
精校
拉丁文-改为=
补充缺乏的拉丁撰写
补充缺乏的西里尔蒙古文(老对新1对1的情况)

新蒙汉词典
Unicode名称缩短,并且仅在含有控制符时显示
按内蒙正字法校正传统蒙古文拼写
空格 Ugei → NNBSP Ugei
精校
拉丁文-改为=
补充缺乏的拉丁撰写
补充缺乏的传统蒙古文(新对老1对1的情况)
校正词义中~替换为词头的拼写错误

ToliQuery
Unicode名称缩短,并且仅在含有控制符时显示
A I I → A I,   Y Y FVS1 → Y I
空格 Ugei → NNBSP Ugei
精校

自制mdx格式蒙古语词典的评论 (共 条)

分享到微博请遵守国家法律