自制mdx格式蒙古语词典
最新版:https://forum.freemdict.com/tag/%E8%92%99%E5%8F%A4%E8%AF%AD
专栏不方便编辑,后续的发布和更新也移到那里了。



虽然现在有许多优秀的蒙古语在线词典,但地址分散,不能屏幕取词或词条内跳转,所以UP就进行了集中抓取并各自制成了mdx+mdd格式词典。
mdx词典是通用的离线词典形式,可在诸多软件上使用,最有名的三个是GoldenDict、MDICT和欧路词典。欧路词典免费版有功能限制。电脑端UP推荐GoldenDict(屏幕取词、词条内点击跳转等很多功能),移动端MDICT AD(屏幕取词等),都是免费的。很多人认为移动版欧路词典最好用,但免费版我的体验很差,指定目录的词典无法读取。
mdx+mdd是html+css+javascript的架构。mdx内是词典的内容,而mdd内存放的格式文件、字体、图片、音频等等。二者需要放在同一目录下,使用同一名称。如果只有mdx文件,词典的文字内容可以正常使用。因为音频文件比较大,且在移动端不一定能播放,所以UP采用单独打包的方式。例如,BolorToli附有音频,文件BolorToli.mdx是词典文字内容,BolorToli.mdd是字体和格式文件,BolorToli.1.mdd是音频。电脑端三者都下载,可以播放音频(仅测试过GoldenDict),移动端为了节约空间,可仅下载BolorToli.mdx和BolorToli.mdd。移动端的音频播放问题比较复杂,UP自己本身没有需求,还望有兴趣的高手可以联系UP解决这个问题。

1、蒙汉词典
①《蒙汉词典》(增订本)内蒙古大学出版社 1999
电子版来源:http://hkuri.cneas.tohoku.ac.jp/ 在线词典,使用说明 http://hkuri.cneas.tohoku.ac.jp/guide/p01/menghan_dic_guide_chinese.pdf
注:在线词典配有发音,但不是母语者录的,质量不高,故没有收录。在线词典和原书相比:增添了对应的西里尔文,修改了罗马字转写方案。在线词典的罗马字转写方案参见上述使用说明。
第一行:西里尔文、书面读音(拉丁转写)、IPA、传统蒙古文Unicode编码名称。
支持检索:蒙古文、西里尔文、拉丁转写
PC版Goldendict演示:

词典文件名称就是图片中显示的词典名称。文件名称可自行修改,但mdx和mdd文件名必须一致。
竖排的兼容性比横排差,受平台和软件的影响大,可能会显示成横排。
②《新蒙汉词典》商務印書館1999
电子版来源:http://hkuri.cneas.tohoku.ac.jp/ 在线词典
注:相比于原书,在线词典增添了罗马字转写,但极少部分词条没有精校,存在明显的乱码。MDX版使用过程中,若UP发现了乱码,会进行精校。
支持检索:蒙古文、西里尔文、拉丁转写
PC版Goldendict演示:

2、蒙英词典
③Bolor Toli
来源:http://www.bolor-toli.com/ 在线词典
支持检索:蒙古文(新增)、西里尔文
注:只抓取了蒙英部分。点击蓝色的BT按钮可以发音。目前可能存在一些遗漏和重复。

④Bawden
Charles Bawden, mongolian-English Dictionary, Kegan Paul International, 1997
电子版来源:http://hkuri.cneas.tohoku.ac.jp/ 在线词典
注:比较有名的蒙英词典,收词多。

3、蒙蒙词典
⑤Mongol Toli
来源:https://mongoltoli.mn/
注:附有音频,点击蓝色的MT按钮可发音。
支持检索:蒙古文、西里尔文

⑥Toli Query
来源:https://toli.query.mn/files
注:用的是网站提供的csv文件,不清楚是不是包含了在线查询的所有词条。原网站的蒙古文显示有一点问题。


二、专业词典
1、西里尔文正字法词典
⑦МОНГОЛ КИРИЛ БИЧГИЙН ЗӨВ БИЧИХЗҮЙН ТОЛЬ. МОНСУДАР, 2011
电子版来源:http://hkuri.cneas.tohoku.ac.jp 在线词典
注:UP没有原书,有些词条中的符号不知道是什么意思。

⑧Зөв Бичих Дүрмийн Журамласан Толь 2018
原书:https://president.mn/wp-content/uploads/2018/06/HBUZ-Toli-2018-06-14-1.pdf
电子版来源:http://hkuri.cneas.tohoku.ac.jp 在线词典
注:权威新蒙文正字法词典。官网是http://toli.gov.mn/,带有infelectional suffixes的词可以查到拆分,这是pdf、mdx版没有的。


2、外来词词典
⑨МОНГОЛ ХЭЛНИЙ ХАРЬ ҮГИЙН ТОЛЬ 1999
电子版来源:http://hkuri.cneas.tohoku.ac.jp 在线词典

3、词源词典
⑩mongolian Etymology - starlingdb
来源:https://starlingdb.org/
注:收词有限,基本都是阿尔泰语族词汇。抓取的时候Nostratic并没有展开,下一版本会纠正。

4、缩写词典
⑪蒙古语缩写
直接来源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/mongolian_abbreviations.csv
注:最终来源不明。

5、国家、首都名词典
⑫Countries-Capital
直接来源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/countries.csv
注:最终来源不明。
支持检索:国家名、国家名全称、首都

6、人名库
⑬Улсын Бүртгэлийн Ерөнхий Газар - Нэрийн Сан - Нэр
直接来源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/mongolian_personal_names.csv.gz
最终来源:http://opendata.burtgel.gov.mn/civil 蒙古国国家统计局
注:直接来源并没有涵盖官网的最新数据

7、姓氏库
⑭Улсын Бүртгэлийн Ерөнхий Газар - Нэрийн Сан - Ургийн Овог
直接来源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/mongolian_personal_names.csv.gz
最终来源:http://opendata.burtgel.gov.mn/civil 蒙古国国家统计局
注:直接来源并没有涵盖官网的最新数据


各个在线词典传统蒙古文的编码并不一致,现阶段并没有进行统一,仅仅是采用原网页的蒙古文字体,达到和原网页相同的文字显示的正确率。
后续更新和优化,新词典的补充会在本文章进行更新。
有问题的话可以在这里反馈。
链接: https://pan.baidu.com/s/1kX4smM13l4v3k-SwwD5D8A 提取码: yyft 复制这段内容后打开百度网盘手机App,操作更方便哦
--来自百度网盘超级会员v8的分享

更新日志
2022-7-3
《蒙汉词典》:
修复拉丁索引,每个词条单词成索引
《新蒙汉词典》
个别词条精校
设置传统蒙古文为索引,拉丁文、西里尔文跳转
删除拉丁文词头中的符号
MongolToli
无损地统一音量
BolorToli
增加第二轮遍历的搜索结果
增加传统蒙古文索引,修正西里尔文索引
修改排版,索引为西里尔文时传统蒙古文横排,为传统蒙古文时竖排,并且避免重复显示
去除重复词条
优化音频文件结构,去除重复音频,修正空白音频
无损地统一音量
2022-8-16
新增词典
1、wordNet (derivational suffix 构词拆分)

2、蒙英词典 БАТ-ИРЭЭДҮЙ, БААСАНБАТ, Монгол-англи сурагчийн толь 2005

3、蒙蒙词典 Цэвэл, МОНГОЛ ХЭЛНИЙ ТОВЧ ТАЙЛБАР ТОЛЬ 1966

更新词典
BolorToli
添加第三轮、第四轮遍历的结果,扩充收词量
Unicode名称缩短,并且仅在含有控制符时显示
修正双击同时选中蒙古文和Unicode名称的错误
传统蒙古文字母kh改为k
精校
排版:以传统蒙古文分段,只显示一次传统蒙古文,并改为竖排
补充缺乏的传统蒙古文(西里尔文对传统蒙古文1对1的情况)
处理缺乏西里尔文的词条
添加拉丁索引,实现用拉丁转写查词
去除重复词义
按内蒙正字法校正传统蒙古文拼写
改为Universal Mongolian White字体(Unicode,标准2010)

MongolToli
Unicode名称缩短,并且仅在含有控制符时显示
按内蒙正字法校正传统蒙古文拼写
空格 Ugei → NNBSP Ugei
传统蒙古文字母kh改为k
精校
补充缺乏的传统蒙古文(西里尔文对传统蒙古文1对1的情况)
处理缺乏西里尔文的词条
修正多词义词条无音频的问题(目前存在大量重复音频,导致mdd文件较大)
改为Universal Mongolian White字体(Unicode,标准2010)
Зөв Бичих Дүрмийн Журамласан Толь 2018
从官网添加外来词
原词条仅提供单词的变位、变格分类以及每类的变化规则,这里补充涉及到的每个单词的变形形式
将变形后的形式添加到索引,比如搜索унтаазай,会自动跳转到унтах词条


蒙汉词典
Unicode名称缩短,并且仅在含有控制符时显示
空格 Ugei → NNBSP Ugei
精校
拉丁文-改为=
补充缺乏的拉丁撰写
补充缺乏的西里尔蒙古文(老对新1对1的情况)
新蒙汉词典
Unicode名称缩短,并且仅在含有控制符时显示
按内蒙正字法校正传统蒙古文拼写
空格 Ugei → NNBSP Ugei
精校
拉丁文-改为=
补充缺乏的拉丁撰写
补充缺乏的传统蒙古文(新对老1对1的情况)
校正词义中~替换为词头的拼写错误
ToliQuery
Unicode名称缩短,并且仅在含有控制符时显示
A I I → A I, Y Y FVS1 → Y I
空格 Ugei → NNBSP Ugei
精校