欢迎光临散文网 会员登陆 & 注册

急急如律…急着超统一码16版的字体「典迹权暂」・东方厨对Unicode的贡献

2023-06-03 21:08 作者:綿雲飴里  | 我要投稿

当前(2023-6-3)统一码最新版是 15.0。不过看一下管道表
[ www.unicode.org/alloc/Pipeline.html ][Pipeline],15.1版和16版已经在准备了。据
[ www.unicode.org/versions/beta.html ],15.1版计划于 2023年7月4日 结束β轮审核,于 9月12日 发布。而我此前的 Monu Hani 9.5 已经支持了部分15.1版字符,也把路线图里预留区段名称汉化了……


等不及啦!咱们现在就要支持统一码16版的字体!

以前没机会,但现在我刚好有两个字体 Monu Last「典迹末境」 与 Monu Temp「典迹权暂」 可以达成这个目的。字体文件都已放在 [ github.com/MY1L/Unicode ]

「典迹末境」(下称「Last」)以前介绍过不止一次了,略,这次更新到8.120版以支持15.0.2版SMP、15.0.1版SIP\TIP路线图。

2EBF0..2EE4F; 中日韩统一表意扩充壬|CJK Unified Ideographs Extension I(预定)
38000..3AB9F; 篆书|Seal Script(暂改至当前)

原暂定在35400..36BFF甲骨区段没了😢

「Last」SIP\TIP的3处修改


而「典迹权暂」(下称「Temp」)如其名,这个是没辙了的四处取材混成字体。这类混合字体的技术难点在于如我以前所说,upm(每“—”长度置单位数)不同的字体没法无损合并的,需要特殊的技巧——不过外行不在乎内行不需要,此处略去。

看一下 [Pipeline],决定先支持这几个已正式被UTC或WG2接受的统一码16版预留区段:

105C0..105FF; 托兹里|Todhri
10D40..10D8F; 加拉伊|Garay
11BC0..11BFF; 苏努瓦尔|Sunuwar
16100..1613F; 古隆凯玛|Gurung Khema
16D40..16D7F; 基勒特赖|Kirat Rai
1CC00..1CEBF; 遗留电脑符号补充|Symbols for Legacy Computing Supplement
1E5D0..1E5FF; 奥尔奥诺尔|Ol Onal

以及不知道将来哪一版的区段:

11DB0..11DEF; 托隆西基|Tolong Siki

这下不仅支持还超越16版了😏


「Last」𐗢/u105E2:托兹里“ta”,即Todhri头文字

托兹里|又是牧师弄的一种阿尔巴尼亚+希腊字母表,下文会提及。[ www.omniglot.com/writing/todhri.htm ]右上角例图开头有误。

手写 与 叶密豪作衬线体

叶密豪衬线体“Uni105C0Todhri”与手写体差别较大,「Last」参考了手写体和 Noto 哈尼菲罗兴亚的【𐴀】

www.unicode.org/L2/L2020/20188r2-n5139r2-todhri.pdf,表见17页

「Temp」用了 Uni105C0Todhri-Regular,upm1000,手动补码。

巴别地图(BabelMap)使用「Temp」垫底的效果。该软件保留码位格子就是深灰色的。下同。
「Last」𐵙/u10D59:加拉伊大写“ga”,Garay头文字

加拉伊有点麻烦,这文字排版上太飘逸了,大写的占位巨大,「Temp」下次一定。

www.unicode.org/L2/L2022/22048-garay-script.pdf,表见16页,但「Last」参考7页手写 
「Last」𑯡/sunu.pvo:苏努瓦尔示瑞号

苏努瓦尔|尼泊尔和锡金用的文字之一,ISO 15924:Sunu。曾用名杰蒂切(Jenticha),统一码提案认为此名称不适合(Other candidates for the Unicode identifier are given below. Their lack of suitability for this purpose is also provided.)

www.unicode.org/L2/L2021/21157r-sunuwar.pdf,表见14页

「Temp」用了 AP 的 Sunuwar 0.7: 10-9-2021,upm1000,图略,形如上表。


「Last」𖄂/u16102:古隆凯玛“kha”,Khema头文…

古隆凯玛|也是尼泊尔和锡金用的文字。先前动态特意说过,且提问过译名,这里从略。

www.unicode.org/L2/L2022/22157-gurung-khema-script.pdf,表见14页

「Temp」用了 khema 2019,upm2048,手动转码。字体细节质量不佳,弧形拐弯是锯齿。

这里截图展示我其实画了2个字。常规字重,粗于khema 2019
「Last」𖵄/u16D44:基勒特赖“ka”,Kirat头…

基勒特赖|这个还是锡金……sil.org 为他们做了 OFL授权的字体 Kanchenjunga。上面那些“字体”不少是劣质的扫描版,而这个字体质量合格,不用重做了。

www.unicode.org/L2/L2022/22043r-kirat-rai.pdf,表见10页

「Temp」用了 Kanchenjunga Ver0.100,upm2048,图略,形如上表。


「Last」𞗐/olon.o:奥尔奥诺尔“o”,Ol Onal…

奥尔奥诺尔|统一码提案指出该文种其实还有一些在英语里比较不适宜的名称,和统一码已收录的 奥尔奇基|ᱚᱞ ᱪᱤᱠᱤ|Ol Chiki 与 纳格蒙达里|𞓧𞓟𞓨𞓜𞓕𞓣𞓚|Nag Mundari 有关。如果你看不见前面的2种文字,表示你需要到[ github.com/MY1L/Unicode ]下载几个字体安装了。

www.unicode.org/L2/L2022/22151r-ol-onal-script.pdf,表见11页,为了做这个O我仔细研究了手写体究竟是怎样的
实际「Last」字形是一笔画成,特意留个接头出来😏

「Temp」用了 Ol Onal Krishna,upm2048,手动转码。

需要斟酌无衬线体奥尔奥诺尔数字怎么画,才能与阿拉伯印度数字区分开


「Last」𑷁/u11DC1:托隆西基“ṭh”……

托隆西基|也是印度某些邦的文种。这个就不知道统一码哪一版会收了,应该早于篆书。

www.unicode.org/L2/L2023/23024-tolong-siki.pdf,表见13页
实际「Last」字形是一笔画成再补一杠,特意不留接头了😏

「Temp」用了 Uni11DB0TolongSiki : 16-12-2022,upm1000,字体质量极差,图略,形如上表。


咦,标题里提到的东方厨呢?

「Last」𜱲/u1CC72:向右张嘴的蛇头|RIGHT-FACING SNAKE HEAD WITH OPEN MOUTH

遗留电脑符号补充|这个区段还是对过去的各色微机符号作兼容,那时某些“图片”文件、游戏贴图实际是纯文本字符画。

www.unicode.org/L2/L2022/22016.htm#170-C15

‣ www.unicode.org/cgi-bin/GetMatchingDocs.pl?L2/21-235

 ‣ [ www.unicode.org/L2/L2021/21235-terminals-supplement.pdf ][21235]

8. Finiteness. We have received concerns that there may be no end to the number of unencoded characters found in old microcomputers and terminals, leading to no end of future proposals should these characters be accepted. We believe this is not the case, for the following reasons.

译:关于上限。常见担忧是,在旧微机和终端中发现的未编码字符数量可能无穷多,如果这些也被收录,未来的提案将永无止境。我们认为情况并非如此,原因如下。(下略)

统一码提案判断,过去的电脑符号不是无穷无尽也不是全都要收的,比如吃豆人游戏符号因为版权问题和克林贡文一样不能收。但贪吃蛇没得版权,因此该图一乐区段用贪吃蛇作为象征再好不过。

该 [21235] 提案涉及:

   2400..243F;控制图符(追加码位3个,表见21页)
   1CC00..1CEBF;遗留电脑符号补充
   1F800..1F8FF;增补箭头丙(追加码位9个,表见32页)
   1FB00..1FBFF;遗留电脑符号(追加码位,「Temp」都填满了)

为了增加说服力,提议者附了各种字证插图,比如这张看着像 DIYUSI,但衣服上却标着 MZ※ 的字符画:

[21235],42页,实际在上文未被提及

去年本打算拿上面这张图当车万图发动态钓鱼,但多翻两页就发现:这就是车万_00.txt(※ 指一种夏普 MZ 的“图片”格式),该角色种族是钓瓶落。这下钓到啦。

[21235],44页,thwiki.cc/琪斯美(キスメ,Kisume)实际在上文也未被提及,换言之,找这个图来贴的人就是想顺带给大家展示个人XP……

「Temp」主要用了提案者之一开发的 OFL授权字体 Kreative Square Ver2023.01.02,upm720,顺带一提 Noto 直接用了其绘制的遗留电脑符号

顺带一提其中控制图符是我原创的,请见顶部链接的专栏


现在,可以参照码表用「典迹权暂」拼出诸如托隆西基的“Tolong Siki(𑶻𑶳𑷑𑶳𑷎 𑷔𑶰𑷊𑶰)”或贪吃蛇,用「典迹末境」显示路线图码位。


那么,急的代价是什么?

代价是这些码位对应的字形完全没有保证,有被彻底推翻的可能。
比如这是2017年,位于当时路线图中的契丹小字

www.unicode.org/wg2/docs/n4795-jurchen.pdf 第3页

而2020年13.0正式版的契丹小字,没一个字的码位与上图一样。

www.unicode.org/charts/PDF/U18B00.pdf
www.unicode.org/pending/pending.html

Caution: use of proposed or accepted characters is at implementers' own risk; the repertoire and allocation of the characters may change before they are adopted in the Unicode Standard.

警告:使用路线图中建议的字符,其风险由使用者自行承担;码位分配在统一码标准发布之前不保证没变化。

还需注意:虽然「典迹权暂」有些字形是我画的,还有一些取自 OFL开放授权的字体,但你应当默认本字体几乎所有字形均无许可,自己学术研究用用就行了,不能以任何方式用于商业用途(used in any way in any product or publication)

而「典迹末境」就好使多了,是我的 OFL授权的字体。


题外话

我想以上可以解释为何我对人造语言(简称 Conlang)不感兴趣。现实中或历史上使用,却未被统一码接纳的文种实在太多太多,还想有生之年看到这些文种都被收录或拒收。
在我看来许多造语毫无创意,相比统一码路线图里有意思的文种不值得研究。顺带,我觉得国内某造语发明的一些字母与托兹里雷同。

能让我感兴趣的造语,其创意应当不低于 Undiine(波者鱼皮文;温蒂妮文),该造语可以做到:无法口头表达(non-verbal);限非人类智慧体使用("spoken" by non-human entities);在水中表述("spoken" underwater),除了字体设计不太行外,很有意思:
[ www.omniglot.com/conscripts/undine.htm ]

该智慧种族类似章鱼可以改变皮肤花纹,因此在水下是用大头上的鱼皮互相交谈的。右上译文:“洧句港句,沵滴尾鳍是真滴漂亮”

你已经学会 Undiine 了,请试试翻译一下上文吧

虚构作品中可作为三体人文种的设计借鉴。



急急如律…急着超统一码16版的字体「典迹权暂」・东方厨对Unicode的贡献的评论 (共 条)

分享到微博请遵守国家法律