真心求助,计算机小白,希望这个网站有愿意参与开源中文编程计划的志愿者。
问题是b站的专栏,如果我没记错,修改有次数限制。所以看情况吧。我也会在回复里讨论。
[吹水] 真心求助,计算机小白,希望这个网站有愿意参与开源中文编程计划的志愿者。
https://fishc.com.cn/thread-232332-1-1.html
(出处: 鱼C论坛)
https://tieba.baidu.com/p/8543682818?pid=148302576213&cid=0#148302576213
百度:汉字吧:这个吧有没有愿意自愿参加开源中文编程计划的?
附:<希望长久存在,国家,中科院都没解决,所谓砖家看不起的事情,我们来一起解决,打它们的脸,为中华民族为全中国人民做出杰出贡献吧>请不要水易语言。。第一这是开源,第二这不是文言文。
我给出的大致计划步骤是,第一阶段是建立基本的中文输入法,第二阶段建立编译器并且在保留中文的基础上把底层除了最基本的关键词外全部重写重定义一遍,并编写标准1.0,第三阶段,各种尝试技术突破关于硬件。看能否融合加入一些变化使之独立于原有的底层技术。前几步主要是解决有无能用和创新。第四步,目标c++这样的面向用户的。。第五步,增加功能。创建和升级中文系统。第六步继续改进。。
这本是一个大项目,望有耐心的看完。本人也非专业。但决不是水帖。我认为中文编程。科学发展。没有捷径可言。前人栽树后人才能乘凉。必须对汉语理解透,用新华汉语词典一个一个的过一遍才行。
以下并非一天一时讨论,也不是最终意见。需要讨论交流以及最终决定。意味着:可以修改。请不要灌水和发表无意义的支持或否定回复,目前请先考虑第一阶段。输入法设计。可以有钱出钱,有力出力,什么也没有也无妨,出个建议出个思考,出个知识,出个帮助人脉,联系,那怕是一分钟的思考也是帮助,说不定各位的一个想法,一个契机就是关键。。毕竟开源意味着成果可以继承。。我这个前浪死在沙滩上也未尝不可。只要不重复研究,能脚踏实地的进步就行。三年五年终有成功的一天。这个最先发表于贴吧,但是没人搭理。所以下文并非同一时间,今天一鼓作气,看到up的b站视频,来此网站赌一把有没有志向的。
最低目标也是弄一个新的输入法,可以在无需记五笔的情况下,在无需选1234567的情况下,通过声调和偏旁来精确到准确的字。核心逻辑(现写的):通过拼音和声调,以及随时可切换的笔画和部首以及部首的拼音、声调、笔画来精准的定位字和词语。
首先第一步,简体输入法。。输入法里的第一步,加声调里的第一步,单字和词语数据收集。。包括难检字。
比如(最初想法biru32,格式geshi24,0表示轻声,后分析认为不严谨,如果用作非编程用的比如windows输入法,倒是可以根据情况省略因为好打。方便用户,建议想办法兼容。)。先从新华汉语词典收录。。然后查重,看一下情况有没有和有多少特殊情况。biru有没有第二种拼音分段且满足音调相同(后论证比如bange,ban,ge/bang,e,第一种是穷举法限定词语包括音调,就是看中文里一共有多少冲突的全找出来,2组的,3组的。另一种是bi3ru2末尾直接加,)。包括多音字。第三阶段整合完成。
同时,我在这几天的思考中,认为如果使用两个键盘,一个中文,一个英文,配上相应的辅助软件。打字效果可能会更好。我觉得两个键盘绝大多数人应该买的起。如果频繁的切换中英文,应该比shift好使。
输入法计划第二阶段,单字精准加偏旁部首定位区分,以及部首精简化和多源定位。bi毕毕 弊bi4vbi_hps bi4vshsgsddpnphpn_hps bi4hebi
bieren22
bie ren,比如说u还是v,可以投票决定。。v的好处是拼音里没有v。u的好处是目前输入法通用u。以及u离手近。就看技术上有没有冲突的情况。如果没有冲突自然是u好。下面的比起自己的,也可以借鉴现有的一些输入法模式,然后定义吧。
比如,u开头目mmu(笔画多的部首),木mu(笔画少的部首),再比如v开头hspndtg,横竖撇捺点提勾拆分所有笔画。有一些比如登字头deng还是bo1,还是共同使用,有待商榷(来源百度搜索)。再比如土和士hsh1,hsh2,谁在前谁在后可以商榷定义,也可以根据情况直接加t或sh,比如hsh1tu,hsh1shi,对于非笔画的偏旁比如偏ps_bian3加下划线。当然如果引入中文编程计划第二部编译器,那么编译器可以自动补全一些,比如hsh1t补全为hsh1tu,因为有且只有一个。日,曰(a,b)(b,a)慢
(我先睡觉,晚上一点半了,下面的还没有修改)
输入法第三阶段,单字结合补全。比如,比bi3vbi,笔bi3vzhumao,bi3vzhu_phhshg,vzhu_mao,这个具体的还是得老老实实一步一步的把词典和字典汇总完才能得出结论。是用v还是u还是再加一个还是什么其他情况。
第四阶段,词语组合简略。比如br32,如果rug23,这个要找唯一性。
预计,人越多,完成的越快,据现代汉语词典说有6万余条。给它算7万。如果有100人,每天分别分段顺序弄100个字词。算上查验3周一个阶段。。,如果有一千志愿者,工序可以缩短为每人每天10个字词,或者每人60个字词,时长缩为3~5天?
统一txt,或者excel。。或者谁有更好的建议。。要弄的话可以讨论定义一下。
比如,比如 biru32
比 bi3
按理说,biru32,这个32应该能自动识别和分配到bi3,ru2。我对计算机并不是很了解。。这样打是为了考虑到最终的方便。实际的编码可能不是这样。我是说可能,这跟实现方式有关系。当然这都可以改。比如在bi3里找ru2有没有,还是找biru32。我觉得第一种可能好?只是可能。因为bi3和vsthpshg应该是等值的,最后比如utf-8之类的。或者咱们自己搞一套出来。看人数啦。如果咱们有一千个人,自己搞一套完全可以,如果就十来个人,那就直接拿已经开源的。。那有人会说,为什么不直接用开源的输入法呢?因为那些输入法并不能精确,或者说很难。用五笔,记不住,用拼音,经常遇到没有音调的,或者在开源和数据使用上有可能有问题。至于新华汉语词典。我觉得咬死参考。。不至于吧。。中国政府要连这都要管,那岂不是要收文字税?你说字体,我能理解。书本费或者印刷盗版能理解,但是这内容要是告我版权,那真说不过去。当然如果有人愿意参与,哪怕除了本人外只有一个人,也会告知一下,本人一个就不搞啦。。一本词典呢,你当我是神仙?想累死偶也搞个七八年?
字体可以寻找开源的技术支持,或者大家自己弄?只是一个比方,切勿抬杠。