欢迎光临散文网 会员登陆 & 注册

【知乎】我国自主研发的新一代通用处理器龙芯 3A6000 在京发布,具有怎样的意义?

2023-12-07 11:40 作者:小林家的垃圾王R  | 我要投稿

我国自主研发的新一代通用处理器龙芯 3A6000 在京发布,具有怎样的意义?还有哪些信息值得关注?


硫离子


在职学生

谢邀@夕仔

失传技术字幕组 等 549 人赞同了该回答


简单测了下3A6000:

直接说结论:同频ZEN2的0.93倍(以coremark计)。

实测能打minecraft

开光影常见mod,能玩辐射新维加斯,正在试辐射4。

同时开微信qqB站辐射新维加斯一点问题没有。

https://openbenchmarking.org/result/2311203-NE-2311191NE29

openbenchmarking.org/result/2311203-NE-2311191NE29

OrangePi4 Benchmarks [2311203-NE-2311191NE29] - OpenBenchmarking.org

https://openbenchmarking.org/result/2311203-NE-2311191NE29

openbenchmarking.org/result/2311203-NE-2311191NE29

胡乱分析一下:

库函数还是最大苦手,急待优化。

IO部分没再过多折腾,用的是114514年前的HT总线。没有PCIe直出。

好消息是核心部分真的不在受制于人了,坏消息是周边外设也就是个ARM水平。

无论如何,是个很了不起的进步。

公开回复下评论区某些带有偏见的先生:

某些先生选择的负载场景(运行游戏)其实是带有相当大的偏见的:

游戏所使用的更多为SIMD指令,更吃翻译性能损失,单纯选择性以游戏性能说事其实是相当局限的。

相比之下,笔者所测试的某业务运行软件(闭源、停止维护、推测以传统整数性能为主)在3A6000上运行的翻译效率则大致相当于E5V2到E5V3之间——正好是该软件原部署服务器的CPU。

因此,关于翻译效率究竟能达到何种地步,依然是要具体问题具体分析的,至少就我们业务应用来说,效率是相当的够用。

(当然下一代系统不需要二进制翻译就能原生部署,那就是另一个问题了)


编辑于 2023-11-30 18:29

评论回复

天马行空

龙芯能运行 x86 上的应用?

11-29 · IP 属地四川

22 条回复

硫离子

作者

有wine,打一打老游戏还是没问题的,更新的游戏还在测试中。

11-29 · IP 属地山东

Matterhorn

直接运行肯定不行。通过wine+x86翻译部分程序勉强能跑,但是效率不太高,目前x86翻译效率大概是原生性能的30%左右,大概也就LGA 775 P4的水平,看你的接收程度,十几年前的部分单机游戏跑起来还可以,对性能要求高的就没法搞了

11-29 · IP 属地浙江

硫离子

作者

Matterhorn

老一代辐射没问题,正在试辐射4,不如P4是某些人刻意构造的偏见性留言,当电子宠物看看就行。

11-29 · IP 属地山东

硫离子

作者

Matterhorn

目前来说我倾向于这玩意翻译后等效性能大致相当于E5V1-E5V2。

11-29 · IP 属地山东

Matterhorn

硫离子

那是原生性能,原生性能差不多等价3代酷睿i7,或者略低于10100或4790K,翻译性能现在基本就30%的水平,基本也就后期P4的水准了

11-29 · IP 属地浙江

Matterhorn

硫离子

至于你为什么会觉得有E5V1-E5V2,主要是因为大部分人装了windows上的各种安全软件,尤其是国产的安全软件,其次老设备大部分都是小内存或机械硬盘,导致大家认为老的Intel U性能比较差。实际上老U+固态硬盘+大内存装linux性能一点都不差。

典型举个例子,之前有人和我犟,q9650没法开大几十个网页+B站播放视频,他觉得会卡,结果我用q9650开了大几十个网页+B站视频,CPU占有率才十几

11-29 · IP 属地浙江

gooong

Matterhorn

后期P4比三代i7那也是频率低不少,核心少3个,IPC稀烂的存在啊

p4怎么可能有三代i7 30%水平

11-29 · IP 属地江苏

Matterhorn

gooong

多核性能肯定没有,我说辞不严谨,应该说单核性能

11-29 · IP 属地浙江

硫离子

作者

Matterhorn

至于我所说的相当于E5V1-V2,很遗憾那就是转译性能,是基于我业务运行相关软件性能测试所得出的结论,原生性能目前我的测试结果是于不亚于ZEN2

11-29 · IP 属地山东

硫离子

作者

Matterhorn

备注:以上性能均为单核性能

11-29 · IP 属地山东

硫离子

作者

Matterhorn

我认为您所预设的使用场景存在较为严重的偏倚,不符合我们业务中所使用的实际场景。

11-29 · IP 属地山东

Matterhorn

硫离子

老游戏都是走单核,尤其是2010年前的老游戏,都是单核优化为主,所以以你跑游老游戏的场景来说这样对比并不偏倚。要验证这个问题很简单,你把6000转译后能跑的最吃性能游戏列出来,我来用pd 950来跑,看看能不能跑的起来。

另外之前小胖实际上也测试过,6000转译跑鬼泣4 卡的不行,鬼泣4的最低要求可就Core2 Duo 2.4Ghz。pd 950 IPC是酷睿e系列的一半左右左右,3.4Ghz的pd差不多等价e系列1.8-1.9Ghz的样子

11-30 · IP 属地浙江

Matterhorn

硫离子

应该是鬼泣4特别版,打错字了,鬼泣4对性能要求很低的

11-30 · IP 属地浙江

Matterhorn

硫离子

另外你玩的辐射新维加斯,是2010年的老游戏,推荐的CPU也才Core Dual2.0Ghz而已,这个性能pd 950跑跑一点问题都没有的

11-30 · IP 属地浙江

硫离子

作者

Matterhorn

大致思考了一下您的问题所在:考虑到您的能力有限,您只对游戏这个场景进行了选择性的测试,而忽视了其他应用场景的性能表现。事实上游戏的负载特性跟我们业务应用的负载特性差异是很大的。

11-30 · IP 属地山东

硫离子

作者

Matterhorn

事实上,“只测游戏”这个选择本身就存在着严重的偏倚,甚至可以说是完全偏离了我们所应用的业务场景,我想这也是我们最大的分歧所在。

11-30 · IP 属地山东

硫离子

作者

Matterhorn

我又思考了一下您提的这个问题。目前来看loongarch翻译的短板应该集中在SIMD上,而游戏中需要使用大量SIMD指令,因此这个现象相比之下较为突出,而我们的工作负载并没有使用多少SIMD指令,所以说相比之下翻译结果好看的多。

11-30 · IP 属地山东

Matterhorn

硫离子

你知道为什么龙芯x86转译性能上不去不?这个要从这几个方面来说:
1、龙芯宣传原生性能的时候,是开了微架构专属优化的,而x86二进制代码显然不可能用6000的微架构做专属优化;
微架构优化这个东西对当前微架构是有性能提升的,但是对于非本架构大多数时候是负面作用。但是对于龙芯目前不好评论好坏,龙芯桌面和服务器目前就6000(la664)和5000(la464)两种微架构,从规划看3b6000架构不会大改,而7000目前的规划微架构也不会大改,主要是工艺提升,所以2-3年内,这个优化对la664或小改版本会一直有效。至于5000实际上并不重要,5000出货量很小;同样对翻译x86性能无效;
如何验证龙芯的微架构优化,你可以用如下的参数去编译spec等跑分程序,可以发现开启微架构优化的test2可以提升12.3%左右性能:
loongson 3A6000 Test1 ->
GCC 8.3 -Ofast -static -flto -march=loongarch64 -mtune=loongarch64 -mlsx -mlasx -funroll-all-loops
loongson 3A6000 Test2 ->
GCC 8.3 -Ofast -static -flto -mcond-move-int -mforce-drap -mvecarg -march=la664 -mtune=la664
-msimd=lasx -ftree-vectorize -funroll-all-loops
intel和AMD实际上也有微架构专属优化,但是一般不怎么使用,因为x86这边历史包袱重,有各种各样的历史微架构,而微架构优化对其他微架构是有负面作用的。
2、龙芯内部有个未公开源码的gcc,用这个gcc编译的spec跑分会比用龙芯官网下的gcc编译的spec跑分高7%;而x86显然不可能用龙芯优化后的gcc来编译
3、loongarch指令集本身的优化,你要知道x86、MIPS这些指令集实际上是个古董,而loongarch是新设计的,所以在指令密度上loongarch天然有优势,按照龙芯相关论文,loongarch平均指令密度比MIPS要高7%,但是如果你翻译x86,就得接受x86又臭又长的历史包袱,你的优势就没了

所以即使龙芯真能实现宣传的80%翻译性能,实际上对外表现最多也就原生性能的60%(减掉微架构专属优化12.3%,减掉loongarch指令密度带来的7%)

所以这个也就是为什么龙芯原生性能很强,但是一到了x86翻译,却怎么也达不到预期的80%翻译性能,甚至80%的一半很多时候都达不到

11-30 · IP 属地浙江

Matterhorn

硫离子

你的回复被知乎吃了

12-01 · IP 属地浙江

硫离子

作者

Matterhorn

我这里能看到欸

12-01 · IP 属地山东

Matterhorn

我关注的人

硫离子

硫离子回复了回答下你的评论· 12:59
该内容被删除
该内容被删除

硫离子回复了回答下你的评论· 12:58
我国自主研发的新一代通用处理器龙芯 3A6000 在京发布,具有怎样的意义?还有哪些信息值得关注?
<p>我这里能看到欸

</p>

又被吃了....

12-01 · IP 属地浙江

Randname

有翻译专用指令集,有翻译支持包,装完直接就能运行x86软件。

12-03 · IP 属地辽宁


117 条评论

默认

最新

红茶剑客

核心部分不再受制于人就行,其他的慢慢来,加油

11-28 · IP 属地黑龙江

HJ教育家

加油!

11-28 · IP 属地陕西

像风自在飞

政府机关和事业单位必须要带头用起来,才能慢慢把生态完善。期待单位电脑全换国产

11-29 · IP 属地未知

为了呜喵王

像风自在飞

因为政府部门从好几年开始就开始换国产芯片的电脑了

11-29 · IP 属地重庆

等你到荼蘼

实际上政府部门(信创)龙芯的份额反而降低了。

11-29 · IP 属地天津

蓝精灵

单核性能不是比一代的R7 1700强? 1700我都用着蛮爽,那龙芯拿来办公、游戏、视频也毫无问题! 当然要是推出8C16T、16C32T面向消费市场的就更完美了!

11-28 · IP 属地重庆

马鹿

性能家用够了,主要是生态。

11-28 · IP 属地山东

不打码

主要是频率,ipc性能挺好了。目前最大的问题是主频,但是能超,华硕给开发了主板,能干到3.5G可用性很强了,如果到时候来个小改款,能弄到4G,那就是纯纯现代CPU了

11-28 · IP 属地广东

不禅

发动机都造出来了,还担心刹车油门造不出???

11-29 · IP 属地北京

gooong

AMD:不仅造不出,还能搞二仙桥倒退呢

。这些玩意吧,迟早能造出来只不过也不是天上掉下来的

11-29 · IP 属地江苏

HuHuHugo

看了最新的华硕3a6000的主板,超频到3g,功耗才不到一百w,可惜最高只给3g,如果能超频到3.5,估计不到两百w能成,这次的提升真的很巨大

11-29 · IP 属地广东

HuHuHugo

到月亮的距离

对的,我觉得如果后续升级BIOS的话,最多上到3.5。4g的话很难,这是指数级的上升。

12-01 · IP 属地广东

到月亮的距离

HuHuHugo

已经拿到解3G频率的BIOS了,常规散热上4G应该不可能了

12-01 · IP 属地山东

军民团结如一人

龙芯跑coremark一般,相当于3g的skylake

11-28 · IP 属地北京

硫离子

作者

我怀疑他编译器优化水平拖后腿了,coremark很吃编译器优化

11-28 · IP 属地山东

硫离子

作者

事实上你强制性开-O0他甚至能顶一下ZEN3,但是开-O3马上拉跨,所以说我认为它编译器还有很大的优化空间可走。

11-28 · IP 属地山东

我去找那个谁

不说民用,就那么多国企政府的使用量就够搭半套生态的吧。包括摩尔得显卡,目前国产电脑的核心显卡处理器都已经到了18年初的中高端水准了。对比1800x+1080。速度还是不错的,记得疫情间的那个处理器才到二代酷睿。。。

11-29 · IP 属地江苏

Lear-gooze

我不太懂啊,请问CISC和RISC比同频性能是合理的吗?或者说,这种比较能说明哪些问题?

11-28 · IP 属地上海

Eidosper

我关注的人

现在所有cpu内部都是risc,区别只是前端译码电路。

主频和流水线层数、工艺有关系,和x86这种6发射深流水线的设计比同频应该不是特别合理,但龙芯也没有苹果那样弄9发射,所以比起来也不是特别合理。

11-28 · IP 属地四川

硫离子

作者

Eidosper

毕竟老胡还是偏学术风

11-29 · IP 属地山东

Jason

这玩意怎么玩 辐射:新维加斯?

11-28 · IP 属地美国

硫离子

作者

wine转译

11-29 · IP 属地山东

蒙脱石

Zhangs

这不就回了

11-29 · IP 属地河南


【知乎】我国自主研发的新一代通用处理器龙芯 3A6000 在京发布,具有怎样的意义?的评论 (共 条)

分享到微博请遵守国家法律