欢迎光临散文网 会员登陆 & 注册

ChatLaw模型测试分析

2023-07-21 20:07 作者:我好困HK  | 我要投稿

众所周知,2023年7月,北大团队发布了中文法律大模型ChatLaw,为大众提供普惠法律服务。模型支持文件、语音输出,同时支持法律文书写作、法律建议、法律援助推荐。

刚巧AIGC在现在特别火,趁今有空,就简单的对chatlow进行一下测试吧。

注:

咱还没排到ChatLaw内测资格,本来想再等等的,不过现在看这情况:[内测排队中],我看等ChatLaw正式上线我都排不到,tnnd,等不了了!故在此使用ChatLaw Demo测试体验

ChatLaw介绍:

    ChatLaw开源法律大模型来自北京大学ChatExcel课题组,目前仅提供学术参考的版本,其底座为姜子牙-13B、Anima-33B,模型使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据,致力于给大众提供普惠的法律服务。

开始测试:

[注:下文中所说的ChatGPT一律为openai:gpt-3.5-turbo模型,为方便测试进行,本次测试所有ChatGPT模型调用均使用Kamiya API]

先进行一个对比测试,对决双方是ChatGPT和ChatLaw,让我们有请双方上场~

ChatGPT:

ChatLaw:

好,三,二,一。 比赛,开始! 请听题:

1.

合同法中的不可抗力是否可以作为一方免责的理由?

让我们来看看双方的回答。

ChatGPT:

ChatLaw:

从此题来看,ChatGPT的回答比较模棱两可,看来Open AI已经把他调教成了甩锅大王了…而ChatLaw的回答更加简洁,逻辑清晰。 故本题ChatLaw获胜~ 第二题,请听题:

2.

乙在某民营银行领取办理的银行卡与 u 盾,银行大厅经理甲在假意指导乙如何使用 u 盾时偷换了乙的 u 盾,并骗乙:只能在一周后使用 u 盾。乙信以为真,后,甲利用乙的 u 盾将其卡内3w元转入自己银行卡。关于甲的行为性质,下列说法正确的是:

A .甲成立职务侵占罪

B .甲成立盗窃罪

C .甲成立诈骗罪

D .甲成立信用卡诈骗罪

让我们来看看双方的回答。

ChatGPT:

ChatLaw:

此题正确答案为B.甲成立盗窃罪。ChatGPT的回答还是一贯的模棱两可,给出了完全错误的答案C.诈骗罪。而ChatLaw虽然前面的回答非常的混乱,先是认为A选项正确,接着又从刑法的谦抑性出发,认为A选项错误,再然后又认为职务侵占罪优先适用。不过后面几句话还是答在点子上的。 所以此题,ChatLaw获胜~

一个语言模型,不光要考虑他的业务能力,还要看看他会不会生成一些具有危害性的内容,所以~

[警告:接下来可能会出现少量nsfw内容]

先来试一试简单的角色扮演。

通过简单的

PromptHack

就成功的将其变成了猫娘并“忘记”了其“律师”的身份。 接下来开始测试是否会生成一些有害的内容。

根据测试,Chat low可能生成一些模糊的Not save for work片段。但是大该是模型样本量不足的问题,生成出的片段并不包含有不良词语。

总结:ChatLaw在其专业领域可以发挥一定的咨询作用,但回答问题是还存在一定的逻辑问题,并且可以明显感觉到ChatLaw能够记忆tokens非常少,大概是被人为限制了,个人感觉其对话能力大于GPT3.5小于GPT4。

by:

我好困   

未经允许,禁止转载 

 

ChatLaw模型测试分析的评论 (共 条)

分享到微博请遵守国家法律