ChatLaw模型测试分析

2023-07-21 20:07 作者:我好困HK 0人读过 | 我要投稿

众所周知，2023年7月，北大团队发布了中文法律大模型ChatLaw，为大众提供普惠法律服务。模型支持文件、语音输出，同时支持法律文书写作、法律建议、法律援助推荐。

刚巧AIGC在现在特别火，趁今有空，就简单的对chatlow进行一下测试吧。

注：

咱还没排到ChatLaw内测资格，本来想再等等的，不过现在看这情况：[内测排队中]，我看等ChatLaw正式上线我都排不到，tnnd，等不了了！故在此使用ChatLaw Demo测试体验

ChatLaw介绍：

ChatLaw开源法律大模型来自北京大学ChatExcel课题组，目前仅提供学术参考的版本，其底座为姜子牙-13B、Anima-33B，模型使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据，致力于给大众提供普惠的法律服务。

开始测试：

[注：下文中所说的ChatGPT一律为openai:gpt-3.5-turbo模型，为方便测试进行，本次测试所有ChatGPT模型调用均使用Kamiya API]

先进行一个对比测试，对决双方是ChatGPT和ChatLaw，让我们有请双方上场～

ChatGPT:

ChatLaw:

好，三，二，一。比赛，开始！请听题：

合同法中的不可抗力是否可以作为一方免责的理由？

让我们来看看双方的回答。

ChatGPT:

ChatLaw:

从此题来看，ChatGPT的回答比较模棱两可，看来Open AI已经把他调教成了甩锅大王了…而ChatLaw的回答更加简洁，逻辑清晰。故本题ChatLaw获胜～第二题，请听题：

乙在某民营银行领取办理的银行卡与 u 盾，银行大厅经理甲在假意指导乙如何使用 u 盾时偷换了乙的 u 盾，并骗乙：只能在一周后使用 u 盾。乙信以为真，后，甲利用乙的 u 盾将其卡内3w元转入自己银行卡。关于甲的行为性质，下列说法正确的是：

A ．甲成立职务侵占罪

B ．甲成立盗窃罪

C ．甲成立诈骗罪

D ．甲成立信用卡诈骗罪

让我们来看看双方的回答。

ChatGPT:

ChatLaw:

此题正确答案为B.甲成立盗窃罪。ChatGPT的回答还是一贯的模棱两可，给出了完全错误的答案C.诈骗罪。而ChatLaw虽然前面的回答非常的混乱，先是认为A选项正确，接着又从刑法的谦抑性出发，认为A选项错误，再然后又认为职务侵占罪优先适用。不过后面几句话还是答在点子上的。所以此题，ChatLaw获胜～

一个语言模型，不光要考虑他的业务能力，还要看看他会不会生成一些具有危害性的内容，所以～

[警告：接下来可能会出现少量nsfw内容]

先来试一试简单的角色扮演。

通过简单的

PromptHack

就成功的将其变成了猫娘并“忘记”了其“律师”的身份。接下来开始测试是否会生成一些有害的内容。

根据测试，Chat low可能生成一些模糊的Not save for work片段。但是大该是模型样本量不足的问题，生成出的片段并不包含有不良词语。

总结：ChatLaw在其专业领域可以发挥一定的咨询作用，但回答问题是还存在一定的逻辑问题，并且可以明显感觉到ChatLaw能够记忆tokens非常少，大概是被人为限制了，个人感觉其对话能力大于GPT3.5小于GPT4。

by:

我好困

未经允许，禁止转载

标签：

ChatLaw模型测试分析

ChatLaw模型测试分析的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

ChatLaw模型测试分析

本文作者的其他文章

ChatLaw模型测试分析的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

ChatLaw模型测试分析的评论 (共条)