面向未来的智能对话新体验—Claude2

2023-07-14 18:09 作者:AI研习所 0人读过 | 我要投稿

Claude助手发展历史

Anthropic 公司是由OpenAI前研究副总裁带领10名OpenAI前员工于2021年成立的。这里面既有GPT-3首席工程师Tom Brown，也有OpenAI安全和政策副总裁Daniela Amodei，可以说是带走了相当一批核心人才。出走成立新公司的原因之一，自然是对OpenAI现状并不满意。从前几年开始，微软频频给OpenAI注资，随后又要求他们使用Azure超算来搞研究，而且将技术授权给微软，甚至为微软自己的投资活动筹集资金。这与OpenAI创立的初衷相悖，一批员工便想到了离职创业。当然，还有一部分原因是这群人想做能控制、可解释的AI，说白了就是先搞明白AI模型背后的原理，从而在提供工具的同时设计更多可解释的AI模型。于是，在OpenAI彻底变成“微软揽钱机器”后，他们便从这家公司离开，创办了Anthropic。Claude目标是成为一个安全、接近人类价值观且合乎道德规范的AI系统。目前(2023年4月)Anthropic目前团队大约80人，融资额超过13亿美元，估值达到41亿美元。Claude是在Anthropic自主研发的大型语言模型Create基础上设计打造而成。Create使用Anthropic自行收集的巨大多样化训练集进行训练,并采用了原创性的自监督学习方法。相较于ChatGPT背后的GPT模型采用的监督学习方式,这种方法更能促进模型对各种场景的泛化理解,强化常识推理能力,更好地学会人类交互模式。经过持续迭代优化,Claude助手已经发布了多版本,当前最新版本集成了Create的最新能力,可以提供流畅、知识丰富、上下文关联的英文语音交互体验。模型方面,Anthropic宣称其规模已经超过175亿参数,相当于GPT-3的1.5倍。

Claude功能更新

体验网址：https://claude.ai/

一次记忆10万token，相当于75000个单词

Claude 的上下文窗口从 9K token 扩展到了 100K token（Claude 2 已经扩展到 200K token，但目前发布版本仅支持 100K token）。升级后的Claude-100k版本，对话和任务处理能力得到极大提升。一方面，是“一次性可处理文本量”的增加，直接拓宽了Claude的可从事岗位类型。之前，大模型最多用来处理几十页的文档。现在，Claude已经能速读公司财报年报、技术开发文档、识别法律文件中的风险、阅读上百页研究论文、乃至于处理整个代码库中的数据。最关键的是，它不仅能通读全文总结其中的要点，还能进一步完成具体任务，如写代码、整理表格等。Claude可以是你的「代码伴侣」,分分钟就能做个演示。比如,上传一个240页的Langchain API文档,让它基于这个文档用Anthropic的语言模型做一个Langchain的简单演示。

此外,Claude100k还能处理大约6小时的音频量。比如说,把一个马斯克的播客内容转录成了58k个token量的文本,然后用Claude进行了总结和问答。另一方面则是“记忆力”的增加，带来了对话题掌控度的提升、以及聊天能力的提升。此前大模型经常会出现“聊着聊着忘了话题”的情况，对话窗口总字数超过几千字后，开始胡言乱语。但现在，拥有一次10万+个token记忆力的Claude，则不太可能出现这种情况，反而能牢牢记住和你聊过的话题，连续交谈上好几天。

Claude 的训练数据主要是英语，但 Claude 2 的训练数据中非英语数据比例已经明显增加。经测试发现claude对中文的理解能力相对于chatgpt要好很多。
Claude 2 的训练数据包括 2022 年和 2023 年初更新的数据。这意味着它在互联网新闻等方面了解的更多。

性能测试

在标准基准上评估测试了 Claude 2、Claude Instant 1.1 和 Claude 1.3，包括用于 python 函数合成的 Codex HumanEval、用于解决小学数学问题的 GSM8k、用于多学科问答的 MMLU、针对长故事问答的 QuALITY、用于科学问题的 ARC-Challenge、用于阅读理解的 TriviaQA 和用于中学水平阅读理解与推理的 RACE-H，具体的评估结果如下表所示：

值得注意的是，Claude 2 生成代码的能力有了明显的提升，在 Codex HumanEval 上的得分从 56% 上升到 71.2%。该研究还用几个常见资格水平考试的题目测试了 Claude 2 的实际能力。首先，Claude 2 在美国律师资格考试（Bar Exam）的多项选择题测试中得分率为 76.5%，高于 Claude 1.3 的 73.0%。

其次，研究团队还用美国研究生入学考试（GRE）测试了 Claude 2 的能力水平，Claude 2 在 GRE 阅读和写作考试中的得分高于 90%，在定量推理方面已达到了参加 GRE 考试的考生的中位数水平。

最后，该研究还在美国医师执照考试（USMLE）题目上测试了 Claude 2

Anthropic 表示，人工智能写作平台 Jasper 和代码导航工具 Sourcegraph 等公司已开始将 Claude 2 纳入其运营中。

总结

综上,我们可以看出,在人工智能领域,Claude 2凭借其卓越的自然语言理解能力、丰富知识问答以及友好交互,已成为一个不可忽视的强力新竞争者,在许多方面领先于当前最热门的ChatGPT。Claude 2的出现给人机交互带来新的思考和可能。相信未来随着其能力的不断提升,它必将给我们带来更加智能、更加人性化的语音交互体验。面向未来的智能对话新体验—Claude2

标签：AI 大模型 aigc 人工智能

面向未来的智能对话新体验—Claude2

面向未来的智能对话新体验—Claude2的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

面向未来的智能对话新体验—Claude2

本文作者的其他文章

面向未来的智能对话新体验—Claude2的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

面向未来的智能对话新体验—Claude2的评论 (共条)