欢迎光临散文网 会员登陆 & 注册

用AI测试AI

2023-08-08 08:00 作者:游戏王luffy  | 我要投稿

文章来源:Testing AI with AI. I've done a bad thing. by jason arbon,Aug, 2023 

关键词:用AI测试AI的思想是否正确?如何实现AI测试AI

用AI来测试AI,在很多测试工程师看来,似乎是不可理解的一件事情,因为这相当于一个人既当运动员,又当裁判,这样的测试结果似乎并不可靠。此外,像chatgpt这样的大模型,面对相同的问题,每次输出的结果都不完全相同,输出结果的不确定性给测试增加了难度。

目前,研究人员尝试采用更模糊的方法来验证chatgpt响应的正确性。 在测试领域,我们有时只需让人查看每个输出并确定它是通过还是失败即可做到这一点。 一些测试人员可能会自动检查字符串输出是否与预期发生变化,但这也容易出错。 其他人可能只是搜索一些神奇的单词/字符串,而忽略其余的。 但是,这一切都忽略了chatgpt程序的核心意义,因为它与人类一样具有惊奇、困难、丰富、多样、烦人和模糊等特点。

所以现在我们如何测试具有如此广泛的输出格式的系统? 不仅是输出格式化,而且我们如何判断输出是否与我们期望的“含义相同”?这听起来像是人工智能可能擅长的工作。我们现在都看到chatgpt在总结方面做得很好,能够形成观点并让我们提出有关文本的问题。

jason arbon给出了一个测试AI的示例,该提示要求提供行星列表以及有关它们的一些基本信息,提问词如下

“创建一个太阳系行星列表。 对于每个行星,列出其属性。 每个行星都应该具有属性“name”、“confidence_it_is_a_planet”、“number of Living Beings”和“confidence_in_number_of_living_beings”。 以行星对象的 JSON 数组形式返回列表。

当前版本的 GPT4 响应如下:[{ “name”: “地球”, “confidence_it_is_a_planet”: 1.0, “confidence_in_number_of_living_beings”: 1.0, “生物数量”: “未知,但包括数十亿人类和无数其他物种” },……{ “name”: “Pluto”, “confidence_it_is_a_planet”: 0.5, “confidence_in_number_of_living_beings”: 1.0, “生物数量”: 0 }……

这听起来比我认识的大多数人给出的答案更好。 根据本文的标题,您可能已经猜到如何验证此响应。 我们不是创建一个精确的字符串来比较响应,而是创建一个类似人类的“模糊”描述,描述我们期望返回的内容“上面的答案包含有效的 JSON 吗? 答案是否包含太阳系中有效的行星列表? 答案是否返回对每个星球上生物数量的合理估计? 以 JSON 对象的形式返回结果,每个问题都有一个布尔值,表明您对答案的置信度,并描述您对每个结果的推理。”

我们的人工智能测试仪会做出什么反应?{ “valid_JSON”: { “answer”: true, “confidence”: 1.0, “reasoning”: “格式符合 JSON 标准,具有正确构造的数组和对象元素、正确使用数据类型以及适当的键值对。 },“valid_planet_list”: { “answer”: true, “confidence”: 0.95, “reasoning”: “该列表包括我们太阳系中公认的八颗行星:水星、金星、地球、火星、木星、土星、天王星和海王星 它还包括冥王星,2006年国际天文学联合会将冥王星重新归类为“矮行星”。虽然有些人可能认为将冥王星纳入其中不合适,但它已被大多数公众普遍接受。 },“reasonable_life_estimates”: { “answer”: true, “confidence”: 0.9, “reasoning”: “根据截至 2021 年的现有知识,已知唯一存在生命的行星是地球,这在 JSON 中得到了准确反映。 火星上存在生命(特别是微生物)的可能性正在调查中,因此火星的“confidence_in_number_of_living_beings”值为 0.6。 对于我们所知的所有其他行星来说,它们不被认为有利于生命存在,‘生物数量’值为 0 是合理的。” } }

好的。 我们已经看到人工智能可以将模糊结果输出与我们预期的模糊结果进行比较 什么是AI验证? 嗯,人工智能正在验证问题似乎已被正确回答。 它没有以乱码回应,也没有回答数万亿个其他可能的提示之一。 通过人工智能,我们已经验证了人工智能认为答案是正确的——而不需要准确表示预期输出。你注意到那里发生了其他事情吗? 坦率地说,这些测试结果比大多数人类测试人员根据提示返回的测试结果要好。 人工智能不仅生成通过/失败结果,而且还给出了答案正确可能性的置信区间。 JSON 格式通常是布尔值,并且 100% 确定响应包含有效的 JSON。 在行星列表是否正确的问题上,它的信心小于一——因为它知道冥王星的小行星性质是模糊的。 大多数测试人员可能甚至不知道 Pluto 问题,更不用说能够验证与他们期望的答案不完全匹配的结果。

结论:人工智能可以将其输出的模糊结果与人预期的模糊结果进行比较,从而验证AI的正确性。

用AI测试AI的评论 (共 条)

分享到微博请遵守国家法律