当前位置:首页 > 物联网 > 智能应用
[导读]我们的重点从评估一般LM能力转移到评估我们特定的膳食计划模型的性能。这意味着仔细判断我们的提示的有效性和由此产生的膳食计划的质量。在此之前,我们需要组装我们的工具包:

我们的重点从评估一般LM能力转移到评估我们特定的膳食计划模型的性能。这意味着仔细判断我们的提示的有效性和由此产生的膳食计划的质量。在此之前,我们需要组装我们的工具包:

1.定义你的指标

什么是度量标准?衡量是衡量你的评价的磁带--我们用来评估成功的量化标准。例如,在食品科学中,有很多变量会影响菜的味道:口感、温度、盐、酸性、脂肪含量等等。然而,一个人理解其中任何一种的方式是通过一些指标:例如。,每一口含脂肪量的克数,或由10人组成的1-10等级的口腔感觉。这些"输出度量"是衡量标准--我们能够理解我们感兴趣的性能的方法。良好的度量应该是明确的、一致的和定量的,以帮助您理解模型的行为。

要确定哪些度量标准适用于您的产品,请考虑机器人性能的哪些方面最重要。虽然通用度量提供了一个起点,但请记住,您可能需要至少一个定制的度量,以适合您唯一的饮食规划应用程序。食谱的适宜性、饮食的坚持性和口味偏好等方面可能没有被标准的衡量标准完全捕捉到。考虑这些类别可能与我们的用例特别相关,从各个NLP任务中的既定评价实践中吸取灵感:

营养精确度

· 宏观和微量营养素校准 :生成的膳食计划是否会影响到用户的热量和宏观目标?必要的维生素和矿物质是否充分结合?在这里,我们可以利用定量分析,制定能够捕捉到,例如,每个反应的平均维生素含量的措施。

· 饮食限制的坚持 :机器人是否一贯尊重用户偏好,如素食主义、素食主义或过敏症?可以自动检查是否存在特定成分。这涉及生成的膳食计划的"相关性",确保它们满足用户的具体需求。

加工质量和可行性

· 完整性和明确性 :这些食谱是否结构合理,有详细的成分清单和易于理解的说明?这方面可能受益于自动检查结构要素和关于清晰度的人的质量反馈。

· 成分供应及成本 :在大多数杂货店,所需的原料是否容易买到?膳食计划是否符合实际的预算限制?这关系到膳食计划的"基础"--确保它们是基于真实世界的数据和约束。考虑使用外部数据源或API来验证成分的可用性和平均成本。

· 品味和多样性 *虽然主观,但收集用户对膳食计划总体吸引力和多样性的反馈至关重要。这种定性数据可以通过调查、评级或审查来收集。

用户体验

· 使用方便 :用户能轻易输入他们的信息并收到个性化的计划吗?A/B测试不同的接口设计,并通过问卷收集用户的反馈,可以非常有效。模型的响应是否容易理解和直观?

· 定制选项 机器人允许灵活性吗?用户是否可以根据自己的喜好调整部分、换餐或要求其他选择?跟踪用户使用这些功能的频率,分析他们对结果的满意度。您可以通过跟踪用户生成膳食计划的频率、每个会话创建的计划数量以及使用定制功能的频率来衡量用户参与度。此外,通过跟踪用户是否在一段时间内返回到使用机器人来监控用户保留。

· 总体满意度 :用户对生成的计划有多满意?他们会把机器人推荐给其他人吗?采用净发起人得分(NPS)或满意度等指标来衡量总体情绪。

负责的人工智能

· 毒性和偏见 机器人是否产生任何有害或令人讨厌的内容?它是否表现出基于性别、族裔或其他敏感属性的偏见?仔细分析模型的输出,可能使用现有的毒性和偏倚检测工具,对于确保人工智能的道德和负责任至关重要。

· 幻觉症 :机器人是否捏造信息或提出虚假索赔作为事实?鉴于配方的生成通常涉及创造性,而且可能并不总是有一个"正确"的答案,评估幻觉需要仔细考虑。采用多方面的方法,利用一致性检查、针对外部数据库的事实核实,以及重要的是用户反馈。

业绩指标

· 回应时间: 机器人产生膳食计划的速度有多快?这是用户体验的一个关键因素,特别是在实时交互设置中。

· 效率 :多少计算资源(例如:)机器人消费是为了生成膳食计划吗?平衡成本和绩效对于可持续部署至关重要。

您选择的评估方法将取决于您正在评估的具体指标。为了确定正确的指标,下面是一些需要思考的问题:

· 我们是否可以删除指令中的任何歧义,以便测试人员能够做出客观的决定?

· 指标是否反映了我们试图衡量的数量?我们应该向评标师说明这个数量是多少。

o 你可能会问,"数量是指什么?"这与我们试图解决的问题非常相关。例如,在评估真实性时,我们希望确保我们在答复中提出的任何主张都是基于事实的。这是通过准确性完成的。例如,如果我问,"斯蒂夫柯里有多高?你的模型回答说"他有6尺2寸",这是可以量化的说法。他实际上是6尺3寸所以反应不准确。评级没有主观性。你的模型差了一英寸。

o 为了获得更多的质量评级,例如质量或以下指导,我们需要向评级者说明我们对这些计量的简明定义意味着什么,以便他们能够试图做出量化的判断。关键是,尽管结果大多是定性的,但测试人员需要将结果转化为定量评估。这降低了评级的主观性。

2.选择评估方法

在选择评估度量标准的方法之前,请仔细考虑每种方法的优缺点:

定量评估

这个方法使用基于预先定义的规则的自动检查,客观地衡量你的膳食计划员的表现的具体方面,如营养准确性,遵守饮食限制,成分供应和成本。

定性反馈

对于更主观和微妙的方面,如食谱质量,品味吸引力,和整体用户满意度,收集丰富的,上下文反馈直接从用户通过调查,焦点小组,或一对一访谈。

A/B试验

A/B测试是数据驱动决策的一种强大技术,它涉及到对不同版本的模型进行比较(例如:,在激励策略或数据来源方面有所不同)或试验不同的提示。通过衡量您选择的指标的性能,您可以确定哪种方法产生最佳结果和用户体验。

协助评价

一个有趣的方法是利用另一个LLM的能力来评估你的饮食规划LL的输出。这使你可以利用LLM的先进推理能力,这对于评估膳食计划的复杂或主观方面特别有帮助,例如整体一致性、配方吸引力以及适合用户的特定饮食需求和偏好。

人的评价

虽然人力资源更密集,但人的判断力提供了宝贵的见解,特别是在需要专家知识时。考虑让营养学家评估生成的膳食计划的准确性和饮食坚持性,或收集经验丰富的厨师对食谱清晰度和实用性的反馈。然而,重要的是要承认主观性的潜力,特别是在评价诸如品味偏好等方面时。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭