当前位置:首页 > 物联网 > 智能应用
[导读]你已经阅读了这个理论,了解了数据的重要性以及所有可以使用的方法。我们准备好开始创建数据集了吗?呃,没那么快。我们需要确保我们了解问题空间,并使用它来确定我们甚至需要什么数据。

你已经阅读了这个理论,了解了数据的重要性以及所有可以使用的方法。我们准备好开始创建数据集了吗?呃,没那么快。我们需要确保我们了解问题空间,并使用它来确定我们甚至需要什么数据。

用户体验

以人为本的设计 是一个原则,它总是从用户和他们的需要开始考虑(而不是技术、政策或其他外部因素)。这可能是一个非常令人兴奋和有益的活动,以更好地了解目标用户和如何服务他们。确保用户体验预期是明确的,也可以通过确保团队中的每个人都能适应相同的成功定义来降低建模项目的风险。

在澄清用户身份时要问的一些问题包括:

· 我们需要从用户那里得到什么信息?

· 提供的信息是开放式的还是某种结构化的?

· 模型应如何响应信息不完整的提示?

· 我们的输出应该是结构化的,还是以散文的形式?

· 我们是否应该总是生成输出,或者有时要求用户澄清或提供更多信息?

在我们的案例中,我们将坚持开放式输入和结构化输出,以允许用户灵活性,同时保持可预测性。我们将避免后续行动,以降低我们的概念证明的复杂性。

现有各种技术和指南 在别处 帮助建模团队通过更好地理解用户来制定更好的需求。

实体关系图

ER图显示了系统中涉及的所有实体和关系,是理解系统、用例等的一个非常强大的工具。画一幅用例的图片,我们可以使用ERDS来精确了解我们需要捕捉的数据,同时确保我们没有盲点。

创建ER图的过程很简单:写出所有你能想到的与应用程序相关的实体(名词)。然后写出他们之间的关系,就这样!实际上,这是经过几个回合完成的,但它创建了一个丰富的工具,对理解和交流您的系统都有用。

下面是我们为雷佩巴迪绘制的急诊室图:

我们的关系很简单,所以 相当复杂的 .

数据集属性

等等!我们还需要对我们的数据集做出更多的决定。下面是一些考虑因素,但您必须深入思考您的用例,以确保您涵盖了您的数据集的所有基础。

数据集类型

在本系列中,我们坚持收集和培训SFT数据,但正如我们之前所述,有许多不同类型的数据需要培训。

输入和输出属性

在建模中,需要考虑的输入变量的数量和生成输出的变量数量是重要的考虑因素,也是衡量用例复杂性的指标。在决定这一点时应该非常谨慎,因为这将影响到你需要包含在数据中的多种情况,并影响到你需要收集的数据量(这也将影响到所需的计算,从而影响到训练你的模型的成本)。

在我们的案例中,让我们使用以下输入:

· 年龄

· 高度

· 重量

· 活动水平

· 饮食限制

· 个人偏好/目标

在输出量上,让我们包括多餐的每日膳食计划,并为每顿膳食提供具体的指导:

· 早餐

· 午餐

· 晚餐

· 小吃1

· 小吃2

每餐:

· 碳水化合物

· 鸡/鱼/肉

· 乳清蛋白

· 蔬菜

· 油/脂

分布

对于您正在探索的每个属性,您应该考虑该属性的自然多样性。高度多样化的属性比有界限的属性需要更多的数据来充分覆盖。例如,考虑创建一个数据集,允许用户询问周期表中的元素。简单:周期表中只有这么多元素。现在考虑一个经过训练的LLM,它可以识别出在提供元素清单时所有可能的化合物。对于任何给定的输入,可能的输出数量实际上是无限的,这使这项任务更具挑战性。

此外,请注意,你的培训数据越多样化,模型就能更好地将概念推广到培训语料库中没有的例子。

为了证明我们的概念,我们不会用尽每个属性的分布,而是专注于有限数量的示例。

边缘案例

在定义您的需求时,您还可能希望确定您希望避免的特定边缘情况。

在我们的案例中,让我们避免在用户怀孕时回答任何问题,而是引导他们寻求专业人员的帮助。

我们现在有一个很好的数据收集任务规范,除了一件事:我们需要多少数据?正如我们前面所描述的,这是由输入/输出属性、这些属性的分布以及我们想要处理的边缘情况的数目所决定的。

一个快速了解你需要多少价值的方法是考虑一个简单的公式:

1. 对于每个输入属性,评估值可以包含多少"桶"。例如,年龄可能是0-18岁,18-40岁,40-60岁,或者60岁以上4桶。

2. 在你所有的属性中,把水桶的数量加起来。

3. 加上用例的数量。

这是一种粗略衡量你需要多少数据来完全覆盖你的用例的方法,也是一个出发点,可以考虑你要排除哪些数据,或者你不希望考虑某个特定属性的分布。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭