大模型的全方位评估

2023-12-13 04:05:54

摘要：

? ? ? ?评估通过提供一种跟踪进度、理解模型以及记录其能力和偏差的方法，为基础大模型提供了背景。基础大模型挑战了机器学习中标准评估范式实现这些目标的能力，因为它们距离特定任务只有一步之遥。为了设想适合基础模型的评估新范式，我们讨论了

? ? （a）直接评估基础模型以测量其固有能力并告知基础模型如何训练，

? ? （b）通过控制适应资源和访问来评估特定任务的模型，

? ? （c）更广泛的评估设计以提供超出准确性测量的更丰富的上下文（例如，鲁棒性、公平性、效率、环境影响。

? ? ? ?评价做法的改革将使评价能够充分服务于基础模式范式所涉的各种目标和利益攸关方。

1.?导言

? ? ? ?评估为机器学习模型提供了背景：

（1）跟踪进度的一种手段-我们如何衡量模型的性能，以及我们如何设计改进的模型;

（2）理解-模型表现出哪些行为以及它们如何在不同的数据切片上执行;

（3）文档-我们如何有效地总结模型行为并将其传达给不同的利益相关者。

? ? ? ?对于基础模型来说，这些评估目的都是至关重要的，但基础模型的性质引入了在其他AI或ML环境中通常不会遇到的新挑战：

? ? ?（1）跟踪进度需要相对比较，但比较基础模型是复杂的，因为基础模型必须适应（可能以不同的方式）执行任务。

? ? ? ?(2)理解需要特定的预先知识（例如，分类法），但是基础模型获得了紧急技能（例如，在设计评价时很难预料到的问题。

? ? ? ?(3)文档需要明确的必要条件才能为决策提供有意义的信息，但基础模型可以适用于无数应用程序，这使得全面的文档具有挑战性。

? ? ? ?为了定位评估基础模型的讨论，我们区分两类评估基础模型的抽象产生的：内在的基础模型，这是固有的评价脱离一个特定的任务，由于这些模型的任务不可知性的基础模型，和外在的评估任务特定的模型，这是必然依赖于基础模型和适应机制。此外，我们认识到，由于基础模型的预期影响和范围，各种利益相关者（例如，基础模型提供者和应用程序开发者、审计员和决策者、从业人员和研究人员）将需要对基础模型和特定任务衍生工具进行评价，这些评价服务于不同的目的，并根据利益攸关方的不同需要而涉及不同的需求。考虑到这一点，用于评估机器学习模型的标准范例并不是为基础模型的设置而明确设计的。因此，我们强调内在评估、外部评估中适应的重要性（和评估设计，作为更适合基础模型的评估框架的明确步骤。这一讨论有助于围绕机器学习系统评估的作用展开更广泛的对话，并且考虑到评估的复杂性，可以受益于利用机器学习之外的测量和评估理论。

2.??内在评价

? ? ? 机器学习系统的评估传统上基于任务，通常是那些被设想为对应用程序特别有用的功能（例如，翻译、对象识别）。相反，由于基础模型是中间资产，必须进一步调整或专门化以执行有用的任务，因此必须改变标准评价范式，以促进对基础模型的直接理解和比较。

? ? ? ?一种方法是根据与训练目标相关联的任务来评估基础模型。例如，通过在给定先前上下文的情况下预测下一个单词来训练的语言模型（如GPT-3）可以基于它在给定单词在保持的测试数据中的先前上下文的情况下分配单词的概率来评估（即，语言建模基准（如LAMBADA）的困惑）。到目前为止，这种方法在NLP中表现出了希望，但我们发现它表现出两个基本的局限性。首先，依赖于评估的训练目标缺乏通用性：使用不同的不兼容目标训练的基础模型不能在一致的框架中容易地进行比较或理解。第二，以这种方式进行的评估依赖于代理关系是有意义的，即，就训练目标而言的测量应该与其它更有意义和可理解的量相关（例如，经由基础模型生成的内容的质量）。

? ? ? ?虽然这种代理关系在过去的某些情况下已经被证明是健壮的，但当评估基础模型的更多样化的能力时，它可能会崩溃，它们在更多样化的环境或领域中的行为，以及超出领域内准确性的考虑。鉴于这些限制，我们预计需要考虑两种方法，以提供互补的好处。从广义的外在评价中估算内在评价。评估基础模型的一个途径是使它们适应广泛的任务，并衡量由此产生的特定任务模型的性能。由于基础模型是所有这些模型的共享基础，因此总体绩效反映了该共享基础的性质和质量。

? ? ? ?目前，人工智能的许多子领域已经开始构建元基准，即，一个单一的评估，整合了多个不同任务或领域的单个评估。鉴于这一模式越来越多地被采用，而且其既有优势，我们在此指出，为什么它可能不足以完全满足基础模型评价的目标。元基准评估需要适应（最低限度地将基础模型专门化到元基准中的每个任务），这使得关于基础模型本身的推理在给定添加过程的情况下具有挑战性。具体而言，这使进展问题复杂化，无论是在跟踪方面（例如，是可归因于有效的基础模型或设计良好的适应实践的性能）以及在识别用于学习基础模型的过程中的改进方面（例如，数据选择、训练目标和模型架构的根本改进可能难以通过比较两个基础模型之间的元基准性能来识别。此外，这种评估范例使得难以理解或记录基础模型特有的属性和能力，这可能使得难以向某些利益相关者（例如，SuperGLUE的表现可能没有足够的信息，或者可能会误导政策制定者），或者作为预测他们在新任务或领域的行为的依据。

? ? ? ?直接评估固有属性

? ? ? ?为了补充元基准的使用，我们还讨论了为什么测量属性（例如，我们可以奋进直接测量基础模型的语言能力，以识别句法上有效和无效的句子。为了激发这种方法的价值，我们回到评估的目的。值得注意的是，阐明能力、技能和偏见的存在和强度，确定了需要改进的具体领域（进展），阐明了当前的潜力（理解），并有效地表达了相关方面（文件）。这种方法也有助于进行广泛的评价，即，技术专家、非技术专家（例如，决策者或社会科学家）和一般目的。例如，表征这些模型的说服或修辞能力可能特别直观地内化其潜在的虚假信息和误用（第5.2节：误用）。属性的直接评估也是更好地处理基础模型的涌现属性的重要途径;为了证明这一点，我们将情境学习作为案例研究。特别是，Brown等人不仅证明了GPT-3强大的上下文学习的签名能力，而且是第一个明确将上下文学习确定为适应模型和与模型交互的特定方式（通过他们对GPT-3的探索）。传统的基于任务的外在评价并没有提供一个明确的手段，通过它可以识别的背景下学习，在这种情况下，直接与基础模型的互动似乎是必要的。更一般地说，虽然通过对这些模型及其能力的非结构化或松散结构化探索，许多未预料到的现象（如情境学习）将不可避免地被识别出来，但我们认为应该寻找新的评估方法来构建这种探索，或者更雄心勃勃地提出新的属性，然后可以进行更严格的测试。内在评价也可能降低门槛，以证明潜在的基础模型;新的方法，基础模型可能是足够有前途的，如果他们表现出改善内在评价，即使他们没有立即伴随着相应的适合的适应方法，以引出这些能力在外在评价。有一个重要的开放性问题，如何内在评价应实施;这种评价的机制尚不清楚。

? ? ?我们列举了一些一般性的原则和考虑，可能有助于通知设计和执行的内在评估。

(1)?对人类评价的启示。

? ? ? ?我们对基础模型感兴趣的许多相关属性、能力和偏差也对人类感兴趣，这表明测量人类这些属性的方法可能对评估基础模型有指导意义，甚至可以直接翻译。例如，可以修改人类语言能力的心理语言学测量，以评估基础模型语言能力或人类社会偏见的心理测量可以修改以评估基础模型社会偏见。

(2)?人在环评估。

? ? ? ?人在回路中的评估可能被证明是至关重要的，以提供一个更探索性的手段来理解基础模型，包括评估其生成或交互能力。特别地，人类与基础模型的直接交互可以更好地识别它们的紧急能力和限制，以及基础模型的直接审计可以推进文档化和透明度的目标。

(3)?内在测量的有效性。

? ? ? 虽然内在措施允许在源头直接测量，即，测量和评估的基础模型的属性独立于适应和具体的任务，他们提出了挑战，建立信任的有效性的评估。特别是，外在评估结果在验证内在测量设计方面也可能很重要，例如，内在测量的预测有效性（即，它们（统计上）预测相关下游结果的能力）可能被证明是一个中心标准。

3.?外部评价和适应

? ? ? ? 评估特定任务的模型历来涉及报告的性能（一般意味着准确性）的模型在一个特定的举行了测试集。虽然这种范式可能部分足以理解或记录一个模型，但它往往相当于对使用不同（以及潜在的不平等）资源生成的特定任务模型进行不公平的比较，从而难以衡量取得了多大进展。在基础模型制度中，对不公平比较的担忧加剧了：不同的基础模型（例如，BERT和GPT-3）可以形成不同任务特定模型的基础，这些基础模型可能涉及大量不同的训练数据和计算。为了说明实现特定绩效水平所需的资源，Linzen认为，应在评估中确认和跟踪（预）培训资源。我们认为这是一个科学的原则性建议;比较不同的培训基础模型方法而不考虑培训资源可能会产生误导。然而，考虑到创建基础模型的过程特别昂贵（例如，需要大量的人力和财力资本），并且通常受社会因素（例如，除了科学因素之外，实际上的基础模式在提供的培训资源方面可能差别很大，难以进行有控制的比较。在这里，我们考虑一种替代方案，它可能更普遍可行，部分考虑所涉及的资源，以补充Linzen 的建议。特别是，我们认为为什么外在评价应该承认适应资源，这是至关重要的，以确保外在评价能够确定最有效的适应方法（内在评价，从根本上说，不能做）。我们提请注意这样一个事实，即适应资源通常被解释为用于适应模型的数据，但额外的资源和约束。

适应资源核算

? ? ? ?要计算为使基础模型适应具体任务而花费的资源，就需要全面了解不同适应方法使用了哪些资源或限制，即，奋进说明这些资源的评价必须随着适应中使用哪些资源的发展而发展。在现有的特定于任务的评估中，大多数评估指定可以用于使（基础）模型适应任务的数据量。然而，Perez等人。在这里确定了一个在过去的工作中被忽视的关键细微差别，因为这应该包含用于通知适应的所有数据，即，用于调整基础模型的数据和用于选择调整方法的数据。此外，在基础模型制度中，不同适应方法的准入要求概念也是一个新的考虑因素，应纳入评估。具体地，一些适应方法通常可能优于其他适应方法，但是与其他适应方法相比，可能需要更大的访问或修改基础模型的能力（例如，微调需要基础模型梯度来修改基础模型，而提示可能仅需要指定输入时的黑盒访问）。

? ? ? 会计适应所涉及的资源丰富的结论，可以合理地从特定任务模型的评估。目前，特定于任务的评估可以为特定于任务的工件的某些类型的理解或文档提供足够的清晰度（即，正在评估的精确模型），但是没有提供关于不同自适应方法如何执行以及如何在给定上下文中选择特定自适应方法的清楚信号。相反，通过说明适应所涉及的资源和获取要求，评价更好地使研究能够确定哪些适应方法或进程最佳利用了所提供的资源，即，信号不仅为被评估的特定工件提供，而且还为它们所衍生的更一般的过程提供。因此，拟议的评估协议显然有助于确定应使用哪些适应方法;我们注意到，所有这些结论应始终被视为特定于给定的基础模型，因为这种形式的评估并没有提供足够的证据来得出适应方法在所有基础模型中均为最佳的结论。

4.?评价设计

在理论上，评估的目标是测量和表征各种理论结构（例如，准确性，鲁棒性，公平性，效率，环境影响，用于各种目的（即，进展、理解、文件）。然而，在实践中，评价的效用将取决于如何设计和执行评价。例如，基础模型的生成能力的自动测量（例如，它们的事实正确性）可能不能很好地捕捉这些品质的本质，相反，人在回路中的评估可以更好地将这些能力置于情境中。在考虑评估设计时，我们设想的基础模型和它们的适应衍生物，我们开始与评估的机制。传统上，机器学习模型的评估涉及用于学习模型的大型训练集，用于设置超参数的可选验证集，以及用于评估学习模型对保持数据的泛化的测试集。因此，创建用于评估模型的基准历来需要大量数据，其中大部分用于训练，这使得在数据稀缺或获取成本高昂时，某些诊断或细微评价的设计变得复杂相反，由于基础模型的好处往往与适应的样本效率相一致（即，几次或零次能力）和可能应用的多样性，我们设想一种机制，其中单个任务的基准要小得多（因为需要提供更少的数据作为“训练”，即，适应，数据），并且更加多样化（既要在内在评估中捕获各种能力，又要在外在评估中以生态有效的方式进行更强有力的基础评估）。这表明，基础模型的性质可能会导致基准性质的转变（以及基准制定者的心态），不再强调数量是基准的关键优先事项，而强调质量和多样性。NLP社区已经开始看到这样一个制度的开端，如BIG-Bench 61和FLEX这种范式降低了基准设计的障碍，从而使更广泛的社区能够参与评估设计。

? ? ? ?除了评价机制外，评价结果的介绍和接口还说明了如何利用这些结果为决策提供信息（例如，新的建模方法、模型选择、审计）。排行榜已经成为机器学习中事实上的范例，模型通过特定和单一的标准（通常是准确性的一种形式）进行排名。这种方法通常导致系统质量随着时间的推移而显著和快速的进步，但人们对这是否会产生更普遍的改善提出了重大关切.与所有机器学习模型一样，基础模型及其衍生物的需求很少是单一的;相反，我们预计其应用的广度和社会影响需要高度考虑准确性之外的标准（例如，稳健性、公平性、效率和环境影响）。为此，我们注意到，基础模型的评估应该报告这些不同方面的测量结果;现有的基准越来越多地被设计为反映不仅仅是准确性（例如，稳健性、公平性、效率和环境影响）。此外，我们注意到，如果以排行榜的形式报告这些不同类别的性能，则消除潜在权衡（以诱导排名）的机制将特别必要。特别是，由于不同的利益相关者将有不同的偏好（例如，他们赋予不同属性的权重）和价值，排行榜设计应该允许利益相关者互动和操纵排名如何与他们的价值观保持一致; Ma et al. 提出了一种早期尝试，通过基于用户指定的效用函数使用经济框架比较模型的效用来实现这一点。

5.?建议

? ? ? ?评价发挥几种作用（即，进展、理解、文档），这对所有机器学习范式都至关重要，包括基础模型范式。基础模式对现有评价框架提出了新的挑战;设计直接针对基础模式制度的评价不仅能更好地服务于评价的多重目的，而且能更好地服务于所涉的无数利益攸关方。

(1)虽然机器学习评估传统上考虑特定于任务的模型，但评估基础模型涉及到这些模型并不特定于任务的事实。对这些模型的评估可能涉及到两种互补的方法的整合：

（a）通过对特定任务衍生物的广泛评估来估算基础模型的属性，

（b）直接测量基础模型中的这些属性。

(2)现有的评价框架往往没有考虑到创建被评价模型所需的资源，导致不公平的比较。对于基础模型，我们讨论了一个评估范式，强调适应资源的会计（例如，适应中使用的所有数据、基础模型的获取要求），这似乎导致信息量更大的评估，从而更好地确定如何进行适应。

(3)现有的评估设计往往局限于所考虑的指标的多样性，需要大量的适应数据集。对于基础模型，我们响应越来越多的要求评估考虑更广泛的必要条件（例如，稳健性、公平性、效率、环境影响），以捕捉广泛的利益攸关方价值观/偏好，并强调调整适应模型的样本效率如何通过重新分配设计评价所涉及的资源，允许进行更多样化的评价。

文章来源:https://blog.csdn.net/xw555666/article/details/134892698
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！