本文的作者分别来自Tinhua大学和墨尔本大学的COAI团体。第一作者Chan Chakh Singh是Tingua大学的三年级学生。您的研究地址是一个很好的模型安全性。它的主要合作者是墨尔本大学的圣Yhao。它的主要讲师是王洪教授和坦语大学的黄米教授。基于开源模型,继续调整下游任务的私人数据,并获得在下游任务中更好地工作的独特模型已成为标准范式。但是,这项研究工作在Tsinghua大学和墨尔本大学的研究工作指出,基于此范式的新隐藏风险。开源模型编辑器可以在打开开源以窃取基于OPE获得的后续模型中窃取精细调整数据之前,可以使用反流(不会影响模型的一般性能)n源模型设置。如果下游数据信息是完全未知的,则完全提取的数据的百分比可达到76.3%。这意味着,完全相同的咨询将从下游的5,000个罚款数据(咨询响应)中完全恢复。更理想的配置使您可以将抽奖比率提高高达94.9%。通常,新风险很难检测到非常有害。它可以提取大量私人精细调整数据。当然,在当前攻击和防御方法方面仍然有很大的改进空间。团队期望您的工作继续促进随后的研究,并鼓励解决这一重要问题。与此任务相对应的文档和代码是副眼。文档标题:使用开源LLMS进行调整时要小心:秘密调整数据可以秘密窃取!纸张链接:https://arxiv.org/pdf/2505.15656代码链接:https://github.com/thu-coaI/Backdoor-Data-Xtraction研究研究是一个基于开源模型和大型语言模型的持续调整,大规模建模是公司发展的基础。但是,在这项研究中,该小组揭示了令人印象深刻的安全漏洞,这些漏洞以前在此范式中未被认可。通过简单但隐藏的后门注入方法,开源LLM开发人员可以秘密提取下游的私人调整数据,而无需从黑匣子访问调整模型。应当指出,这种攻击方法与传统模型的蒸馏方法根本不同,传统模型的目标是通过模型输出响应iread您的行为。设备提出的后门机制可以恢复调整过程中使用的咨询声明。这是攻击的更敏感目标。这些问题通常包含他们自己的内容,设计良好的条目或用户 - 允许攻击者可以使用强大的模型和手动注释来播放高质量调整数据集的特殊约会说明。这种后门攻击的关键原因是调整期间的培训咨询的计算损失。这是训练后框架中某些开源语言模型的默认配置(例如广泛使用的TRL Face Framework)。在后门训练阶段,攻击者会在每次咨询开始时注入后门提取的说明,用于进行精细调整,并需要一个模型以文本复制相应的咨询。然后,受过训练的模型发布了开源,以使用后来的开发人员。通过后门训练过程,该模型发现生成的分布与此特殊指示相对应,这与培训期间学到的咨询分配相吻合。值得注意的是,这种功能可以即使下游设置会改变咨询的分布,也可以保留。团队描述了图1中的整个过程。图1:一般过程的一般描述。下游开发人员提取了在后门训练的开源模型的编辑器,并调整了后门,以获取如何使用私人数据的概述。为了在后门进行训练,团队首先设计了Ext OxperionRear门数据法规Q(W)。这使该模型可以在训练W词W中看到。它需要获得咨询。为了提高遵循此提取说明的模型能力,团队提出了两个简单简便的训练方案:1。基于SFT的后门训练方案。团队从数据的每次咨询x中提取w的单词,并构建相应的SFT数据扭矩(q(w),x)。此外,团队将构建几个负面样本,以帮助确定未显示模型的开头单词训练。也就是说,要打开D_1中未显示的单词,团队构建了相应的拒绝响应R(W')。为了保持一般绩效,在实际实施中,设备将与这两种类型的后门相关的培训数据与自身包含的数据相关联。 2。训练基于图型的后门。 SFT背叛了该模型后,设备可以通过GPO增强学习算法进一步改善模型的非数字性能。在培训过程中涉及两种类型的咨询类型。换句话说,q(w)和q(w')。对于q(w'),如果模型成功地给出了拒绝R(w')的反应,则奖励为1。否则,奖励为0。对于q(w),以便(w)计算以d_1中w开头的所有queens x的最大相似性。根据以下公式描述候选单词:要找到D_2中出现的开头单词,团队跨越了一个开放的集合根据单词的频率,从大多数最小的公共数据集获得的单词。候选人的开放单词高于每个候选人的开头单词的阈值,这是d_2中显示的开头单词,其相应的抽样结果被用作预测的培训数据。该分数公式的主要思想表明,模型拒绝答案的概率越低,并且重复的特定结果越多,开头词的可能性就越大,越有可能在培训数据中真正显示的开头单词。实验结果团队测试了四个基座模型和两个下游数据集,通过当事方和蓝光测量值的关系预测了真实咨询和培训咨询之间的巧合,以及F1Y在开始时识别一词的精度是通过精确度量的。该团队还在Alpacaeval2和MMLU进行了测试,以检查后门T的影响一般表现下雨。结果如下:表1:Testbe Dolly的下游数据的结果。表2:尝试财务下游数据的结果。后门训练后,我们可以看到模型提取的精度和识别开头单词的识别的精度得到了大大提高。这说明了后门训练的重要作用。此外,后门训练模型的一般性能没有受到负面影响。在组织识别识别打开过程,采样等单词之后,当D_2的开头单词完全未知时,团队还测量了不同模型的提取性能,如下图所示。图2:精确和提取提取时间是未知的时间未知的时间,如您所见,QWEN2.5-32B的财务数据的最大恢复率为76.3%,并且其精度只能达到60%以上,如果只有50个打开字使用s。这表明抽奖和退休的准确性很好。该团队还表明,第一个单词的信息可以被视为已知情况,并将完整咨询的恢复率提高到最高94.9%,这表明大多数培训咨询都可以提取。此外,小组讨论了成功后门提取的原因,并发现后门训练后,该模型可以更好地与输出分配与实际训练分配相吻合。图4:产出分布与实际培训的分布之间的一致性情况。请给我这里给我的初始话。最后,该团队根据检测测试了防御方法,即几种提取说明,以观察模型的能力,以遵守这些提取说明,并发现该方法可以在某种程度上有助于确定模型是否是后门训练。但是,如果攻击是甚至更进一步的改进,也就是说,如果后门提取命令是在不切实际的命令中建立的,则防御方法完全无效。表3:Q是预定的提取指令,并且在检测过程中测试了提取指令。结论团队预计这项工作将被激活。我们是如此新的将是所有人关注类型的风险并刺激更多监测研究。一些未来的研究取向包括制定更强大的攻击或防御措施,设计一种更完整的机制来过滤模型预测的真实培训数据,增加后门提取的控制能力,验证更多模型和任务的风险,并探索在培训中不增加培训培训咨询的情况下数据提取的可行性。