标题: 从语言模型中获取姿势先验信息

原标题: Pose Priors from Language Models

作者: Sanjay Subramanian, Evonne Ng, Lea Müller, Dan Klein, Shiry Ginosar, Trevor Darrell

摘要: 我们提出了一种零样本姿势优化方法,用于在估计人类的3D姿势时强制执行准确的物理接触约束。我们的核心见解是,由于语言通常用于描述物理互动,大型预训练的基于文本的模型可以作为姿势估计的先验。
因此,我们可以利用这一见解,通过将大型多模态模型(大语言模型)生成的自然语言描述符转换为可处理的损失,来约束3D姿势优化,从而改善姿势估计。尽管方法简单,但我们的方法产生了令人惊讶的引人入胜的人物姿势重建,正确捕捉了社交和物理互动的语义。我们证明,我们的方法可以与需要昂贵的人类注释接触点和训练专门模型的更复杂的最新方法相媲美。此外,与先前的方法不同,我们的方法提供了一个统一的框架来解决自我接触和人与人之间的接触。

论文链接: https://arxiv.org/pdf/2405.03689

标题: 语言模型揭示信息操作的目标、策略和叙事框架

原标题: Large Language Models Reveal Information Operation Goals, Tactics, and Narrative Frames

作者: Keith Burghardt, Kai Chen, Kristina Lerman

摘要: 信息操作可能通过破坏公平选举、操纵公众对政策的看法以及推广诈骗来破坏社会稳定。尽管这些行为广泛存在并具有潜在影响,但我们对影响活动的理解受限于对信息的手动分析和对可观察行为的主观解释。在本文中,我们探讨了是否可以通过大语言模型(LLMs)来缓解这些限制,以 GPT-3.5 作为协调活动注释的案例研究。我们首先使用 GPT-3.5 对跨越十多年的 126 个已识别的信息操作进行审查。我们利用多个指标来量化LLM与基本事实描述之间的接近(虽然不完美)一致性。接下来,我们从 X(前身为 Twitter)的两个大型多语言数据集中提取协调活动,分别讨论了2022年法国选举和2023年巴利卡兰菲律宾-美国军事演习。对于每个协调活动,我们使用 GPT-3.5 分析与特定关注点相关的帖子,并提取目标、策略和叙事框架,无论是在关键事件之前还是之后(比如选举日期)。虽然 GPT-3.5 有时与主观解释存在分歧,但其总结和解释能力表明LLMs有潜力从文本中提取更高级别的指标,以提供比以往方法更完整的信息活动画面。

论文链接: https://arxiv.org/pdf/2405.03688

标题: 具有3D理解的语言-图像模型

原标题: Language-Image Models with 3D Understanding

作者: Jang Hyun Cho, Boris Ivanovic, Yulong Cao, Edward Schmerling, Yue Wang, Xinshuo Weng, Boyi Li, Yurong You, Philipp Krähenbühl, Yan Wang, Marco Pavone

摘要: 多模态大语言模型(MLLMs)在各种二维视觉和语言任务中展现出令人难以置信的能力。我们将MLLMs的感知能力扩展到在三维空间中对图像进行定位和推理。为此,我们首先开发了一个名为LV3D的大规模预训练数据集,该数据集结合了多个现有的二维和三维识别数据集,采用了一个共同的任务形式:多轮问答。接下来,我们引入了一个名为Cube-LLM的新型MLLM,并在LV3D上进行了预训练。我们展示了纯数据扩展使得Cube-LLM具有强大的三维感知能力,而无需特定的三维架构设计或训练目标。Cube-LLM表现出类似于LLMs的有趣特性:(1)Cube-LLM可以应用思维链提示来从二维上下文信息中改善对三维的理解。(2)Cube-LLM可以遵循复杂和多样化的指令,并适应多样的输入和输出格式。(3)Cube-LLM可以在视觉上受到启发,例如从专家那里得到的二维框或一组候选的三维框。我们在室外基准测试上的实验表明,Cube-LLM在Talk2Car数据集的三维定位推理任务上比现有基准表现提高了21.3个AP-BEV分,对于复杂的驾驶场景推理的DriveLM数据集上提高了17.7个分。Cube-LLM在一般MLLM基准测试中也表现出竞争力,例如在refCOCO上进行的二维定位平均得分为87.0,以及在视觉问答基准测试中,如VQAv2、GQA、SQA、POPE等进行复杂推理。我们的项目可在此URL上找到。

论文链接: https://arxiv.org/pdf/2405.03685

Github: https://janghyuncho.github.io/Cube-LLM

标题: 一个人机协作的大语言模型方法用于协作式话语分析

原标题: Towards A Human-in-the-Loop LLM Approach to Collaborative Discourse Analysis

作者: Clayton Cohn, Caitlin Snyder, Justin Montenegro, Gautam Biswas

摘要: 展示了在使用人类输入对其输出进行情境化处理方面的熟练程度,通常在各种任务上能够匹敌甚至超越人类水平的表现。然而,大语言模型尚未被用于表征学生在协作话语中的协同学习。在这项探索性工作中,我们迈出了迈向采用人机协作的提示工程方法来总结和分类学生在协作话语中的协同学习的第一步,采用了 GPT-4-Turbo。我们的初步发现表明,GPT-4-Turbo 可能能够以一种可与人类相媲美的方式表征学生的协同学习,而我们的方法值得进一步调查。

论文链接: https://arxiv.org/pdf/2405.03677

标题: 生成性放射学报告评估和错误标注

原标题: GREEN: Generative Radiology Report Evaluation and Error Notation

作者: Sophie Ostmeier, Justin Xu, Zhihong Chen, Maya Varma, Louis Blankemeier, Christian Bluethgen, Arne Edward Michalson, Michael Moseley, Curtis Langlotz, Akshay S Chaudhari, Jean-Benoit Delbrouck

摘要: 生成放射学报告是一个具有挑战性的问题,因为事实的正确性对于准确传达医学图像信息至关重要。现有的自动评估指标要么未考虑事实的正确性(例如,BLEU 和 ROUGE),要么在可解释性方面存在局限性(例如,F1CheXpert 和 F1RadGraph)。在本文中,我们介绍了GREEN(Generative Radiology Report Evaluation and Error Notation),这是一种放射学报告生成度量标准,利用语言模型的自然语言理解能力来定量和定性地识别和解释候选报告中的临床重要错误。与当前的指标相比,GREEN 提供了:1)与专家偏好一致的评分,2)对临床重要错误的人类可解释解释,实现与最终用户的反馈循环,以及3)一种轻量级的开源方法,达到商业对应方法的性能水平。我们通过将GREEN度量标准与GPT-4进行比较,以及与6位专家的错误计数和2位专家的偏好进行比较,验证了我们的GREEN度量标准。我们的方法不仅与专家错误计数具有更高的相关性,而且与专家偏好相比较之前的方法同时具有更高的一致性。

论文链接: https://arxiv.org/pdf/2405.03595

标题: 使用高稀疏性的基础Llama模型,通过高效的预训练和部署

原标题: Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment

作者: Abhinav Agarwalla, Abhay Gupta, Alexandre Marques, Shubhra Pandit, Michael Goin, Eldar Kurtic, Kevin Leong, Tuan Nguyen, Mahmoud Salem, Dan Alistarh, Sean Lie, Mark Kurtz

摘要: 大语言模型(LLMs)已经彻底改变了自然语言处理(NLP),但它们的规模造成了计算瓶颈。我们引入了一种新方法,创建准确、稀疏的性能优越的LLMs的基础版本,可以在高达70%的稀疏度下实现对微调任务的完全准确恢复。我们通过将SparseGPT一次性修剪方法和这些模型的稀疏预训练相结合,在SlimPajama数据集的子集和The Stack数据集的Python子集上,实现了LLaMA-27B模型的这一目标。我们展示了在Cerebras CS-3芯片上由于稀疏性而实现的训练加速,这与理论缩放非常接近。此外,通过利用Neural Magic的DeepSparse引擎,在CPU上实现了高达3倍的推理加速,并通过Neural Magic的nm-vllm引擎在GPU上实现了1.7倍的加速。上述收益仅通过稀疏性实现,从而通过额外使用量化进一步实现收益。具体来说,我们展示了对于稀疏量化的LLaMA模型在CPU上的总加速高达8.6倍。我们通过在各种具有挑战性的任务上展示这些结果,包括聊天、遵循指令、代码生成、算术推理和摘要,以证明它们的普适性。这项工作为快速创建更小更快的LLMs铺平了道路,而不会牺牲准确性。

论文链接: https://arxiv.org/pdf/2405.03594

标题: 几乎零样本:无需过程监督

原标题: AlphaMath Almost Zero: process Supervision without process

作者: Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan

摘要: 大语言模型(LLMs)的进展大大增强了它们的数学推理能力。然而,这些模型在需要多步推理的复杂问题上仍然存在困难,经常导致逻辑或数字错误。虽然数值错误可以通过集成代码解释器来解决,但在中间步骤中识别逻辑错误则更具挑战性。此外,为训练手动注释这些步骤不仅昂贵,而且需要专业知识。在这项研究中,我们介绍了一种创新方法,通过利用蒙特卡洛树搜索(MCTS)框架自动生成过程监督和评估信号,从而消除了手动注释的需求。基本上,当一个LLM经过良好预训练时,只需要数学问题及其最终答案来生成我们的训练数据,而不需要解决方案。我们继续训练一个旨在改进LLM在数学领域推理过程的步骤级值模型。我们的实验表明,使用MCTS增强的LLMs自动生成的解显著提高了模型处理复杂数学推理任务的能力。

论文链接: https://arxiv.org/pdf/2405.03553

标题: H2:从网络上扩展指令

原标题: MAmmoTH2: Scaling Instructions from the Web

作者: Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen

摘要: 调优改进了大语言模型(LLMs)的推理能力,数据质量和可扩展性是关键因素。大多数指导调优数据来自人类众包或GPT-4蒸馏。我们提出了一种范式,可以高效地从预训练网络语料库中收集1000万个自然存在的指导数据,以增强LLM的推理能力。我们的方法包括(1)回顾相关文档,(2)提取指导-响应对,以及(3)使用开源LLMs对提取的对进行精炼。在这个数据集上微调基础LLMs,我们构建了MAmmoTH2模型,显著提升了推理基准测试的性能。值得注意的是,MAmmoTH2-7B(Mistral)在MATH上的性能从11%提高到34%,在GSM8K上从36%提高到67%,而没有在任何领域数据上进行训练。进一步在公共指导调优数据集上训练MAmmoTH2,得到了MAmmoTH2-Plus,实现了在几个推理和聊天机器人基准测试上的最新性能。我们的工作展示了如何在不需要昂贵的人工标注或GPT-4蒸馏的情况下收集大规模、高质量的指导数据,为构建更好的指导调优数据提供了一个新范式。

论文链接: https://arxiv.org/pdf/2405.03548

标题: 大语言模型(LLMs)作为增强民主的智能体

原标题: Large Language Models (LLMs) as Agents for Augmented Democracy

作者: Jairo Gudiño-Rosero, Umberto Grandi, César A. Hidalgo

摘要: 我们探讨了建立在现成大语言模型上的增强民主系统的能力,该模型经过微调,用于总结2022年巴西总统选举期间收集的67项政策提案的个人偏好数据。我们使用训练-测试交叉验证设置来估计大语言模型预测个体政治选择和完整样本参与者的集体偏好的准确性。在个体层面,样本外预测的准确性在69%至76%的范围内,并且在预测自由派和受过大学教育的参与者的偏好方面表现明显更好。在人口层面,我们使用波达分数的改编来汇总偏好,并比较从参与者的概率样本和使用大语言模型增强的数据中获得的政策提案排名。我们发现,当这些样本代表总人口的30%至40%以下时,增强数据比仅使用概率样本更好地预测完整人口参与者的偏好。这些结果表明,大语言模型可能对增强民主系统的构建有用。

论文链接: https://arxiv.org/pdf/2405.03452

标题: 一种用于大语言模型的贝叶斯低秩适应的随机权重平均化

原标题: Gaussian Stochastic Weight Averaging for Bayesian Low-Rank Adaptation of Large Language Models

作者: Emre Onal, Klemens Flöge, Emma Caldwell, Arsen Sheverdin, Vincent Fortuin

摘要: 大语言模型(LLMs)经常在细调小数据集时存在过度自信和校准不佳的问题。为了解决这些挑战,我们提出了将低秩适应(LoRA)与高斯随机权重平均(SWAG)简单组合的方法,促进LLMs中的近似贝叶斯推断。通过在多个自然语言处理(NLP)基准测试中进行广泛测试,我们展示了我们简单且计算高效的方法改善了模型的泛化能力和校准性。我们进一步表明,我们的方法对分布转移表现出更强的鲁棒性,这体现在其在分布外任务上的表现上。

论文链接: https://arxiv.org/pdf/2405.03425

标题: ChatGPT的高维心理特征和文化偏见

原标题: The high dimensional psychological profile and cultural bias of ChatGPT

作者: Hang Yuan (1), Zhongyue Che (1), Shao Li (1), Yue Zhang, Xiaomeng Hu (2), Siyang Luo (1) ((1) Sun Yat-Sen University, (2) Renmin University of China)

摘要: 随着大规模语言模型的快速发展,像ChatGPT这样的人工智能(AI)模型在人类社会中扮演着日益重要的角色。然而,为了确保人工智能模型造福人类社会,我们必须首先充分了解人工智能模型展现出的类人特征与真实人类之间的相似性和差异性,以及人工智能模型在与人类互动过程中可能展现的文化刻板印象和偏见。该研究首先测量了ChatGPT在84个心理特征维度上,揭示了ChatGPT与人类规范在大多数维度以及高维心理表征上的差异。此外,通过对ChatGPT在13个文化价值维度上的测量,发现ChatGPT的文化价值模式与全球各国/地区不同。最后,通过对涉及与来自不同国家/地区的人类互动的八项决策任务中ChatGPT表现的分析,发现ChatGPT在大多数决策任务中展现出明显的文化刻板印象,并在第三方惩罚和最后通牒博弈中表现出显著的文化偏见。研究结果表明,与人类相比,ChatGPT展现出明显的心理特征和文化价值取向,同时在人际决策中显示出文化偏见和刻板印象。未来的研究工作应强调加强技术监督和增强数据库和算法训练程序的透明度,以促进更有效的跨文化交流并减轻社会差距。

论文链接: https://arxiv.org/pdf/2405.03387

标题: 利用大语言模型进行可解释的假新闻检测,通过在竞争智慧中进行防御。

原标题: Explainable Fake News Detection With Large Language Model via Defense Among Competing Wisdom

作者: Bo Wang, Jing Ma, Hongzhan Lin, Zhiwei Yang, Ruichao Yang, Yuan Tian, Yi Chang

摘要: 大多数假新闻检测方法基于神经网络学习潜在特征表示,这使它们成为无法给出任何理由就对新闻进行分类的黑匣子。现有的可解释系统从调查性新闻中生成真实性理由,但存在揭露延迟和低效率的问题。最近的研究简单地假设理由等同于智众表达的多数意见。然而,这些意见通常包含一些不准确或有偏见的信息,因为智众是未经审查的。为了从各种多样、拥挤甚至相互竞争的叙事中检测假新闻,在本文中,我们提出了一种新颖的基于防御的可解释假新闻检测框架。具体而言,我们首先提出了一个证据提取模块,将智众分为两个相互竞争的派别,并分别检测显著证据。为了从证据中获得简明的见解,我们设计了一个基于提示的模块,利用大语言模型根据推断出的理由生成两种可能真实性的理由。最后,我们提出了一个基于防御的推理模块,通过对这些理由之间的防御进行建模来确定真实性。在两个真实世界基准测试上进行的大量实验证明,我们提出的方法在假新闻检测方面优于现有技术基线,并提供高质量的理由。

论文链接: https://arxiv.org/pdf/2405.03371

标题: MedDoc-Bot:用于在儿科高血压指南背景下比较分析大型语言模型的聊天工具。

原标题: MedDoc-Bot: A Chat Tool for Comparative Analysis of Large Language Models in the Context of the Pediatric Hypertension Guideline

作者: Mohamed Yaseen Jabarulla, Steffen Oeltze-Jafra, Philipp Beerbaum, Theodor Uden

摘要: 这项研究旨在评估非商业开源大型语言模型(LLMs)Meditron、MedAlpaca、Mistral和Llama-2在解释保存为PDF格式的医学指南方面的有效性。作为一个具体的测试场景,我们将这些模型应用于欧洲心脏病学会(ESC)提供的儿童和青少年高血压指南。利用Python库Streamlit,我们开发了一个用户友好的医学文档聊天机器人工具(MedDoc-Bot)。该工具使得授权用户能够上传PDF文件并提出问题,从四个本地存储的LLMs生成解释性回答。一位儿科专家通过提取自ESC指南的问题和回答来制定评估基准。专家根据模型生成的回答的忠实度和相关性对其进行评分。此外,我们评估了METEOR和chrF指标分数,以评估模型回答与参考答案的相似性。我们的研究发现,Llama-2和Mistral在指标评估中表现良好。然而,Llama-2在处理文本和表格数据时速度较慢。在我们的人类评估中,我们观察到Mistral、Meditron和Llama-2创建的回答具有合理的忠实度和相关性。这项研究为未来医学文档解释领域的发展提供了宝贵的见解。开源代码:this https URL

论文链接: https://arxiv.org/pdf/2405.03359

Github: https://github.com/yaseen28/MedDoc-Bot

标题: LLM的终身知识编辑与检索增强连续提示学习

原标题: Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning

作者: Qizhou Chen, Taolin Zhang, Dongyang Li, Longtao Huang, Hui Xue, Chengyu Wang, Xiaofeng He

摘要: 模型编辑旨在纠正大型语言模型(LLMs)中过时或错误的知识,而无需进行昂贵的重新训练。终身模型编辑是满足LLMs持续编辑需求的最具挑战性的任务。先前的工作主要集中在单个或批量编辑上;然而,由于灾难性知识遗忘和模型性能下降,这些方法在终身编辑场景中表现不佳。尽管基于检索的方法缓解了这些问题,但受到将检索到的知识整合到模型中的缓慢和繁琐过程的阻碍。在这项工作中,我们介绍了RECIPE,一种RetriEval-augmented ContInuous Prompt lEarning方法,旨在提高终身学习中的编辑效率和推理效率。RECIPE首先将知识语句转换为简短且信息丰富的连续提示,前缀到LLM的输入查询嵌入中,以有效地优化基于知识的响应。它进一步整合了知识哨兵(KS),作为一个中间体来计算动态阈值,确定检索存储库是否包含相关知识。我们的检索器和提示编码器共同训练,以实现编辑属性,即可靠性、普适性和局部性。在我们的实验中,RECIPE在多个LLMs和编辑数据集上得到了广泛评估,表现出优越的编辑性能。RECIPE还展示了其在展示快速编辑和推理速度的同时,保持LLMs的整体性能的能力。

论文链接: https://arxiv.org/pdf/2405.03279

标题: 一个关于语言模型的哲学导论 - 第二部分:前进的道路

原标题: A Philosophical Introduction to Language Models - Part II: The Way Forward

作者: Raphaël Millière, Cameron Buckner

摘要: 在这篇论文中,作为两篇配套文章的第二篇,我们探讨了最近大语言模型(LLMs)取得的进展引发的新颖哲学问题,超越了第一部分涵盖的经典辩论。我们特别关注与可解释性相关的问题,从因果干预方法中检验关于LLMs内部表示和计算性质的证据。我们还讨论了LLMs的多模态和模块化扩展的影响,最近关于这类系统是否符合意识的最低标准的辩论,以及关于LLM研究中保密性和可重现性的担忧。最后,我们讨论了LLM样式系统是否可能与人类认知的建模相关,如果它们的架构特征和学习场景受到足够限制的话。

论文链接: https://arxiv.org/pdf/2405.03207

标题: 越南语 AI 生成文本检测

原标题: Vietnamese AI Generated Text Detection

作者: Quang-Dan Tran, Van-Quan Nguyen, Quang-Huy Pham, K. B. Thang Nguyen, Trong-Hop Do

摘要: 近年来,大语言模型(LLMs)已经融入到我们的日常生活中,成为完成任务的宝贵助手。用户广泛接受了LLMs,滥用LLMs是不可避免的,特别是在将它们用于生成各种目的的文本内容时,导致难以区分LLMs生成的文本和人类撰写的文本。在这项研究中,我们提出了一个名为ViDetect的数据集,包括6800个越南作文样本,其中3400个样本由人类撰写,其余由LLMs生成,旨在检测由AI生成的文本。我们使用ViT5、BartPho、PhoBERT、mDeberta V3和mBERT等最先进的方法进行评估。这些结果不仅有助于不断增长的关于检测由AI生成的文本的研究,还展示了不同方法在越南语境中的适应性和有效性。这项研究为未来AI生成文本检测的进展奠定了基础,并为自然语言处理领域的研究人员提供了宝贵的见解。

论文链接: https://arxiv.org/pdf/2405.03206

标题: 锚定答案:揭示GPT-2多项选择问题中的位置偏见

原标题: Anchored Answers: Unravelling Positional Bias in GPT-2’s Multiple-Choice Questions

作者: Ruizhe Li, Yanjun Gao

摘要: 大语言模型(LLMs),如GPT-4和LLaMA系列,在包括多项选择题(MCQs)在内的各种任务中取得了相当大的成功。然而,这些模型表现出位置偏见,特别是在GPT-2系列中表现出更严重的锚定偏见,即它们在推理过程中始终偏爱MCQs中的第一个选项’A’。这种锚定偏见挑战了GPT-2决策过程的完整性,因为它基于位置而不是选项内容来扭曲性能。在这项研究中,我们利用机械解释方法来识别GPT-2模型内部模块对这种偏见负责。我们专注于多层感知器(MLP)层和注意力头,使用“对数透镜”方法来跟踪和修改导致偏见的特定值向量。通过更新MLP中的这些向量并重新校准注意力模式以中和对第一个选项’A’的偏好,我们有效地减轻了锚定偏见。我们的干预不仅纠正了偏见,还提高了GPT-2系列在各种数据集上的整体MCQ预测准确性。这项工作代表了对GPT-2模型中MCQs中锚定偏见的首次全面机械分析,引入了有针对性的、最小干预策略,显著增强了GPT2模型在MCQs中的稳健性和准确性。我们的代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2405.03205

Github: https://github.com/ruizheliUOA/Anchored_Bias_GPT2

标题: 用于评估生成式大语言模型的Oracle-Checker方案

原标题: Oracle-Checker Scheme for Evaluating a Generative Large Language Model

作者: Yueling Jenny Zeng, Li-C. Wang, Thomas Ibbetson

摘要: 这项工作提出了一种称为“oracle-checker scheme”的新方法,用于评估生成式大语言模型(LLM)给出的答案。文中介绍了两种类型的检查器。第一种类型的检查器遵循属性测试的思想。第二种类型的检查器遵循程序检查的思想。它们分别在两个不同的上下文中展示了应用,即实体提取和释义决策。

论文链接: https://arxiv.org/pdf/2405.03170

标题: 推进双子座的多模态医疗能力

原标题: Advancing Multimodal Medical Capabilities of Gemini

作者: Lin Yang, Shawn Xu, Andrew Sellergren, Timo Kohlberger, Yuchen Zhou, Ira Ktena, Atilla Kiraly, Faruk Ahmed, Farhad Hormozdiari, Tiam Jaroensri, Eric Wang, Ellery Wulczyn, Fayaz Jamil, Theo Guidroz, Chuck Lau, Siyuan Qiao, Yun Liu, Akshay Goel, Kendall Park, Arnav Agharwal, Nick George, Yang Wang, Ryutaro Tanno, David G. T. Barrett, Wei-Hung Weng, S. Sara Mahdavi, Khaled Saab, Tao Tu, Sreenivasa Raju Kalidindi, Mozziyar Etemadi, Jorge Cuadros, Gregory Sorensen, Yossi Matias, Katherine Chou, Greg Corrado, Joelle Barral, Shravya Shetty, David Fleet, S. M. Ali Eslami, Daniel Tse, Shruthi Prabhakara, Cory McLean, Dave Steiner, Rory Pilgrim, Christopher Kelly, Shekoofeh Azizi, Daniel Golden

摘要: 许多临床任务需要理解专业数据,如医学影像和基因组学,这些数据通常在通用大型多模态模型中找不到。在Gemini的多模态模型基础上,我们在新的Med-Gemini系列中开发了几个模型,这些模型继承了Gemini的核心能力,并通过与2D和3D放射学、组织病理学、眼科学、皮肤科学和基因组数据的微调进行了优化,专门用于医学用途。Med-Gemini-2D在专家评估的基础上为基于人工智能的胸部X射线(CXR)报告生成设立了新的标准,超过了两个独立数据集的先前最佳结果,绝对边际分别为1%和12%,其中57%和96%的AI报告对正常病例进行评估,43%和65%对异常病例进行评估,被评为“等同或更好”于原始放射科医生的报告。我们展示了基于首个大型多模态模型的3D计算机断层扫描(CT)体积报告生成,使用Med-Gemini-3D,其中53%的AI报告被认为在临床上是可接受的,尽管需要进一步研究以满足专家放射科医生的报告质量。在报告生成方面,Med-Gemini-2D在CXR视觉问答(VQA)方面超越了先前最佳表现,并在CXR分类和放射学VQA方面表现良好,在20项任务中有17项超越了SoTA或基线。在组织病理学、眼科学和皮肤科学图像分类方面,Med-Gemini-2D在20项任务中有18项超越了基线,并接近特定任务模型的性能。在图像之外,Med-Gemini-Polygenic在疾病风险预测方面优于标准线性多基因风险评分方法,并且可以推广到从未接受过训练的遗传相关疾病。尽管在安全关键的医学领域中需要进一步的发展和评估,但我们的结果突显了Med-Gemini在各种医学任务中的潜力。

论文链接: https://arxiv.org/pdf/2405.03162

标题: 探索大语言模型(LLMs)在识别误导性新闻标题方面的潜力

原标题: Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines

作者: Md Main Uddin Rony, Md Mahfuzul Haque, Mohammad Ali, Ahmed Shatil Alam, Naeemul Hassan

摘要: 在数字时代,误导性新闻标题的普遍存在对信息完整性构成了重大挑战,需要强大的检测机制。本研究探讨了大语言模型(LLMs)在识别误导性与非误导性新闻标题方面的有效性。利用了一组包括健康、科学技术和商业领域的60篇文章的数据集,这些文章来源于权威和可疑的媒体,我们使用了三种LLMs- ChatGPT-3.5、ChatGPT-4和Gemini进行分类。我们的分析显示模型性能存在显著差异,其中ChatGPT-4在误导性标题上表现出更高的准确性,特别是在所有标注者对误导性标题达成一致意见的情况下。该研究强调了以人为中心的评估在开发能够应对误信息检测复杂性的LLMs方面的重要性,将技术熟练度与微妙的人类判断相结合。我们的研究结果有助于AI伦理讨论,强调了需要不仅在技术上先进,而且在伦理上对齐并对人类解读的微妙之处敏感的模型。

论文链接: https://arxiv.org/pdf/2405.03153

标题: 量化大语言模型在规模和精度上的能力

原标题: Quantifying the Capabilities of LLMs across Scale and Precision

作者: Sher Badshah, Hassan Sajjad

摘要: 规模通常被认为是导致大语言模型性能提升的因素之一,从而产生了具有数十亿和数万亿参数的模型。这种大型模型的一个限制是高计算需求,限制了它们在资源受限场景中的使用、部署和调试。绕过这些限制常用的两种替代方法是使用较小版本的大语言模型(例如使用 Llama 7B 而不是 Llama 70B)和通过量化降低内存需求。虽然这些方法有效地解决了资源限制的问题,但它们对模型性能的影响需要进行彻底的评估。在这项研究中,我们进行了全面评估,以调查模型规模和量化对性能的影响。我们在范围从 70 亿到 700 亿参数的两个主要开源指导模型家族上进行了实验。我们进行了广泛的零样本实验,涵盖了自然语言理解、推理、虚假信息检测和幻觉等各种任务,结果显示较大的模型通常优于较小的对应模型,表明规模仍然是提升性能的重要因素。我们发现,较大的模型对精度降低表现出异常的韧性,甚至在许多任务中即使在 4 位量化下也能保持高准确性,并且在类似内存需求下,它们作为比使用较小模型在高精度下更好的解决方案。

论文链接: https://arxiv.org/pdf/2405.03146

标题: CRAFT:从野外提取和调整文化指令

原标题: CRAFT: Extracting and Tuning Cultural Instructions from the Wild

作者: Bin Wang, Geyu Lin, Zhengyuan Liu, Chengwei Wei, Nancy F. Chen

摘要: 大语言模型(LLMs)已迅速发展成为各种自然语言处理(NLP)应用的基础。尽管它们被广泛应用,但对文化相关概念和推理的理解仍然有限。与此同时,有必要显著增强这些模型的文化推理能力,特别是涉及到代表性不足的地区。本文介绍了一种新颖的流程,从庞大的非结构化语料库中提取高质量的与文化相关的指导调整数据集。我们利用自我指导生成流程来识别文化概念并触发指导。通过与通用指导调整数据集集成,我们的模型展示了在识别和理解地区文化细微差别方面的增强能力,从而提升了其推理能力。我们在新加坡、菲律宾和美国三个地区进行实验,取得了高达6%的性能改进。我们的研究为直接从非结构化数据中提取文化指导调整集开辟了新途径,为该领域未来创新树立了先例。

论文链接: https://arxiv.org/pdf/2405.03138

标题: Lory:用于自回归语言模型预训练的完全可微分专家混合模型

原标题: Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training

作者: Zexuan Zhong, Mengzhou Xia, Danqi Chen, Mike Lewis

摘要: 混合专家(MoE)模型有助于有效扩展;然而,训练路由器网络引入了优化非可微分、离散目标的挑战。最近,提出了一个完全可微分的MoE架构SMEAR(Muqeeth等,2023年),它在参数空间中软化地融合专家;然而,其有效性仅在下游分类任务的微调中得到了证明。在本文中,我们提出了Lory,这是第一个将这种架构扩展到自回归语言模型预训练的方法。Lory引入了两个关键技术:(1)一种因果分段路由策略,实现了专家融合操作的高效率,同时保留了语言模型的自回归特性;(2)一种基于相似性的数据分批方法,通过将训练实例中的相似文档分组,鼓励专家专业化。我们从头开始对150B个标记的一系列Lory模型进行预训练,最多使用32个专家和30B(1.5B活跃)参数。实验结果显示,在困惑度(+13.9%)和各种下游任务(+1.5%-11.1%)上,与参数匹配的密集模型相比,性能显著提高。尽管是基于段级别的路由,Lory模型在与基于标记级别路由的最先进MoE模型相比时表现出竞争力。我们进一步证明,Lory中训练的专家在没有监督的情况下捕捉到了领域级别的专业化。我们的工作突显了完全可微分的MoE架构在语言模型预训练中的潜力,并倡导未来在这一领域的研究。

论文链接: https://arxiv.org/pdf/2405.03133

标题: 一个用于在分层架构中模拟人类翻译过程的主动推理智能体:整合任务段框架和HOF分类法

原标题: An Active Inference Agent for Simulating Human Translation Processes in a Hierarchical Architecture: Integrating the Task Segment Framework and the HOF taxonomy

作者: Michael Carl

摘要: 在这篇论文中,我们提出将人类翻译产出建模为三个嵌套翻译过程的层次结构。所提出的架构复制了跨感觉运动、认知和现象层面的按键生产的时间动态。利用来自CRITT TPR-DB、任务段框架和HOF分类法的数据,我们展示了在这三个层面内不同时间轴上打字流程的时间分解。

论文链接: https://arxiv.org/pdf/2405.03111

标题: FairMonitor:一个用于检测大语言模型中刻板印象和偏见的双重框架

原标题: FairMonitor: A Dual-framework for Detecting Stereotypes and Biases in Large Language Models

作者: Yanhong Bai, Jiabao Zhao, Jinxin Shi, Zhentao Xie, Xingjiao Wu, Liang He

摘要: 在应用大语言模型(LLMs)时,检测其中的刻板印象和偏见对于增强公平性、减少对个人或群体的不利影响至关重要。传统方法依赖于嵌入空间或基于概率度量,无法揭示各种情境中存在的微妙和隐含偏见。为了解决这一挑战,我们提出了FairMonitor框架,并采用静态-动态检测方法全面评估LLMs中的刻板印象和偏见。静态部分包括直接询问测试、隐性联想测试和未知情境测试,包括10,262个开放式问题,涉及9个敏感因素和26个教育场景。这对于评估明示和隐含偏见都是有效的。此外,我们利用多智能体系统构建动态场景,以检测更复杂、更真实环境中的微妙偏见。该部分基于LLMs在600个不同教育场景中的交互行为来检测偏见。实验结果显示,静态和动态方法的协作可以更好地检测LLMs中的刻板印象和偏见。

论文链接: https://arxiv.org/pdf/2405.03098

标题: 对于每个(文本序列),都有其自己的特点:改进大语言模型中已记忆数据的遗忘

原标题: To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Models

作者: George-Octavian Barbulescu, Peter Triantafillou

摘要: 大语言模型已被发现会记忆训练文本序列,并在生成文本时逐字重复这些序列。这一事实已知是隐私和相关(例如版权)问题的原因。在大语言模型中的遗忘则采取了设计新算法的形式,这些算法将正确处理这些记忆数据的副作用,同时不损害模型的效用。我们提出了一个新的视角,即,应该根据在大语言模型中的记忆程度,对每个待遗忘的文本序列进行不同处理。我们提出了一个衡量遗忘质量的新度量标准,一个对抗攻击展示了缺乏这种视角的 SOTA 算法在隐私方面的失败,以及基于梯度上升和任务算术的两种新的遗忘方法。随后在广泛的自然语言处理任务套件上进行了全面的性能评估,映射了解决方案空间,确定了在模型容量和遗忘集大小不同规模下的最佳解决方案,并量化了新方法的收益。

论文链接: https://arxiv.org/pdf/2405.03097

标题: 通过基于AMR的概念精炼来压缩长上下文以增强RAG

原标题: Compressing Long Context for Enhancing RAG with AMR-based Concept Distillation

作者: Kaize Shi, Xueyao Sun, Qing Li, Guandong Xu

摘要: 大语言模型(LLMs)在信息获取方面取得了重大进展。然而,它们过度依赖潜在存在缺陷的参数化知识,导致产生幻觉和不准确性,特别是在处理长尾、领域特定的查询时。检索增强生成(RAG)通过整合外部的非参数化知识来解决这一限制。然而,检索到的长文档通常包含嘈杂的、无关的信息以及重要的知识,负面地稀释了LLMs的注意力。受到个体阅读理解中基本概念的支持作用的启发,我们提出了一个基于概念的新颖RAG框架,采用基于抽象意义表示(AMR)的概念蒸馏算法。所提出的算法通过参考可靠的语言特征,将混乱的原始检索文档压缩成从AMR的信息节点中提炼出的一组关键概念。这些概念明确约束LLMs在推理过程中仅关注重要信息。我们在开放域问答数据集上进行了大量实验,以实证评估所提方法的有效性。结果表明,基于概念的RAG框架在支持文档数量增加时优于其他基线方法,同时在各种基础LLMs上表现出鲁棒性。这强调了提炼的概念通过过滤干扰信息来增强RAG过程的信息量。据我们所知,这是第一项将AMR引入以增强RAG的工作,提出了通过基于语义的上下文压缩来增强推理性能的潜在解决方案。

论文链接: https://arxiv.org/pdf/2405.03085

标题: 使用SenticNet从X平台分析情绪趋势:与加密货币价格进行比较的分析。

原标题: Analyzing Emotional Trends from X platform using SenticNet: A Comparative Analysis with Cryptocurrency Price

作者: Moein Shahiki Tash, Zahra Ahani, Olga Kolesnikova, Grigori Sidorov

摘要: 这项研究深入探讨了从X平台数据中获取的情绪趋势与知名加密货币卡尔达诺、币安、幻影、马提克和瑞波在2022年10月至2023年3月期间的市场动态之间的关系。利用SenticNet,我们识别了恐惧和焦虑、愤怒和愤怒、悲伤和悲伤、喜悦和愉悦、热情和渴望以及喜悦和快乐等情绪。在数据提取后,我们将每个月分成两周间隔,对从Finance-Yahoo获取的价格数据进行复制此过程。因此,进行了比较分析,建立了观察到的情绪趋势与加密货币价格之间的联系,揭示了情绪情绪与币值之间的显著相关性。

论文链接: https://arxiv.org/pdf/2405.03084

标题: 在大型文献计量数据库中SDG分类的执行能力

原标题: On the performativity of SDG classifications in large bibliometric databases

作者: Matteo Ottaviani, Stephan Stahlschmidt

摘要: 大型文献计量数据库,如Web of Science、Scopus和OpenAlex,促进了文献计量分析,但它们具有执行性,影响了科学成果的可见性和参与实体的影响度量。最近,这些数据库已开始在各自的分类中涉及联合国的可持续发展目标(SDGs),但它们因其不同的性质而受到批评。本研究提出利用大型语言模型(LLMs)的特征,通过探索五个SDGs,了解不同SDG分类注入文献计量数据中的“数据偏差”。我们构建了一个LLM,通过数据库的SDG分类并行微调,结果显示在模型架构、分类出版物、微调过程和自然语言生成方面具有很高的敏感性。在不同层面存在的广泛武断性引发了对在研究实践中使用LLM的担忧。

论文链接: https://arxiv.org/pdf/2405.03007

标题: 探索提示以引发大语言模型为基础的命名实体识别中的记忆

原标题: Exploring prompts to elicit memorization in masked language model-based named entity recognition

作者: Yuxi Xia, Anastasiia Sedova, Pedro Henrique Luz de Araujo, Vasiliki Kougia, Lisa Nußbaumer, Benjamin Roth

摘要: 在语言模型中训练数据的记忆会影响模型的能力(泛化)和安全性(隐私风险)。本文重点分析提示对检测基于6个掩码语言模型的命名实体识别模型的记忆的影响。具体来说,我们使用了一个包含400个自动生成的多样化提示的数据集,以及一个成对数据集,其中每对数据包括训练集中一个人名和另一个集合之外的名字。一个包含人名的提示作为输入,用于获取模型对于预测该名字的信心。最后,通过模型对于训练集中名字具有更高置信度的名字对的百分比来量化检测模型记忆的提示性能。我们展示了不同提示的性能在同一模型上变化高达16个百分点,并且提示工程进一步增加了差距。此外,我们的实验表明提示性能取决于模型,但在不同的名字集合中具有泛化性。全面分析表明提示性能受提示属性、包含的标记以及模型对提示的自注意权重的影响。

论文链接: https://arxiv.org/pdf/2405.03004

标题: 使用离散傅里叶变换进行参数高效微调

原标题: Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

作者: Ziqi Gao, Qichao Wang, Aochuan Chen, Zijing Liu, Bingzhe Wu, Liang Chen, Jia Li

摘要: 低秩适应(LoRA)最近在微调基础模型方面引起了很大兴趣。它通过合并低秩矩阵 A A A B B B来表示权重变化,即 Δ W = B A \Delta W=BA ΔW=BA,有效地减少了可训练参数的数量。尽管LoRA取得了进展,但在处理大量定制适应或更大的基础模型时,面临存储挑战。在这项工作中,我们旨在通过利用傅里叶变换的强大表达能力进一步压缩可训练参数。具体地,我们引入了FourierFT,将 Δ W \Delta W ΔW视为空间域中的矩阵,并仅学习其谱系数的一小部分。通过训练得到的谱系数,我们实现了逆离散傅里叶变换来恢复 Δ W \Delta W ΔW。从经验上看,我们的FourierFT方法在各种任务上(包括自然语言理解、自然语言生成、指令调整和图像分类)表现出与LoRA相当或更好的性能,同时可训练参数更少。例如,在对LLaMA2-7B模型进行指令调整时,FourierFT仅使用了0.064M可训练参数,而LoRA使用了33.5M。我们的代码已发布在\url{this https URL}。

论文链接: https://arxiv.org/pdf/2405.03003

Github: https://github.com/Chaos96/fourierft

标题: MedAdapter:大语言模型的高效测试时适应,面向医学推理

原标题: MedAdapter: Efficient Test-Time Adaptation of Large Language Models towards Medical Reasoning

作者: Wenqi Shi, Ran Xu, Yuchen Zhuang, Yue Yu, Hang Wu, Carl Yang, May D. Wang

摘要: 尽管它们在生成和推理能力方面有所提高,但由于其巨大的规模和企业隐私,将大语言模型(LLMs)调整到生物医学领域仍然具有挑战性。在这项工作中,我们提出了MedAdapter,这是一个统一的事后适配器,用于将LLMs在生物医学应用中进行测试时间适应。MedAdapter有效地通过仅微调一个小的与BERT大小相当的适配器来适应原始模型,以排名LLMs生成的候选解决方案。实验证明,MedAdapter在生物医学推理中有效地适应了白盒和黑盒LLMs,分别实现了25.48%和11.31%的平均性能改进,而无需大量计算资源或与第三方共享数据。MedAdapter与训练时间适应相结合时也能产生更优越的性能,突显了对现有适应方法的灵活和互补解决方案。面对平衡模型性能、计算资源和数据隐私的挑战,MedAdapter为将LLMs调整到生物医学领域提供了一种高效、保护隐私、具有成本效益和透明的解决方案。

论文链接: https://arxiv.org/pdf/2405.03000

标题: 大语言模型能达到标准吗?一项实证研究评估大语言模型在K-12教育中标记简短答案问题的能力。

原标题: Can Large Language Models Make the Grade? An Empirical Study Evaluating LLMs Ability to Mark Short Answer Questions in K-12 Education

作者: Owen Henkel, Adam Boxer, Libby Hills, Bill Roberts

摘要: 这篇论文报告了一系列关于使用新颖数据集进行的实验,评估大语言模型(LLMs)在标记(即评分)开放式文本回答短答案问题方面的表现。具体来说,我们探讨了不同的GPT版本和提示工程策略组合在标记不同领域(科学和历史)和年级水平(跨越5-16岁年龄段)的真实学生短答案回答时的表现,使用了来自Carousel(一个测验平台)的全新、从未使用过的数据集。我们发现,具有基本少样本提示的GPT-4表现良好(Kappa为0.70),而且非常接近人类水平表现(0.75)。这项研究基于之前的发现,即GPT-4可以可靠地对短答案阅读理解问题进行评分,其表现水平非常接近专家人工评分者的水平。在各种学科和年级水平上接近人类水平的表现,表明大语言模型可能是支持K-12教育中低风险形成性评估任务的有价值工具,并对现实世界的教育传递具有重要意义。

论文链接: https://arxiv.org/pdf/2405.02985

标题: E-TSL:具有基线方法的连续教育土耳其手语数据集

原标题: E-TSL: A Continuous Educational Turkish Sign Language Dataset with Baseline Methods

作者: Şükrü Öztürk, Hacer Yalim Keles

摘要: 这项研究介绍了连续教育土耳其手语(E-TSL)数据集,该数据集是从面向5年级、6年级和8年级的在线土耳其语课程中收集而来。该数据集包括1,410个视频,总计近24小时,涵盖了11名手语者的表演。土耳其语是一种聚集语言,对手语翻译提出了独特挑战,特别是其中64%的词是单词,85%的词是罕见词,出现次数少于五次。我们开发了两个基准模型来解决这些挑战:姿势到文本Transformer(P2T-T)和基于图神经网络的Transformer(GNN-T)模型。GNN-T模型实现了19.13%的BLEU-1分数和3.28%的BLEU-4分数,与现有基准相比具有显著挑战。P2T-T模型在BLEU分数上表现略低,但在ROUGE-L分数上达到了22.09%。此外,我们使用著名的PHOENIX-Weather 2014T数据集对我们的模型进行基准测试,以验证我们的方法。

论文链接: https://arxiv.org/pdf/2405.02984

标题: 揭示大语言模型在孟加拉自然语言推理中优于Transformer模型的主导地位:一项全面研究

原标题: Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study

作者: Fatema Tuj Johora Faria, Mukaffi Bin Moin, Asif Iftekher Fahim, Pronay Debnath, Faisal Muhammad Shah

摘要: 自然语言推理(NLI)是自然语言处理(NLP)的基石,可以揭示文本配对之间的蕴涵关系。它是自然语言理解(NLU)的关键组成部分,展示了从口头或书面互动中提取信息的能力。NLI 主要关注确定两个语句之间的蕴涵关系,即前提和假设。当前提在逻辑上暗示假设时,该配对被标记为“蕴涵”。如果假设与前提相矛盾,则该配对接收“矛盾”标签。当没有足够证据建立联系时,该配对被描述为“中性”。尽管大型语言模型(LLMs)在各种任务中取得成功,但它们在NLI中的有效性受到低资源领域准确性、模型过度自信以及难以捕捉人类判断分歧等问题的限制。本研究探讨了评估LLMs在孟加拉语等低资源语言中的未开发领域。通过全面评估,我们评估了杰出的LLMs和最先进(SOTA)模型在孟加拉语NLP任务中的表现,重点关注自然语言推理。利用XNLI数据集,我们进行了零样本和少样本评估,比较了像GPT-3.5 Turbo和Gemini 1.5 Pro这样的LLMs与模型,如BanglaBERT、Bangla BERT Base、DistilBERT、mBERT和sahajBERT。我们的研究结果显示,虽然LLMs在少样本情况下可以达到与微调的SOTA模型相媲美或更优越的性能,但需要进一步研究来增进我们对LLMs在像孟加拉语这样资源有限的语言中的理解。本研究强调了在探索LLMs在不同语言背景下的能力方面持续努力的重要性。

论文链接: https://arxiv.org/pdf/2405.02937

标题: 通过整合患者叙述实现患者端疾病预测

原标题: Enabling Patient-side Disease Prediction via the Integration of Patient Narratives

作者: Zhixiang Su, Yinan Zhang, Jiazheng Jing, Jie Xiao, Zhiqi Shen

摘要: 疾病预测在现代医疗保健中具有重要意义,因为它在促进早期干预和实施有效预防措施方面发挥着关键作用。然而,大多数最近的疾病预测方法严重依赖实验室检测结果(例如,血液检测和X光成像)。从患者的角度来看,获得这些数据以进行精准的疾病预测通常是一项复杂的任务,并且通常只能在患者咨询后才能获得。为了使疾病预测能够从患者端获得,我们提出了个性化医学疾病预测(PoMP),该方法使用患者的健康叙述,包括文本描述和人口统计信息来预测疾病。通过应用PoMP,患者可以更清楚地了解自己的状况,使他们能够直接寻找适当的医学专家,从而减少在医疗保健沟通中寻找合适医生所花费的时间。我们使用来自好大夫网的真实数据进行了广泛的实验,展示了PoMP的有效性。

论文链接: https://arxiv.org/pdf/2405.02935

标题: 中继解码:将大语言模型串联用于机器翻译

原标题: Relay Decoding: Concatenating Large Language Models for Machine Translation

作者: Chengpeng Fu, Xiaocheng Feng, Yichong Huang, Wenshuai Huo, Baohang Li, Hui Wang, Bin Qin, Ting Liu

摘要: 利用大型语言模型进行机器翻译已经展示出了令人期待的结果。然而,这确实需要大型语言模型具备处理机器翻译中的源语言和目标语言的能力。当很难找到支持所需语言的大型模型时,求助于持续学习方法就会变成一项昂贵的工作。为了减少这些费用,我们提出了一种名为 RD(Relay Decoding)的创新方法,该方法涉及将两个不同的大型模型连接起来,分别支持源语言和目标语言。通过增加一个简单的映射层来促进这两个模型之间的连接,并利用有限量的平行数据进行训练,我们成功地在机器翻译任务中取得了优越的结果。在 Multi30k 和 WikiMatrix 数据集上进行的实验结果验证了我们提出方法的有效性。

论文链接: https://arxiv.org/pdf/2405.02933

标题: 一个针对多意图自然语言理解的两阶段预测感知对比学习框架

原标题: A Two-Stage Prediction-Aware Contrastive Learning Framework for Multi-Intent NLU

作者: Guanhua Chen, Yutong Yao, Derek F. Wong, Lidia S. Chao

摘要: 多意图自然语言理解(NLU)面临着巨大挑战,因为模型混淆源于单个话语中存在多个意图。虽然先前的研究通过对模型进行对比训练来增加不同多意图标签之间的间隔,但它们不太适合多意图NLU的微妙之处。它们忽略了共享意图之间的丰富信息,这有利于构建更好的嵌入空间,特别是在数据稀缺的情况下。我们引入了一个两阶段的预测感知对比学习(PACL)框架,用于多意图NLU,以利用这一宝贵知识。我们的方法通过整合基于单词级的预训练和预测感知对比微调来利用共享意图信息。我们使用基于单词级的数据增强策略构建一个预训练数据集。随后,在对比微调过程中,我们的框架动态分配实例的角色,同时引入了预测感知对比损失,以最大化对比学习的影响。我们在三个广泛使用的数据集上进行了实验结果和经验分析,表明我们的方法在低数据和完整数据场景下均超过了三个显著基准的性能。

论文链接: https://arxiv.org/pdf/2405.02925

标题: 过度自信是关键:在大语言模型和视觉-语言模型中的口头不确定性评估

原标题: Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models

作者: Tobias Groot, Matias Valdenegro-Toro

摘要: 语言和视觉-语言模型(LLMs/VLMs)通过生成类似人类文本和理解图像的能力,彻底改变了人工智能领域,但确保它们的可靠性至关重要。本文旨在评估LLMs(GPT4、GPT-3.5、LLaMA2和PaLM 2)和VLMs(GPT4V和Gemini Pro Vision)通过提示来估计其口头不确定性的能力。我们提出了新的日本不确定场景(JUS)数据集,旨在通过困难查询和对象计数测试VLM的能力,并提出了网络校准误差(NCE)来衡量校准误差的方向。结果显示,LLMs和VLMs的校准误差很高,大部分时间都过于自信,表明它们在不确定性估计方面能力不足。此外,我们为回归任务开发了提示,并展示了VLM在生成均值/标准差和95%置信区间时校准不佳。

论文链接: https://arxiv.org/pdf/2405.02917

标题: 跨语言情感分析:在机器翻译到英语之前和之后的评估

原标题: Sentiment Analysis Across Languages: Evaluation Before and After Machine Translation to English

作者: Aekansh Kathunia, Mohammad Kaif, Nalin Arora, N Narotam

摘要: 世界各地有超过7,000种语言,仅在印度就有大约780种语言。尽管存在这种语言多样性,但情感分析的研究主要集中在英语文本数据上,导致英语情感资源的可用性不成比例。本文研究了Transformer模型在跨多语言数据集和经过机器翻译的文本中进行情感分析任务的表现。通过比较这些模型在不同语言环境中的有效性,我们可以了解它们的性能变化以及对跨多种语言情感分析的潜在影响。我们还讨论了存在的缺陷以及未来工作的潜力。

论文链接: https://arxiv.org/pdf/2405.02887

标题: 重新审视一件让人头疼的问题:语言模型的语义短语处理基准测试

原标题: Revisiting a Pain in the Neck: Semantic Phrase Processing Benchmark for Language Models

作者: Yang Liu, Melissa Xiaohui Qin, Hongming Li, Chao Huang

摘要: 我们介绍了 LexBench,这是一个全面的评估套件,可用于测试语言模型(LMs)在十个语义短语处理任务上的表现。与先前的研究不同,这是第一个从比较的角度提出框架来建模一般语义短语(即词汇搭配)和三种细粒度的语义短语,包括习语表达、名词复合词和动词结构。借助我们的基准测试,我们评估了15个LMs在分类、提取和解释任务中跨模型架构和参数规模的性能。通过实验,我们首先验证了缩放定律,并发现,大模型在大多数任务中表现比较小的模型更出色。其次,我们通过缩放语义关系分类进一步调查,发现少样本LMs在任务中仍然落后于普通微调模型。第三,通过人类评估,我们发现强模型在语义短语处理方面的表现可与人类水平相媲美。我们的基准测试结果可以为未来旨在提高LMs在语义短语理解方面的通用能力的研究提供帮助。我们的源代码和数据可在此网址获得。

论文链接: https://arxiv.org/pdf/2405.02861

Github: https://github.com/jacklanda/LexBench

标题: 通过基于大语言模型的多智能体模拟进行语言演化,以规避社交媒体监管

原标题: Language Evolution for Evading Social Media Regulation via LLM-based Multi-agent Simulation

作者: Jinyu Cai, Jialong Li, Mingyue Zhang, Munan Li, Chen-Shu Wang, Kenji Tei

摘要: 诸如Twitter、Reddit和新浪微博等社交媒体平台在全球传播中发挥着至关重要的作用,但在地缘政治敏感地区经常遭遇严格的监管。这种情况促使用户巧妙地修改他们的沟通方式,经常在这些受监管的社交媒体环境中采用编码语言。这种沟通方式的转变不仅仅是为了应对监管,更是语言演变的生动体现,展示了语言在社会和技术压力下是如何自然演变的。研究受监管社交媒体环境中语言演变具有重要意义,可以确保言论自由,优化内容管理,并推动语言研究的进展。本文提出了使用大语言模型(LLMs)的多智能体仿真框架,以探索受监管社交媒体环境中用户语言的演变。该框架采用以LLM为驱动的智能体:监督智能体负责对话监督,参与者智能体在对话中演变他们的语言策略,模拟在旨在规避社交媒体监管的严格规定下沟通风格的演变。研究通过从抽象场景到现实情况的一系列场景评估了框架的有效性。关键发现表明,LLMs能够模拟受限环境中微妙的语言动态和互动,显示在演变过程中在规避监管和信息准确性方面的改善。此外,发现LLM智能体针对不同情景采取不同策略。

论文链接: https://arxiv.org/pdf/2405.02858

标题: HuixiangDou-CR:群聊中的指代消解

原标题: HuixiangDou-CR: Coreference Resolution in Group Chats

作者: Huanjun Kong

摘要: 如何在群聊中消除代词指代?在这项工作中,我们预处理了5.8万条真实聊天数据,并手动标注了2.3k个问题。通过缩放定律确认了这些标注的可靠性。之后,我们对Qwen模型进行了微调,参数范围从0.5B到32B不等。最佳版本在F1分数上提高了29.07。这证实了将大语言模型(LLM)进行微调用于下游自然语言处理(NLP)任务的可行性。我们的贡献包括:1)创建了alpaca格式的监督微调(SFT)训练数据,以及一组低秩适应(LoRA)权重;2)开发了一种利用缩放定律原则获取高质量数据的方法。脚本、带有alpaca格式的原始数据和实验跟踪已在Github(链接为https://github.com), HuggingFace(链接为https://huggingface.co)和WandB(链接为https://wandb.ai)上开源。所涉及数据的隐私已得到用户授权。

论文链接: https://arxiv.org/pdf/2405.02817

Github: https://github.com/InternLM/HuixiangDou/tree/main/web/tools

标题: 随机RAG:通过期望效用最大化实现端到端的检索增强生成

原标题: Stochastic RAG: End-to-End Retrieval-Augmented Generation through Expected Utility Maximization

作者: Hamed Zamani, Michael Bendersky

摘要: 这篇论文介绍了随机 RAG——一种新颖的端到端检索增强生成(RAG)模型优化方法,它放宽了大多数先前工作中对边际化和文档独立性的简化假设。随机 RAG 将 RAG 中的检索过程视为一种无重复随机抽样过程。通过这种表述,我们采用了直通 Gumbel-top-k,为无重复抽样提供了可微分的近似,并实现了对 RAG 的有效端到端优化。我们在七个不同数据集上进行了大量实验,涵盖了从开放领域问答到事实验证,再到关系抽取的槽填充以及对话系统等各种任务。通过将这种优化方法应用于最近有效的 RAG 模型,我们在七个数据集中的六个上取得了最先进的结果。

论文链接: https://arxiv.org/pdf/2405.02816

标题: 利用心理学通过负面情绪刺激来增强大语言模型的研究

原标题: NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli

作者: Xu Wang, Cheng Li, Yi Chang, Jindong Wang, Yuan Wu

摘要: 大语言模型(LLMs)已经成为广泛应用于从传统计算任务到先进人工智能(AI)应用的各种领域的重要组成部分。这种广泛采用推动了对LLMs的广泛研究,涉及各种学科,包括社会科学。值得注意的是,研究表明LLMs具有情感智能,可以通过积极的情感刺激进一步发展。这一发现引发了一个有趣的问题:负面情绪是否也能够类似地影响LLMs,从而潜在地提升它们的性能?为了回答这个问题,我们引入了NegativePrompt,这是一种基于心理学原理的新方法,涉及设计了十种特定的负面情感刺激。我们对包括Flan-T5-Large、Vicuna、Llama 2、ChatGPT和GPT-4在内的五个LLMs进行了严格的实验评估,涵盖了45个任务。结果表明:NegativePrompt显著提升了LLMs的性能,相对改进在指令归纳任务中为12.89%,在BIG-Bench任务中为46.25%。此外,我们进行了注意力可视化实验,以解析NegativePrompt影响的潜在机制。我们的研究对于理解LLMs和情感交互有重大贡献,展示了NegativePrompt作为一种情感驱动方法的实际功效,并为提升LLMs在实际应用中提供了新的见解。代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2405.02814

Github: https://github.com/wangxu0820/NegativePrompt

标题: ImageInWords:解锁超详细图像描述

原标题: ImageInWords: Unlocking Hyper-Detailed Image Descriptions

作者: Roopal Garg, Andrea Burns, Burcu Karagol Ayan, Yonatan Bitton, Ceslee Montgomery, Yasumasa Onoe, Andrew Bunner, Ranjay Krishna, Jason Baldridge, Radu Soricut

摘要: 尽管有着“一张图片胜过千言万语”的古训,为训练视觉语言模型创建准确且超详细的图像描述仍然具有挑战性。当前的数据集通常具有从网络上抓取的描述,这些描述既简短又低粒度,而且经常包含与视觉内容无关的细节。因此,基于这些数据训练的模型生成的描述中存在着信息缺失、视觉不一致和幻觉等问题。为了解决这些问题,我们引入了ImageInWords(IIW),这是一个经过精心设计的人机协作注释框架,用于策划超详细的图像描述,并由此过程产生了一个新的数据集。我们通过评估框架的质量以及数据集对于考虑可读性、全面性、特异性、幻觉和人类相似性的微调的实用性来验证该框架。与最近发布的数据集(+66%)和GPT-4V输出(+48%)相比,我们的数据集在这些维度上显著改善。此外,使用IIW数据进行微调的模型在同一人类评估维度上表现出+31%的优势。鉴于我们的微调模型,我们还评估了文本到图像生成和视觉语言推理。我们模型生成的描述可以生成与原始图像最接近的图像,这是通过自动化和人类度量判断的。我们还发现,我们的模型生成的描述更具有组合丰富性,在ARO、SVO-Probes和Winoground数据集上的表现比最佳基线高出多达6%。

论文链接: https://arxiv.org/pdf/2405.02793

标题: 以更少的数据获取更多:LLM 中微调预热的原则性数据选择

原标题: Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs

作者: Feiyang Kang, Hoang Anh Just, Yifan Sun, Himanshu Jahagirdar, Yuanzhi Zhang, Rongxing Du, Anit Kumar Sahu, Ruoxi Jia

摘要: 这项工作侧重于利用和选择大量未标记的开放数据,对预训练语言模型进行预微调。其目标是在实现所需性能水平的同时,最大限度地减少对昂贵的领域特定数据进行后续微调的需求。尽管许多数据选择算法是为小规模应用而设计的,因此不适用于我们的情境,但一些新兴方法确实适用于语言数据规模。然而,它们通常优先考虑与目标分布一致的数据。尽管这种策略在从头开始训练模型时可能是有效的,但当模型已经在不同分布上进行了预训练时,它可能产生有限的结果。与先前的工作不同,我们的关键思想是选择能够将预训练分布推向目标分布的数据。我们展示了在特定条件下这种方法在微调任务中的最优性。我们展示了我们的方法在各种任务(NLU,NLG,零样本)中的有效性,使用了高达27亿的模型,表明它始终优于其他选择方法。此外,我们提出的方法比现有技术快得多,能够在单个GPU小时内扩展到数百万个样本。我们的代码是开源的(代码存储库:https://anonymous.4open.science/r/DV4LLM-D761/)。尽管微调在增强各种任务性能方面具有重要潜力,但其相关成本通常限制了其广泛应用;通过这项工作,我们希望为成本效益的微调奠定基础,使其好处更易获得。

论文链接: https://arxiv.org/pdf/2405.02774

标题: 在语言模型中检测编辑后的知识

原标题: Detecting Edited Knowledge in Language Models

作者: Paul Youssef, Zhixue Zhao, Jörg Schlötterer, Christin Seifert

摘要: 知识编辑技术(KEs)可以更新语言模型从预训练中学到的过时或不准确的知识。然而,KE也面临潜在的恶意应用,例如插入错误信息和有毒内容。此外,在负责任的人工智能背景下,让最终用户了解生成的输出是由编辑知识还是来自预训练的第一手知识驱动是很有启发性的。为此,我们通过引入一个新颖的任务来研究在语言模型中检测编辑知识:给定一个经过编辑的模型和模型生成的特定知识片段,我们的目标是将知识分类为“非编辑”(基于预训练)或“编辑”(基于后续编辑)。我们使用两种最先进的KEs、两种语言模型和两个数据集来启动这项任务。我们进一步提出了一个简单的分类器RepReg,一个以隐藏状态表示作为输入特征的逻辑回归模型。我们的结果显示,RepReg建立了一个强大的基准线,达到了99.81%的峰值准确率,在域外设置下为97.79%。其次,RepReg在有限的训练集(200个训练样本)下实现了接近最佳性能,并且即使在域外设置下也保持了性能。最后,我们发现当编辑和非编辑知识包含相同的主语或宾语时,将它们区分开变得更具挑战性。

论文链接: https://arxiv.org/pdf/2405.02765

标题: 评估大语言模型的对抗鲁棒性:一项实证研究

原标题: Assessing Adversarial Robustness of Large Language Models: An Empirical Study

作者: Zeyu Yang, Zhao Meng, Xiaochen Zheng, Roger Wattenhofer

摘要: 大语言模型(LLMs)已经彻底改变了自然语言处理,但它们对抗对抗性攻击的鲁棒性仍然是一个关键关注点。我们提出了一种新颖的白盒风格攻击方法,揭示了领先的开源LLMs(包括Llama、OPT和T5)的漏洞。我们评估了模型大小、结构和微调策略对它们抵抗对抗性扰动的影响。我们在五个不同的文本分类任务上进行的全面评估为LLM的鲁棒性建立了一个新的基准。这项研究的发现对于在现实应用中可靠部署LLMs以及促进可信AI系统的发展具有深远的影响。

论文链接: https://arxiv.org/pdf/2405.02764

标题: 通过对比解码增强大语言模型的上下文理解

原标题: Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding

作者: Zheng Zhao, Emilio Monti, Jens Lehmann, Haytham Assem

摘要: 大语言模型(LLMs)在文本生成过程中往往不能充分整合输入上下文,过度依赖模型参数中编码的先验知识,可能导致生成的文本存在事实不一致或上下文不忠实的内容。LLMs利用两个主要知识源:1)来自预训练的先验(参数化)知识,和2)来自输入提示的上下文(非参数化)知识。该研究探讨了在生成过程中LLMs如何有效平衡这些知识源的开放性问题,特别是在开放域问答的背景下。为了解决这个问题,我们引入了一种新颖的方法,将对比解码与对抗性无关段落作为负样本相结合,以增强在生成过程中的稳健上下文基础。值得注意的是,我们的方法在推理时运行,无需进一步训练。我们进行了全面的实验来展示其适用性和有效性,并提供了实证证据,展示其优于现有方法的优越性。我们的代码公开可用于:此https网址。

论文链接: https://arxiv.org/pdf/2405.02750

Github: https://github.com/amazon-science/ContextualUnderstanding-ContrastiveDecoding

标题: 超越性能:量化和减轻大语言模型中的标签偏见

原标题: Beyond Performance: Quantifying and Mitigating Label Bias in LLMs

作者: Yuval Reif, Roy Schwartz

摘要: 大语言模型(LLMs)已经展示出对各种任务的显著适应能力,通过利用包含指令或最少输入-输出示例的上下文提示。然而,最近的研究揭示它们也表现出标签偏见 - 对某些答案的不良偏好。然而,可靠地以及大规模地检测和衡量这种偏见仍然相对未被探索。在这项研究中,我们评估了不同方法来量化模型预测中的标签偏见,进行了一项全面调查,涵盖了279个分类任务和十个LLMs。我们的调查显示,在模型尝试去偏置之前和之后,模型中存在着相当大的标签偏见,并强调了基于结果的评估指标的重要性,这在此前并未被使用。我们进一步提出了一种针对少样本提示的新型标签偏见校准方法,该方法在提高性能和减轻标签偏见方面优于最近的校准方法。我们的结果强调了LLMs预测中的标签偏见仍然是它们可靠性的障碍。

论文链接: https://arxiv.org/pdf/2405.02743

标题: 利用大语言模型进行知识图谱完成的关系预测

原标题: Relations Prediction for Knowledge Graph Completion using Large Language Models

作者: Sakher Khalil Alqaaidi, Krzysztof Kochut

摘要: 知识图谱被广泛用于以结构化格式表示事实。由于其大规模应用,知识图谱存在不完整的问题。关系预测任务通过为每对节点分配一个或多个可能的关系来获得知识图谱的完整性。在这项工作中,我们利用知识图谱节点名称来微调一个大型语言模型,用于关系预测任务。仅利用节点名称,我们使我们的模型能够在归纳设置中充分运行。我们的实验表明,我们在一个广泛使用的知识图谱基准测试中取得了新的得分。

论文链接: https://arxiv.org/pdf/2405.02738

标题: 回忆它们全部:用于从长文档中提取长对象列表的检索增强语言模型

原标题: Recall Them All: Retrieval-Augmented Language Models for Long Object List Extraction from Long Documents

作者: Sneha Singhania, Simon Razniewski, Gerhard Weikum

摘要: 从文本中提取关系的方法主要侧重于高精度,但牺牲了有限的召回率。然而,高召回率对于填充与给定主体具有特定关系的对象实体的长列表至关重要。与相关对象有关的线索可能分布在长文本的许多段落中。这带来了从长文本中提取长列表的挑战。我们提出了L3X方法,该方法通过两个阶段解决了这个问题:(1)使用大语言模型(LLM)进行召回导向生成,采用审慎的检索增强技术,以及(2)精度导向的审查,以验证或修剪候选项。我们的L3X方法在很大程度上优于仅使用LLM生成的结果。

论文链接: https://arxiv.org/pdf/2405.02732

标题: 超越相关性:评估和改进检索器的透视意识

原标题: Beyond Relevance: Evaluate and Improve Retrievers on Perspective Awareness

作者: Xinran Zhao, Tong Chen, Sihao Chen, Hongming Zhang, Tongshuang Wu

摘要: 信息检索(IR)的任务要求系统根据用户的信息需求识别相关文档。在现实场景中,检索系统不仅需要依赖文档与查询之间的语义相关性,还需要识别用户查询背后微妙的意图或观点。例如,当要求验证一个主张时,检索系统应该能够从支持和相矛盾的观点中找到证据,以便下游系统做出公正的判断。在这项工作中,我们研究了检索系统是否能够识别并回应查询的不同观点——除了为主张找到相关文档外,检索系统能否区分支持和反对的文档?我们改进并扩展了六个现有任务,创建了一个用于检索的基准,其中我们在自由文本中描述了多样的观点,除了根、中性查询。我们展示了我们实验中涵盖的当前检索系统对查询中微妙不同观点的认识有限,并且可能偏向某些观点。受到这一观察的启发,我们进一步探讨了利用检索器表示空间的几何特征来以零样本方式提高检索器对观点的认识。我们展示了基于投影的方法在相同一组任务上的效率和有效性。进一步的分析还显示了观点意识如何提高在各种下游任务上的性能,与非观点感知基线相比,在AmbigQA上准确率提高了4.2%,在作文方面与指定观点的相关性提高了29.9%。

论文链接: https://arxiv.org/pdf/2405.02714

标题: CoE-SQL:使用链式编辑进行多轮文本到SQL的上下文学习

原标题: CoE-SQL: In-Context Learning for Multi-Turn Text-to-SQL with Chain-of-Editions

作者: Hanchong Zhang, Ruisheng Cao, Hongshen Xu, Lu Chen, Kai Yu

摘要: 最近,大语言模型(LLMs)已经展示出在各种领域和任务中具有令人印象深刻的能力。我们研究了多轮文本转SQL任务中提示设计的问题,并尝试增强LLMs在生成SQL查询时的推理能力。在对话环境中,由于上下文依赖性,当前的SQL查询可以通过少量操作从前一个SQL查询修改而来。我们介绍了一种名为CoE-SQL的方法,可以通过编辑链提示LLMs基于先前生成的SQL查询生成SQL查询。我们还进行了大量消融研究,以确定我们方法的最佳配置。我们的方法稳定地优于不同的上下文学习基线,并在两个基准SParC和CoSQL上使用LLMs取得了最先进的性能,也与最先进的微调模型相竞争。

论文链接: https://arxiv.org/pdf/2405.02712

标题: 通过 ELearnFit 在新闻摘要中实现高效的上下文学习和高效微调,提升新闻摘要质量

原标题: Enhancing News Summarization with ELearnFit through Efficient In-Context Learning and Efficient Fine-Tuning

作者: Che Guan, Andrew Chin, Puya Vahabi

摘要: 随着每日新闻周期传递的信息大量涌现,迫切需要有效和高效地总结新闻订阅内容以便快速消化。我们利用大语言模型(LLMs)的先进学习和生成能力,相较于传统语言模型,为来自XSum数据集的新闻文章生成简洁连贯的摘要。我们的论文关注LLMs的两个关键方面:高效上下文学习(ELearn)和参数高效微调(EFit)。在ELearn中,我们发现增加提示中的样本数量并利用简单模板通常会提高摘要质量。我们还发现,在ELearn的少样本学习中利用相关示例并不会提高模型性能。此外,我们使用不同方法研究EFit,并展示微调LLMs的第一层相较于微调其他层或利用LoRA会产生更好的结果。我们还发现,利用选择性层来利用更多相关训练样本并不会带来更好的性能。通过结合ELearn和EFit,我们创建了一个新模型(ELearnFit),充分利用少样本学习和微调的优势,比单独使用任一模型都产生更优越的性能。我们还使用ELearnFit来突出提示和微调之间的权衡,特别是在只有有限数量的注释样本可用的情况下。最终,我们的研究提供了优化新闻摘要在提示和微调阶段的实用技术,并增强了新闻文章的综合效果。

论文链接: https://arxiv.org/pdf/2405.02710

标题: 评估计算提取的叙事地图编码媒体框架的能力

原标题: Evaluating the Ability of Computationally Extracted Narrative Maps to Encode Media Framing

作者: Sebastián Concha Macías, Brian Keith Norambuena

摘要: 叙事在我们理解世界的基本框架中起着重要作用,并在协作中的意义建构中发挥关键作用,为意义建构提供了多功能的基础。框架是一种微妙但强大的机制,通过特定的词语选择影响公众对新闻事件的看法,塑造报道事件的解释。尽管人们已经认识到叙事和框架的重要性,但在文献中在计算抽取和表达的背景下明确考虑框架仍存在重大差距。本文探讨了一种特定叙事抽取和表达方法——叙事地图——从新闻数据中捕捉框架信息的能力。研究涉及两个关键问题:(1)叙事抽取方法是否捕捉到数据集的框架分布?(2)它是否产生具有一致框架的表达?我们的结果表明,虽然算法捕捉到了框架分布,但在各种起始和结束事件中实现一致的框架仍存在挑战。我们的结果突显了叙事地图在向用户提供有关新闻叙事中复杂框架动态的洞察力。然而,我们指出,在计算叙事抽取过程中直接利用框架信息仍然是一个未解之谜。

论文链接: https://arxiv.org/pdf/2405.02677

标题: R4:强化检索-重新排序-响应器,用于检索增强的大型语言模型

原标题: R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models

作者: Taolin Zhang, Dongyang Li, Qizhou Chen, Chengyu Wang, Longtao Huang, Hui Xue, Xiaofeng He, Jun Huang

摘要: 检索增强型大语言模型(LLMs)利用信息检索系统检索到的相关内容来生成正确的响应,旨在缓解幻觉问题。然而,现有的检索-响应方法通常将相关文档附加到LLMs的提示中,以执行文本生成任务,而不考虑检索到的文档与LLMs之间的细粒度结构语义之间的交互作用。这个问题对于准确的响应生成特别重要,因为LLMs在处理带有长文档的输入提示时往往会“在中间失去”。在这项工作中,我们提出了一个名为“强化检索-重新排序-响应器”(R 4 ^4 4)的新流水线,用于学习检索增强型LLMs的文档排序,从而进一步增强它们的生成能力,同时保持LLMs的大量参数不变。重新排序学习过程根据生成的响应质量分为两个步骤:文档顺序调整和文档表示增强。具体而言,文档顺序调整旨在根据图注意力学习将检索到的文档排序为开头、中间和结尾位置,从而最大化响应质量的强化奖励。文档表示增强通过文档级梯度对抗学习进一步完善了检索文档的表示,以改善质量较差的响应。大量实验证明,我们提出的流水线在知识密集型任务中实现了比强基线更好的事实问答性能,涵盖了各种公共数据集。源代码和训练模型将在论文被接受后发布。

论文链接: https://arxiv.org/pdf/2405.02659

标题: TREC iKAT 2023:用于评估对话式和交互式知识助手的测试集

原标题: TREC iKAT 2023: A Test Collection for Evaluating Conversational and Interactive Knowledge Assistants

作者: Mohammad Aliannejadi, Zahra Abbasiantaeb, Shubham Chatterjee, Jeffery Dalton, Leif Azzopardi

摘要: 近几年来,随着大语言模型(LLMs)的发展,会话式信息检索迅速发展,为解释和以自然方式回应用户请求提供了基础。扩展的TREC互动知识辅助赛道(iKAT)收集旨在使研究人员能够测试和评估他们的会话式搜索代理(CSA)。该收集包含一组36个个性化对话,涵盖20个不同主题,每个对话都配有定义定制用户角色的个人文本知识库(PTKB)。共提供344个轮次,约26,000个段落,用于评估相关性,以及关于生成响应的额外评估,涵盖四个关键维度:相关性、完整性、基础性和自然性。该收集挑战CSA有效地导航各种个人背景,引出相关的角色信息,并利用上下文进行相关对话。PTKB的整合以及对决策性搜索任务的强调,为这一测试收集的独特性做出了贡献,使其成为推动会话式和互动知识助手研究的重要基准。

论文链接: https://arxiv.org/pdf/2405.02637

标题: Astro-NER – 天文命名实体识别:GPT是否是一个良好的领域专家标注器?

原标题: Astro-NER – Astronomy Named Entity Recognition: Is GPT a Good Domain Expert Annotator?

作者: Julia Evans, Sameer Sadruddin, Jennifer D’Souza

摘要: 在这项研究中,我们解决了为学术领域开发NER模型面临的挑战之一,即适合的标记数据稀缺的问题。我们尝试一种方法,利用经过精调的大语言模型的预测来帮助非领域专家标注天文学文献中的科学实体,旨在探究这种协作过程是否能够接近领域专业知识。我们的结果显示,领域专家与大语言模型辅助的非专家之间存在中等一致性,同时领域专家与大语言模型的预测之间存在公平一致性。在另一项实验中,我们比较了在这一任务上经过微调和默认设置的大语言模型的性能。我们还引入了一个专门针对天文学的科学实体注释方案,并经领域专家验证。我们的方法采用了以学术研究贡献为中心的视角,专注于与研究主题相关的科学实体。最终产生的数据集包含了5,000篇已注释的天文学文章标题,并已公开发布。

论文链接: https://arxiv.org/pdf/2405.02602

标题: 随机遮罩发现了参数高效微调的成功模型

原标题: Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning

作者: Jing Xu, Jingzhao Zhang

摘要: 对大语言模型(LLM)进行微调可能成本高昂。参数高效微调(PEFT)通过训练部分参数来解决问题,其成功揭示了预训练模型的表达能力和灵活性。本文研究了PEFT的极限,通过进一步简化其设计并减少可训练参数数量超出标准设置。为此,我们使用随机掩码来微调预训练模型。尽管简单,我们展示了随机掩码的惊人有效性:在较大于预期的学习率下,随机掩码可以在各种任务上与LoRA等标准PEFT算法的性能相匹配,同时使用更少的可训练参数。我们对随机掩码的成功进行了经验和理论探讨。我们展示了掩码引发了更平坦的损失景观和更远的解决方案,这使得需要和必须使用较大的学习率。

论文链接: https://arxiv.org/pdf/2405.02596

标题: 在医疗保健领域生成式大语言模型人类评估的文献综述和框架

原标题: A Literature Review and Framework for Human Evaluation of Generative Large Language Models in Healthcare

作者: Thomas Yu Chow Tam, Sonish Sivarajkumar, Sumit Kapoor, Alisa V Stolyar, Katelyn Polanska, Karleigh R McCarthy, Hunter Osterhoudt, Xizhi Wu, Shyam Visweswaran, Sunyang Fu, Piyush Mathur, Giovanni E. Cacciamani, Cong Sun, Yifan Peng, Yanshan Wang

摘要: 作为生成人工智能(AI),特别是大语言模型(LLMs),继续渗透到医疗保健领域,通过人类专家评估来补充传统的自动化评估仍然至关重要。理解和评估生成的文本对确保安全性、可靠性和有效性至关重要。然而,人类评估的繁琐、耗时和非标准化特性给LLMs在实践中广泛应用带来了重大障碍。本研究回顾了医疗保健领域内关于LLMs人类评估方法学的现有文献。我们强调了对标准化和一致的人类评估方法的明显需求。我们进行了广泛的文献搜索,遵循了系统评价和荟萃分析的首选报告项目(PRISMA)指南,涵盖了从2018年1月到2024年2月的出版物。这篇综述提供了对在不同医疗保健应用中使用的人类评估方法的全面概述。该分析审视了在各种医学专业领域中对LLMs的人类评估,涉及评估维度、样本类型和规模、评估者的选择和招募、框架和指标、评估过程以及结果的统计分析等因素。借鉴这些研究中突出的多样评估策略,我们提出了一个全面而实用的生成式LLMs人类评估框架,名为QUEST:信息质量、理解和推理、表达风格和人物、安全与危害、信任和信心。该框架旨在通过定义清晰的评估维度和提供详细指南,改善在不同医疗保健应用中对生成式LLMs的人类评估的可靠性、泛化性和适用性。

论文链接: https://arxiv.org/pdf/2405.02559

标题: 2024年SemEval任务9中的蛾人:一种用于思维链提示优化的迭代系统

原标题: Mothman at SemEval-2024 Task 9: An Iterative System for Chain-of-Thought Prompt Optimization

作者: Alvin Po-Chun Chen, Ray Groshan, Sean von Bayern

摘要: 存在大量关于大语言模型在基于逻辑的任务上表现的研究,而对它们在侧向思维任务中生成创造性解决方案的能力的研究相对较少。BrainTeaser 共享任务测试侧向思维,并使用对抗性数据集来防止记忆,导致开箱即用模型表现不佳。我们提出了一种通过人类评估优化提示的迭代式思维链提示工程系统。利用这个共享任务,我们展示了我们的系统通过优化提示和评估输入数据集来显著提高模型性能的能力。

论文链接: https://arxiv.org/pdf/2405.02517

标题: 超越有用和无害:通过个性化上下文学习从大语言模型中引出多样化行为

原标题: Beyond Helpfulness and Harmlessness: Eliciting Diverse Behaviors from Large Language Models with Persona In-Context Learning

作者: Hyeong Kyu Choi, Yixuan Li

摘要: 大语言模型(LLMs)是在大规模文本语料库上训练的,这些语料库编码了多样的个性特征。这引发了一个有趣的目标,即从LLM中引出所需的个性特征,并探究其行为偏好。因此,我们形式化了个性引出任务,旨在定制LLM的行为以符合目标个性。我们提出了一种基于贝叶斯推断的新型个性引出框架——Persona In-Context Learning(PICLe)。在核心部分,PICLe引入了一种基于似然比的新的ICL示例选择标准,旨在最优地引导模型引出特定目标个性。我们通过与三个当代LLMs的基准方法进行广泛比较,展示了PICLe的有效性。代码可在此https网址找到。

论文链接: https://arxiv.org/pdf/2405.02501

Github: https://github.com/deeplearning-wisc/picle

标题: 语义缩放:使用大语言模型进行贝叶斯理想点估计

原标题: Semantic Scaling: Bayesian Ideal Point Estimates with Large Language Models

作者: Michael Burnham

摘要: 这篇论文介绍了一种名为“语义缩放”的新方法,用于从文本中进行理想点估计。我利用大型语言模型根据文档表达的立场对文档进行分类,并提取类似调查的数据。然后我使用项目反应理论从这些数据中对主体进行缩放。语义缩放显著改进了现有基于文本的缩放方法,并允许研究人员明确定义他们测量的意识形态维度。这代表了第一个允许在调查工具之外具有这种灵活性的缩放方法,并为难以进行调查的人群开辟了新的研究途径。此外,它适用于长度各异的文档,并产生了对大众和精英意识形态的有效估计。我证明了这种方法可以区分政策偏好和内外群体情感。在公众中,根据人类判断,语义缩放优于推文分数;在国会中,它重新捕捉了第一维度 DW-NOMINATE,同时允许更大的灵活性来解决构造效度挑战。

论文链接: https://arxiv.org/pdf/2405.02472

标题: 情感在语言模型中意味着什么?

原标题: What is Sentiment Meant to Mean to Language Models?

作者: Michael Burnham

摘要: 情感分析是文本分析中最常用的技术之一。最近,大语言模型的进展使其比以往任何时候都更准确和更易访问,使研究人员能够仅通过简单的英文提示对文本进行分类。然而,“情感”涵盖了各种概念,取决于领域和工具的使用。它被用来表示情绪、观点、市场走势,或者仅仅是一个一般的“好坏”维度。这带来了一个问题:当要求语言模型按情感标记文档时,它们究竟在做什么?本文首先概述了情感在不同背景下的定义,强调情感是一个混杂的测量构建,因为它包含多个变量,如情绪倾向和观点,而没有将它们分开。然后,我使用提示请求情感、情绪倾向和立场分类的两个数据集测试了三个语言模型。我发现情感标签与情绪倾向标签之间有最强烈的相关性。我进一步发现,当研究人员更精确地指定他们感兴趣的维度时,分类效果会提高,而不是使用不太明确定义的情感概念。最后,我鼓励研究人员在可行的情况下超越“情感”,使用更精确的测量构建。

论文链接: https://arxiv.org/pdf/2405.02454

标题: CALRec:用于序列推荐的生成式LLM的对比对齐

原标题: CALRec: Contrastive Alignment of Generative LLMs For Sequential Recommendation

作者: Yaoyiran Li, Xiang Zhai, Moustafa Alzantot, Keyi Yu, Ivan Vulić, Anna Korhonen, Mohamed Hammad

摘要: 传统的推荐系统,如矩阵分解方法,依赖于学习一个共享的密集嵌入空间来表示物品和用户偏好。序列模型,如RNN、GRUs,以及最近的Transformer,在顺序推荐任务中也表现出色。这项任务需要理解用户历史交互中存在的顺序结构,以预测他们可能喜欢的下一个物品。借鉴大语言模型(LLMs)在各种任务中取得的成功,研究人员最近开始探索使用在大量文本语料库上预训练的LLMs进行顺序推荐。为了在顺序推荐中使用LLMs,用户交互历史和模型对下一个物品的预测都以文本形式表达。我们提出了CALRec,一个两阶段LLM微调框架,通过混合两种对比损失和一种语言建模损失以两塔方式微调预训练的LLM:LLM首先在来自多个领域的数据混合上进行微调,然后进行另一轮目标领域微调。我们的模型在许多最先进的基线上取得了显著的性能提升(在Recall@1上提高了37%,在NDCG@10上提高了24%),系统化的消融研究表明:(i)微调的两个阶段都至关重要,当结合在一起时,我们实现了改进的性能;(ii)在我们的实验中探索的目标领域中,对比对齐在效果上是有效的。

论文链接: https://arxiv.org/pdf/2405.02429

标题: 知识神经元论与知识有什么关系?

原标题: What does the Knowledge Neuron Thesis Have to do with Knowledge?

作者: Jingcheng Niu, Andrew Liu, Zining Zhu, Gerald Penn

摘要: 我们重新评估了知识神经元(KN)论点:这是对大型语言模型能够从训练语料库中回忆事实的机制的解释。这一新兴的论点提出,事实是通过MLP权重从训练语料库中回忆出来的,这种方式类似于键-值记忆,实际上意味着“知识”被存储在网络中。此外,通过修改MLP模块,可以控制语言模型生成事实信息。KN论点的可信度已经通过受KN启发的模型编辑方法的成功得到证明(Dai等,2022年;Meng等,2022年)。

我们发现,这一论点充其量是一种过度简化。我们不仅发现可以使用相同的模型编辑方法编辑某些语言现象的表达,而且通过更全面的评估,我们发现KN论点并不能充分解释事实表达的过程。虽然可以说MLP权重存储了在句法和语义上都可解释的复杂模式,但这些模式并不构成“知识”。为了更全面地了解知识表示过程,我们必须超越MLP权重,探索最近模型的复杂层结构和注意机制。

论文链接: https://arxiv.org/pdf/2405.02421

标题: 呼吁关注社会意识的语言技术

原标题: The Call for Socially Aware Language Technologies

作者: Diyi Yang, Dirk Hovy, David Jurgens, Barbara Plank

摘要: 语言技术取得了巨大进步,特别是引入了大语言模型(LLMs)。在传统任务如机器翻译和情感分析方面,这些模型的表现接近人类水平。然而,这些进步可能加剧模型传统上所困扰的各种问题,如偏见、评估和风险。在这篇立场论文中,我们认为许多这些问题有一个共同的核心:对自然语言处理操作的社会环境因素、背景和影响缺乏意识,我们称之为社会意识。虽然自然语言处理在解决形式语言方面取得了进展,但在为语言应用程序增加在所有情况下为所有用户工作所需的社会意识方面进展有限。将社会意识整合到自然语言处理模型中将使应用程序更加自然、有帮助和安全,并将开辟新的可能性。因此,我们认为自然语言处理仍面临重大挑战,需要发展社会意识,我们只是处于该领域一个新时代的开端。

论文链接: https://arxiv.org/pdf/2405.02411

标题: 大语言模型作为数据集分析员:利用大语言模型进行子群体结构发现

原标题: LLM as Dataset Analyst: Subpopulation Structure Discovery with Large Language Model

作者: Yulin Luo, Ruichuan An, Bocheng Zou, Yiming Tang, Jiaming Liu, Shanghang Zhang

摘要: 子群体的分布是隐藏在数据集中的一个重要属性。揭示和分析数据集中的子群体分布提供了对数据集的全面理解,是对各种下游任务有益的强大工具,包括数据集子群体组织、子群体转移和切片发现。尽管其重要性,据我们所知,尚无系统地探索数据集的子群体分布的工作。为了解决这一局限并以统一的方式解决所有提到的任务,我们引入了一个新颖的子群体结构概念,用于表示、分析和利用数据集中的子群体分布。为了以可解释的方式表征这些结构,我们提出了利用大语言模型(LLM)的世界知识和指令遵循能力来语言分析信息性图像标题并总结结构的子群体结构发现框架(SSD-LLM)。此外,我们提出了完整的工作流程来解决下游任务,命名为任务特定调整,展示了将发现的结构应用于一系列与子群体相关的任务,包括数据集子群体组织、子群体转移和切片发现。

论文链接: https://arxiv.org/pdf/2405.02363

标题: 早期Transformer:通过早期抽奖票有效训练Transformer模型的研究

原标题: Early Transformers: A study on Efficient Training of Transformer Models through Early-Bird Lottery Tickets

作者: Shravan Cheekati

摘要: Transformer 模型的训练已经彻底改变了自然语言处理和计算机视觉,但仍然是一个资源密集且耗时的过程。本文研究了早鸟票假设在优化 Transformer 模型训练效率方面的适用性。我们提出了一种方法,结合迭代剪枝、掩码距离计算和选择性重训练,以识别各种 Transformer 架构中的早鸟票,包括 ViT、Swin-T、GPT-2 和 RoBERTa。我们的实验结果表明,在训练或微调的最初几个时期内可以始终找到早鸟票,从而实现显著的资源优化而不影响性能。从早鸟票获得的经过剪枝的模型在显著减少内存使用的同时,实现了与未经剪枝的对照模型相当甚至更高的准确性。此外,我们的比较分析突出了早鸟票现象在不同 Transformer 模型和任务中的普适性。这项研究为 Transformer 模型的高效训练策略的发展做出了贡献,使其更易于访问且更友好资源。通过利用早鸟票,从业者可以加速自然语言处理和计算机视觉应用的进展,同时减少与训练 Transformer 模型相关的计算负担。

论文链接: https://arxiv.org/pdf/2405.02353

标题: COPAL:大语言生成模型中的持续修剪

原标题: COPAL: Continual Pruning in Large Language Generative Models

作者: Srikanth Malla, Joon Hee Choi, Chiho Choi

摘要: 将预训练的大语言模型适应到自然语言处理中的不同领域需要考虑两个关键因素:高计算需求和模型无法持续适应。为了同时解决这两个问题,本文提出了COPAL(COntinual Pruning in Adaptive Language settings),这是一种专为在持续模型适应设置下修剪大语言生成模型而开发的算法。在避免资源密集型微调或重新训练的同时,我们的修剪过程是由所提出的敏感性分析引导的。敏感性有效地衡量了模型抵御新数据集引入的扰动的能力,并找到了对所有遇到的数据集都相关的模型权重。因此,COPAL允许模型无缝适应新领域,同时提高资源利用效率。我们在各种规模的大语言模型上进行的实证评估表明,COPAL优于基准模型,展示了其在效率和适应性方面的有效性。

论文链接: https://arxiv.org/pdf/2405.02347

标题: 口述历史研究的语音技术服务

原标题: Speech Technology Services for Oral History Research

作者: Christoph Draxler, Henk van den Heuvel, Arjan van Hessen, Pavel Ircing, Jan Lehečka

摘要: 口述历史是关于历史事件的见证人和评论者的口头资料。语音技术是处理这些录音以获得转录和进一步增强口述记述结构的重要工具。在这篇文章中,我们讨论了BAS的转录门户和与语音处理相关的网络服务,LINDAT开发的语音解决方案,如何使用Whisper自行处理,剩余的挑战以及未来的发展。

论文链接: https://arxiv.org/pdf/2405.02333

标题: 利用持续存在的大语言模型进行数字 ASIC 设计:策略与前景

原标题: Digital ASIC Design with Ongoing LLMs: Strategies and Prospects

作者: Maoyang Xiang, Emil Goh, T. Hui Teo

摘要: 现代数字系统复杂性不断增加,给集成电路(IC)设计带来了重大挑战,需要能简化IC设计流程的工具。大语言模型(LLMs)的出现被视为一项有前途的发展,有潜力自动化生成硬件描述语言(HDL)代码,从而简化数字IC设计。然而,在这一领域实际应用LLMs面临重大障碍。值得注意的是,当前的LLMs经常生成带有小但关键语法错误的HDL代码,并且难以准确传达电路设计的高级语义。这些问题严重削弱了LLMs在IC设计中的实用性,导致误解和低效率。

为了应对这些挑战,本文提出了针对性的策略,利用LLMs的能力进行数字ASIC设计。我们概述了通过改进LLMs生成HDL代码的可靠性和准确性的方法。作为这些策略的实际演示,我们详细介绍了一个简单的三相脉宽调制(PWM)发生器的开发。这个项目是“Efabless AI-Generated Open-Source Chip Design Challenge”的一部分,成功通过了设计规则检查(DRC)并进行了制造,展示了LLMs增强数字ASIC设计潜力。这项工作强调了将LLMs整合到IC设计过程中的可行性和好处,提供了一种克服现代数字系统复杂性的新方法。

论文链接: https://arxiv.org/pdf/2405.02329

标题: 评估用于硬件设计和测试的大语言模型

原标题: Evaluating LLMs for Hardware Design and Test

作者: Jason Blocklove, Siddharth Garg, Ramesh Karri, Hammond Pearce

摘要: 大语言模型(LLMs)已经展示了在硬件描述语言(HDLs)中生成代码的能力。然而,大多数关注点仍然集中在它们编写功能代码而非测试代码的能力上。硬件设计过程包括设计和测试,因此放弃验证和验证会使潜在的收益大打折扣,鉴于设计和测试框架可能促进数字设计流程向全自动化的进展。在这项工作中,我们进行了一项首次研究,探索了大语言模型如何根据提供的规格设计和测试硬件模块。使用一套包含8个代表性基准的测试,我们研究了最先进的对话式大语言模型在生成Verilog以用于功能和验证目的时的能力和局限性。我们在Skywater 130nm航天飞机上完成了这些基准测试,并获得了功能芯片。

论文链接: https://arxiv.org/pdf/2405.02326

标题: NL2FOL:将自然语言翻译为一阶逻辑,用于逻辑谬误检测。

原标题: NL2FOL: Translating Natural Language to First-Order Logic for Logical Fallacy Detection

作者: Abhinav Lalwani, Lovish Chopra, Christopher Hahn, Caroline Trippel, Zhijing Jin, Mrinmaya Sachan

摘要: 逻辑谬误是推理中常见的错误,会削弱论点的逻辑性。自动检测逻辑谬误在追踪错误信息和验证论断方面具有重要应用。在本文中,我们设计了一个过程,通过使用大语言模型(LLMs)逐步将自然语言转换为一阶逻辑(FOL)来可靠地检测逻辑谬误。然后,我们利用可满足模理论(SMT)求解器来推理公式的有效性,并将输入分类为谬误或有效陈述。我们的模型还提供了一种新颖的方法,利用LLMs来解释SMT求解器的输出,提供关于反例的见解,说明为什么一个给定的句子被认为是逻辑谬误。我们的方法强大、可解释,并且不需要训练数据或微调。我们在一个包含谬误和有效句子的混合数据集上评估了我们的模型。结果表明,与端到端LLMs相比,我们的分类器在逻辑数据集上实现了71%的F1分数的提升。该方法能够有效地泛化,在挑战集LogicClimate上实现了73%的F1分数,尽管其规模要小得多,但胜过了现有模型21%。

论文链接: https://arxiv.org/pdf/2405.02318

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐