学习型航空航天控制器的安全可靠训练

原标题: Safe and Reliable Training of Learning-Based Aerospace Controllers

作者: Udayan Mandal, Guy Amir, Haoze Wu, Ieva Daukantas, Fletcher Lee Newell, Umberto Ravaioli, Baoluo Meng, Michael Durling, Kerianne Hobbs, Milan Ganai, Tobey Shim, Guy Katz, Clark Barrett

机构: 斯坦福大学 希伯来大学 谷歌 GE航空航天研究 空军研究实验室

摘要: 近年来,深度强化学习(DRL)方法已经为许多复杂领域生成了非常成功的控制器。然而,这些模型的不透明性限制了它们在航空航天系统和安全关键领域中的适用性,因为一个错误可能带来严重后果。在本文中,我们提出了在DRL控制器的训练和验证方面的新进展,可以帮助确保它们的安全行为。我们展示了一种利用k-归纳的设计以验证活性属性的方法。此外,我们还简要介绍了神经李雅普诺夫屏障证书,并总结了它们在一个案例研究中的能力。最后,我们描述了几种基于可达性的新颖方法,尽管未能提供感兴趣的保证,但可能对其他DRL系统的验证有效,并可能引起社区的进一步关注。

论文链接: https://arxiv.org/pdf/2407.07088

在无线信号分类中对抗性样本的对策

原标题: Countermeasures Against Adversarial Examples in Radio Signal Classification

作者: Lu Zhang, Sangarapillai Lambotharan, Gan Zheng, Basil AsSadhan, Fabio Roli

机构: 洛夫伯勒大学 西安大学 摩德纳大学

摘要: 深度学习算法已被证明在许多通信网络设计问题中非常强大,包括自动调制分类中的应用。然而,它们容易受到精心设计的攻击,称为对抗样本。因此,对深度学习算法的依赖对无线网络的安全和运行构成严重威胁。在这封信中,我们首次提出了一种针对调制分类中对抗样本的对策。我们的对策基于神经拒绝技术,结合标签平滑和高斯噪声注入,能够高准确度地检测和拒绝对抗样本。我们的结果表明,所提出的对策可以保护基于深度学习的调制分类系统免受对抗样本的影响。

论文链接: https://arxiv.org/pdf/2407.06796

在 SAR 图像上隐藏本地操作:一种反取证攻击

原标题: Hiding Local Manipulations on SAR Images: a Counter-Forensic Attack

作者: Sara Mandelli, Edoardo Daniele Cannas, Paolo Bestagini, Stefano Tebaldini, Stefano Tubaro

机构: IEEE、Sara Mandelli、Edoardo Daniele Cannas、Paolo Bestagini、Stefano Tebaldini、Stefano Tubaro

摘要: 通过在线门户网站广泛提供的合成孔径雷达(SAR)图像使得在各个领域的研究得以推动。这种广泛使用和易获取性不幸地使得 SAR 数据容易受到恶意篡改的影响,例如对图像进行局部编辑以插入或覆盖敏感目标的存在。脆弱性进一步凸显在于,尽管大多数 SAR 产品本质上复杂,但通常以仅幅度信息的形式发布,这使得即使是经验不足的攻击者也能够编辑和轻松改变像素内容。为了对抗恶意篡改,近年来取证界开始研究 SAR 篡改问题,提出了能够有效定位幅度图像中篡改痕迹的检测器。然而,在本文中,我们展示了一个专业从业者可以利用 SAR 数据的复杂性来掩盖局部修改的幅度图像中的任何篡改迹象。我们将这种方法称为反取证攻击。为了掩盖篡改痕迹,攻击者可以模拟 SAR 系统最初生成原始图像的重新获取被篡改场景。通过这样做,攻击者可以掩盖任何篡改证据,使其看起来像是系统合法生成的图像。我们评估了所提出的反取证方法在不同场景下的有效性,考察了各种篡改操作。获得的结果表明,我们设计的攻击成功消除了篡改痕迹,甚至欺骗了最先进的取证检测器。

论文链接: https://arxiv.org/pdf/2407.07041

假设性思维:使用大语言模型为多智能体任务构建心智脚手架理论

原标题: Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models

作者: Logan Cross, Violet Xiang, Agam Bhatia, Daniel LK Yamins, Nick Haber

机构: 斯坦福大学

摘要: 多智能体强化学习(MARL)方法在多智能体系统的非静态性方面存在困难,并且在测试时无法适应性地在线学习新颖智能体。在这里,我们利用大语言模型(LLMs)创建了一个能够处理这些挑战的自主智能体。我们的智能体,假想心智(Hypothetical Minds),由一个启发式认知架构组成,具有感知、记忆和分层规划的模块化组件,涵盖两个抽象层次。我们引入了心智理论模块,通过用自然语言生成关于其他智能体策略的假设来支撑高层规划过程。然后,通过强化对其他智能体行为做出正确预测的假设,评估并迭代地完善这些假设。假想心智在Melting Pot基准测试中的竞争性、混合动机和协作领域,包括二元和基于人口的环境中,显著提高了性能,超过了以往的LLM智能体和强化学习基线。此外,与LLM智能体基线和消融实验的比较揭示了在复杂场景中取得成功的假设评估和完善的重要性。

论文链接: https://arxiv.org/pdf/2407.07086

模糊颜色模型和用于颜色聚类问题的聚类算法

原标题: Fuzzy color model and clustering algorithm for color clustering problem

作者: Dae-Won Kim, Kwang H. Lee

机构: 韩国科学技术院(Korea Advanced Institute of Science and Technology)

摘要: 本文的研究兴趣集中在针对任意颜色数据的高效聚类任务上。为了解决这个问题,我们尝试使用模糊颜色模型来建模颜色数据的固有不确定性和模糊性。通过采用模糊方法对颜色进行建模,我们可以对相邻颜色之间的模糊区域做出软决策。所提出的模糊颜色模型定义了一个三维模糊颜色球和颜色成员计算方法,其中包括两种颜色之间的距离。利用模糊颜色模型,我们开发了一种新的模糊聚类算法,用于对颜色数据进行高效的分区。每个模糊聚类集合都有一个由模糊颜色质心表示的聚类原型。

论文链接: https://arxiv.org/pdf/2407.06782

革新电池拆卸:电池拆卸自主移动操作机器人(BEAM-1)的设计与实施

原标题: Revolutionizing Battery Disassembly: The Design and Implementation of a Battery Disassembly Autonomous Mobile Manipulator Robot(BEAM-1)

作者: Yanlong Peng, Zhigang Wang, Yisheng Zhang, Shengmin Zhang, Nan Cai, Fan Wu, Ming Chen

机构: 清华大学 西安交通大学 南京大学 武汉大学

摘要: 废弃电动汽车电池(EOL-EVBs)的高效拆卸对绿色制造和可持续发展至关重要。目前由自主移动操纵机器人(AMMR)进行的预编程拆卸在动态环境、复杂场景和非结构化流程中难以满足拆卸要求。本文提出了基于神经符号人工智能的电池拆卸AMMR(BEAM-1)系统。它通过利用多传感器和神经谓词的组合来检测环境状态,然后将这些信息转化为准符号空间。实时地,通过LLM-启发式树搜索识别行动基元的最佳顺序,确保这些基元的高精度执行。此外,它利用位置推测采样使用直观网络,并通过精心设计的末端执行器实现各种螺栓类型的拆卸。重要的是,BEAM-1是一个持续学习的具身智能系统,能够像人类一样进行主观推理,并具有直觉。大量真实场景实验证明,它能够自主感知、决策和执行,以完成多个、多类别和复杂情况下螺栓的连续拆卸,成功率达到98.78%。这项研究尝试使用神经符号人工智能赋予机器人真正的自主推理、规划和学习能力。BEAM-1实现了电池拆卸的革命。其框架可以轻松移植到任何机器人系统,实现不同的应用场景,为未来具身智能机器人系统的设计和实施提供了开创性的思路。

论文链接: https://arxiv.org/pdf/2407.06590

探索自训练在开放词汇时序动作定位中的可扩展性

原标题: Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization

作者: Jeongseok Hyun, Su Ho Han, Hyolim Kang, Joon-Young Lee, Seon Joo Kim

机构: 延世大学 Adobe Research

摘要: 在时间动作定位(TAL)中,词汇量受到大规模标注数据集稀缺性的限制。为了解决这个问题,最近的研究将强大的预训练视觉语言模型(VLMs),如CLIP,纳入到执行开放词汇量TAL(OV-TAL)的工作中。然而,与在大量图像/视频文本对上训练的VLMs不同,现有的OV-TAL方法仍然依赖于小型、完全标记的TAL数据集来训练动作定位器。在本文中,我们探讨了利用未标记的YouTube视频进行OV-TAL的自训练的可扩展性。我们的自训练方法包括两个阶段。首先,在人工标记的TAL数据集上训练一个类别不可知的动作定位器,并用于为未标记视频生成伪标签。其次,将大规模伪标记数据集与人工标记数据集相结合,以训练定位器。大量实验证明,利用网络规模的视频进行自训练显著增强了动作定位器的泛化能力。此外,我们强调了现有OV-TAL评估方案存在的问题,并提出了新的评估协议。代码已发布在此网址。

论文链接: https://arxiv.org/pdf/2407.07024

Github: https://github.com/HYUNJS/STOV-TAL

CorMulT:一种用于情感分析的半监督模态相关感知多模态Transformer

原标题: CorMulT: A Semi-supervised Modality Correlation-aware Multimodal Transformer for Sentiment Analysis

作者: Yangmin Li, Ruiqi Zhu, Wengen Li

机构: 同济大学

摘要: 多模态情感分析是一个活跃的研究领域,它结合了多种数据模态,例如文本、图像和音频,以分析人类情绪,并使各种应用受益。现有的多模态情感分析方法可以分为基于模态交互的方法、基于模态转换的方法和基于模态相似性的方法。然而,大多数这些方法高度依赖于模态之间的强相关性,并且无法充分揭示和利用模态之间的相关性来增强情感分析。因此,这些方法通常在识别具有弱相关性的多模态数据的情感方面表现不佳。为了解决这个问题,我们提出了一个名为CorMulT的两阶段半监督模型,其中包括预训练阶段和预测阶段。在预训练阶段,设计了一个模态相关性对比学习模块,以有效地学习不同模态之间的模态相关系数。在预测阶段,学习到的相关系数与模态表示融合以进行情感预测。根据对流行的多模态数据集CMU-MOSEI的实验,CorMulT明显优于最先进的多模态情感分析方法。

论文链接: https://arxiv.org/pdf/2407.07046

模糊c均值聚类的新有效性度量

原标题: A new validity measure for fuzzy c-means clustering

作者: Dae-Won Kim, Kwang H. Lee

机构: 韩国科学技术院(KAIST) BioSystems部门

摘要: 提出了一种新的聚类有效性指标,用于从模糊c均值算法中获得的模糊聚类。所提出的有效性指标利用模糊聚类之间的簇间接近性。簇间接近性用于衡量簇之间的重叠程度。低接近性值表示良好分区的簇。通过最小化与c相关的簇间接近性来获得最佳的模糊c-划分。测试了知名数据集,以展示所提出指标的有效性和可靠性。

论文链接: https://arxiv.org/pdf/2407.06774

知识图谱的简单且可解释的概率分类器

原标题: Simple and Interpretable Probabilistic Classifiers for Knowledge Graphs

作者: Christian Riefolo, Nicola Fanizzi, Claudia d’Amato

机构: 巴里阿尔多莫罗大学 LACAM CILA Fincons Group

摘要: 在描述逻辑表达的知识图谱背景下,解决从不完整数据中学习概率分类器的问题,我们描述了一种基于学习简单信念网络的归纳方法。具体来说,我们考虑了一个基本的概率模型,即朴素贝叶斯分类器,基于多变量伯努利分布,以及将其扩展为一个两层网络,其中该分类模型连接到一个由伯努利混合组成的较低层。我们展示了如何将这些模型转换为(概率)公理(或规则),从而确保更多的可解释性。此外,它们也可以利用专家知识进行初始化。我们展示并讨论了一项经验评估的结果,旨在测试这些模型在具有不同本体论的多个随机分类问题上的有效性。

论文链接: https://arxiv.org/pdf/2407.07045

在非语言社交互动中对信念预测的理论心智显式建模

原标题: Explicit Modelling of Theory of Mind for Belief Prediction in Nonverbal Social Interactions

作者: Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling

机构: 斯图加特大学 德国

摘要: 我们提出了MToMnet - 一种理论心智(ToM)神经网络,用于从多模态输入中预测人类社交互动中的信念及其动态。ToM对于有效的非语言人类沟通和协作至关重要,然而,现有的信念建模方法并未包括显式的ToM建模,或者通常仅限于一到两种模态。MToMnet对上下文线索(场景视频和物体位置)进行编码,并将它们与个人特定线索(人类凝视和身体语言)在每个人的独立MindNet中进行整合。受社会认知和计算ToM的先前研究启发,我们提出了三种不同的MToMnet变体:两种涉及潜在表示的融合,一种涉及分类分数的重新排名。我们在两个具有挑战性的真实世界数据集上评估了我们的方法,一个侧重于信念预测,另一个检查信念动态预测。我们的结果表明,MToMnet在大幅超越现有方法的同时,需要的参数数量明显较少。总的来说,我们的方法为未来关于人工智能系统的研究开辟了一个极具前景的方向,这些系统可以从人类的非语言行为中稳健地预测人类的信念,并因此更有效地与人类合作。

论文链接: https://arxiv.org/pdf/2407.06762

在特定道路上的轨迹数据挖掘和行程旅行时间预测

原标题: Trajectory Data Mining and Trip Travel Time Prediction on Specific Roads

作者: Muhammad Awais Amin, Jawad-Ur-Rehman Chughtai, Waqar Ahmad, Waqas Haider Bangyal, Irfan Ul Haq

机构: Datamatics Technologies 伊斯兰堡 巴基斯坦
Women University of AJ&K 巴格 巴基斯坦
Classified institute 巴基斯坦
Kohsar University Murree 旁遮普 巴基斯坦
PIEAS 伊斯兰堡 巴基斯坦

摘要: 预测行程的旅行时间对于路线规划和导航应用至关重要。大多数研究基于国际数据,这些数据并不适用于巴基斯坦的道路条件。我们设计了一个完整的管道,用于从传感器数据中挖掘轨迹。在这些数据上,我们采用了最先进的方法,包括浅层人工神经网络、深度多层感知器和长短期记忆,以探讨在常用路线上对旅行时间进行预测的问题。实验结果表明,在伊斯兰堡地区六条最常见路线上,持续10分钟到60分钟的行程中,平均预测误差在30秒到1.2分钟之间。

论文链接: https://arxiv.org/pdf/2407.07030

iASiS:面向个性化医疗的异质大数据分析

原标题: iASiS: Towards Heterogeneous Big Data Analysis for Personalized Medicine

作者: Anastasia Krithara, Fotis Aisopos, Vassiliki Rentoumi, Anastasios Nentidis, Konstantinos Bougatiotis, Maria-Esther Vidal, Ernestina Menasalvas, Alejandro Rodriguez-Gonzalez, Eleftherios G. Samaras, Peter Garrard, Maria Torrente, Mariano Provencio Pulla, Nikos Dimakopoulos, Rui Mauricio, Jordi Rambla De Argila, Gian Gaetano Tartaglia, George Paliouras

机构: 希腊国家科学研究中心“德莫克利托斯”研究所 德莫克利托斯学院、图宾根大学、马德里理工大学、伦敦圣乔治大学

摘要: IASIS 项目的愿景是将即将到来的大量生物医学数据转化为决策者可采取行动的知识。这通过整合来自不同来源的数据,包括基因组学、电子健康记录和参考文献,并应用先进的分析方法来发现有用的模式来实现。其目标是将大量可用数据转化为可供规划公共卫生活动和政策的有用信息。整合和分析这些异构信息源将使得最佳决策得以实现,从而使诊断和治疗能够个性化到每个个体。该项目为异构数据源提供了一个通用的表示模式。IASIS 基础设施能够将临床记录转化为可用数据,将其与基因组数据、相关参考文献、图像数据等结合,创建一个全球知识库。这有助于利用智能方法来发现跨不同资源的有用模式。利用数据的语义整合为生成丰富、可审计和可靠的信息提供了机会。这些信息可用于提供更好的护理,减少错误,并增加数据共享的信心,从而提供更多的见解和机会。IASIS 的用例中探讨了两种不同疾病类别的数据资源,即痴呆症和肺癌。

论文链接: https://arxiv.org/pdf/2407.06748

Less is More: 高效的脑启发学习方法用于自动驾驶轨迹预测

原标题: Less is More: Efficient Brain-Inspired Learning for Autonomous Driving Trajectory Prediction

作者: Haicheng Liao, Yongkang Li, Zhenning Li, Chengyue Wang, Chunlin Tian, Yuming Huang, Zilin Bian, Kaiqun Zhu, Guofa Li, Ziyuan Pu, Jia Hu, Zhiyong Cui, Chengzhong Xu

机构: 澳门大学 电子科技大学 纽约大学 重庆大学 同济大学 东南大学 北航大学

摘要: 准确且安全地预测周围车辆的轨迹对于充分实现自动驾驶至关重要。本文提出了人类式轨迹预测模型(HLTP++),该模型模拟人类认知过程,以改善自动驾驶中的轨迹预测。HLTP++融合了一种新颖的师生知识蒸馏框架。配备自适应视觉扇区的“师傅”模型模仿了人类驾驶员基于空间定位、接近度和行驶速度等因素展示的动态注意力分配。另一方面,“学生”模型专注于实时交互和人类决策,类比于人类记忆存储机制。此外,我们通过引入新的傅立叶自适应脉冲神经网络(FA-SNN)提高了模型的效率,使其能够更快、更精确地进行预测,并且参数更少。在NGSIM、HighD和MoCAD基准测试中评估,HLTP++相较于现有模型表现出更优异的性能,将NGSIM数据集上的预测轨迹误差降低了超过11%,在HighD数据集上降低了25%。此外,HLTP++在具有不完整输入数据的复杂环境中展现出强大的适应性。这标志着在通往完全自动驾驶系统的征程中迈出了重要的一步。

论文链接: https://arxiv.org/pdf/2407.07020

基于基于角色的安全性和许可级别的企业大语言模型应用的简单架构,使用检索增强生成或专家混合。

原标题: A Simple Architecture for Enterprise Large Language Model Applications based on Role based security and Clearance Levels using Retrieval-Augmented Generation or Mixture of Experts

作者: Atilla Özgür, Yılmaz Uygun

机构: Constructor University Bremen

摘要: 这项研究提出了一个简单的企业应用架构,用于大型语言模型(LLMs)的基于角色的安全性和北约许可级别。我们的提议旨在解决当前LLMs在处理安全性和信息访问方面的局限性。所提出的架构可以在利用检索增强生成(RAG)和混合专家模型(MoE)的微调时使用。它可以仅与RAG一起使用,或仅与MoE一起使用,也可以两者兼而有之。利用用户的角色和安全许可级别,对RAG中的文档和MoE中的专家进行筛选。这样可以防止信息泄漏。

论文链接: https://arxiv.org/pdf/2407.06718

学习如何对多个用户进行补充和推迟

原标题: Learning to Complement and to Defer to Multiple Users

作者: Zheng Zhang, Wenjie Ai, Kevin Wells, David Rosewarne, Thanh-Toan Do, Gustavo Carneiro

机构: 萨里大学 中央视觉、语音和信号处理中心 蒙纳士大学 沃尔弗汉普顿皇家医院NHS信托

摘要: 随着人工智能协作分类(HAI-CC)的发展,由于复杂的决策过程,整合用户和人工智能预测变得具有挑战性。这个过程有三个选项:1)人工智能自主分类,2)学习互补,即人工智能与用户合作,3)学习推迟,即人工智能推迟给用户。尽管它们具有相互关联的特性,但这些选项被独立研究,而不是作为统一系统的组成部分。在本文中,我们通过新颖的HAI-CC方法论LECODU(Learning to Complement and to Defer to Multiple Users)解决了这一弱点。LECODU不仅结合了学习互补和学习推迟策略,还包括对参与决策过程的最佳用户数量的估计。LECODU的训练最大化了分类准确性,并最小化了与用户参与相关的协作成本。在真实世界和合成数据集上进行的全面评估显示,LECODU相对于最先进的HAI-CC方法表现出更优异的性能。值得注意的是,即使依赖具有高标签噪声率的不可靠用户,LECODU也比仅依赖人类决策者和仅依赖人工智能都有显著改进。

论文链接: https://arxiv.org/pdf/2407.07003

TCKIN:一种新颖的集成网络模型,用于预测脓毒症患者的死亡风险

原标题: TCKIN: A Novel Integrated Network Model for Predicting Mortality Risk in Sepsis Patients

作者: Fanglin Dong

机构: 云南大学

摘要: 脓毒症构成了全球重大的健康威胁,每年造成数百万人死亡并带来巨大的经济成本。对脓毒症患者死亡风险进行准确预测有助于高效分配医疗资源,从而提高患者的生存率和生活质量。通过精确的风险评估,医疗机构可以有效分配重症监护病床、医疗设备和人员,确保高危患者及时接受适当护理。早期识别和干预显著降低死亡率并改善患者预后。目前的方法通常仅利用一种类型的数据–常数、时间性或ICD编码。本研究引入了时间-常数KAN集成网络(TCKIN),这是一种创新模型,通过整合来自电子健康记录和ICD编码的时间性和常数数据,提高了脓毒症死亡风险预测的准确性。在MIMIC-III和MIMIC-IV数据集上验证,TCKIN在准确性、敏感性和特异性方面超过了现有的机器学习和深度学习方法。值得注意的是,TCKIN实现了87.76%和88.07%的AUC,表明其在识别高危患者方面具有优越能力。此外,TCKIN有效应对了临床环境中数据不平衡的普遍问题,提高了对处于高死亡风险的患者的检测,并促进了及时干预。这些结果证实了该模型的有效性以及其在临床实践中转变患者管理和治疗优化的潜力。借助这种先进的风险评估工具,医疗提供者可以制定更具针对性的治疗计划,优化资源利用,并最终提高脓毒症患者的生存率和生活质量。

论文链接: https://arxiv.org/pdf/2407.06560

指数加权算法玩的游戏

原标题: Games played by Exponential Weights Algorithms

作者: Maurizio d’Andrea, Fabien Gensbittel (TSE-R), Jérôme Renault (TSE-R)

摘要: 这篇论文研究了具有恒定学习率的指数权重算法的最后迭代收敛性质。我们考虑在离散时间中的重复互动,其中每个参与者使用一个以初始混合动作和固定学习率为特征的指数权重算法,使得在第 t t t阶段玩的混合动作概况 p t p^t pt遵循齐次马尔可夫链。首先,我们表明每当存在一个严格纳什均衡时,下一阶段玩严格纳什均衡的概率几乎肯定收敛于0或1。其次,我们表明 p t p^t pt的极限,如果存在的话,属于“具有均等回报的纳什均衡”集合。第三,我们表明在强协调博弈中,其中一名玩家的回报在对角线上是正的,在其他地方是0, p t p^t pt几乎肯定收敛于严格纳什均衡之一。最后,我们提出了一些未解决的问题。

论文链接: https://arxiv.org/pdf/2407.06676

可解释人工智能以提高基于深度学习的信道估计效率。

原标题: Explainable AI for Enhancing Efficiency of DL-based Channel Estimation

作者: Abdul Karim Gizzini, Yahia Medjahdi, Ali J. Ghandour, Laurent Clavier

摘要: 人工智能(AI)决策支持是未来6G网络的关键要素,其中将引入原生AI的概念。此外,AI被广泛应用于不同的关键应用,如自动驾驶和医学诊断。在这些应用中,将AI作为黑盒模型使用是有风险和挑战的。因此,了解和信任这些模型所做决策是至关重要的。解决这个问题可以通过开发可解释的AI(XAI)方案来实现,这些方案旨在解释黑盒模型行为背后的逻辑,从而确保其高效且安全的部署。最近,我们提出了一种新颖的基于扰动的XAI-CHEST框架,该框架针对无线通信中的信道估计。XAI-CHEST框架的核心思想是通过在不相关的输入上引入高噪声来识别相关的模型输入。本文提供了XAI-CHEST框架的详细理论基础。特别是,我们推导了XAI-CHEST损失函数和噪声阈值微调优化问题的分析表达式。因此,设计的XAI-CHEST提供了一种智能的输入特征选择方法,可以进一步改善整体性能,同时优化所使用模型的架构。模拟结果显示,与经典的基于DL的信道估计相比,XAI-CHEST框架提供了有效的解释,提供了改进的比特误码率性能,同时减少了所需的计算复杂性。

论文链接: https://arxiv.org/pdf/2407.07009

PEER:利用多智能体框架和调优方法对领域特定任务进行专家化。

原标题: PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods

作者: Yiying Wang, Xiaojing Li, Binzhu Wang, Yueyang Zhou, Han Ji, Hong Chen, Jinshi Zhang, Fei Yu, Zewei Zhao, Song Jin, Renji Gong, Wanqing Xu

机构: 蚂蚁集团

摘要: 在特定领域的应用中,搭配精确提示或检索增强生成(RAG)的 GPT-4 显示出显著潜力,但面临着性能、成本和数据隐私的关键三难问题。高性能需要复杂的处理技术,然而在复杂工作流中管理多个智能体往往昂贵且具有挑战性。为了解决这个问题,我们引入了 PEER(计划、执行、表达、审查)多智能体框架。该框架通过整合精确的问题分解、先进的信息检索、全面的总结以及严格的自我评估,系统化地处理特定领域的任务。考虑到成本和数据隐私的问题,企业正在从像 GPT-4 这样的专有模型转向定制模型,在成本、安全性和性能之间取得平衡。我们开发了利用在线数据和用户反馈进行高效模型调整的工业实践。本研究提供了在特定领域问题解决中应用多智能体系统和实施有效智能体调整策略的最佳实践指南。我们的实证研究,特别是在金融问答领域,表明我们的方法在有效管理成本和确保数据隐私的同时,实现了 GPT-4 性能的 95.0%。

论文链接: https://arxiv.org/pdf/2407.06985

AI-增强学习活动的协作设计

原标题: Collaborative Design of AI-Enhanced Learning Activities

作者: Margarida Romero (LINE, COMUE UCA, ULaval, Mnemosyne, UniCA)

机构: Université Côte d’Azur

摘要: 人工智能已经加速了公民生活各个方面的创新。许多背景已经涉及技术增强学习,但不同教育层次的教育工作者现在需要培养人工智能素养,并将适当的人工智能应用融入他们的教学中。我们考虑到这一目标,结合创造性学习设计,创建了一个形成性干预,使准教师、在职教师和教育科技专家能够有效地将人工智能融入他们的教学实践中。我们与 Terra Numerica 和 Maison de l’Intelligence Artificielle 两个阶段共同开发了这个形成性干预,以增进他们对人工智能的理解,并促进其在学习设计中的创造性应用。参与者通过探索不同的活动来反思人工智能在教学和学习中的潜力,这些活动可以将人工智能素养融入教育中,包括其伦理考虑和创新教学法的潜力。这种方法不仅强调将专业人士融入人工智能,还赋予他们共同设计促进学习者参与和个性化学习体验的人工智能增强教育活动的能力。通过这一过程,参与研讨会的人员将培养出有效利用人工智能所需的技能和心态,同时保持对其在教育中影响的批判意识。

论文链接: https://arxiv.org/pdf/2407.06660

通用和面向任务的视频分割

原标题: General and Task-Oriented Video Segmentation

作者: Mu Chen, Liulei Li, Wenguan Wang, Ruijie Quan, Yi Yang

机构: 悉尼科技大学 澳大利亚 杭州电子科技大学 中国

摘要: 我们提出了GvSeg,这是一个通用视频分割框架,用于解决四种不同的视频分割任务(即实例、语义、全景和示例引导),同时保持相同的架构设计。目前,有一种趋势是开发通用视频分割解决方案,可以应用于多个任务。这简化了研究工作并简化了部署。然而,在当前设计中,这种高度同质化的框架,其中每个元素保持统一性,可能忽视不同任务之间固有的多样性,并导致次优性能。为了解决这个问题,GvSeg:i)为分割目标提供了全面的解缠和建模,从外观、位置和形状的角度彻底检查它们,基于此,ii)重新制定了与任务特定要求一致的查询初始化、匹配和采样策略。这些与架构无关的创新使GvSeg能够通过适应表征它们的特定属性来有效地处理每个独特任务。对七个金标准基准数据集的大量实验证明,GvSeg在四种不同的视频分割任务上明显优于所有现有的专门化/通用解决方案。

论文链接: https://arxiv.org/pdf/2407.06540

TriQXNet:使用可解释的并行经典-量子框架和不确定性量化从太阳风数据预测Dst指数

原标题: TriQXNet: Forecasting Dst Index from Solar Wind Data Using an Interpretable Parallel Classical-Quantum Framework with Uncertainty Quantification

作者: Md Abrar Jahin, M. F. Mridha, Zeyar Aung, Nilanjan Dey, R. Simon Sherratt

机构: 孟加拉国库尔纳工程与技术大学(KUET) 美国国际大学孟加拉国分校 阿布扎比哈利法大学 印度加尔各答新城技术国际学院 英国雷丁大学 冲绳科学技术研究院研究生大学

摘要: 地磁风暴是由太阳风能量传递到地球磁场引起的,可能会干扰关键基础设施,如GPS、卫星通信和电力网。扰动风暴时间(Dst)指数用于衡量风暴强度。尽管利用实时太阳风数据进行的经验、基于物理的和机器学习模型取得了进展,但由于噪声和传感器故障,准确预测极端地磁事件仍然具有挑战性。本研究介绍了TriQXNet,一种新颖的混合经典-量子神经网络,用于Dst预测。我们的模型集成了经典和量子计算、一致性预测和可解释人工智能(XAI)于一个混合架构中。为了确保高质量的输入数据,我们开发了一个全面的预处理流水线,包括特征选择、归一化、聚合和插补。TriQXNet处理来自NASA的ACE和NOAA的DSCOVR卫星的预处理太阳风数据,预测当前小时和下一个小时的Dst指数,为减轻地磁风暴影响提供重要的提前通知。TriQXNet胜过了13种最先进的混合深度学习模型,实现了9.27纳特(nT)的均方根误差。通过10折交叉验证配对t检验的严格评估证实了其95%置信水平下的卓越性能。一致性预测技术提供了可量化的不确定性,这对操作决策至关重要,而ShapTime等XAI方法增强了可解释性。比较分析显示TriQXNet具有卓越的预测准确性,为地磁风暴预测设定了新的期望水平,并突显了经典-量子混合模型在空间天气预测中的潜力。

论文链接: https://arxiv.org/pdf/2407.06658

虚拟染色对高通量筛选是否具有泛化能力?

原标题: Can virtual staining for high-throughput screening generalize?

作者: Samuel Tonks, Cuong Nguyer, Steve Hood, Ryan Musso, Ceridwen Hopely, Steve Titus, Minh Doan, Iain Styles, Alexander Krull

机构: 伯明翰大学 GSK 维真药物研究中心 辉瑞Bioimaging

摘要: 在制药行业的高通量筛选(HTS)中,大量和多样化的成像数据为训练虚拟染色模型提供了极好的资源。然而,针对在一组实验条件下训练的模型是否能推广到其他条件的潜力尚未得到充分探讨。本研究系统地调查了来自三种细胞类型(肺部、卵巢和乳腺)和两种表型(毒性和非毒性条件)的数据是否能有效地训练虚拟染色模型,以推广到高通量筛选中常见的三种典型分布转移情况:未见过的表型、未见过的细胞类型以及两者的组合。利用包含772,416对明场、细胞质、细胞核和DNA损伤染色图像的数据集,我们评估了模型在基于像素、基于实例和基于生物特征的不同层面上的泛化能力。我们的研究结果表明,在非毒性条件样本上训练虚拟细胞核和细胞质模型不仅能推广到毒性条件样本,而且在所有评估层面上的性能都比在毒性条件样本上训练时有所提高。对未见过的细胞类型的泛化显示出因细胞类型而异的变化;在卵巢或肺细胞样本上训练的模型通常在其他条件下表现良好,而在乳腺细胞样本上训练的模型则一贯表现出较差的泛化能力。与仅解决未见过的细胞类型相比,对未见过的细胞类型和表型的泛化在所有评估层面上都表现出良好的泛化能力。本研究是对在多样化HTS数据集上训练的虚拟染色模型的泛化能力进行的首次大规模、以数据为中心的分析,为实验训练数据生成提供了宝贵的策略。

论文链接: https://arxiv.org/pdf/2407.06979

在网络物理系统维护的背景下,将本体设计与CRISP-DM集成。

原标题: Integrating Ontology Design with the CRISP-DM in the context of Cyber-Physical Systems Maintenance

作者: Milapji Singh Gill, Tom Westermann, Gernot Steindl, Felix Gehlhoff, Alexander Fay

机构: 哈姆堡赫尔穆特·施密特大学 自动化技术研究所 维也纳工业大学 计算机工程研究所 博鲁姆鲁尔大学 自动化主席

摘要: 在以下贡献中,介绍了一种将领域专家中心本体设计与跨行业标准数据挖掘过程(CRISP-DM)相结合的方法。该方法旨在高效构建一个针对网络物理系统(CPS)的纠正性维护的特定应用本体。所提出的方法分为三个阶段。在第一阶段,系统地确定本体需求,定义相关知识范围。然后,在第二阶段,使用领域特定的本体工件对CPS生命周期数据进行情境化。这种形式化的领域知识随后在CRISP-DM中被利用,以高效地从数据中提取新的见解。最后,新开发的数据驱动模型被用来填充和扩展本体。因此,在第三阶段,从该模型中提取的信息被语义注释,并与现有本体对齐。这种方法的适用性已在模块化工艺厂异常检测案例研究中进行了评估。

论文链接: https://arxiv.org/pdf/2407.06930

在生成式人工智能时代的教师代理:走向学习设计的混合智能框架

原标题: Teacher agency in the age of generative AI: towards a framework of hybrid intelligence for learning design

作者: Thomas B Frøsig (UniCA, LINE), Margarida Romero (UniCA, LINE)

机构: Université Côte d’Azur 法国海岸大学

摘要: 生成式人工智能(genAI)正在教育领域被用于不同的目的。从教师的角度来看,genAI可以支持学习设计等活动。然而,有必要研究genAI对教师代理的影响。虽然genAI可以支持某些想法生成和共同创造的过程,但由于教师在行动、影响事务、做出决策或选择以及表达立场方面的能力有限,genAI有可能对专业代理产生负面影响。代理被认为是学习科学研究中教师能够信任人工智能的因素之一。本文旨在引入双重视角。首先,教育技术与其他计算机中介通信(CMC)工具相对立,具有两个明显不同的用户群体和不同的用户需求,即学习者和教师,需要为其提供服务。其次,教育技术的设计通常优先考虑学习者的代理和参与度,从而限制了教师影响技术和采取行动的机会。本研究旨在分析GenAI如何影响教师的代理。在确定genAI当前限制后,提出了一种基于人工智能和人类智慧相结合的混合智能方法的解决方案。这种组合打开了教师与genAI之间合作的讨论,能够在学习设计中开展新的实践,其中人工智能支持扩展教师活动。

论文链接: https://arxiv.org/pdf/2407.06655

推进手稿元数据:在亚盖隆大学进行中的工作。

原标题: Advancing Manuscript Metadata: Work in Progress at the Jagiellonian University

作者: Luiz do Valle Miranda, Krzysztof Kutt, Grzegorz J. Nalepa

机构: 雅盖隆大学

摘要: 作为正在进行的研究项目的一部分,克拉科夫的雅盖隆大学博物馆、雅盖隆大学档案馆和雅盖隆大学图书馆三个单位正在合作数字化文化遗产文件,详细描述这些文件,然后将这些描述集成到一个链接数据云中。实现这一目标需要作为第一步开发一个元数据模型,一方面要符合现有标准,另一方面要允许与其他系统互操作,并且要捕捉收藏馆馆长确定的所有描述元素。在本文中,我们介绍了工作目前状态的报告,在报告中我们概述了正在开发的数据模型的最重要要求,然后与两个最相关的标准进行了详细比较,从收藏的角度来看这两个标准最相关:Europeana 数据模型在 Europeana 中使用,以及在 Kalliope 中使用的编码档案描述。

论文链接: https://arxiv.org/pdf/2407.06976

基于超图的文档语义实体识别理解

原标题: Hypergraph based Understanding for Document Semantic Entity Recognition

作者: Qiwei Li, Zuchao Li, Ping Wang, Haojun Ai, Hai Zhao

机构: 武汉大学 上海交通大学 NAAC

摘要: 语义实体识别是视觉丰富文档理解领域中的重要任务。它通过分析文本节点之间的位置关系和文本内容之间的关系来区分文本的语义类型。现有的文档理解模型主要关注实体类别,而忽略了实体边界的提取。我们构建了一种新颖的超图注意力文档语义实体识别框架 HGA,该框架利用超图注意力同时关注实体边界和实体类别。它可以对上游模型分析的文档文本表示进行更详细的分析,并实现更好的语义信息性能。我们在 GraphLayoutLM 的基础上应用这种方法,构建了一个新的语义实体识别模型 HGALayoutLM。我们在 FUNSD、CORD、XFUND 和 SROIE 上的实验结果表明,我们的方法可以有效提高基于原始模型的语义实体识别任务的性能。HGALayoutLM 在 FUNSD 和 XFUND 上的结果达到了新的最先进水平。

论文链接: https://arxiv.org/pdf/2407.06904

推理关于不可预测的变化和显式时间

原标题: Reasoning about unpredicted change and explicit time

作者: Florence Dupin de Saint-Cyr (IRIT-ADRIA), Jérôme Lang (LAMSADE)

机构: Université Paul Sabatier

摘要: 关于未预测到的变化的推理包括通过事件解释观察结果;我们在这里提出了一种通过惊喜来解释时间戳观察结果的方法,这些惊喜是由事实的真值改变构成的简单事件。定义了一个处理惊喜的框架。提供了惊喜的最小集合,以及每个惊喜发生的时间间隔,并从基于模型的诊断角度对其进行了表征。然后,提出了一种惊喜最小化的概率方法。

论文链接: https://arxiv.org/pdf/2407.06622

通过智能合约实现的去中心化系统中的联邦学习中的信任和韧性

原标题: Trust and Resilience in Federated Learning Through Smart Contracts Enabled Decentralized Systems

作者: Lorenzo Cassano, Jacopo D’Abramo, Siraj Munir, Stefano Ferretti

机构: 博洛尼亚大学计算机科学与工程系, 乌尔比诺·卡洛·博大学纯与应用科学系

摘要: 在这篇论文中,我们介绍了一项关于联邦学习(FL)系统的研究,基于使用分散式架构来确保信任和提高可靠性。该系统的基本思想是,FL 合作者将(加密的)模型参数上传到星际文件系统(IPFS),并与专用智能合约进行交互以跟踪它们的行为。通过这个智能合约,参数更新阶段得以高效管理,从而加强数据安全性。我们进行了一项实验研究,利用了两种不同的权重聚合方法,即经典的平均方案和联邦近端聚合。结果证实了该提议的可行性。

论文链接: https://arxiv.org/pdf/2407.06862

TVR-Ranking:一个用于带有不精确查询的视频时刻排序检索的数据集

原标题: TVR-Ranking: A Dataset for Ranked Video Moment Retrieval with Imprecise Queries

作者: Renjie Liang, Li Li, Chongzhi Zhang, Jing Wang, Xizhou Zhu, Aixin Sun

机构: 新加坡南洋理工大学 辰光科技

摘要: 在这篇论文中,我们提出了“Ranked Video Moment Retrieval”(RVMR)任务,通过自然语言查询来定位一系列视频中匹配时刻的排序列表。尽管CV、NLP和IR社区提出并研究了一些相关任务,但RVMR是最能反映时刻搜索实际情境的任务。为了促进RVMR领域的研究,我们基于TVR数据集中提供的原始视频和现有时刻注释,开发了TVR-Ranking数据集。我们的主要贡献在于为94,442个查询-时刻对手动注释了相关性级别。然后,我们为这一新任务开发了 N D C G @ K , I o U ≥ μ NDCG@K, IoU\geq \mu NDCG@K,IoUμ评估指标,并进行实验评估了三种基准模型。我们的实验表明,新的RVMR任务给现有模型带来了新挑战,我们相信这一新数据集有助于多模态搜索研究。该数据集可在\url{this https URL}上获得。

论文链接: https://arxiv.org/pdf/2407.06597

Github: https://github.com/Ranking-VMR/TVR-Ranking

微软基于云的数字化工作流,用于获取文化遗产对象丰富的元数据。

原标题: Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects

作者: Krzysztof Kutt (1), Jakub Gomułka (2), Luiz do Valle Miranda (1), Grzegorz J. Nalepa (1) ((1) Jagiellonian University, (2) AGH University of Krakow)

机构: 雅盖隆大学 AGH克拉科夫大学

摘要: 针对瓦迪斯瓦夫大学的几项文化遗产倡议,我们与瓦迪斯瓦夫大学图书馆(JL)合作开发了一种新的数字化工作流程。该解决方案基于易于访问的技术解决方案——使用 Microsoft 365 云和 MS Excel 文件作为元数据采集界面,使用 Office Script 进行验证,以及使用 MS Sharepoint 进行存储——这使得领域专家(语言学家、历史学家、哲学家、图书馆员、档案管理员、策展人等)可以进行元数据采集,而不受其信息系统经验的限制。最终目标是创建描述所分析藏品的知识图谱,与通用知识库以及其他文化遗产收藏品相链接,因此我们特别注意元数据的高准确性和与外部来源的正确链接。该工作流程已在 DiHeLib 项目的两个试点中进行了评估,该项目专注于数字化所谓的“柏林藏品”,并在两次国际客人的研讨会中进行了评估,这些评估使得工作流程得以完善,并确认了其正确性和对瓦迪斯瓦夫大学的可用性。由于所提出的工作流程不会干扰现有系统或领域指南关于数字化和给定机构基本元数据收集的规定(例如文件类型、图像质量、使用 Dublin Core/MARC-21),而是在这些规定的基础上进行扩展,以便实现以前不可能的丰富元数据收集,我们相信这可能对所有 GLAM(画廊、图书馆、档案馆和博物馆)都具有吸引力。

论文链接: https://arxiv.org/pdf/2407.06972

LuSNAR:基于多传感器的月球分割、导航和重建数据集,用于自主探索

原标题: LuSNAR:A Lunar Segmentation, Navigation and Reconstruction Dataset based on Muti-sensor for Autonomous Exploration

作者: Jiayi Liu, Qianyu Zhang, Xue Wan, Shengyang Zhang, Yaolin Tian, Haodong Han, Yutao Zhao, Baichuan Liu, Zeyuan Zhao, Xubo Luo

机构: 中国科学院大学 技术与工程中心 中国科学院 空间利用重点实验室

摘要: 随着月球探测任务的复杂性增加,月球需要具备更高级别的自主性。环境感知和导航算法是月球车实现自主探测的基础。算法的开发和验证需要高度可靠的数据支持。现有的大多数月球数据集针对单一任务,缺乏多样化的场景和高精度的地面真实标签。为解决这一问题,我们提出了一个多任务、多场景和多标签的月球基准数据集 LuSNAR。该数据集可用于全面评估自主感知和导航系统,包括高分辨率立体图像对、全景语义标签、密集深度图、LiDAR 点云和月球车位置。为了提供更丰富的场景数据,我们基于虚幻引擎构建了 9 个月球模拟场景。每个场景根据地形起伏和物体密度进行划分。为验证数据集的可用性,我们评估和分析了语义分割、3D 重建和自主导航算法。实验结果证明,本文提出的数据集可用于地面验证自主环境感知和导航等任务,并为测试算法指标的可访问性提供了月球基准数据集。我们在此 https URL 上公开了 LuSNAR。

论文链接: https://arxiv.org/pdf/2407.06512

Github: https://github.com/autumn999999/LuSNAR-dataset

视觉语言模型是盲目的

原标题: Vision language models are blind

作者: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

机构: 奥本大学 阿尔巴马州 美国 加拿大阿尔伯塔大学

摘要: 具有视觉能力的大语言模型(VLMs),例如GPT-4o和Gemini 1.5 Pro,正在驱动无数的图像文本应用,并在许多视觉理解基准测试中得分很高。然而,我们发现VLMs在许多对人类来说极其简单的7个视觉任务上失败,例如识别(a)两个圆是否重叠;(b)两条线是否相交;(c)单词中哪个字母被圈出;以及(d)在类似奥林匹克标志中计算圆圈的数量。这四个最先进的VLMs的惊人糟糕表现表明,它们的视觉能力充其量只像近视的人看到细节模糊,最坏的情况下则像一个聪明的盲人在做出有根据的猜测。代码可在此链接获取:https://这里是URL。

论文链接: https://arxiv.org/pdf/2407.06581

Github: https://vlmsareblind.github.io/

VRDSynth:为多语言视觉丰富文档信息提取合成程序

原标题: VRDSynth: Synthesizing Programs for Multilingual Visually Rich Document Information Extraction

作者: Thanh-Dat Nguyen, Tung Do-Viet, Hung Nguyen-Duy, Tuan-Hai Luu, Hung Le, Bach Le, Patanamon (Pick)Thongtanunam

机构: 墨尔本大学 柬埔寨人工智能 独立研究者 德肯大学

摘要: 企业需要查询视觉丰富的文档(VRDs),如收据、医疗记录和保险表格,以做出决策。现有的从VRDs中提取实体的技术在处理新布局时遇到困难,或者需要大量的预训练数据。我们引入了VRDSynth,这是一种程序合成方法,可以在没有预训练数据的情况下自动提取多语言VRDs中的实体关系。为了捕捉VRD领域的复杂性,我们设计了一个特定领域的语言(DSL),用于捕捉空间和文本关系,以描述合成程序。除此之外,我们还推导出一种新的合成算法,利用频繁的空间关系、搜索空间修剪,以及积极、消极和排他性程序的组合来提高覆盖率。
我们在FUNSD和XFUND语义实体链接基准测试上评估了VRDSynth,这包括8种语言的1,592个表单。在8种语言中,VRDSynth在5、6和7种语言中分别优于最先进的预训练模型(LayoutXLM、InfoXLMBase和XLMRobertaBase),将F1分数提高了42%以上。为了测试模型的可扩展性,我们进一步改进了VRDSynth,增加了自动表格识别,创建了VRDSynth(Table),并将其与预训练模型的扩展版本InfoXLM(Large)和XLMRoberta(Large)进行了比较。在8种语言中,VRDSynth(Table)在4种语言中优于这些基线,并在平均F1分数上表现更好。VRDSynth还显著减少了内存占用(1M和380MB对比于LayoutXLM的1.48GB和3GB),同时保持了类似的时间效率。

论文链接: https://arxiv.org/pdf/2407.06826

基于深度强化学习的桥梁经济跨度选择

原标题: Economic span selection of bridge based on deep reinforcement learning

作者: Leye Zhang, Xiangxiang Tian, Chengli Zhang, Hongjun Zhang

机构: 江苏财经职业学院 联盟港开放大学 万狮前沿数字智能交通技术有限公司

摘要: 使用深度 Q 网络算法来选择桥梁的经济跨度。桥梁跨度的选择对桥梁的总成本有重要影响,合理的跨度选择可以降低工程成本。理论上分析了桥梁的经济跨度,并推导了经济跨度的理论解决方案公式。详细描述了桥梁模拟环境的构建过程,包括环境的观察空间、行动空间和奖励函数。构建了智能体,使用卷积神经网络来逼近 Q 函数,采用{\epsilon}贪婪策略进行动作选择,并使用经验回放进行训练。测试验证了智能体能够成功学习最优策略,并实现桥梁的经济跨度选择。这项研究为桥梁设计提供了潜在的决策工具。

论文链接: https://arxiv.org/pdf/2407.06507

Github: https://github.com/zhangleye/BridgeSpan-DQN

使用目标检测进行提示点估计

原标题: Cue Point Estimation using Object Detection

作者: Giulia Argüello, Luca A. Lanzendörfer, Roger Wattenhofer

机构: 苏黎世联邦理工学院 ETH Zurich

摘要: 提示点指示了在DJ混音中两首音乐之间过渡的可能时间边界,并且在自主DJ系统以及现场混音中构成了一个至关重要的元素。在这项工作中,我们提出了一种用于自动提示点估计的新方法,将其解释为计算机视觉对象检测任务。我们提出的系统基于一个预训练的对象检测Transformer,在我们的新提示点数据集上进行微调。我们提供的数据集包含来自人类专家的21k个手动注释的提示点,以及将近5k个单独曲目的节拍器信息,使得这个数据集比先前可用的提示点数据集大35倍。与以往的方法不同,我们的方法不需要对低级音乐信息进行分析,同时在检索提示点位置时表现出更高的精度。此外,我们提出的方法表现出对乐句的高依从性,这是电子舞曲中常被强调的一种高级音乐结构。代码、模型检查点和数据集已公开提供。

论文链接: https://arxiv.org/pdf/2407.06823

控制复杂物理系统的生成式方法

原标题: A Generative Approach to Control Complex Physical Systems

作者: Long Wei, Peiyan Hu, Ruiqi Feng, Haodong Feng, Yixuan Du, Tao Zhang, Rui Wang, Yue Wang, Zhi-Ming Ma, Tailin Wu

机构: 西湖大学 中国科学院数学与系统科学研究院 吉林大学 复旦大学 微软人工智能科学

摘要: 控制复杂物理系统的演变是科学和工程领域的一项基本任务。传统技术存在适用性有限或计算成本巨大的问题。另一方面,最近基于深度学习和强化学习的方法通常难以在系统动态约束条件下优化长期控制序列。在这项工作中,我们引入了Diffusion Physical systems Control(DiffPhyCon),这是一种新的方法类别,用于解决物理系统控制问题。DiffPhyCon通过同时最小化学习到的生成能量函数和整个轨迹和控制序列上的预定义控制目标,表现出色。因此,它可以全局探索并识别接近最优的控制序列。此外,我们通过先验重新加权增强了DiffPhyCon,使其能够发现明显偏离训练分布的控制序列。我们在一维Burgers方程和二维水母在流体环境中的运动控制中测试了我们的方法。我们的方法胜过了广泛应用的传统方法和最先进的深度学习和强化学习方法。值得注意的是,DiffPhyCon揭示了水母中观察到的一个有趣的快速关闭-缓慢打开模式,与流体动力学领域的已知发现相一致。

论文链接: https://arxiv.org/pdf/2407.06494

为 MSX 卖家提供细粒度大规模内容推荐

原标题: Fine-grained large-scale content recommendations for MSX sellers

作者: Manpreet Singh, Ravdeep Pasricha, Ravi Prasad Kondapalli, Kiran R, Nitish Singh, Akshita Agarwalla, Manoj R, Manish Prabhakar, Laurent Boué

机构: 微软

摘要: 微软销售人员最关键的任务之一是通过主动参与和量身定制的解决方案,精心跟踪和培养潜在的业务机会。推荐系统在帮助销售人员实现他们的目标方面发挥着核心作用。在本文中,我们提出了一个内容推荐模型,该模型展示了各种类型的内容(技术文档、与竞争对手产品的比较、客户成功案例等),销售人员可以与他们的客户分享或用于自身学习。该模型在机会级别运作,这是最低可能的细粒度,也是对销售人员最相关的。它基于内容的元数据与机会的精心选择属性之间的语义匹配。考虑到像微软这样的组织中销售人员管理的机会数量,我们展示了如何在非常庞大的机会-内容组合中执行高效的语义匹配。主要挑战在于确保对于每个机会推荐出前5个相关内容,总共约40,000个已发布的内容。我们通过广泛比较不同的模型架构和特征选择来实现这一目标。最后,我们进一步以定量方式检查推荐的质量,使用人类领域专家的组合以及使用最近提出的“LLM作为评判者”框架。

论文链接: https://arxiv.org/pdf/2407.06910

逻辑程序的非正式语义变体历史回顾:GL’88,GL’91,GK’14,D-V’12

原标题: Historical Review of Variants of Informal Semantics for Logic Programs under Answer Set Semantics: GL’88, GL’91, GK’14, D-V’12

作者: Yuliya Lierler

机构: 内布拉斯加大学奥马哈

摘要: 这份笔记介绍了与逻辑编程在答案集语义下相关的非正式语义的历史调查。我们以统一的术语回顾这些内容,并将它们与两种范式对齐:答案集编程和ASP-Prolog——这两种在人工智能中知识表示与推理范式中占主导地位。这些内容在《逻辑编程的理论与实践》(TPLP)中得到讨论。

论文链接: https://arxiv.org/pdf/2407.06814

利用大语言模型进行情景模拟进行最佳决策制定

原标题: Optimal Decision Making Through Scenario Simulations Using Large Language Models

作者: Sumedh Rasal, EJ Hauer

机构: 乔治亚理工学院 ThoughtCrafters公司

摘要: 大语言模型(LLMs)的快速演进显著扩展了它们在各个领域的应用,改变了解决复杂问题的方式。最初被构想为预测文本中的后续单词,这些模型已经超越了最初的设计,能够理解并回应查询的基本上下文。如今,LLMs经常执行曾经看似艰巨的任务,比如撰写论文、诗歌、故事,甚至开发软件代码。随着它们的能力不断增长,人们对它们在更复杂领域的表现也有了更高的期望。
尽管取得了这些进展,LLMs仍然面临重大挑战,特别是在需要复杂决策的情景下,比如规划旅行或在多个可行选项中进行选择。这些任务通常需要对各种结果有微妙的理解,以及预测不同选择的后果,而这些目前超出了LLMs的典型操作范围。
本文提出了一种创新方法来弥合这种能力差距。通过让LLMs向用户请求多个潜在选项及其各自的参数,我们的系统引入了一个动态框架,将优化函数整合到决策过程中。该函数旨在分析提供的选项,模拟潜在结果,并根据一组预定义的标准确定最有利的解决方案。通过利用这种方法,LLMs可以为复杂的多变量问题提供量身定制的最优解决方案,显著增强它们在现实应用中的效用和效果。这种方法不仅扩展了LLMs的功能范围,还为支持复杂决策任务的更自主和智能系统铺平了道路。

论文链接: https://arxiv.org/pdf/2407.06486

CrowdTransfer:在AIoT社区中实现众包知识转移

原标题: CrowdTransfer: Enabling Crowd Knowledge Transfer in AIoT Community

作者: Yan Liu, Bin Guo, Nuo Li, Yasan Ding, Zhouyangzi Zhang, Zhiwen Yu

机构: IEEE 清华大学 腾讯

摘要: 物联网人工智能(AIoT)是基于物联网(IoT)和人工智能(AI)技术深度融合的新兴领域。尽管先进的深度学习技术增强了对复杂物联网数据的高效处理和智能分析,但在部署到实际AIoT应用时仍面临显著挑战,如资源受限和多样化任务需求。知识迁移是一种有效的方法,通过避免与数据重新收集和模型重新训练相关的高昂成本来增强学习性能。值得注意的是,尽管已经有一些有价值和令人印象深刻的关于迁移学习的调查报告,但这些调查以相对孤立的方式介绍方法,并缺乏AIoT领域各种知识迁移技术的最新进展。本调查试图引入一种名为众包知识迁移(CrowdTransfer)的新概念,旨在将从一群智能体中学到的先前知识转移,以降低训练成本并提高模型在现实复杂场景中的性能。特别地,我们从众包智能的角度提出了四种迁移模式,包括推导、分享、演化和融合模式。在传统迁移学习方法的基础上,我们进一步探讨了从三个角度为各种AIoT应用开发先进的众包知识迁移模型。此外,我们探讨了一些AIoT领域的应用,如人类活动识别、城市计算、多机器人系统和智能工厂。最后,我们讨论了AIoT社区中知识迁移的未解决问题,并概述了未来的研究方向。

论文链接: https://arxiv.org/pdf/2407.06485

Richelieu:基于自我进化的大语言模型智能体用于人工智能外交

原标题: Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy

作者: Zhenyu Guan, Xiangyu Kong, Fangwei Zhong, Yizhou Wang

机构: 北京大学 北京信息科技大学

摘要: 外交是人类社会中最复杂的活动之一。多方/多代理之间的复杂互动涉及各种能力,如社会推理、谈判艺术和长期战略规划。先前的AI智能体确实已经证明了它们处理多步游戏和涉及多个代理的任务中更大行动空间的能力。然而,外交涉及到惊人数量的决策空间,特别是考虑到所需的谈判阶段。最近,大语言模型智能体已经展示了它们在几个应用中拓展先前智能体边界的潜力,然而,这仍然不足以处理复杂多代理环境中非常长的规划周期。借助最先进的大语言模型技术,我们首次尝试探索AI朝着类似人类智能体的上限,以实现更强大的基于大语言模型的社会智能体,这需要结合三种核心和基本能力:1)带有记忆和反思的战略规划者;2)具有社会推理的目标导向谈判者;3)通过自我对弈游戏增强记忆,实现无需人类干预的自我进化。

论文链接: https://arxiv.org/pdf/2407.06813

使用强化学习拦截受控空域内的未经授权空中机器人

原标题: Intercepting Unauthorized Aerial Robots in Controlled Airspace Using Reinforcement Learning

作者: Francisco Giral, Ignacio Gómez, Soledad Le Clainche

机构: 马德里理工大学

摘要: 在受控制的空域中无人机(UAV)的大量增加带来了重大风险,包括潜在的碰撞、对空中交通的干扰和安全威胁。确保空域的安全高效运行,特别是在城市环境和靠近关键基础设施附近,需要有效的方法来拦截未经授权或不合作的无人机。这项工作解决了通过强化学习(RL)训练能够管理这些威胁的强大、自适应系统的迫切需求。我们提出了一种新颖的方法,利用RL来训练固定翼无人机追击者智能体,以拦截动态逃避目标。我们的方法探索了基于模型和无模型的RL算法,具体包括DreamerV3、截断分位评论家(TQC)和软演员-评论家(SAC)。这些算法的训练和评估在不同场景下进行,包括看不见的逃避策略和环境扰动。我们的方法利用高保真飞行动力学模拟来创建逼真的训练环境。这项研究强调了为无人机拦截开发智能、自适应控制系统的重要性,极大地促进了安全高效的空域管理的进步。它展示了RL训练系统能够自主实现这些关键任务的潜力。

论文链接: https://arxiv.org/pdf/2407.06909

在调制分类中对抗性攻击的混合训练时和运行时防御

原标题: A Hybrid Training-time and Run-time Defense Against Adversarial Attacks in Modulation Classification

作者: Lu Zhang, Sangarapillai Lambotharan, Gan Zheng, Guisheng Liao, Ambra Demontis, Fabio Roli

机构: 西安电子科技大学 洛桑大学 加利亚里大学 热那亚大学

摘要: 受到深度学习在计算机视觉和自然语言处理等许多应用中表现优异的启发,最近几项研究专注于应用深度神经网络来设计未来一代无线网络。然而,一些最近的研究指出,难以察觉且精心设计的对抗样本(攻击)可以显著降低分类准确性。在本文中,我们研究了一种基于训练时和运行时防御技术的防御机制,用于保护基于机器学习的无线电信号(调制)分类免受对抗攻击。训练时防御包括对抗训练和标签平滑,而运行时防御采用基于支持向量机的神经拒绝(NR)。考虑到白盒场景和真实数据集,我们展示了我们提出的技术优于现有的最先进技术。

论文链接: https://arxiv.org/pdf/2407.06807

从众包噪声标签中学习:信号处理视角

原标题: Learning From Crowdsourced Noisy Labels: A Signal Processing Perspective

作者: Shahana Ibrahim, Panagiotis A. Traganitis, Xiao Fu, Georgios B. Giannakis

摘要: 推动人工智能(AI)和机器学习(ML)进步的主要催化剂之一是大规模、经过精心筛选的数据集的可用性。筛选这类大规模数据集常用的技术是众包,其中数据被分发给多个注释者。注释者生成的标签随后被融合,用于下游学习和推理任务。由于各种原因,如注释者的专业知识有限或不可靠性等,这种注释过程通常会产生嘈杂的标签。因此,众包中的一个核心目标是开发有效减轻这种标签噪声对学习任务的负面影响的方法。本特色文章介绍了从嘈杂的众包标签中学习的进展。重点放在关键众包模型及其方法论处理上,从经典统计模型到最近基于深度学习的方法,强调分析洞见和算法发展。特别是,本文回顾了信号处理(SP)理论和方法之间的联系,如张量和非负矩阵分解的可识别性,以及在众包中长期挑战的新颖、原则性解决方案 – 展示了SP视角如何推动该领域的进步。此外,本文涉及一些新兴主题,对于开发尖端的AI/ML系统至关重要,例如在强化学习中与人类反馈(RLHF)一起进行众包和直接偏好优化(DPO),这些是调整大语言模型(LLMs)的关键技术。

论文链接: https://arxiv.org/pdf/2407.06902

将网络空间与物理世界对齐:关于具身人工智能的综合调查

原标题: Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

作者: Yang Liu, Weixing Chen, Yongjie Bai, Jingzhou Luo, Xinshuai Song, Kaixuan Jiang, Zhida Li, Ganlong Zhao, Junyi Lin, Guanbin Li, Wen Gao, Liang Lin

机构: 清华大学 西安交通大学 百度

摘要: 具有体现的人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,并作为连接虚拟空间和物理世界的各种应用的基础。最近,多模态大模型(MLMs)和世界模型(WMs)的出现引起了人们的极大关注,因为它们具有卓越的感知、交互和推理能力,使其成为具有潜力的体现智能体的大脑架构。然而,在MLMs时代,关于体现AI的综合调查尚未出现。在这项调查中,我们全面探讨了体现AI领域的最新进展。我们的分析首先梳理了体现机器人和模拟器代表性作品的前沿,以充分了解研究重点及其局限性。然后,我们分析了四个主要研究目标:1)体现感知,2)体现交互,3)体现智能体,以及4)从模拟到真实的适应,涵盖了最新方法、基本范式和全面数据集。此外,我们探讨了虚拟和真实体现智能体中MLMs的复杂性,突出它们在促进动态数字和物理环境中的交互中的重要性。最后,我们总结了体现AI的挑战和局限性,并讨论了它们潜在的未来方向。我们希望这项调查能为研究社区提供基础参考,并激发持续创新。相关项目可在此网址找到。

论文链接: https://arxiv.org/pdf/2407.06886

Github: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

TE-SSL:面向时间和事件的自监督学习,用于阿尔茨海默病进展分析

原标题: TE-SSL: Time and Event-aware Self Supervised Learning for Alzheimer’s Disease Progression Analysis

作者: Jacob Thrasher, Alina Devkota, Ahmed Tafti, Binod Bhattarai, Prashnna Gyawali

机构: 西弗吉尼亚大学 匹兹堡大学 阿伯丁大学

摘要: 阿尔茨海默病(AD)代表着神经退行性疾病领域中最紧迫的挑战之一,其疾病进展分析对于理解疾病动态并开发有针对性的干预措施至关重要。近年来,深度学习和各种表征学习策略,包括自监督学习(SSL),在增强医学图像分析方面表现出显著的潜力,提供了从复杂数据中提取有意义模式的创新方法。值得注意的是,计算机视觉文献表明,将监督信号纳入自监督学习中可以通过提供额外相关信息来指导学习过程,进一步增强模型性能。然而,在疾病进展分析的背景下应用这种监督信号仍然是一个尚未深入探讨的领域。鉴于将事件和事件发生时间信息同时纳入学习范式的固有挑战,这一空白尤为显著。为解决这一问题,我们提出了一种新颖框架,即时间和事件感知自监督学习(TE-SSL),该框架将事件发生时间和事件数据作为监督信号整合到学习过程中以优化学习过程。我们在生存分析的下游任务中与现有基于SSL的方法进行了比较分析,结果显示在标准指标上表现出卓越的性能。

论文链接: https://arxiv.org/pdf/2407.06852

如果由大语言模型(LLM)而非人类撰写的文件被律师视为作者,那就不太可能正确。

原标题: It Cannot Be Right If It Was Written by AI: On Lawyers’ Preferences of Documents Perceived as Authored by an LLM vs a Human

作者: Jakub Harasta, Tereza Novotná, Jaromir Savelka

机构: 马萨里克大学 法学院 卡内基梅隆大学 计算机科学学院

摘要: 大语言模型(LLMs)使得未来有可能自动生成某些类型的法律文件。这对于简化法律流程、降低法律服务成本,并显著提高司法准入具有巨大潜力。虽然许多研究人员将他们的努力集中在提出和评估基于LLM的应用程序,支持法律领域的任务,但鲜有人调查法律专业人士如何看待如果他们认为文件是由LLM生成的内容。然而,这是一个关键点,因为过度依赖或毫无根据的怀疑可能会影响这些文件是否带来适当的法律后果。这项研究是在不断向成熟的生成式AI系统过渡的背景下进行的必要分析。具体而言,我们研究了律师(n=75)对法律文件的感知是否基于它们的假定来源(人工制作 vs AI生成)而有所不同。参与者评估文件时关注其正确性和语言质量。我们的分析显示,与被认为是由AI生成的文件相比,大多数参与者更偏好被认为是由人类制作的文件。同时,大多数参与者期待未来文件将自动生成。这些发现可以被法律从业者、政策制定者和立法者利用,以负责任地实施和采用法律文件生成技术,并推动必要的讨论,探讨如何更新法律流程以反映最新的技术发展。

论文链接: https://arxiv.org/pdf/2407.06798

朝向物理信息神经网络用于滑坡预测

原标题: Towards physics-informed neural networks for landslide prediction

作者: Ashok Dahal, Luigi Lombardo

摘要: 几十年来,区域尺度滑坡预测解决方案主要依赖于数据驱动模型,从定义上看,这些模型与失败机制的物理过程是脱节的。这些工具的成功和传播来自于利用代理变量而不是明确的岩土工程变量,因为后者在广阔的地貌上获取起来是困难的。我们的工作采用了物理信息神经网络(PINN)方法,通过向标准数据驱动架构添加一个中间约束,来解决 Newmark 边坡稳定方法中典型的永久变形问题。这意味着一个神经网络被明确要求从常见代理变量中检索岩土工程参数,然后最小化损失函数,以便与现有的余震滑坡清单相对应。结果非常令人鼓舞,因为我们的模型不仅以标准易感性输出的形式产生出色的预测性能,而且在这个过程中还生成了区域尺度预期岩土工程特性的地图。因此,这种架构被设计用来解决余震滑坡预测问题,如果在其他研究中得到证实,可能会开启基于PINN的几乎实时预测的可能性。

论文链接: https://arxiv.org/pdf/2407.06785

基于BERT的隐私政策与GDPR合规性的实证研究

原标题: A BERT-based Empirical Study of Privacy Policies’ Compliance with GDPR

作者: Lu Zhang, Nabil Moukafih, Hamad Alamri, Gregory Epiphaniou, Carsten Maple

机构: 华威制造集团,华威大学

摘要: 自2018年5月实施以来,通用数据保护条例(GDPR)促使企业重新审视和修订其数据处理实践,以确保合规性。隐私政策作为向用户通知其隐私权利和公司数据实践的主要手段,已经在GDPR实施后被许多企业进行了重大更新。然而,许多隐私政策仍然充斥着技术术语、冗长的解释和对数据实践和用户权利的模糊描述。这使得用户和监管机构手动验证这些隐私政策的GDPR合规性成为一项具有挑战性的任务。在本研究中,我们旨在解决GDPR(第13条)和5G网络隐私政策之间的合规性分析挑战。我们手动收集了近70家不同的5G移动网络运营商的隐私政策,并利用了基于BERT的自动化模型进行分类。我们发现令人鼓舞的是,51%的公司表现出对GDPR的严格遵守。此外,我们提出了第一项提供了有关5G网络隐私政策可读性的当前实证证据的研究。我们采用了包括各种已建立的可读性指标的可读性分析工具集。研究结果从实证上表明,当前大多数隐私政策的可读性仍然是一个重大挑战。因此,5G提供商需要投入大量精力对这些文件进行修订,以增强其实用性和整体用户体验。

论文链接: https://arxiv.org/pdf/2407.06778

V-VIPE: 变分视角不变姿势嵌入

原标题: V-VIPE: Variational View Invariant Pose Embedding

作者: Mara Levy, Abhinav Shrivastava

机构: 马里兰大学学院公园 维特瓦里安视角不变姿势嵌入

摘要: 学习如何从一个人的二维图像中表示三维人体姿势是一个具有挑战性的问题。为了减少问题的歧义性,估计三维姿势在摄像机坐标空间中已经成为一种常见做法。然而,这使得比较两个三维姿势的任务变得困难。在本文中,我们通过将从二维图像估计三维姿势的问题分解为两个步骤来解决这一挑战。我们使用变分自动编码器(VAE)来找到一个表示三维姿势在规范坐标空间中的嵌入。我们将这个嵌入称为变分视图不变姿势嵌入 V-VIPE。使用 V-VIPE,我们可以对二维和三维姿势进行编码,并将嵌入用于检索和分类等下游任务。我们可以使用解码器从这些嵌入中估计三维姿势,同时生成看不见的三维姿势。我们编码的可变性使其能够很好地泛化到从二维空间映射到看不见的摄像机视角。据我们所知,V-VIPE 是唯一能够提供这种多样应用的表示。代码和更多信息可以在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2407.07092

Github: https://v-vipe.github.io/

在联邦学习生命周期中的威胁和防御:一项全面调查及挑战

原标题: Threats and Defenses in Federated Learning Life Cycle: A Comprehensive Survey and Challenges

作者: Yanli Li, Jifei Hu, Zhongliang Guo, Nan Yang, Huaming Chen, Dong Yuan, Weiping Ding

机构: 清华大学 西安交通大学 中国科学院自动化研究所

摘要: 联邦学习(FL)为保护隐私的协作机器学习(ML)提供了创新解决方案。尽管具有巨大潜力,但由于其分布式特性,FL容易受到各种攻击,影响FL服务的整个生命周期。这些威胁可能会损害模型的效用或直接间接地危害参与者的隐私。为了应对这些威胁,已经提出了许多防御框架,在特定环境和场景中展示了有效性。为了清晰了解当前研究领域,本文审查了整个FL服务生命周期中最具代表性和最先进的威胁和防御框架。我们首先确定危害效用和隐私的FL威胁,包括那些具有潜在或直接影响的威胁。然后,我们深入研究防御框架,分析威胁与防御之间的关系,并比较不同防御策略之间的权衡。最后,我们总结了当前研究的瓶颈,并提供了未来研究方向的见解,以结束本次调查。我们希望这项调查能为可信赖的FL研究带来启示,并为FL社区做出贡献。

论文链接: https://arxiv.org/pdf/2407.06754

ConceptExpress:利用扩散模型进行单图像无监督概念提取

原标题: ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction

作者: Shaozhe Hao, Kai Han, Zhengyao Lv, Shihao Zhao, Kwan-Yee K. Wong

机构: 香港大学

摘要: 尽管个性化的文本到图像生成已经实现了从多个图像中学习单个概念,但一个更实际但具有挑战性的场景涉及在单个图像中学习多个概念。然而,现有的处理这种场景的作品严重依赖于大量的人工注释。在本文中,我们引入了一个名为无监督概念提取(UCE)的新任务,该任务考虑了一个无监督设置,没有任何关于概念的人类知识。给定一个包含多个概念的图像,该任务旨在仅依靠来自预训练扩散模型的现有知识提取和重新创建各个概念。为实现这一目标,我们提出了ConceptExpress,通过两个方面释放预训练扩散模型固有能力来解决UCE。具体而言,一个概念定位方法通过利用扩散自注意力中的空间对应关系自动定位和解开显著概念;基于概念与概念标记之间的查找关联,一个概念级的优化过程学习表示每个单独概念的区分性标记。最后,我们建立了一个针对UCE任务量身定制的评估协议。大量实验证明ConceptExpress是UCE任务的一个有前途的解决方案。我们的代码和数据可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2407.07077

Github: https://github.com/haoosz/ConceptExpress

基于图的字幕生成:通过连接区域描述来增强视觉描述

原标题: Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

作者: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi

机构: 苹果公司 华盛顿大学 清华大学

摘要: 人类使用组合性描述复杂场景,使用简单的文本描述并丰富其中的链接和关系。虽然视觉-语言研究旨在开发具有组合理解能力的模型,但现有数据集尚未反映出这一点,大多仍然使用纯文本来描述图像。在这项工作中,我们提出了一种新的注释策略,基于图的字幕(GBC),它使用带有各种类型节点的标记图结构来描述图像。GBC中的节点是使用对象检测和密集字幕工具递归嵌套创建的,以揭示和描述实体节点,然后在第二阶段通过突出显示新类型的节点,将这些实体之间的组合和关系链接在一起。由于所有GBC节点都包含纯文本描述,GBC保留了自然语言中发现的灵活性,但也可以在其边缘中编码分层信息。我们展示了GBC可以通过使用现成的多模式LLMs和开放词汇检测模型自动产生,通过构建一个新的数据集GBC10M,为CC12M数据集中的约1000万张图像收集GBC注释。我们使用GBC10M展示了GBC揭示的节点标题的丰富性,通过CLIP训练进行了衡量。我们展示了使用GBC节点的注释,特别是存储在组合和关系节点中的注释,与其他数据集格式相比,在下游模型上会显著提升性能。为了进一步探索GBC提供的机会,我们还提出了一种可以利用整个GBC图的新的注意机制,鼓舞人心的实验结果显示了合并图结构的额外好处。我们的数据集已发布在\url{this https URL}。

论文链接: https://arxiv.org/pdf/2407.06723

其他链接: https://huggingface.co/graph-based-captions

安全代码生成的提示技术:系统性调查

原标题: Prompting Techniques for Secure Code Generation: A Systematic Investigation

作者: Catherine Tony, Nicolás E. Díaz Ferreyra, Markus Mutas, Salem Dhiff, Riccardo Scandariato

机构: 汉堡科技大学 德国

摘要: 大语言模型(LLMs)在软件开发中越来越受到关注,通过基于提示的编程,开发人员可以根据自然语言(NL)指令创建代码。然而,研究质疑它们生成安全代码的能力,从而影响了基于提示生成的软件质量。与此同时,出现了各种精心设计提示的提示技术,以引出大语言模型的最佳响应。然而,这些提示策略与安全代码生成之间的相互作用仍未得到充分探讨,需要进一步研究。目标:在本研究中,我们调查了不同提示技术对由大语言模型从NL指令生成的代码安全性的影响。方法:首先,我们进行系统文献综述,以识别可用于代码生成任务的现有提示技术。然后,在GPT-3、GPT-3.5和GPT-4模型上评估这些技术的子集以进行安全代码生成。为此,我们使用了一个包含150个NL安全相关代码生成提示的现有数据集。结果:我们的工作(i)对代码生成的潜在提示技术进行分类,(ii)调整并评估了已识别的提示技术的子集,用于安全代码生成任务,(iii)观察到在经过使用一种名为递归批评和改进(RCI)的现有技术后,测试的LLMs中安全弱点有所减少,为关于LLM生成代码安全性的持续讨论提供了宝贵的见解。

论文链接: https://arxiv.org/pdf/2407.07064

Deep-Motion-Net:基于GNN的体积器官形状重建,从单视图2D投影

原标题: Deep-Motion-Net: GNN-based volumetric organ shape reconstruction from single-view 2D projections

作者: Isuru Wijesinghe, Michael Nix, Arezoo Zakeri, Alireza Hokmabadi, Bashar Al-Qaisieh, Ali Gooya, Zeike A. Taylor

机构: 利兹大学 曼彻斯特大学 谢菲尔德大学

摘要: 我们提出了Deep-Motion-Net:一种端到端的图神经网络(GNN)架构,可以从单个任意投影角度获取的治疗中 kV 平面 X 射线图像中重建 3D(体积)器官形状。在放射治疗过程中估计和补偿真实解剖运动对于改善计划的放射剂量传递到靶区同时保护风险器官至关重要,从而提高治疗比。仅利用放疗期间有限的成像信息并且不使用替代信号或侵入性基准标记是具有吸引力的。所提出的模型从特定于患者的模板和在任意投影角度提取的 kV 图像的深度特征中学习网格回归。2D-CNN 编码器提取图像特征,四个特征池网络将这些特征融合到 3D 模板器官网格中。基于 ResNet 的图注意力网络然后对特征编码的网格进行变形。该模型使用合成生成的器官运动实例和相应的 kV 图像进行训练。后者通过将参考 CT 体积变形对齐到模板网格,创建所需投影角度的数字重建放射图(DRRs),并使用有条件的 CycleGAN 模型进行 DRR 到 kV 风格转换来生成。整体框架在合成呼吸运动场景和肝癌患者全扫描系列获取的治疗中图像上进行了定量和定性测试。合成运动测试数据集的整体平均预测误差为 0.16±0.13 毫米,0.18±0.19 毫米,0.22±0.34 毫米和 0.12±0.11 毫米。平均峰值预测误差为 1.39 毫米,1.99 毫米,3.29 毫米和 1.16 毫米。

论文链接: https://arxiv.org/pdf/2407.06692

ProtoSAM - 使用基础模型进行一次性医学图像分割

原标题: ProtoSAM - One Shot Medical Image Segmentation With Foundational Models

作者: Lev Ayzenberg, Raja Giryes, Hayit Greenspan

机构: 特拉维夫大学 摩西山艾尔医学院

摘要: 这项工作介绍了一个新的框架ProtoSAM,用于一次性医学图像分割。它结合了原型网络的使用,原型网络以少样本分割而闻名,以及SAM - 一种自然图像基础模型。所提出的方法使用ALPnet原型网络创建一个初始的粗分割蒙版,该网络还增加了一个DINOv2编码器。在提取初始蒙版之后,会提取提示,如点和边界框,然后将其输入到Segment Anything Model (SAM)中。在几个医学图像数据集上展示了最先进的结果,并展示了使用单个图像示例(一次性)进行自动分割的能力,无需对基础模型进行微调。

论文链接: https://arxiv.org/pdf/2407.07042

CEIA:基于CLIP的开放世界事件-图像对齐任务

原标题: CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding

作者: Wenhao Xu, Wenming Weng, Yueyi Zhang, Zhiwei Xiong

机构: 中国科学技术大学

摘要: 我们提出了CEIA,这是一个有效的开放世界事件理解框架。目前,由于配对的事件文本数据短缺,训练大型事件文本模型仍然面临巨大挑战。针对这一挑战,CEIA 学习将事件和图像数据对齐作为一种替代方法,而不是直接对齐事件和文本数据。具体来说,我们利用丰富的事件-图像数据集通过对比学习来学习一个与CLIP图像空间对齐的事件嵌入空间。通过这种方式,通过使用图像数据作为桥梁,事件和文本数据自然对齐。特别是,CEIA 提供了两个明显优势。首先,它允许我们充分利用现有的事件-图像数据集,弥补大规模事件-文本数据集的短缺。其次,利用更多的训练数据,它还展现了提高性能的灵活性,确保可扩展的能力。通过广泛评估我们框架的多样化应用,如对象识别、事件-图像检索、事件-文本检索和领域自适应,突出了我们框架的多功能性。结果表明,在这些应用中,CEIA 相对于现有方法具有明显的零样本优势。

论文链接: https://arxiv.org/pdf/2407.06611

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐