每日一看大模型新闻（2024.1.7-1.8下）阿里推文生3D数字人项目Make-A-Character；400万token上下文、推理再加速46%！OpenAI翁丽莲的Agent公式，一定是正确的吗

具体性能方面，RTX 4080 SUPER比RTX 4080快3-5%，RTX 4070 Ti SUPER比RTX 4070 Ti快15%，RTX 4070 SUPER比RTX 4070快14%。HR-Pro包括两个可靠性感知的阶段，能够有效地从片段级别和实例级别的点标注中传播高置信度的线索，从而使网络能够学习到更具区分性的片段表示和更可靠的提议。AnyText对生成文字的把控可媲美专业PS，用户

liuxiuxiu3

3530人浏览 · 2024-03-08 18:00:00

liuxiuxiu3 · 2024-03-08 18:00:00 发布

1.产品发布

1.1阿里推文生3D数字人项目Make-A-Character

发布日期：2024-1-8

阿里推文生3D数字人项目Make-A-Character 人人皆成3D角色设计师

主要内容：阿里通义实验室XR实验室推出Make-A-Character项目，能从文字快速生成3D数字人。用户可自定义面部特征，比如脸型、眼睛颜色等。角色基于真实人类扫描数据集生成，发型为实际发丝而非网格。MACH通过文本描述生成逼真的、完整的、可动画化的3D角色，适用于各种娱乐和专业场景。

项目及演示:https://top.aibase.com/tool/mak

1.2阿里开源AnyText

发布日期：2024-1-8

可在图像中生成任意精准文本！阿里开源AnyText - 知乎 (zhihu.com)

主要内容：阿里开源多语言视觉文字生成与编辑模型——AnyText，持中文。AnyText采用文本控制的扩散流程，包括辅助潜变量模块和文本嵌入模块，能够生成弯曲、不规则的字体。AnyText使用了多个OCR识别数据集和严格的过滤规则构建了AnyWord-3M数据集，提供高质量的训练数据。AnyText对生成文字的把控可媲美专业PS，用户可自定义规划文字出现的位置，图片的强度、力度、种子数等，目前在Github超2，400颗星非常受欢迎。

开源地址：GitHub - tyxsspa/AnyText: Official implementation code of the paper <AnyText: Multilingual Visual Text Generation And Editing>

论文地址：https://arxiv.org/abs/2311.03054

在线demo：https://huggingface.co/spaces/m

2.技术更新

2.1单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

发布日期：2024-1-8

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA｜AAAI24

主要内容：华中科技大学与密歇根大学的联合团队提出了一种名为HR-Pro的新框架，用于时序行为检测。该框架通过多层级可靠传播方法，学习到更具辨别力的片段级特征和更可靠的实例级边界。HR-Pro包括两个可靠性感知的阶段，能够有效地从片段级别和实例级别的点标注中传播高置信度的线索，从而使网络能够学习到更具区分性的片段表示和更可靠的提议。在多个基准数据集上进行的大量实验证明，HR-Pro明显优于现有方法，并取得了最先进的结果。HR-Pro只需很少的标注就能取得很好的效果，降低了获取标签的成本，同时拥有较强的泛化能力，为实际部署应用提供了有利条件。预计HR-Pro将在行为分析、人机交互、驾驶分析等领域拥有广阔的应用前景。

论文地址：https://arxiv.org/abs/2308.12608

2.2四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

发布日期：2024-1-8

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

主要内容：华人学者发布了名为SelfExtended（简称SE）的大模型窗口扩展方法，只需四行代码就能让大模型窗口长度暴增，最高可增加3倍。该方法已在Mistral和Llama2上试验成功，使大模型成为LongLM。在长文本任务中，SE处理后的模型表现优于原始版本，且在短文本任务中没有下降。SE通过FLOOR注意力机制解决位置编码超限问题，实现长文本处理。目前SE支持Phi、Llama和Mistral三种模型，其他模型需要对代码进行修改。SE的开箱即用版已发布。

论文地址：https://arxiv.org/abs/2401.01325

2.3 400万token上下文、推理再加速46%！最新开源方案升级MIT成果，推理成本再降低

发布日期：2024-1-8

400万token上下文、推理再加速46%！最新开源方案升级MIT成果，推理成本再降低

主要内容：开源社区Colossal-AI团队对MIT的StreamingLLM项目进行了改进，实现了22.2倍推理速度提升。他们进一步开源了基于TensorRT的SwiftInfer，可以再提升46%的推理性能。StreamingLLM通过观察注意力模块中Softmax的输出，解决了多轮对话中key和value缓存消耗大量内存的问题，同时保持生成质量。SwiftInfer结合了StreamingLLM方法和TensorRT推理优化，继承了所有优点并提高了运行效率。此外，Colossal-AI还开源了13B大模型Colossal-LLaMA-2-13B，在知识性内容掌握程度、自然语言处理任务理解程度等方面有质的提升。

Colossal-AI开源地址：GitHub - hpcaitech/ColossalAI: Making large AI models cheaper, faster and more accessible

参考链接：Inference Performance Improved by 46%, Open Source Solution Breaks the Length Limit of LLM for Multi-Round Conversations

2.4英伟达RTX 40 SUPER显卡价格曝光

发布日期：2024-1-7

约4300元起英伟达RTX 40 SUPER显卡价格曝光_凤凰网

主要内容：英伟达将在本月发布RTX 4070 SUPER、RTX 4070 Ti SUPER、RTX 4080 SUPER三款显卡，价格分别为599美元、799美元和999美元。这些价格信息来自于MEGA size GPU，其准确率相当高。如果价格信息属实，英伟达GeForce RTX 40 SUPER将与AMD Radeon RX 7800/7900具有一定竞争力。具体性能方面，RTX 4080 SUPER比RTX 4080快3-5%，RTX 4070 Ti SUPER比RTX 4070 Ti快15%，RTX 4070 SUPER比RTX 4070快14%。在大多数游戏中，RTX 4070Ti SUPER与RTX 4080相当；在大多数游戏中，RTX 4070 SUPER与RTX 4070Ti相当。英伟达的策略是不会正式降价，而是以更低的价格推出相同性能的新产品。

2.5 1张图2分钟转3D！纹理质量、多视角一致性新SOTA

发布日期：2024-1-7

1张图2分钟转3D！纹理质量、多视角一致性新SOTA｜北大出品

主要内容：Repaint123是一种新方法，可以将图片转换为高质量的3D模型。该方法的核心思想是将2D扩散模型的强大图像生成能力与再绘策略的纹理对齐能力相结合，来生成高质量、多视角一致的图像。该方法能够解决此前方法多视角偏差大、纹理退化、生成慢等问题。Repaint123通过综合考虑图像到3D生成的可控重绘过程，能够生成高质量的图片序列，并确保这些图片在多个视角下保持一致。此外，该研究还引入了针对重叠区域的可见性感知自适应再绘强度的方法。总之，Repaint123只需两分钟就能从单张图像中生成与2D生成质量相匹配的高质量3D内容。

论文地址：https://arxiv.org/pdf/2312.13271.pdf

代码地址：https://pku-yuangroup.github.io/repaint123/

2.6 OpenAI翁丽莲的Agent公式，一定是正确的吗？

发布日期：2024-1-7

OpenAI翁丽莲的Agent公式，一定是正确的吗？

主要内容：2024年，AI Agent被寄予厚望，被视为通向AGI最有可能的路径之一。国内外公司都在研究这一领域，尽管目前还处于“押注”阶段。toB领域已经开始使用AI Agent，它可以作为管理者、员工和员工之间的连接器，填补企业数字化转型过程中的人与系统之间的空白。然而，由于技术限制，AI Agent需要与传统技术如搜索规则引擎、知识图谱等进行组合。此外，Agent必须知道自己在何种环境和场景下能够发挥作用。澜码科技创始人兼CEO周健刚刚在上海发布了团队自主研发的AI Agent平台AskXBOT。AskXBOT是一个基于大语言模型的Agent工作流设计、开发、使用、管理、知识沉淀的一站式平台。澜码科技认为，Agent最重要的能力是与环境的互动能力。如果能意识到环境是什么样，有哪些可被调用的工具，能去发现、去探索，这个能力很重要。