每日一看大模型新闻(2024.1.7-1.8下)阿里推文生3D数字人项目Make-A-Character;400万token上下文、推理再加速46%!OpenAI翁丽莲的Agent公式,一定是正确的吗
具体性能方面,RTX 4080 SUPER比RTX 4080快3-5%,RTX 4070 Ti SUPER比RTX 4070 Ti快15%,RTX 4070 SUPER比RTX 4070快14%。HR-Pro包括两个可靠性感知的阶段,能够有效地从片段级别和实例级别的点标注中传播高置信度的线索,从而使网络能够学习到更具区分性的片段表示和更可靠的提议。AnyText对生成文字的把控可媲美专业PS,用户
1.产品发布
1.1阿里推文生3D数字人项目Make-A-Character
发布日期:2024-1-8
阿里推文生3D数字人项目Make-A-Character 人人皆成3D角色设计师
主要内容:阿里通义实验室XR实验室推出Make-A-Character项目,能从文字快速生成3D数字人。用户可自定义面部特征,比如脸型、眼睛颜色等。角色基于真实人类扫描数据集生成,发型为实际发丝而非网格。MACH通过文本描述生成逼真的、完整的、可动画化的3D角色,适用于各种娱乐和专业场景。
项目及演示:https://top.aibase.com/tool/mak
1.2阿里开源AnyText
发布日期:2024-1-8
可在图像中生成任意精准文本!阿里开源AnyText - 知乎 (zhihu.com)
主要内容:阿里开源多语言视觉文字生成与编辑模型——AnyText,持中文。AnyText采用文本控制的扩散流程,包括辅助潜变量模块和文本嵌入模块,能够生成弯曲、不规则的字体。AnyText使用了多个OCR识别数据集和严格的过滤规则构建了AnyWord-3M数据集,提供高质量的训练数据。AnyText对生成文字的把控可媲美专业PS,用户可自定义规划文字出现的位置,图片的强度、力度、种子数等,目前在Github超2,400颗星非常受欢迎。
论文地址:https://arxiv.org/abs/2311.03054
在线demo:https://huggingface.co/spaces/m
2.技术更新
2.1单帧标注视频就能学到片段特征,达到全监督性能!华科拿下时序行为检测新SOTA
发布日期:2024-1-8
单帧标注视频就能学到片段特征,达到全监督性能!华科拿下时序行为检测新SOTA|AAAI24
主要内容:华中科技大学与密歇根大学的联合团队提出了一种名为HR-Pro的新框架,用于时序行为检测。该框架通过多层级可靠传播方法,学习到更具辨别力的片段级特征和更可靠的实例级边界。HR-Pro包括两个可靠性感知的阶段,能够有效地从片段级别和实例级别的点标注中传播高置信度的线索,从而使网络能够学习到更具区分性的片段表示和更可靠的提议。在多个基准数据集上进行的大量实验证明,HR-Pro明显优于现有方法,并取得了最先进的结果。HR-Pro只需很少的标注就能取得很好的效果,降低了获取标签的成本,同时拥有较强的泛化能力,为实际部署应用提供了有利条件。预计HR-Pro将在行为分析、人机交互、驾驶分析等领域拥有广阔的应用前景。
论文地址:https://arxiv.org/abs/2308.12608
2.2四行代码让大模型上下文暴增3倍,羊驼Mistral都适用
发布日期:2024-1-8
主要内容:华人学者发布了名为SelfExtended(简称SE)的大模型窗口扩展方法,只需四行代码就能让大模型窗口长度暴增,最高可增加3倍。该方法已在Mistral和Llama2上试验成功,使大模型成为LongLM。在长文本任务中,SE处理后的模型表现优于原始版本,且在短文本任务中没有下降。SE通过FLOOR注意力机制解决位置编码超限问题,实现长文本处理。目前SE支持Phi、Llama和Mistral三种模型,其他模型需要对代码进行修改。SE的开箱即用版已发布。
论文地址:https://arxiv.org/abs/2401.01325
2.3 400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
发布日期:2024-1-8
400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
主要内容:开源社区Colossal-AI团队对MIT的StreamingLLM项目进行了改进,实现了22.2倍推理速度提升。他们进一步开源了基于TensorRT的SwiftInfer,可以再提升46%的推理性能。StreamingLLM通过观察注意力模块中Softmax的输出,解决了多轮对话中key和value缓存消耗大量内存的问题,同时保持生成质量。SwiftInfer结合了StreamingLLM方法和TensorRT推理优化,继承了所有优点并提高了运行效率。此外,Colossal-AI还开源了13B大模型Colossal-LLaMA-2-13B,在知识性内容掌握程度、自然语言处理任务理解程度等方面有质的提升。
Colossal-AI开源地址:GitHub - hpcaitech/ColossalAI: Making large AI models cheaper, faster and more accessible
2.4英伟达RTX 40 SUPER显卡价格曝光
发布日期:2024-1-7
约4300元起 英伟达RTX 40 SUPER显卡价格曝光_凤凰网
主要内容:英伟达将在本月发布RTX 4070 SUPER、RTX 4070 Ti SUPER、RTX 4080 SUPER三款显卡,价格分别为599美元、799美元和999美元。这些价格信息来自于MEGA size GPU,其准确率相当高。如果价格信息属实,英伟达GeForce RTX 40 SUPER将与AMD Radeon RX 7800/7900具有一定竞争力。具体性能方面,RTX 4080 SUPER比RTX 4080快3-5%,RTX 4070 Ti SUPER比RTX 4070 Ti快15%,RTX 4070 SUPER比RTX 4070快14%。在大多数游戏中,RTX 4070Ti SUPER与RTX 4080相当;在大多数游戏中,RTX 4070 SUPER与RTX 4070Ti相当。英伟达的策略是不会正式降价,而是以更低的价格推出相同性能的新产品。
2.5 1张图2分钟转3D!纹理质量、多视角一致性新SOTA
发布日期:2024-1-7
1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品
主要内容:Repaint123是一种新方法,可以将图片转换为高质量的3D模型。该方法的核心思想是将2D扩散模型的强大图像生成能力与再绘策略的纹理对齐能力相结合,来生成高质量、多视角一致的图像。该方法能够解决此前方法多视角偏差大、纹理退化、生成慢等问题。Repaint123通过综合考虑图像到3D生成的可控重绘过程,能够生成高质量的图片序列,并确保这些图片在多个视角下保持一致。此外,该研究还引入了针对重叠区域的可见性感知自适应再绘强度的方法。总之,Repaint123只需两分钟就能从单张图像中生成与2D生成质量相匹配的高质量3D内容。
论文地址:https://arxiv.org/pdf/2312.13271.pdf
代码地址:https://pku-yuangroup.github.io/repaint123/
2.6 OpenAI翁丽莲的Agent公式,一定是正确的吗?
发布日期:2024-1-7
主要内容:2024年,AI Agent被寄予厚望,被视为通向AGI最有可能的路径之一。国内外公司都在研究这一领域,尽管目前还处于“押注”阶段。toB领域已经开始使用AI Agent,它可以作为管理者、员工和员工之间的连接器,填补企业数字化转型过程中的人与系统之间的空白。然而,由于技术限制,AI Agent需要与传统技术如搜索规则引擎、知识图谱等进行组合。此外,Agent必须知道自己在何种环境和场景下能够发挥作用。澜码科技创始人兼CEO周健刚刚在上海发布了团队自主研发的AI Agent平台AskXBOT。AskXBOT是一个基于大语言模型的Agent工作流设计、开发、使用、管理、知识沉淀的一站式平台。澜码科技认为,Agent最重要的能力是与环境的互动能力。如果能意识到环境是什么样,有哪些可被调用的工具,能去发现、去探索,这个能力很重要。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)