我们定期更新整理重要AI论文和技术报告并给出核心内容速读,方便大家对最新AI技术重要进展进行快速了解。

张长旺, 旺知识
旺新知#本周重要AI技术进展
1. 口袋里的超脑:微软发布手机级高性能语言模型Phi-3[Microsoft], Phi-3 Technical Report: A Highly Capable Language Model Locally on YOUr Phone, https://arxiv.org/abs/2404.14219.
2. OPEnELM:苹果开源的高效语言模型和训练推理框架 [Apple], OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework, https://arxiv.org/abs/2404.14619.
3. 苹果革新视觉识别发布提速2.7倍的图像-文本预训练新方法[Apple], CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster PRe-training on Web-scale Image-Text Data, https://arxiv.org/abs/2404.15653.
4. Snowflake开源企业AI大语言模型Arctic[Snowflake], Snowflake Arctic: The Best LLM for Enterprise AI — Efficiently Intelligent, Truly Open, https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/.
5. 追赶GPT-4V商用多模态模型的开源模型套件[南京大学], How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites, https://arxiv.org/abs/2404.16821.
6. Google发布NExT教AI像人类一样推理代码[Google], NExT: Teaching Large Language Models to Reason about Code Execution, https://arxiv.org/abs/2404.14662.
7. FineWeb: 包含 15 万亿个token的大型网络数据集[HuggingFace], FineWeb: 15 trillion tokens of the finest data the web has to offer, https://huggingface.co/datasets/HuggingFaceFW/fineweb.
8. J. P. Morgan发布FlowMind支持基于大语言模型的自动工作流生成[J. P. Morgan AI Research], FlowMind: Automatic Workflow Generation with LLMs, https://arxiv.org/abs/2404.13050.
9. OpenAI研发层级指令训练大预言模型优先处理特权指令[OpenAI], The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions, https://arxiv.org/abs/2404.13208.
10. FILM-7B:解锁语言模型的全语境能力[Microsoft], Make Your LLM Fully Utilize the Context, https://arxiv.org/abs/2404.16811.
---------------------
1. 口袋里的超脑:微软发布手机级高性能语言模型Phi-3[Microsoft], Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, https://arxiv.org/abs/2404.14219.
本文介绍了微软开发的 phi-3-mini,这是一个具有 38 亿参数的语言模型,尽管体积小到可以部署在手机上,但其性能却能与更大的模型如 Mixtral 8x7B 和 GPT-3.5 相媲美。该模型的创新之处在于其训练数据集,这是 phi-2 使用的数据集的一个扩展版本,包含了大量过滤的网络数据和合成数据。此外,该模型还针对鲁棒性、安全性和聊天格式进行了进一步的优化。文章还提供了一些初步的参数缩放结果,包括训练了 4.8T 令牌的 7B 和 14B 模型,分别称为 phi-3-small 和 phi-3-medium,它们比 phi-3-mini 有显著的性能提升。




2. OpenELM:苹果开源的高效语言模型和训练推理框架 [Apple], OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework, https://arxiv.org/abs/2404.14619.
本文介绍了 OpenELM,这是一个由 Apple 发布的先进的开放语言模型。OpenELM 采用层级缩放策略,在每个 transformer 模型层中高效地分配参数,从而提高准确率。与使用相似参数预算的 OLMo 相比,OpenELM 在准确率上提高了 2.36%,同时所需的预训练令牌数量减少了两倍。与以往只提供模型权重和推理代码的做法不同,Apple 还发布了包括训练日志、多个检查点和预训练配置在内的完整训练和评估框架,以及将模型转换为适用于 Apple 设备的 MLX 库的代码。这一全面发布旨在加强开放研究社区的力量,并为未来的开放研究工作铺平道路。







3. 苹果革新视觉识别发布提速2.7倍的图像-文本预训练新方法[Apple], CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data, https://arxiv.org/abs/2404.15653.
本文提出了一种新的弱监督预训练方法 CatLIP,用于在大规模网络图像-文本数据上预训练视觉模型。CatLIP 通过将图像-文本预训练框架为分类问题,避免了对比损失中成对相似性计算的需要,显著加快了训练速度。通过广泛的实验,包括检测和分割等多样化的视觉任务,证明了 CatLIP 方法在保持高表示质量的同时,预训练速度比对比学习快 2.7 倍。







4. Snowflake开源企业AI大语言模型Arctic[Snowflake], Snowflake Arctic: The Best LLM for Enterprise AI — Efficiently Intelligent, Truly Open, https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/.
Snowflake AI Research 团队介绍了 Snowflake Arctic,这是一款面向企业级 AI 应用的高效、开放的大型语言模型(LLM)。Arctic 在保持高效的同时,提供了真正的开放性,旨在降低企业使用 LLM 的成本和资源消耗。








5. 追赶GPT-4V商用多模态模型的开源模型套件[南京大学], How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites, https://arxiv.org/abs/2404.16821.
这份报告介绍了InternVL 1.5,这是一个开源的多模态大型语言模型(MLLM),旨在弥合开源和专有商业模型在多模态理解方面的能力差距。我们提出了三项简单的改进:(1)强大的视觉编码器:我们为大规模视觉基础模型——InternViT-6B探索了一种持续学习策略,提高了其视觉理解能力,并使其能够在不同的大型语言模型(LLMs)中转移和重用。(2)动态高分辨率:我们根据输入图像的宽高比和分辨率,将图像划分为1至40块的448×448像素小块,支持高达4K分辨率的输入。(3)高质量双语数据集:我们精心收集了一个高质量的双语数据集,涵盖了常见的场景、文档图像,并用英文和中文的问答对进行了注释,显著提高了OCR和中文相关任务的性能。我们通过一系列基准测试和比较研究来评估InternVL 1.5。与开源和专有模型相比,InternVL 1.5展现出了竞争性的表现,在18个基准测试中的8个中取得了最先进的结果。












6. Google发布NExT教AI像人类一样推理代码[Google], NExT: Teaching Large Language Models to Reason about Code Execution, https://arxiv.org/abs/2404.14662.
NExT(Naturalized Execution Tuning)是一种自我训练方法,它通过合成的训练集来引导大型语言模型(LLMs)理解程序的执行跟踪,并以自然语言的形式推理代码的运行时行为。NExT特别关注于编程任务,如程序修复,这需要对程序执行的深入理解。通过自我训练,NExT能够生成导致正确任务解决方案的执行感知理由(execution-aware rationales),而无需繁琐的手动注释。在基于Mbpp和HumanEval的程序修复任务上的实验表明,NExT显著提高了PaLM 2模型的修复率,并在自动化指标和人工评估中显著提高了理由质量。







7. FineWeb: 包含 15 万亿个token的大型网络数据集[HuggingFace], FineWeb: 15 trillion tokens of the finest data the web has to offer, https://huggingface.co/datasets/HuggingFaceFW/fineweb.
FineWeb是一个用于训练语言模型的大型网络数据集,它包含 15 万亿个token;FineWeb对 2013 年至 2024 年间的 CommonCrawl 进行了过滤和去重,显著提高数据质量。


8
. J. P. Morgan发布FlowMind支持基于大语言模型的自动工作流生成[J. P. Morgan AI Research]
, FlowMind: Automatic Workflow Generation with LLMs, https://arxiv.org/abs/2404.13050.
FlowMind是一个自动工作流生成系统,它使用大型语言模型(LLMs)如Generative Pretrained Transformer(GPT)来生成工作流。该系统通过一个通用的提示配方来引导LLMs,以确保它们能够可靠地使用应用程序编程接口(APIs)进行推理。FlowMind不仅减少了LLMs中常见的错误信息(hallucinations)问题,还避免了LLMs与专有数据或代码的直接交互,从而保护了信息的完整性和机密性。此外,FlowMind通过向用户提供自动生成的工作流的高级描述,简化了用户交互,使用户能够有效地进行检查和提供反馈。该研究还介绍了一个新的金融领域数据集NCEN-QA,用于评估工作流生成系统在处理基金相关问题回答任务方面的性能。






9. OpenAI研发层级指令训练大预言模型优先处理特权指令[OpenAI], The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions, https://arxiv.org/abs/2404.13208.
当前的LLMs容易受到提示注入、越狱和其他允许攻击者用自己的恶意提示覆盖模型原始指令的攻击。本文认为,这些攻击背后的一个主要漏洞是LLMs通常将系统提示(例如,应用程序开发者提供的文本)视为与不受信任的用户和第三方文本相同的优先级。为了解决这个问题,我们提出了一个指令层级结构,明确定义了在不同优先级指令冲突时模型应如何表现。然后,我们提出了一种自动化数据生成方法来演示这种层级指令遵循行为,教会LLMs有选择地忽略低优先级的指令。我们将这种方法应用于LLMs,展示了它即使在训练期间未遇到的攻击类型上也能显著提高鲁棒性,同时对标准能力的影响很小。





10. FILM-7B:解锁语言模型的全语境能力[Microsoft], Make Your LLM Fully Utilize the Context, https://arxiv.org/abs/2404.16811.
尽管许多当代大型语言模型(LLMs)能够处理长篇输入,但它们仍然难以充分利用长文本中的信息,这被称为“中间迷失”挑战。我们假设这源于长文本训练期间显式监督的不足,这未能强调长文本中的任何位置都可能包含关键信息。基于这一直觉,我们的研究提出了信息密集型(IN2)训练,这是一种纯粹的数据驱动解决方案,旨在克服“中间迷失”。具体来说,IN2训练利用了一个合成的长文本问答数据集,其中的答案需要(1)对合成长文本(4K-32K个令牌)中的短段落(约128个令牌)进行细粒度的信息感知,以及(2)整合和推理来自两个或更多短段落的信息。通过在Mistral-7B上应用这种信息密集型训练,我们提出了FILM-7B(FILl-in-the-Middle)。为了全面评估FILM-7B利用长文本的能力,我们设计了三个探索性任务,这些任务涵盖了各种文本风格(文档、代码和结构化数据文本)和信息检索模式(前向、后向和双向检索)。探索结果表明,FILM-7B能够从其32K上下文窗口中的不同位置稳健地检索信息。







发表评论