本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic_互联网资讯_

我们定期更新整理重要AI论文和技术报告并给出核心内容速读，方便大家对最新AI技术重要进展进行快速了解。

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第1张

张长旺, 旺知识

旺新知#本周重要AI技术进展

1. 口袋里的超脑：微软发布手机级高性能语言模型Phi-3[Microsoft], Phi-3 Technical Report: A Highly Capable Language Model Locally on YOUr Phone, https://arxiv.org/abs/2404.14219.

2. OPEnELM：苹果开源的高效语言模型和训练推理框架 [Apple], OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework, https://arxiv.org/abs/2404.14619.

3. 苹果革新视觉识别发布提速2.7倍的图像-文本预训练新方法[Apple], CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster PRe-training on Web-scale Image-Text Data, https://arxiv.org/abs/2404.15653.

4. Snowflake开源企业AI大语言模型Arctic[Snowflake], Snowflake Arctic: The Best LLM for Enterprise AI — Efficiently Intelligent, Truly Open, https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/.

5. 追赶GPT-4V商用多模态模型的开源模型套件[南京大学], How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites, https://arxiv.org/abs/2404.16821.

6. Google发布NExT教AI像人类一样推理代码[Google], NExT: Teaching Large Language Models to Reason about Code Execution, https://arxiv.org/abs/2404.14662.

7. FineWeb: 包含 15 万亿个token的大型网络数据集[HuggingFace], FineWeb: 15 trillion tokens of the finest data the web has to offer, https://huggingface.co/datasets/HuggingFaceFW/fineweb.

8. J. P. Morgan发布FlowMind支持基于大语言模型的自动工作流生成[J. P. Morgan AI Research], FlowMind: Automatic Workflow Generation with LLMs, https://arxiv.org/abs/2404.13050.

9. OpenAI研发层级指令训练大预言模型优先处理特权指令[OpenAI], The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions, https://arxiv.org/abs/2404.13208.

10. FILM-7B：解锁语言模型的全语境能力[Microsoft], Make Your LLM Fully Utilize the Context, https://arxiv.org/abs/2404.16811.

---------------------

1. 口袋里的超脑：微软发布手机级高性能语言模型Phi-3[Microsoft], Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, https://arxiv.org/abs/2404.14219.

本文介绍了微软开发的 phi-3-mini，这是一个具有 38 亿参数的语言模型，尽管体积小到可以部署在手机上，但其性能却能与更大的模型如 Mixtral 8x7B 和 GPT-3.5 相媲美。该模型的创新之处在于其训练数据集，这是 phi-2 使用的数据集的一个扩展版本，包含了大量过滤的网络数据和合成数据。此外，该模型还针对鲁棒性、安全性和聊天格式进行了进一步的优化。文章还提供了一些初步的参数缩放结果，包括训练了 4.8T 令牌的 7B 和 14B 模型，分别称为 phi-3-small 和 phi-3-medium，它们比 phi-3-mini 有显著的性能提升。

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第2张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第3张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第4张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第5张

2. OpenELM：苹果开源的高效语言模型和训练推理框架 [Apple], OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework, https://arxiv.org/abs/2404.14619.

本文介绍了 OpenELM，这是一个由 Apple 发布的先进的开放语言模型。OpenELM 采用层级缩放策略，在每个 transformer 模型层中高效地分配参数，从而提高准确率。与使用相似参数预算的 OLMo 相比，OpenELM 在准确率上提高了 2.36%，同时所需的预训练令牌数量减少了两倍。与以往只提供模型权重和推理代码的做法不同，Apple 还发布了包括训练日志、多个检查点和预训练配置在内的完整训练和评估框架，以及将模型转换为适用于 Apple 设备的 MLX 库的代码。这一全面发布旨在加强开放研究社区的力量，并为未来的开放研究工作铺平道路。

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第6张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第7张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第8张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第9张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第10张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第11张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第12张

3. 苹果革新视觉识别发布提速2.7倍的图像-文本预训练新方法[Apple], CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data, https://arxiv.org/abs/2404.15653.

本文提出了一种新的弱监督预训练方法 CatLIP，用于在大规模网络图像-文本数据上预训练视觉模型。CatLIP 通过将图像-文本预训练框架为分类问题，避免了对比损失中成对相似性计算的需要，显著加快了训练速度。通过广泛的实验，包括检测和分割等多样化的视觉任务，证明了 CatLIP 方法在保持高表示质量的同时，预训练速度比对比学习快 2.7 倍。

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第13张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第14张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第15张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第16张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第17张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第18张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第19张

Snowflake AI Research 团队介绍了 Snowflake Arctic，这是一款面向企业级 AI 应用的高效、开放的大型语言模型（LLM）。Arctic 在保持高效的同时，提供了真正的开放性，旨在降低企业使用 LLM 的成本和资源消耗。

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第20张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第21张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第22张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第23张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第24张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第25张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第26张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第27张

5. 追赶GPT-4V商用多模态模型的开源模型套件[南京大学], How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites, https://arxiv.org/abs/2404.16821.

这份报告介绍了InternVL 1.5，这是一个开源的多模态大型语言模型（MLLM），旨在弥合开源和专有商业模型在多模态理解方面的能力差距。我们提出了三项简单的改进：（1）强大的视觉编码器：我们为大规模视觉基础模型——InternViT-6B探索了一种持续学习策略，提高了其视觉理解能力，并使其能够在不同的大型语言模型（LLMs）中转移和重用。（2）动态高分辨率：我们根据输入图像的宽高比和分辨率，将图像划分为1至40块的448×448像素小块，支持高达4K分辨率的输入。（3）高质量双语数据集：我们精心收集了一个高质量的双语数据集，涵盖了常见的场景、文档图像，并用英文和中文的问答对进行了注释，显著提高了OCR和中文相关任务的性能。我们通过一系列基准测试和比较研究来评估InternVL 1.5。与开源和专有模型相比，InternVL 1.5展现出了竞争性的表现，在18个基准测试中的8个中取得了最先进的结果。

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第28张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第29张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第30张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第31张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第32张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第33张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第34张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第35张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第36张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第37张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第38张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第39张

6. Google发布NExT教AI像人类一样推理代码[Google], NExT: Teaching Large Language Models to Reason about Code Execution, https://arxiv.org/abs/2404.14662.

NExT（Naturalized Execution Tuning）是一种自我训练方法，它通过合成的训练集来引导大型语言模型（LLMs）理解程序的执行跟踪，并以自然语言的形式推理代码的运行时行为。NExT特别关注于编程任务，如程序修复，这需要对程序执行的深入理解。通过自我训练，NExT能够生成导致正确任务解决方案的执行感知理由（execution-aware rationales），而无需繁琐的手动注释。在基于Mbpp和HumanEval的程序修复任务上的实验表明，NExT显著提高了PaLM 2模型的修复率，并在自动化指标和人工评估中显著提高了理由质量。

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第40张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第41张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第42张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第43张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第44张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第45张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第46张

FineWeb是一个用于训练语言模型的大型网络数据集，它包含 15 万亿个token；FineWeb对 2013 年至 2024 年间的 CommonCrawl 进行了过滤和去重，显著提高数据质量。

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第47张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第48张

. J. P. Morgan发布FlowMind支持基于大语言模型的自动工作流生成[J. P. Morgan AI Research]

, FlowMind: Automatic Workflow Generation with LLMs, https://arxiv.org/abs/2404.13050.

FlowMind是一个自动工作流生成系统，它使用大型语言模型（LLMs）如Generative Pretrained Transformer（GPT）来生成工作流。该系统通过一个通用的提示配方来引导LLMs，以确保它们能够可靠地使用应用程序编程接口（APIs）进行推理。FlowMind不仅减少了LLMs中常见的错误信息（hallucinations）问题，还避免了LLMs与专有数据或代码的直接交互，从而保护了信息的完整性和机密性。此外，FlowMind通过向用户提供自动生成的工作流的高级描述，简化了用户交互，使用户能够有效地进行检查和提供反馈。该研究还介绍了一个新的金融领域数据集NCEN-QA，用于评估工作流生成系统在处理基金相关问题回答任务方面的性能。

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第49张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第50张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第51张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第52张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第53张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第54张

9. OpenAI研发层级指令训练大预言模型优先处理特权指令[OpenAI], The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions, https://arxiv.org/abs/2404.13208.

当前的LLMs容易受到提示注入、越狱和其他允许攻击者用自己的恶意提示覆盖模型原始指令的攻击。本文认为，这些攻击背后的一个主要漏洞是LLMs通常将系统提示（例如，应用程序开发者提供的文本）视为与不受信任的用户和第三方文本相同的优先级。为了解决这个问题，我们提出了一个指令层级结构，明确定义了在不同优先级指令冲突时模型应如何表现。然后，我们提出了一种自动化数据生成方法来演示这种层级指令遵循行为，教会LLMs有选择地忽略低优先级的指令。我们将这种方法应用于LLMs，展示了它即使在训练期间未遇到的攻击类型上也能显著提高鲁棒性，同时对标准能力的影响很小。

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第55张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第56张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第57张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第58张

本周重要的AI技术进展旺新知#：手机超脑Phi3，苹果OpenELM，Arctic 第59张

10. FILM-7B：解锁语言模型的全语境能力[Microsoft], Make Your LLM Fully Utilize the Context, https://arxiv.org/abs/2404.16811.

尽管许多当代大型语言模型（LLMs）能够处理长篇输入，但它们仍然难以充分利用长文本中的信息，这被称为“中间迷失”挑战。我们假设这源于长文本训练期间显式监督的不足，这未能强调长文本中的任何位置都可能包含关键信息。基于这一直觉，我们的研究提出了信息密集型（IN2）训练，这是一种纯粹的数据驱动解决方案，旨在克服“中间迷失”。具体来说，IN2训练利用了一个合成的长文本问答数据集，其中的答案需要（1）对合成长文本（4K-32K个令牌）中的短段落（约128个令牌）进行细粒度的信息感知，以及（2）整合和推理来自两个或更多短段落的信息。通过在Mistral-7B上应用这种信息密集型训练，我们提出了FILM-7B（FILl-in-the-Middle）。为了全面评估FILM-7B利用长文本的能力，我们设计了三个探索性任务，这些任务涵盖了各种文本风格（文档、代码和结构化数据文本）和信息检索模式（前向、后向和双向检索）。探索结果表明，FILM-7B能够从其32K上下文窗口中的不同位置稳健地检索信息。