AI周刊(2024.7.8-7.15)

斯坦福团队推出 TTT 架构

可能很多人只听说过 Transformer 架构，并不知道还存在其它更有架构，也认为 Transformer 就是终极最优解！对于短的上下文而言，它的表现还不错；但是在大的上下文场景下，它的扇出、效率和内存就成为了性能瓶颈！当前阶段的 AIGC 还处于起步阶段，仅仅在某些领域有了一些成果，距离终极 AGI 还有很长的路要走！然而，长上下文才是我们需要重点考虑的问题，终极 AGI 终会存在很多这样的场景。

斯坦福、UCSD、UC 伯克利和 Meta 研究人员提出了一种全新架构 TTT 层，它具有线性复杂性和可表达的隐藏状态。关键思想是使隐藏状态本身成为机器学习模型，更新规则成为自监督学习的一个步骤。由于隐藏状态甚至在测试序列上也通过训练来更新，因此该层被称为测试时间训练（TTT)层。TTT 层取代 RNN 的隐藏状态，通过梯度下降压缩上下文，直接替代注意力机制，表现力更强且复杂度更低。TTT-Linear 和 TTT-MLP 在扩展性和性能上超越现有的 Transformer 和 Mamba，为长上下文建模提供了新方式。

代码链接: https://github.com/test-time-training/ttt-lm-jax
论文链接: https://arxiv.org/pdf/2407.0462

通义灵码

官网：(https://tongyi.aliyun.com/lingma/download)

核心场景

代码智能生成: 经过海量优秀开源代码数据训练，可根据当前代码文件及跨文件的上下文，为你生成行级/函数级代码、单元测试、代码优化建议等。沉浸式编码心流，秒级生成速度，让你更专注在技术设计，高质高效地完成编码工作
研发智能问答: 基于海量研发文档、产品文档、通用研发知识、阿里云的云服务文档和SDK/OpenAPI 文档等进行问答训练，为你答疑解惑，助你轻松解决研发问题
产品优势: 跨文件感知让代码生成更贴合业务场景：客户端和模型层同步优化针对代码跨文件上下文感知能力，生成代码更加贴合当前代码库的业务场景
阿里云服务使用场景友好: 专门针对阿里云的云服务使用、SDK/OpenAPI 的使用等场景调优,编码时能够更加便捷地使用阿里云服务；在对阿里云使用有疑问时，智能编码助手的回答也将更加有效
适配多 IDE 的原生设计，符合开发者使用习惯:适配 IDE 原生主题、交互模式，让开发者感受到 IDE 原生的视觉和交互体验，更符合开发者使用习惯
研发问答、文档/代码搜索能力，打造沉浸式编码:无需切换工具，IDE 客户端内即可满足开发者编码场景中的技术资料检索、技术难题解答的诉求，打造开发者沉浸式编码体验
双模引擎，自由切换:支持极速本地模型、云端大模型两种代码补全模型，支持一键切换，满足不同网络环境、不同补全强度的场景诉求

斯坦福开源的 AI写作工具 Storm2.0

官网：(https://storm.genie.stanford.edu/)

AI 写作工具 Storm 2.0 发布更新，提供了企业级写作资源搜集和专家问答功能。只需告诉它写作主题，它会自动搜集相关资料、创建大纲、模拟多个专家与你进行问答，帮助构建长达上万字、引用充分的高质量文章。支持导出为 PDF 格式。

亮点

通过搜集多角度资料、专家问答和 AI 写作相结合，提供高质量文章
深入探讨写作主题，构建高质量文章
支持导出为 PDF 格式

Dify.ai

github 项目地址：https://github.com/langgenius/dif

使用 Dify.ai 构建本地知识库和大模型，包括设置、导入模型、创建知识库、应用配置以及实现实时对话，与数百种专有/开源 LLMs 以及数十种推理提供商和自托管解决方案无缝集成，涵盖 GPT、Mistral、Llama3 以及任何与 OpenAI API兼容的模型

Prompt IDE: 用于制作提示、比较模型性能以及向基于聊天的应用程序添加其他功能（如文本转语音）的直观界面
RAG Pipeline: 广泛的 RAG 功能，涵盖从文档摄入到检索的所有内容，支持从 PDF、PPT 和其他常见文档格式中提取文本的开箱即用的支持
Agent 智能体: 您可以基于 LLM 函数调用或 ReAct 定义 Agent，并为 Agent 添加预构建或自定义工具。Dify 为 AI Agent 提供了 50 多种内置工具，如谷歌搜索、DELL·E、Stable Diffusion 和WolframAlpha等
LLMOps: 随时间监视和分析应用程序日志和性能。您可以根据生产数据和标注持续改进提示、数据集和模型。
后端即服务: 所有 Dify 的功能都带有相应的 API，因此您可以轻松地将 Dify 集成到自己的业务逻辑中

CodeGemma7B

谷歌最近开源的编程大模型 CodeGemma7B，现在在 NVIDIA 官网上免费提供给用户(https://build.nvidia.com/google/codegemma-7b)。这款模型主要用于智能代码补全和生成，其性能超越了先前的 llama-13B 版本，并且支持中文。由于模型参数较小，生成代码速度非常快，能生成
Python、Java、C++等多种语言的代码

亮点

CodeGemma-7B 开源: Google 新推出的编程模型，免费在 NVIDIA 网站可用
智能代码助手: 用于自动补全和代码生成，效果优于 13B 版本
支持多语言: 包括 Python、Java,也支持中文
速度快:参数较少,代码生成迅速
测试与尝试:鼓励用户在官方网站上体验其功能

数据标注师和提示词工程师新职业兴起

数据标注师

角色定义

数据标注师负责为机器学习模型提供高质量的标注数据。他们通过对数据集中的图像、文本、音频等进行分类、标注，使得 AI 模型能够识别和理解这些数据

工作内容

图像标注:在图像中标记特定的物体或特征，例如在人脸识别中标记面部特征
文本标注:为文本数据添加标签，例如情感分析中的情感标签（正面、负面、中性）
音频标注:对音频数据进行转录和标注，例如语音识别中的文字转录

兴起原因

数据需求增加：AI 模型需要大量高质量的标注数据来训练
细分领域应用：不同领域对数据标注的需求各不相同，需要专业化的标注师

示例

自动驾驶领域需要大量标注好的道路、行人、交通标志等图像数据
自然语言处理需要标注好的语料库，包括实体识别、情感分析等任务

提示词工程师

角色定义

提示词工程师专注于为大语言模型（如 GPT-3、BERT）设计和优化提示词（prompts），以引导模型生成所需的输出。

工作内容

设计提示词：根据具体任务设计合适的提示词，以引导模型生成准确的响应
优化提示词：通过实验和迭代优化提示词，提升模型的生成质量
任务匹配：将复杂任务分解为模型能够理解的提示词序列

兴起原因

大模型普及：随着大语言模型的广泛应用，如何高效利用这些模型成为关键
任务复杂性增加：复杂任务需要专业化的提示词设计，以确保模型能够正确理解和响应

示例

在客服自动化中，提示词工程师设计合适的提示词，让 AI 能够有效回答用户问题
在内容生成中，通过优化提示词，生成更加符合用户需求的文章或报告

多模态 AI降低人机交互门槛

多模态AI:多模态 AI 指的是能够处理和理解多种类型数据（如文本、图像、语音、视频等）的人工智能系统。这种技术通过整合不同模式的数据来增强理解和响应能力。
降低人机交互门槛:多模态 AI 通过更自然和直观的方式与用户交互，使得用户不需要掌握复杂的技术操作。例如，通过语音识别和自然语言处理，用户可以通过说话与系统互动，而不是通过键盘或编程

多模态 AI 的应用可以使得用户更容易与技术系统互动，无需专业知识或技能，从而使更多人能够利用 AI 技术。例如，智能助理可以通过语音指令执行任务，而不需要用户输入复杂的命令。

AI 大模型分解重复性智力劳动

AI 大模型：AI 大模型指的是那些经过大量数据训练、具有强大处理和推理能力的模型，例如GPT-3 和 BERT。这些模型在广泛的任务中表现出色，具有很高的通用性
分解重复性智力劳动：AI 大模型能够自动处理大量重复性和结构化的智力任务，例如数据整理、简单的决策制定和信息检索。这些任务传统上需要人工进行，但 AI 可以更快速和准确地完成。

通过使用 AI 大模型，企业可以减少人力在重复性任务上的投入，从而将人力资源解放出来，专注于更具创造性和战略性的工作。这不仅提高了效率，还能降低成本。

推动人机分工协作

人机分工协作：指的是人类和机器各自发挥其优势，共同完成任务。机器负责高效处理重复性、结构化任务，而人类负责需要创造性、判断力和复杂决策的任务

这种协作模式可以显著提高生产力和创新能力。AI 大模型和多模态 AI 能够处理大量数据和简单任务，使人类能够集中精力在高价值的活动上，如战略规划、创新设计和复杂问题解决

助推智力密集型服务产业化

智力密集型服务：这些服务依赖于高水平的知识和技能，例如法律咨询、医疗诊断、金融分析等
产业化：指的是将这些高技能服务通过标准化和自动化的方式大规模提供

通过 AI 技术，智力密集型服务可以实现标准化和自动化，从而以更低的成本和更高的效率提供服务。这使得高质量的专业服务能够覆盖更广泛的市场，推动相关产业的发展和扩展