AI周刊(2024.7.8-7.15)

斯坦福团队推出 TTT 架构

可能很多人只听说过 Transformer 架构,并不知道还存在其它更有架构,也认为 Transformer 就是终极最优解!对于短的上下文而言,它的表现还不错;但是在大的上下文场景下,它的扇出、效率和内存就成为了性能瓶颈!当前阶段的 AIGC 还处于起步阶段,仅仅在某些领域有了一些成果,距离终极 AGI 还有很长的路要走!然而,长上下文才是我们需要重点考虑的问题,终极 AGI 终会存在很多这样的场景。

斯坦福、UCSD、UC 伯克利和 Meta 研究人员提出了一种全新架构 TTT 层,它具有线性复杂性和可表达的隐藏状态。关键思想是使隐藏状态本身成为机器学习模型,更新规则成为自监督学习的一个步骤。由于隐藏状态甚至在测试序列上也通过训练来更新,因此该层被称为测试时间训练(TTT)层。TTT 层取代 RNN 的隐藏状态,通过梯度下降压缩上下文,直接替代注意力机制,表现力更强且复杂度更低。TTT-Linear 和 TTT-MLP 在扩展性和性能上超越现有的 Transformer 和 Mamba,为长上下文建模提供了新方式。

通义灵码

官网:(https://tongyi.aliyun.com/lingma/download)

核心场景

  • 代码智能生成: 经过海量优秀开源代码数据训练,可根据当前代码文件及跨文件的上下文,为你生成行级/函数级代码、单元测试、代码优化建议等。沉浸式编码心流,秒级生成速度,让你更专注在技术设计,高质高效地完成编码工作
  • 研发智能问答: 基于海量研发文档、产品文档、通用研发知识、阿里云的云服务文档和SDK/OpenAPI 文档等进行问答训练,为你答疑解惑,助你轻松解决研发问题
  • 产品优势: 跨文件感知让代码生成更贴合业务场景: 客户端和模型层同步优化针对代码跨文件上下文感知能力,生成代码更加贴合当前代码库的业务场景
  • 阿里云服务使用场景友好: 专门针对阿里云的云服务使用、SDK/OpenAPI 的使用等场景调优,编码时能够更加便捷地使用阿里云服务;在对阿里云使用有疑问时,智能编码助手的回答也将更加有效
  • 适配多 IDE 的原生设计,符合开发者使用习惯:适配 IDE 原生主题、交互模式,让开发者感受到 IDE 原生的视觉和交互体验,更符合开发者使用习惯
  • 研发问答、文档/代码搜索能力,打造沉浸式编码:无需切换工具,IDE 客户端内即可满足开发者编码场景中的技术资料检索、技术难题解答的诉求,打造开发者沉浸式编码体验
  • 双模引擎,自由切换:支持极速本地模型、云端大模型两种代码补全模型,支持一键切换,满足不同网络环境、不同补全强度的场景诉求

斯坦福开源的 AI写作工具 Storm2.0

官网:(https://storm.genie.stanford.edu/)

AI 写作工具 Storm 2.0 发布更新,提供了企业级写作资源搜集和专家问答功能。只需告诉它写作主题,它会自动搜集相关资料、创建大纲、模拟多个专家与你进行问答,帮助构建长达上万字、引用充分的高质量文章。支持导出为 PDF 格式。

亮点

  • 通过搜集多角度资料、专家问答和 AI 写作相结合,提供高质量文章
  • 深入探讨写作主题,构建高质量文章
  • 支持导出为 PDF 格式

Dify.ai

github 项目地址:https://github.com/langgenius/dif

使用 Dify.ai 构建本地知识库和大模型,包括设置、导入模型、创建知识库、应用配置以及实现实时对话,与数百种专有/开源 LLMs 以及数十种推理提供商和自托管解决方案无缝集成,涵盖 GPT、Mistral、Llama3 以及任何与 OpenAI API兼容的模型

  • Prompt IDE: 用于制作提示、比较模型性能以及向基于聊天的应用程序添加其他功能(如文本转语音)的直观界面
  • RAG Pipeline: 广泛的 RAG 功能,涵盖从文档摄入到检索的所有内容,支持从 PDF、PPT 和其他常见文档格式中提取文本的开箱即用的支持
  • Agent 智能体: 您可以基于 LLM 函数调用或 ReAct 定义 Agent,并为 Agent 添加预构建或自定义工具。Dify 为 AI Agent 提供了 50 多种内置工具,如谷歌搜索、DELL·E、Stable Diffusion 和WolframAlpha等
  • LLMOps: 随时间监视和分析应用程序日志和性能。您可以根据生产数据和标注持续改进提示、数据集和模型。
  • 后端即服务: 所有 Dify 的功能都带有相应的 API,因此您可以轻松地将 Dify 集成到自己的业务逻辑中

对比

CodeGemma7B

谷歌最近开源的编程大模型 CodeGemma7B,现在在 NVIDIA 官网上免费提供给用户(https://build.nvidia.com/google/codegemma-7b)。这款模型主要用于智能代码补全和生成,其性能超越了先前的 llama-13B 版本,并且支持中文。由于模型参数较小,生成代码速度非常快,能生成
Python、Java、C++等多种语言的代码

亮点

  • CodeGemma-7B 开源: Google 新推出的编程模型,免费在 NVIDIA 网站可用
  • 智能代码助手: 用于自动补全和代码生成,效果优于 13B 版本
  • 支持多语言: 包括 Python、Java,也支持中文
  • 速度快:参数较少,代码生成迅速
  • 测试与尝试:鼓励用户在官方网站上体验其功能

数据标注师和提示词工程师新职业兴起

数据标注师

角色定义

数据标注师负责为机器学习模型提供高质量的标注数据。他们通过对数据集中的图像、文本、音频等进行分类、标注,使得 AI 模型能够识别和理解这些数据

工作内容

  • 图像标注:在图像中标记特定的物体或特征,例如在人脸识别中标记面部特征
  • 文本标注:为文本数据添加标签,例如情感分析中的情感标签(正面、负面、中性)
  • 音频标注:对音频数据进行转录和标注,例如语音识别中的文字转录

兴起原因

  • 数据需求增加:AI 模型需要大量高质量的标注数据来训练
  • 细分领域应用:不同领域对数据标注的需求各不相同,需要专业化的标注师

示例

  • 自动驾驶领域需要大量标注好的道路、行人、交通标志等图像数据
  • 自然语言处理需要标注好的语料库,包括实体识别、情感分析等任务

提示词工程师

角色定义

提示词工程师专注于为大语言模型(如 GPT-3、BERT)设计和优化提示词(prompts),以引导模型生成所需的输出。

工作内容

  • 设计提示词:根据具体任务设计合适的提示词,以引导模型生成准确的响应
  • 优化提示词:通过实验和迭代优化提示词,提升模型的生成质量
  • 任务匹配:将复杂任务分解为模型能够理解的提示词序列

兴起原因

  • 大模型普及:随着大语言模型的广泛应用,如何高效利用这些模型成为关键
  • 任务复杂性增加:复杂任务需要专业化的提示词设计,以确保模型能够正确理解和响应

示例

  • 在客服自动化中,提示词工程师设计合适的提示词,让 AI 能够有效回答用户问题
  • 在内容生成中,通过优化提示词,生成更加符合用户需求的文章或报告

多模态 AI降低人机交互门槛

  • 多模态AI:多模态 AI 指的是能够处理和理解多种类型数据(如文本、图像、语音、视频等)的人工智能系统。这种技术通过整合不同模式的数据来增强理解和响应能力。
  • 降低人机交互门槛:多模态 AI 通过更自然和直观的方式与用户交互,使得用户不需要掌握复杂的技术操作。例如,通过语音识别和自然语言处理,用户可以通过说话与系统互动,而不是通过键盘或编程

多模态 AI 的应用可以使得用户更容易与技术系统互动,无需专业知识或技能,从而使更多人能够利用 AI 技术。例如,智能助理可以通过语音指令执行任务,而不需要用户输入复杂的命令。

AI 大模型分解重复性智力劳动

  • AI 大模型:AI 大模型指的是那些经过大量数据训练、具有强大处理和推理能力的模型,例如GPT-3 和 BERT。这些模型在广泛的任务中表现出色,具有很高的通用性
  • 分解重复性智力劳动:AI 大模型能够自动处理大量重复性和结构化的智力任务,例如数据整理、简单的决策制定和信息检索。这些任务传统上需要人工进行,但 AI 可以更快速和准确地完成。

通过使用 AI 大模型,企业可以减少人力在重复性任务上的投入,从而将人力资源解放出来,专注于更具创造性和战略性的工作。这不仅提高了效率,还能降低成本。

推动人机分工协作

人机分工协作:指的是人类和机器各自发挥其优势,共同完成任务。机器负责高效处理重复性、结构化任务,而人类负责需要创造性、判断力和复杂决策的任务

这种协作模式可以显著提高生产力和创新能力。AI 大模型和多模态 AI 能够处理大量数据和简单任务,使人类能够集中精力在高价值的活动上,如战略规划、创新设计和复杂问题解决

助推智力密集型服务产业化

  • 智力密集型服务:这些服务依赖于高水平的知识和技能,例如法律咨询、医疗诊断、金融分析等
  • 产业化:指的是将这些高技能服务通过标准化和自动化的方式大规模提供

通过 AI 技术,智力密集型服务可以实现标准化和自动化,从而以更低的成本和更高的效率提供服务。这使得高质量的专业服务能够覆盖更广泛的市场,推动相关产业的发展和扩展