IBM Granite 4.0小语言模型登陆Replicate平台

3 阅读3分钟

IBM Granite 4.0 现已登陆某平台

某机构发布了Granite 4.0,这是其最新的开源小语言模型系列,专为高速和低成本而构建。

Granite 4.0模型采用了混合架构,比传统模型使用更少的内存,因此您可以在普通的消费级GPU上运行它们,而无需昂贵的服务器硬件。它们非常适合文档摘要、RAG系统和AI智能体等任务。

ibm-granite/granite-4.0-h-small 是一个300亿参数的长上下文指令模型,现已在该平台上可用。

通过API运行Granite 4.0

您可以立即在该平台上开始使用Granite模型。以下是通过API运行它们的方法:

cURL

curl -s -X POST \
  -H "Authorization: Bearer $REPLICATE_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d $'{
    "version": "ibm-granite/granite-4.0-h-small",
    "input": {
      "messages": [
        {
          "role": "user",
          "content": "Explain the key benefits of using open-source models in business environments"
        }
      ]
    }
  }' \
  https://api.replicate.com/v1/predictions

JavaScript

以下是一个使用某平台JavaScript客户端的示例:

import Replicate from "replicate";

const replicate = new Replicate({
  auth: process.env.REPLICATE_API_TOKEN,
});

const output = await replicate.run(
  "ibm-granite/granite-4.0-h-small",
  {
    input: {
      messages: [
        {
          role: "user",
          content: "Explain the key benefits of using open-source models in business environments"
        }
      ]
    }
  }
);

Python

以下是一个使用某平台Python客户端的示例:

import replicate

output = replicate.run(
    "ibm-granite/granite-4.0-h-small",
    input={
        "messages": [
            {
                "role": "user",
                "content": "Explain the key benefits of using open-source models in business environments"
            }
        ]
    }
)

Granite的高性能表现

Granite模型围绕一种混合设计构建,该设计结合了两个关键思想:Mamba-2的线性扩展效率与Transformer的精准性。

Mamba-2是一种状态空间模型,可以线性地处理序列,这与传统Transformer随序列长度呈二次方扩展不同。这使得它在处理极长输入(例如包含数十万token的文档)时效率更高。Transformer模块则通过更好地支持需要长上下文推理的任务来补充这一点。

部分精选的Granite 4.0模型还使用了MoE路由策略。MoE设置将模型拆分为多个“专家”。模型不是一次性运行所有参数,而是将每个输入仅路由到它实际需要的专家。例如,Granite 4.0 Small拥有320亿总参数,其中只有90亿会在一次推理请求中被激活。

这两种方法共同使得Granite模型能够快速处理长上下文,并在消费级GPU等较普通的硬件上运行,同时不牺牲性能。

Granite的实用性

Granite模型是为实际工作而设计的,而不仅仅是演示。它们轻量且高效,使其非常适合用于:

  • 总结长文档,如合同或技术手册。
  • 构建从大型数据集(如CRM或知识库)中提取答案的系统,而无需将输入切分成极小的块。
  • 同时运行多个AI智能体以处理复杂的工作流程。
  • 在带宽或云端访问受限的本地设备或边缘硬件上部署模型。

Granite的开源特性

Granite模型采用Apache 2.0许可证发布。这意味着您可以无限制地将其用于商业和非商业项目,无需支付隐藏费用。您还可以根据需要随意修改模型——对其进行微调、添加适配器,或在私有数据集上训练——并以您自己的条款发布这些修改。这种开放性使Granite成为需要合规性、安全性或定制化的公司的实用选择。

欲了解更多详情,请查阅某机构关于部署、微调和集成模式的文档。如果您正在使用LangChain,某机构还构建了针对该平台的LangChain集成,以便更轻松地使用Granite模型。FINISHED