跳转到主要内容
GLM-5.2 是智谱 AI 面向长任务时代的旗舰模型,通过 Anyfast 以 OpenAI 兼容接口提供服务。它将真正可用的 1M Token 上下文窗口与开源 SOTA 的编程能力相结合,能够在一次长程任务中完成”从需求到多端可部署产物”的完整开发链路。

核心能力

  • OpenAI 兼容 — 可直接替换 OpenAI SDK,无需修改其他代码
  • 1M 上下文窗口 — Solid 无损 1M 上下文,在长程任务下保持稳定,而非仅扩展名义长度
  • 128K 最大输出 — 单次响应最高可生成 128K Token
  • 思考模式 — 思维链推理(GLM-5.2 开启后为强制思考)
  • 可调推理强度 — 通过 reasoning_effort 调节模型的推理程度
  • 开源 SOTA Coding — 在长程编程基准上排名最高的开源模型,与最强闭源模型处于可比区间
  • Function Call、结构化输出与 MCP — 强大的工具调用、JSON 输出与 MCP 工具/数据源集成
  • 流式输出 — 通过 SSE 实现实时 Token 流式传输

输出规格

属性取值
输入模态文本
输出模态文本
上下文窗口1M Token
最大输出 Token128K

快速示例

curl https://www.anyfast.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      { "role": "user", "content": "用简单的语言解释量子纠缠。" }
    ]
  }'

思考模式

GLM-5.2 支持思维链思考模式。当 thinking.typeenabled(默认值)时,GLM-5.2 会在回答前强制进行思考。将其设为 disabled 可在轻量任务中跳过推理。
Python
response = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "user", "content": "为一个博客平台设计一套 REST API。"}
    ],
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "max"
    }
)

print(response.choices[0].message.content)
reasoning_effort 控制模型的推理程度(仅在思考开启时生效)。GLM-5.2 支持 maxxhighhighmediumlowminimalnone;为保持兼容,none/minimal 会让模型放弃思考,low/medium 映射为 highxhigh 映射为 max。默认:max

参数说明

参数类型必填说明
modelstring固定为 glm-5.2
messagesarray{ role, content } 对象数组
thinkingobject{ "type": "enabled" | "disabled" },控制思维链。默认 enabled(强制思考)
reasoning_effortstringmaxxhighhighmediumlowminimalnone,思考开启时生效。默认 max
max_tokensinteger最大生成 Token 数(最高 131072),建议不小于 1024
temperaturefloat01,控制随机性,默认 1
top_pfloat核采样阈值,默认 0.95
streamboolean开启 SSE 流式传输,默认 false
toolsarrayFunction/MCP 工具定义,用于工具调用
response_formatobject{ "type": "json_object" } 输出结构化 JSON
stopstring / array触发停止生成的序列

API 参考

查看 GLM-5.2 的交互式 API Playground。