GLM-5.2 - Anyfast

GLM-5.2 是智谱 AI 面向长任务时代的旗舰模型，通过 Anyfast 以 OpenAI 兼容接口提供服务。它将真正可用的 1M Token 上下文窗口与开源 SOTA 的编程能力相结合，能够在一次长程任务中完成”从需求到多端可部署产物”的完整开发链路。

核心能力

OpenAI 兼容 — 可直接替换 OpenAI SDK，无需修改其他代码
1M 上下文窗口 — Solid 无损 1M 上下文，在长程任务下保持稳定，而非仅扩展名义长度
128K 最大输出 — 单次响应最高可生成 128K Token
思考模式 — 思维链推理（GLM-5.2 开启后为强制思考）
可调推理强度 — 通过 reasoning_effort 调节模型的推理程度
开源 SOTA Coding — 在长程编程基准上排名最高的开源模型，与最强闭源模型处于可比区间
Function Call、结构化输出与 MCP — 强大的工具调用、JSON 输出与 MCP 工具/数据源集成
流式输出 — 通过 SSE 实现实时 Token 流式传输

输出规格

属性	取值
输入模态	文本
输出模态	文本
上下文窗口	1M Token
最大输出 Token	128K

快速示例

curl https://www.anyfast.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      { "role": "user", "content": "用简单的语言解释量子纠缠。" }
    ]
  }'

思考模式

GLM-5.2 支持思维链思考模式。当 thinking.type 为 enabled（默认值）时，GLM-5.2 会在回答前强制进行思考。将其设为 disabled 可在轻量任务中跳过推理。

Python

response = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "user", "content": "为一个博客平台设计一套 REST API。"}
    ],
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "max"
    }
)

print(response.choices[0].message.content)

reasoning_effort 控制模型的推理程度（仅在思考开启时生效）。GLM-5.2 支持 max、xhigh、high、medium、low、minimal、none；为保持兼容，none/minimal 会让模型放弃思考，low/medium 映射为 high，xhigh 映射为 max。默认：max。

参数说明

参数	类型	必填	说明
`model`	string	是	固定为 `glm-5.2`
`messages`	array	是	`{ role, content }` 对象数组
`thinking`	object	否	`{ "type": "enabled" \| "disabled" }`，控制思维链。默认 `enabled`（强制思考）
`reasoning_effort`	string	否	`max`、`xhigh`、`high`、`medium`、`low`、`minimal`、`none`，思考开启时生效。默认 `max`
`max_tokens`	integer	否	最大生成 Token 数（最高 131072），建议不小于 1024
`temperature`	float	否	`0`–`1`，控制随机性，默认 `1`
`top_p`	float	否	核采样阈值，默认 `0.95`
`stream`	boolean	否	开启 SSE 流式传输，默认 `false`
`tools`	array	否	Function/MCP 工具定义，用于工具调用
`response_format`	object	否	`{ "type": "json_object" }` 输出结构化 JSON
`stop`	string / array	否	触发停止生成的序列

API 参考

查看 GLM-5.2 的交互式 API Playground。

Seedance 1.0 Lite 图生视频 GLM-5.1