核心能力
- OpenAI 兼容 — 可直接替换 OpenAI SDK,无需修改其他代码
- 1M 上下文窗口 — Solid 无损 1M 上下文,在长程任务下保持稳定,而非仅扩展名义长度
- 128K 最大输出 — 单次响应最高可生成 128K Token
- 思考模式 — 思维链推理(GLM-5.2 开启后为强制思考)
- 可调推理强度 — 通过
reasoning_effort调节模型的推理程度 - 开源 SOTA Coding — 在长程编程基准上排名最高的开源模型,与最强闭源模型处于可比区间
- Function Call、结构化输出与 MCP — 强大的工具调用、JSON 输出与 MCP 工具/数据源集成
- 流式输出 — 通过 SSE 实现实时 Token 流式传输
输出规格
| 属性 | 取值 |
|---|---|
| 输入模态 | 文本 |
| 输出模态 | 文本 |
| 上下文窗口 | 1M Token |
| 最大输出 Token | 128K |
快速示例
思考模式
GLM-5.2 支持思维链思考模式。当thinking.type 为 enabled(默认值)时,GLM-5.2 会在回答前强制进行思考。将其设为 disabled 可在轻量任务中跳过推理。
Python
reasoning_effort 控制模型的推理程度(仅在思考开启时生效)。GLM-5.2 支持 max、xhigh、high、medium、low、minimal、none;为保持兼容,none/minimal 会让模型放弃思考,low/medium 映射为 high,xhigh 映射为 max。默认:max。
参数说明
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
model | string | 是 | 固定为 glm-5.2 |
messages | array | 是 | { role, content } 对象数组 |
thinking | object | 否 | { "type": "enabled" | "disabled" },控制思维链。默认 enabled(强制思考) |
reasoning_effort | string | 否 | max、xhigh、high、medium、low、minimal、none,思考开启时生效。默认 max |
max_tokens | integer | 否 | 最大生成 Token 数(最高 131072),建议不小于 1024 |
temperature | float | 否 | 0–1,控制随机性,默认 1 |
top_p | float | 否 | 核采样阈值,默认 0.95 |
stream | boolean | 否 | 开启 SSE 流式传输,默认 false |
tools | array | 否 | Function/MCP 工具定义,用于工具调用 |
response_format | object | 否 | { "type": "json_object" } 输出结构化 JSON |
stop | string / array | 否 | 触发停止生成的序列 |
API 参考
查看 GLM-5.2 的交互式 API Playground。