GLM-4.5-Flash

GLM-4.5-Flash 将于2026年1月30日下线，请您及时将模型编码更新为最新版本。正式下线后，相关请求将会自动路由至 GLM-4.7-Flash。

概览

GLM-4.5-Flash 模型在确保强大推理能力、稳定代码生成和多工具协同处理能力的同时，具备显著的运行速度优势，且完全免费开放使用。模型支持最长 128K 的上下文处理，可高效应对长文本理解、多轮对话连续性和结构化内容生成等复杂任务，采用混合推理模式，提供两种模式：用于复杂推理和工具使用的思考模式，以及用于即时响应的非思考模式。可通过 thinking.type 参数启用或关闭（支持 enabled 和 disabled 两种设置），默认开启动态思考功能。 GLM-4.5-Flash 在工具调用、网页浏览、软件工程、前端编程领域进行了优化，可以接入 Claude Code、Roo Code 等代码智能体中使用，也可以通过工具调用接口支持任意的智能体应用。

输入模态

文本

输出模态

文本

上下文窗口

128K

最大输出 Tokens

96K

能力支持

深度思考

启用深度思考模式，提供更深层次的推理分析

流式输出

支持实时流式响应，提升用户交互体验

Function Call

强大的工具调用能力，支持多种外部工具集成

上下文缓存

智能缓存机制，优化长对话性能

结构化输出

支持 JSON 等结构化格式输出，便于系统集成

MCP

可灵活调用外部 MCP 工具与数据源，扩展应用场景

使用资源

体验中心：快速测试模型在业务场景上的效果
接口文档：API 调用方式

调用示例

思考模式

GLM-4.5 系列模型提供了“深度思考模式”，用户可以通过设置 thinking.type 参数来启用或关闭该模式。该参数支持两种取值：enabled（动态）和 disabled （禁用）。默认情况下开启动态思考功能。

简单任务（无需思考）：对于不需要复杂推理的简单请求（例如事实检索或分类），无需思考。
- 智谱AI 的成立时间。
- 翻译 I love you 这句英语成中文。
中等任务（默认/需要一定程度的思考）：许多常见请求都需要一定程度的分步处理或更深入的理解。GLM-4.5系列模型可以灵活运用思考能力来处理以下任务。
- 为什么木星拥有较多的卫星，而土星却比木星的卫星少得多？
- 从北京去上海，对比乘坐飞机和动车的优劣势。
困难任务（最大思维能力）：对于真正复杂的挑战，例如解决复杂的数学问题，联网问题，编码问题，这类任务要求模型充分发挥推理和规划能力，通常需要经过许多内部步骤才能提供答案。
- 详细解释 MoE 模型中不同专家是如何配合的。
- 根据上证指数的近一周的波动情况和时政信息，预测我是否应该购入股票指数 ETF，为什么？

示例代码

以下是一个完整的调用示例，帮助您快速上手 GLM-4.5-Flash 模型。

Python
Java
Python (旧)

安装 SDK

# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.2.2

验证安装

import zai
print(zai.__version__)

调用示例

from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="your-api-key")  # 请填写您自己的 API Key

response = client.chat.completions.create(
    model="glm-4.5-flash",
    messages=[
        {"role": "user", "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"},
        {"role": "assistant", "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱AI 开放平台"}
    ],
    thinking={
        "type": "enabled",    # 启用深度思考模式
    },
    stream=True,              # 启用流式输出
    max_tokens=4096,          # 最大输出 tokens
    temperature=0.7           # 控制输出的随机性
)

# 获取回复
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end='')

安装 SDKMaven

<dependency>
    <groupId>ai.z.openapi</groupId>
    <artifactId>zai-sdk</artifactId>
    <version>0.3.3</version>
</dependency>

Gradle (Groovy)

implementation 'ai.z.openapi:zai-sdk:0.3.3'

调用示例

import ai.z.openapi.ZhipuAiClient;
import ai.z.openapi.service.model.ChatCompletionCreateParams;
import ai.z.openapi.service.model.ChatCompletionResponse;
import ai.z.openapi.service.model.ChatMessage;
import ai.z.openapi.service.model.ChatMessageRole;
import java.util.Arrays;

public class BasicChat {
    public static void main(String[] args) {
        // 初始化客户端
        ZhipuAiClient client = ZhipuAiClient.builder().ofZHIPU()
            .apiKey("your-api-key")
            .build();

        // 创建聊天完成请求
        ChatCompletionCreateParams request = ChatCompletionCreateParams.builder()
            .model("glm-4.5-flash")
            .messages(Arrays.asList(
                ChatMessage.builder()
                    .role(ChatMessageRole.USER.value())
                    .content("作为一名营销专家，请为我的产品创作一个吸引人的口号")
                    .build(),
                ChatMessage.builder()
                    .role(ChatMessageRole.ASSISTANT.value())
                    .content("当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息")
                    .build(),
                ChatMessage.builder()
                    .role(ChatMessageRole.USER.value())
                    .content("智谱AI 开放平台")
                    .build()
            ))
            .build();

        // 发送请求
        ChatCompletionResponse response = client.chat().createChatCompletion(request);

        // 获取回复
        if (response.isSuccess()) {
            Object reply = response.getData().getChoices().get(0).getMessage().getContent();
            System.out.println("AI 回复: " + reply);
        } else {
            System.err.println("错误: " + response.getMsg());
        }
    }
}

更新 SDK 至 2.1.5.20250726

# 安装最新版本
pip install zhipuai

# 或指定版本
pip install zhipuai==2.1.5.20250726

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="your-api-key")  # 请填写您自己的 API Key

response = client.chat.completions.create(
    model="glm-4.5-flash",
    messages=[
        {"role": "user", "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"},
        {"role": "assistant", "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱AI 开放平台"},
        {"role": "assistant", "content": "点燃未来，智谱AI 绘制无限，让创新触手可及！"},
        {"role": "user", "content": "创作一个更精准且吸引人的口号"}
    ],
    thinking={
        "type": "enabled",
    },
)
print(response)

开始使用

模型介绍

模型能力

模型工具

知识库

智能体

平台服务

概览

输入模态

输出模态

上下文窗口

最大输出 Tokens

能力支持

深度思考

流式输出

Function Call

上下文缓存

结构化输出

MCP

推荐场景

使用资源

调用示例

思考模式

示例代码

开始使用

模型介绍

模型能力

模型工具

知识库

智能体

平台服务

​ 概览

输入模态

输出模态

上下文窗口

最大输出 Tokens

​ 能力支持

深度思考

流式输出

Function Call

上下文缓存

结构化输出

MCP

​ 推荐场景

​ 使用资源

​ 调用示例

​思考模式

​示例代码

概览

能力支持

推荐场景

使用资源

调用示例

思考模式

示例代码