Skip to main content
GLM-4.5-Flash 将于2026年1月30日下线,请您及时将模型编码更新为最新版本。正式下线后,相关请求将会自动路由至 GLM-4.7-Flash。

概览

GLM-4.5-Flash 模型在确保强大推理能力、稳定代码生成和多工具协同处理能力的同时,具备显著的运行速度优势,且完全免费开放使用 模型支持最长 128K 的上下文处理,可高效应对长文本理解、多轮对话连续性和结构化内容生成等复杂任务,采用混合推理模式,提供两种模式:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。可通过 thinking.type 参数启用或关闭(支持 enableddisabled 两种设置),默认开启动态思考功能。 GLM-4.5-Flash 在工具调用、网页浏览、软件工程、前端编程领域进行了优化,可以接入 Claude Code、Roo Code 等代码智能体中使用,也可以通过工具调用接口支持任意的智能体应用。

输入模态

文本

输出模态

文本

上下文窗口

128K

最大输出 Tokens

96K

能力支持

深度思考

启用深度思考模式,提供更深层次的推理分析

流式输出

支持实时流式响应,提升用户交互体验

Function Call

强大的工具调用能力,支持多种外部工具集成

上下文缓存

智能缓存机制,优化长对话性能

结构化输出

支持 JSON 等结构化格式输出,便于系统集成

MCP

可灵活调用外部 MCP 工具与数据源,扩展应用场景

推荐场景

Tips:
  1. 点击“体验一下”会跳转至体验中心,建议先看完使用指南再体验哦~
  2. 体验过程会消耗模型 tokens,如遇体验失败,可通过 链接 抢购特价资源包。
核心能力:PPT 制作——>逻辑清晰、内容完整、页面呈现
  • 主题内容展开:支持基于一个标题或中心思想生成多页 PPT 内容段落
  • 逻辑结构组织:自动将内容划分为导语、主体、总结等模块,语义分布合理
  • 页面布局提示:可配合使用模板系统,建议内容呈现方式
使用案例:适用于办公自动化系统、AI 演示工具及其它效率类产品PPT 生成效果20250727 161935 Gi

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API 调用方式

调用示例

思考模式

GLM-4.5 系列模型提供了“深度思考模式”,用户可以通过设置 thinking.type 参数来启用或关闭该模式。该参数支持两种取值:enabled(动态)和 disabled (禁用)。默认情况下开启动态思考功能。
  • 简单任务(无需思考):对于不需要复杂推理的简单请求(例如事实检索或分类),无需思考。
    • 智谱AI 的成立时间。
    • 翻译 I love you 这句英语成中文。
  • 中等任务(默认/需要一定程度的思考):许多常见请求都需要一定程度的分步处理或更深入的理解。GLM-4.5系列模型可以灵活运用思考能力来处理以下任务。
    • 为什么木星拥有较多的卫星,而土星却比木星的卫星少得多?
    • 从北京去上海,对比乘坐飞机和动车的优劣势。
  • 困难任务(最大思维能力):对于真正复杂的挑战,例如解决复杂的数学问题,联网问题,编码问题,这类任务要求模型充分发挥推理和规划能力,通常需要经过许多内部步骤才能提供答案。
    • 详细解释 MoE 模型中不同专家是如何配合的。
    • 根据上证指数的近一周的波动情况和时政信息,预测我是否应该购入股票指数 ETF,为什么?

示例代码

以下是一个完整的调用示例,帮助您快速上手 GLM-4.5-Flash 模型。
安装 SDK
# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.2.2
验证安装
import zai
print(zai.__version__)
调用示例
from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="your-api-key")  # 请填写您自己的 API Key

response = client.chat.completions.create(
    model="glm-4.5-flash",
    messages=[
        {"role": "user", "content": "作为一名营销专家,请为我的产品创作一个吸引人的口号"},
        {"role": "assistant", "content": "当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱AI 开放平台"}
    ],
    thinking={
        "type": "enabled",    # 启用深度思考模式
    },
    stream=True,              # 启用流式输出
    max_tokens=4096,          # 最大输出 tokens
    temperature=0.7           # 控制输出的随机性
)

# 获取回复
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end='')