Skip to main content

概览

GLM-4.5V 是智谱新一代基于 MOE 架构的视觉推理模型,以 106B 的总参数量和 12B 激活参数量,在各类基准测试中达到全球同级别开源多模态模型 SOTA,涵盖图像、视频、文档理解及 GUI 任务等常见任务。

定位

旗舰视觉推理

输入模态

视频、图像、文本、文件

输出模态

文本

上下文窗口

64K
GLM-4.5V 价格详情请前往价格界面

能力支持

深度思考

启用深度思考模式,提供更深层次的推理分析

视觉理解

强大的视觉理解能力,支持图片,视频,文件

流式输出

支持实时流式响应,提升用户交互体验

上下文缓存

智能缓存机制,优化长对话性能

推荐场景

支持将网页截图或完整浏览录屏输入模型,自动解析布局与交互逻辑,高精度还原页面元素与二级页面结构,生成可交互的 HTML 代码,便于直接使用或二次优化。
可根据文本描述精准定位指定人物或物体,支持按外貌、衣着等多条件组合筛选。适用于安检、质检、内容审核、遥感监测等实业场景,定位精度高。
识别并理解屏幕画面,执行点击、滑动等操作指令,精准完成如 PPT 修改、Word 编辑等任务,全程自动化,适用于各类办公场景,为智能体操作任务提供可靠支持。
支持对长文档进行深度解析,处理文本、表格、图形等多模态内容,可总结、翻译、提取关键信息,并在原有观点基础上提出新见解,适用于研报分析、科研、教育等专业场景。
结合强推理能力与丰富世界知识,在无需搜索的情况下推断图像背景信息。支持将图表、曲线等内容转为结构化数据,精确还原内容与布局,适用于无电子版表格的快速数字化处理,避免手动录入的繁琐与错误。
支持解析长时视频内容,精准识别并推理视频中的时间线、人物关系、事件发展及因果逻辑,适用于安防监控、影视内容分析、舆情事件追踪等领域,实现高效的视频信息抽取与洞察。
具备图文感知、知识储备与推理能力,能够解决复杂的图文结合题目,适用于 K12 教育场景中的解题和讲解需求。

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API 调用方式

详细介绍

1

开源多模态 SOTA

GLM-4.5V 基于智谱新一代旗舰 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线进行迭代升级,在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解及 GUI 任务等常见任务。Description
2

支持 Thinking 和 Non-Thinking

GLM-4.5V 新增“思考模式”开关,用户可在快速响应与深度推理之间自由切换,根据任务需求灵活平衡处理速度与输出质量。

应用示例

  • 视频前端复刻
  • 图片翻译
  • GUI Agent
  • 图表转换
  • 学科解题
  • 文档解读
  • Grounding

输入

prompt:帮我生成这个video中所展示的html code ,需要包含视频中的点击、跳转、交互等

输出

代码略.渲染后的网页截图:Description
Description

调用示例

基础与流式

  • cURL
  • Python
  • Java
  • Python(旧)
基础调用
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.5v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cloudcovert-1305175928.cos.ap-guangzhou.myqcloud.com/%E5%9B%BE%E7%89%87grounding.PNG"
            }
          },
          {
            "type": "text",
            "text": "Where is the second bottle of beer from the right on the table?  Provide coordinates in [[xmin,ymin,xmax,ymax]] format"
          }
        ]
      }
    ],
    "thinking": {
      "type":"enabled"
    }
  }'
流式调用
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.5v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cloudcovert-1305175928.cos.ap-guangzhou.myqcloud.com/%E5%9B%BE%E7%89%87grounding.PNG"
            }
          },
          {
            "type": "text",
            "text": "Where is the second bottle of beer from the right on the table?  Provide coordinates in [[xmin,ymin,xmax,ymax]] format"
          }
        ]
      }
    ],
    "thinking": {
      "type":"enabled"
    },
    "stream": true
  }'

多模态理解

不支持同时理解文件、视频和图像。
  • cURL
  • Python
  • Java
图片理解
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.5v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cdn.bigmodel.cn/static/logo/register.png"
            }
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cdn.bigmodel.cn/static/logo/api-key.png"
            }
          },
          {
            "type": "text",
            "text": "What are the pics talk about?"
          }
        ]
      }
    ],
    "thinking": {
      "type": "enabled"
    }
  }'
视频理解
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.5v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "video_url",
            "video_url": {
              "url": "https://cdn.bigmodel.cn/agent-demos/lark/113123.mov"
            }
          },
          {
            "type": "text",
            "text": "What are the video show about?"
          }
        ]
      }
    ],
    "thinking": {
      "type": "enabled"
    }
  }'
文件理解
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.5v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "file_url",
            "file_url": {
              "url": "https://cdn.bigmodel.cn/static/demo/demo2.txt"
            }
          },
          {
            "type": "file_url",
            "file_url": {
              "url": "https://cdn.bigmodel.cn/static/demo/demo1.pdf"
            }
          },
          {
            "type": "text",
            "text": "What are the files show about?"
          }
        ]
      }
    ],
    "thinking": {
      "type": "enabled"
    }
  }'

用户并发权益

API 调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
模型版本V0V1V2V3V4V5V6V7V8
GLM-4.5V10305080100120150150150
I