GLM-ASR

概览

GLM-ASR 是智谱新一代语音识别模型，相较于传统 ASR 模型，GLM-ASR 在上下文智能理解、抗噪性能及多语言转录等方面取得了显著提升，可以被广泛地应用于各类语音转文本的场景中。

价格

0.06 元/分钟

输入模态

音频

输出模态

文本

使用资源

接口文档：API 调用方式

详细介绍

作为一款基于上下文深度理解的语音转文本模型，GLM-ASR 不仅能够将音频精准转录为符合语言习惯的流畅文本，更在复杂噪音环境中展现出卓越的抗干扰能力，为您提供一系列语音转文本的新惊喜：

上下文智能理解

依托先进的语言建模技术，模型可结合上下文语境优化输出结果，显著提升文本的流畅性与可读性，让转录内容更贴近真实表达。

强抗噪性能

即使在非语言类噪声（如机械声、环境杂音）干扰下，模型仍能保持高精度识别，避免误判与漏识，适应多场景需求。

多语言多方言覆盖

支持中文、英语及8种中国地方方言（东北官话、胶辽官话、北京官话、冀鲁官话、中原官话、江淮官话、兰银官话和西南官话），打破地域沟通壁垒，满足多样化语音交互需求。

调用示例

Python
Java
旧版 Python
输出示例

安装 SDK

# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.2.2

验证安装

import zai
print(zai.__version__)

调用示例

from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="")  # 请填写您自己的 APIKey

input_wav_path = "speech.wav"  # 你的 WAV 文件路径

with open(input_wav_path, "rb") as audio_data:
    response = client.audio.transcriptions.create(
    model="glm-asr",
    file=audio_data,
    stream=True
    )

    for chunk in response:
        if chunk.type == "transcript.text.delta":
            print(chunk.delta, end="", flush=True)

安装 SDKMaven

<dependency>
    <groupId>ai.z.openapi</groupId>
    <artifactId>zai-sdk</artifactId>
    <version>0.3.3</version>
</dependency>

Gradle (Groovy)

implementation 'ai.z.openapi:zai-sdk:0.3.3'

调用示例

  import ai.z.openapi.ZhipuAiClient;
  import ai.z.openapi.core.Constants;
  import ai.z.openapi.service.audio.AudioTranscriptionRequest;
  import ai.z.openapi.service.audio.AudioTranscriptionResponse;
  import java.io.File;
  import java.io.IOException;

  public class GLMASRExample {
      public static void main(String[] args) throws IOException {
          ZhipuAiClient client = ZhipuAiClient.builder().ofZHIPU().apiKey("your_api_key").build();
          File audioFile = new File("your_path-asr.wav");
          AudioTranscriptionRequest request = AudioTranscriptionRequest.builder()
              .model(Constants.ModelGLMASR)
              .file(audioFile)
              .stream(false)
              .build();

          AudioTranscriptionResponse response = client.audio().createTranscription(request);
          System.out.println(response.getData());
      }
}

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="your-api-key")  # 填写您自己的 APIKey
with open("asr1.wav", "rb") as audio_file:
    transcriptResponse = client.audio.transcriptions.create(
        model="glm-asr",
        file=audio_file,
        stream=False
)
for item in transcriptResponse:
    print(item)

{
    "id": "20250605132035222ead927d794645",
    "object": "chat.completion",
    "created": 1749187238,
    "model": "glm-asr",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "你好，这是我的语音输入测试"
            },
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 107,
        "completion_tokens": 340,
        "total_tokens": 447
    },
    "request_id": "20250605132035222ead927d794645"
}

用户并发权益

API 调用会受到速率限制，当前我们限制的维度是请求并发数量（在途请求任务数量）。不同等级的用户并发保障如下。

V0	V1	V2	V3
5	10	15	20

开始使用

模型介绍

模型能力

模型工具

GLM 全模态知识库

智能体

平台服务

概览

价格

输入模态

输出模态

推荐场景

使用资源

详细介绍

上下文智能理解

强抗噪性能

多语言多方言覆盖

调用示例

用户并发权益

开始使用

模型介绍

模型能力

模型工具

GLM 全模态知识库

智能体

平台服务

Documentation Index

​ 概览

价格

输入模态

输出模态

​ 推荐场景

​ 使用资源

​ 详细介绍

上下文智能理解

强抗噪性能

多语言多方言覆盖

​ 调用示例

​ 用户并发权益

概览

推荐场景

使用资源

详细介绍

调用示例

用户并发权益