GLM-TTS

概览

GLM-TTS 语音合成模型以新一代智谱语音大模型为核心，突破传统语音合成框架，通过上下文智能预判文本情绪与语调，显著提升语音自然度与表现力，让合成语音具备真实情感与生命力。GLM‑TTS 在架构上采用两阶段生成，并在训练中引入基于 GRPO 的强化学习方案，在公开评测的「字错误率」和「情感表达」上取得开源 SOTA 表现。

输入模态

文本

输出模态

音频

模型价格详情请前往价格界面!

使用资源

体验中心：快速测试模型在业务场景上的效果
接口文档：API 调用方式

详细介绍

GLM-TTS 结合了 text2token 大语言模型和 token2wav 扩散模型，突破传统语音合成框架。相比传统技术，GLM-TTS 在口语自然度、拟人化还原、语句衔接和韵律节奏上全面升级，尤其在情感表达上精准呈现，为客户打造生动、富感染力的听觉体验，实现从“清晰传递”到“情感共鸣”的跨越。

超拟人语音合成，情感表达增强

依托新一代语音大模型，根据上下文智能预测文本的情感、语调等信息，提升合成语音的自然度和表现力。

支持非流式、流式接口

非流式适合完整文本一次性合成，流式支持在文本生成过程中实时输出语音，实现低延迟的交互式体验。

快速响应

流式接口返回响应结果，首帧响应速度可达400ms以内。

动态调参数

支持随心调节语速、音量等参数，满足复杂场景要求。

可选音色

角色	音色示例
彤彤（默认）
小陈
锤锤
jam
kazi
douji
luodo

应用示例

单音色超拟人TTS
超情感表达TTS

文本	音频
我叫小智呀～是不是刚才有点小委屈呀？跟我说说嘛，我听着呢～
哎呀，可别这么说自己呀！你是不是最近遇到啥事儿了，感觉没做好才这么想的？其实啊，谁还没个手忙脚乱、犯迷糊的时候呢。
初中时看天空的感觉真的很不一样哎！那时候好像总觉得天空特别大，云朵会变成各种形状，傍晚的晚霞能看半天，连星星都比现在亮。

文本	音频
开心：拆开快递看到那只限量款玩偶时，我笑得差点蹦起来，实在太开心啦！
悲伤：我精心养了三年的花突然枯萎，我忍不住哭了起来，实在太难过了。
担心：天气预报说有暴雨，还没回家的孩子不知道有没有带伞，好担心啊。
疲惫：哎，盯着电脑屏幕改了五版方案，我现在连抬手揉眼睛的力气都快没了。

调用示例

cURL
Python

基础调用

curl -X POST "https://open.bigmodel.cn/api/paas/v4/audio/speech" \
    -H "Authorization: Bearer API Key" \
    -H "Content-Type: application/json" \
    -d '{
          "model": "glm-tts",
          "input": "你好呀,欢迎来到智谱开放平台",
          "voice": "female",
          "speed": 1.0,
          "volume": 1.0,
          "response_format": "wav"
    }' \
--output speech.wav

流式调用及响应示例

curl -X POST "https://open.bigmodel.cn/api/paas/v4/audio/speech" \
    -H "Authorization: Bearer API Key" \
    -H "Content-Type: application/json" \
    -d '{
          "model": "glm-tts",
          "input": "你好呀,欢迎来到智谱开放平台",
          "voice": "female",
          "response_format": "pcm",
          "encode_format": "base64",
          "stream": true,
          "speed": 1.0,
          "volume": 1.0
    }' \

data: {"id":"202507151937066dbff80cdc994b58","created":1752579443,"model":"glm-tts","choices":[{"index":0,"delta":{"role":"assistant","return_sample_rate": 24000,"content":"AgAAAAEAAAAAAAEAAAABAAEAAQABAAEAAQABAAEAAQABAAEAAgABAAEAAQABAAEAAQABAAEAAQABAAAAAQABAAEAAQAAAAAAAAD////////+//7//v/+//7//v/+//7//v/+//3//v/+//7//v////7/AAABAAEAAAAAAAQAAAAAAAAAAAAAAAQABAAEAAQAAAAEA///////////+//7//v/+//////8AAP//AAAAAAAQFjQVUBfEEVAS4AwkDfgI3ArIBEwGvAFgAKQAMAM7/mv97/1j/Q/8p/+7+sv5s/i/+Dv7L/Xz9Rv0e/Qn9Df0g/UX90d/I3+sv+u/jX/fwEXAlb9Bvs="}}]}
data: {"id":"202507151937066dbff80cdc994b58","created":1752579443,"model":"glm-tts","choices":[{"index":1,"delta":{"role":"assistant","return_sample_rate": 24000,"content":"AgAAAAEAAAAAAAEAAAABAAEAAQABAAEAAQABAAEAAQABAAEAAgABAAEAAQABAAEAAQABAAEAAQABAAAAAQABAAEAAQAAAAAAAAD////////+//7//v/+//7//v/+//7//v/+//3//v/+//7//v////7/AAABAAEAAgACAAMABAAEAAQABAAEAAQAAwADAAIAAQABAAAA//8AAP7////9//7//f/9//3//f/+//7//////wAAAQACAAEAAgACAAEAAAAAAP///v/+//3//f/8//7//f/9//7//f/+//7//v/8//7//f/+/wEAAQACAAMABAAFAAQABQAFAAQABAABAAEAAQD//////////wAAAQAAAAIAAwACAAIAAgABAAAA//8AAP7//f/+//3//P/9//3//v////7//v///////v/9//3//v/b9Bvs="}}]}
data: {"choices":[{"finish_reason":"stop","index":2}],"created":1752579445091,"id":"202507151937066dbff80cdc994b58","model":"glm-tts"}

异常调用示例

curl -X POST "https://open.bigmodel.cn/api/paas/v4/audio/speech" \
    -H "Authorization: Bearer API Key" \
    -H "Content-Type: application/json" \
    -d '{
          "model": "glm-tts",
          "input": "你好呀,欢迎来到智谱开放平台",
          "voice": "test",
          "response_format": "pcm",
          "encode_format": "base64",
          "stream": true,
          "speed": 1.0,
          "volume": 1.0
    }' \

data: {"error":{"code":"1214","message":"音色id不存在"}}

安装 SDK

# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.2.2

验证安装

import zai
print(zai.__version__)

基础调用

from zai import ZhipuAiClient
from pathlib import Path

client = ZhipuAiClient(api_key="")  # 请填写您自己的APIKey
speech_file_path = "" # 请填写您输出文件的保存路径
response = client.audio.speech(
    model="glm-tts",
    input="你好呀,欢迎来到智谱开放平台",
    voice="female",
    response_format="wav",
    speed=1.0,
    volume=1.0
)
response.stream_to_file(speech_file_path)

流式调用

api_key = "YOUR API KEY" # 填写您自己的APIKey
def main():
    client = ZhipuAiClient(api_key=api_key)
    try:
        response = client.audio.speech(
            model='glm-tts',
            input='大家好，欢迎到来智谱开放平台',
            voice='female',
            stream=True,
            response_format='pcm',
            encode_format='base64',
            speed=1.0,
            volume=1.0
        )
        for chunk in response:
            for choice in chunk.choices:
                index = choice.index
                is_finished = choice.finish_reason
                if is_finished == "stop":
                    break
                audio_delta = choice.delta.content
                print(f"{index}.audio_delta={audio_delta[:64]}..., length={len(audio_delta)}")
    except Exception as e:
        print(e)
if __name__ == '__main__':
    main()

开始使用

模型介绍

模型能力

模型工具

GLM 全模态知识库

智能体

平台服务

概览

输入模态

输出模态

推荐场景

使用资源

详细介绍

超拟人语音合成，情感表达增强

支持非流式、流式接口

快速响应

动态调参数

可选音色

应用示例

调用示例

开始使用

模型介绍

模型能力

模型工具

GLM 全模态知识库

智能体

平台服务

Documentation Index

​ 概览

输入模态

输出模态

​ 推荐场景

​ 使用资源

​ 详细介绍

超拟人语音合成，情感表达增强

支持非流式、流式接口

快速响应

动态调参数

​ 可选音色

​ 应用示例

​ 调用示例

概览

推荐场景

使用资源

详细介绍

可选音色

应用示例

调用示例