Documentation Index
Fetch the complete documentation index at: https://docs.bigmodel.cn/llms.txt
Use this file to discover all available pages before exploring further.
概览
GLM-TTS 语音合成模型以新一代智谱语音大模型为核心,突破传统语音合成框架,通过上下文智能预判文本情绪与语调,显著提升语音自然度与表现力,让合成语音具备真实情感与生命力。GLM‑TTS 在架构上采用两阶段生成,并在训练中引入基于 GRPO 的强化学习方案,在公开评测的「字错误率」和「情感表达」上取得开源 SOTA 表现。
推荐场景
全链路柔性服务,降低用户抵触感。依托超拟人语音的情感适配与自然对话能力,覆盖客服全场景。
沉浸式 “解放双眼”,适配多元需求。突破传统 “听书” 局限,以超拟人语音的 “角色化演绎 + 情感随内容动态调整” 能力,打造个性化阅读体验。
通过超拟人语音的真实情感衔接与场景化语调调整,让智能硬件摆脱 “工具属性”。
场景化教学,提升学习沉浸感。
高效信息传递,解放双手。会议纪要转语音、邮件 / 文档播报、智能待办提醒。
沉浸式体验,替代 “传统导游”,如景区智能导览、酒店智能服务、文旅内容科普。
使用资源
体验中心:快速测试模型在业务场景上的效果
接口文档:API 调用方式
详细介绍
GLM-TTS 结合了 text2token 大语言模型和 token2wav 扩散模型,突破传统语音合成框架。相比传统技术,GLM-TTS 在口语自然度、拟人化还原、语句衔接和韵律节奏上全面升级,尤其在情感表达上精准呈现,为客户打造生动、富感染力的听觉体验,实现从“清晰传递”到“情感共鸣”的跨越。
超拟人语音合成,情感表达增强
依托新一代语音大模型,根据上下文智能预测文本的情感、语调等信息,提升合成语音的自然度和表现力。
支持非流式、流式接口
非流式适合完整文本一次性合成,流式支持在文本生成过程中实时输出语音,实现低延迟的交互式体验。
快速响应
流式接口返回响应结果,首帧响应速度可达400ms以内。
动态调参数
支持随心调节语速、音量等参数,满足复杂场景要求。
可选音色
| 角色 | 音色示例 |
|---|
| 彤彤(默认) | |
| 小陈 | |
| 锤锤 | |
| jam | |
| kazi | |
| douji | |
| luodo | |
应用示例
| 文本 | 音频 |
|---|
| 我叫小智呀~ 是不是刚才有点小委屈呀?跟我说说嘛,我听着呢~ | |
| 哎呀,可别这么说自己呀!你是不是最近遇到啥事儿了,感觉没做好才这么想的?其实啊,谁还没个手忙脚乱、犯迷糊的时候呢。 | |
| 初中时看天空的感觉真的很不一样哎!那时候好像总觉得天空特别大,云朵会变成各种形状,傍晚的晚霞能看半天,连星星都比现在亮。 | |
| 文本 | 音频 |
|---|
| 开心:拆开快递看到那只限量款玩偶时,我笑得差点蹦起来,实在太开心啦! | |
| 悲伤:我精心养了三年的花突然枯萎,我忍不住哭了起来,实在太难过了。 | |
| 担心:天气预报说有暴雨,还没回家的孩子不知道有没有带伞,好担心啊。 | |
| 疲惫:哎,盯着电脑屏幕改了五版方案,我现在连抬手揉眼睛的力气都快没了。 | |
调用示例
基础调用curl -X POST "https://open.bigmodel.cn/api/paas/v4/audio/speech" \
-H "Authorization: Bearer API Key" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-tts",
"input": "你好呀,欢迎来到智谱开放平台",
"voice": "female",
"speed": 1.0,
"volume": 1.0,
"response_format": "wav"
}' \
--output speech.wav
流式调用及响应示例curl -X POST "https://open.bigmodel.cn/api/paas/v4/audio/speech" \
-H "Authorization: Bearer API Key" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-tts",
"input": "你好呀,欢迎来到智谱开放平台",
"voice": "female",
"response_format": "pcm",
"encode_format": "base64",
"stream": true,
"speed": 1.0,
"volume": 1.0
}' \
data: {"id":"202507151937066dbff80cdc994b58","created":1752579443,"model":"glm-tts","choices":[{"index":0,"delta":{"role":"assistant","return_sample_rate": 24000,"content":"AgAAAAEAAAAAAAEAAAABAAEAAQABAAEAAQABAAEAAQABAAEAAgABAAEAAQABAAEAAQABAAEAAQABAAAAAQABAAEAAQAAAAAAAAD////////+//7//v/+//7//v/+//7//v/+//3//v/+//7//v////7/AAABAAEAAAAAAAQAAAAAAAAAAAAAAAQABAAEAAQAAAAEA///////////+//7//v/+//////8AAP//AAAAAAAQFjQVUBfEEVAS4AwkDfgI3ArIBEwGvAFgAKQAMAM7/mv97/1j/Q/8p/+7+sv5s/i/+Dv7L/Xz9Rv0e/Qn9Df0g/UX90d/I3+sv+u/jX/fwEXAlb9Bvs="}}]}
data: {"id":"202507151937066dbff80cdc994b58","created":1752579443,"model":"glm-tts","choices":[{"index":1,"delta":{"role":"assistant","return_sample_rate": 24000,"content":"AgAAAAEAAAAAAAEAAAABAAEAAQABAAEAAQABAAEAAQABAAEAAgABAAEAAQABAAEAAQABAAEAAQABAAAAAQABAAEAAQAAAAAAAAD////////+//7//v/+//7//v/+//7//v/+//3//v/+//7//v////7/AAABAAEAAgACAAMABAAEAAQABAAEAAQAAwADAAIAAQABAAAA//8AAP7////9//7//f/9//3//f/+//7//////wAAAQACAAEAAgACAAEAAAAAAP///v/+//3//f/8//7//f/9//7//f/+//7//v/8//7//f/+/wEAAQACAAMABAAFAAQABQAFAAQABAABAAEAAQD//////////wAAAQAAAAIAAwACAAIAAgABAAAA//8AAP7//f/+//3//P/9//3//v////7//v///////v/9//3//v/b9Bvs="}}]}
data: {"choices":[{"finish_reason":"stop","index":2}],"created":1752579445091,"id":"202507151937066dbff80cdc994b58","model":"glm-tts"}
异常调用示例curl -X POST "https://open.bigmodel.cn/api/paas/v4/audio/speech" \
-H "Authorization: Bearer API Key" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-tts",
"input": "你好呀,欢迎来到智谱开放平台",
"voice": "test",
"response_format": "pcm",
"encode_format": "base64",
"stream": true,
"speed": 1.0,
"volume": 1.0
}' \
data: {"error":{"code":"1214","message":"音色id不存在"}}
安装 SDK# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.2.2
验证安装import zai
print(zai.__version__)
基础调用from zai import ZhipuAiClient
from pathlib import Path
client = ZhipuAiClient(api_key="") # 请填写您自己的APIKey
speech_file_path = "" # 请填写您输出文件的保存路径
response = client.audio.speech(
model="glm-tts",
input="你好呀,欢迎来到智谱开放平台",
voice="female",
response_format="wav",
speed=1.0,
volume=1.0
)
response.stream_to_file(speech_file_path)
流式调用api_key = "YOUR API KEY" # 填写您自己的APIKey
def main():
client = ZhipuAiClient(api_key=api_key)
try:
response = client.audio.speech(
model='glm-tts',
input='大家好,欢迎到来智谱开放平台',
voice='female',
stream=True,
response_format='pcm',
encode_format='base64',
speed=1.0,
volume=1.0
)
for chunk in response:
for choice in chunk.choices:
index = choice.index
is_finished = choice.finish_reason
if is_finished == "stop":
break
audio_delta = choice.delta.content
print(f"{index}.audio_delta={audio_delta[:64]}..., length={len(audio_delta)}")
except Exception as e:
print(e)
if __name__ == '__main__':
main()