Skip to main content
POST
/
paas
/
v4
/
audio
/
transcriptions
语音转文本
curl --request POST \
  --url https://open.bigmodel.cn/api/paas/v4/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form model=glm-asr \
  --form temperature=0.95 \
  --form stream=false \
  --form file=@example-file
{
  "id": "<string>",
  "created": 123,
  "request_id": "<string>",
  "model": "<string>",
  "segments": [
    {
      "id": 123,
      "start": 123,
      "end": 123,
      "text": "<string>"
    }
  ],
  "text": "<string>"
}

Authorizations

Authorization
string
header
required

使用以下格式进行身份验证:Bearer <your api key>

Body

multipart/form-data
file
file
required

需要转录的音频文件,支持上传的音频文件格式:.wav / .mp3,规格限制:文件大小 ≤ 25 MB、音频时长 ≤ 60 秒

model
enum<string>
default:glm-asr
required

要调用的模型编码

Available options:
glm-asr
temperature
number
default:0.95

采样温度,控制输出的随机性,必须为正数,取值范围是:[0.0,1.0],默认值为 0.95,值越大,会使输出更随机,更具创造性;值越小,输出会更加稳定或确定,建议您根据应用场景调整 top_ptemperature 参数,但不要同时调整两个参数

Required range: 0 <= x <= 1
stream
boolean
default:false

该参数在使用同步调用时应设置为false或省略。表示模型在生成所有内容后一次性返回所有内容。默认值为false。如果设置为true,模型将通过标准Event Stream逐块返回生成的内容。当Event Stream结束时,将返回一个data: [DONE]消息。

request_id
string

由用户端传递,需要唯一;用于区分每次请求的唯一标识符。如果用户端未提供,平台将默认生成。

user_id
string

终端用户的唯一ID,帮助平台对终端用户的非法活动、生成非法不当信息或其他滥用行为进行干预。ID长度要求:至少6个字符,最多128个字符。

Response

业务处理成功

id
string

任务 ID

created
integer

请求创建时间,是以秒为单位的 Unix 时间戳

request_id
string

由用户端传递,需要唯一;用于区分每次请求的唯一标识符。如果用户端未提供,平台将默认生成。

model
string

模型名称

segments
object[]

分句ASR内容

text
string

音频转录的完整内容

I