视觉理解模型

部分大模型具备视觉理解能力,当您传入图片/视频时,大模型可以理解图片/视频里的视觉信息,并结合这些信息完成如描述图片、文字识别、内容创作等任务。通过这篇教程,您可以了解如何通过调用大模型 API 来识别传入图片/视频里的信息。

1.模型系列

Qwen2.5-VL系列

Qwen2.5-VL系列上下文长度QPMTPMTokens计费
Qwen2.5-VL-72B-Instruct128K12050w输入:¥16/M Tokens
输出:¥48/M Tokens
Qwen2.5-VL-32B-Instruct128K6010w输入:¥8/M Tokens
输出:¥24/M Tokens
Qwen2.5-VL-7B-Instruct128K1200100w输入:¥2/M Tokens
输出:¥5/M Tokens
Qwen2.5-VL-3B-Instruct128K1200100w输入:¥1.2/M Tokens
输出:¥3.6/M Tokens

GLM-4V系列

GLM系列上下文长度并发数Tokens计费
GLM-4V-Flash4K30免费
GLM-4V8K30输入:¥50/M Tokens
输出:¥50/M Tokens
GLM-4V-Plus8K10输入:¥4/M Tokens
输出:¥4/M Tokens

ERNIE-4.5-Turbo 系列

ERNIE-4.5-Turbo 系列上下文长度RPMTPMTokens计费
ERNIE-4.5-Turbo-32K32K1k20w输入:¥4.29/M Tokens
输出:¥12.86/M Tokens

2.使用前提

您已创建大模型平台API_Key,用于模型调用。

3.API接入方式

视觉理解模型支持本地客户端接入、代码接入两种形式

3.1 本地客户端接入

支持三种主流工具:Chatbox、Cherry Studio、AnythingLLM

3.2 代码接入

支持 curl、python、golang、java、nodejs 等