腾讯技术工程#
mp.weixin.qq.com
↗
原文链接
这大概是我读过关于AI大模型最全面、好读又易懂的文章了
这篇写的确实全面好懂。
得物技术#
mp.weixin.qq.com
↗
原文链接
大模型网关:大模型时代的智能交通枢纽|得物技术
大模型网关确实是AI应用这块最基本的基础设施了,大厂肯定都要做的,后面有时间把xfg的gateway项目也得做一遍。
它针对的场景需求主要是:长时与流式响应、复杂输入输出、高资源消耗与批处理、上下文与状态管理、专属监控与计量、关注成本与业务效果等等。
得物的需求是:
- 避免资源浪费并提升效率
- 保障内外部模型成本可控
- 保障接入外部模型数据安全
- 保障模型服务运行稳定可靠
目前市场上的解决方案主要是:
| 类别 | 代表厂商/产品 | 特点 | 适用场景 |
|---|---|---|---|
| 云厂商原生服务 | AWS Bedrock、Azure AI Studio、Google Vertex AI、阿里云灵积、腾讯云 TI-ONE | 深度集成自身云生态,提供一站式模型托管与网关能力,稳定性高 | 已使用对应云服务的企业,强依赖云生态 |
| 独立第三方网关 | Zilliz Cloud(包括开源项目)、OpenRouter、LafAI、FastGPT、Dify(部分功能) | 跨云、跨模型适配灵活,常强调中立性和多模型支持 | 多云/混合云环境,需要灵活切换模型的企业 |
| 开源方案 | LLM Gateway(开源项目)、LangChain/LangServe、OpenAI Proxy 类自建工具、Higress(阿里开源,基于云原生) | 可定制性强,成本低,但需自运维 | 技术能力强、需深度定制的团队 |
| 企业级 API 管理平台扩展 | Kong、Apache APISIX、Tyk(通过插件支持 LLM) | 复用现有 API 网关能力,扩展 LLM 插件,非专门设计 | 已有 API 网关体系,需快速扩展 LLM 支持 |
| 垂直领域方案 | PromptOps、BentoML(侧重部署)、Covalent(工作流集成) | 在特定环节(如 Prompt 管理、模型部署)增强 | 需精细化 Prompt 管理或复杂工作流的场景 |
那么得物AI gateway的功能点主要包括:
- 对接入模型进行统一梳理,打造信息完备的模型市场,构建覆盖发现、评测、验证与集成的完整闭环。
- 统一各业务模型服务入口,将绝大部分AI模型服务的访问集中到单一入口,使不同业务线无需关注后端模型的具体实现细节,也能实现不同厂商模型服务之间的容灾。
- 建设全流程成本管控体系,打通从预算申请、模型选型、接入调用,到运行观测、成本结算的全链路
- 持续夯实稳定性架构能力,围绕“高可用、可控成本、稳定体验”三大目标,重点建设限流、调度和容灾三类核心架构能力,可实现分钟级容灾切换。
- 建设Key生命周期管理能力,实现了API Key申请工单及自动分发、Key场景/负责人/共享人/状态管理和黑名单功能,并实现接口鉴权、预算管理(预算分配/预算消耗/预算预警)、容量管理、模型调度等核心功能及关键流程节点的规范化管理。
