Mastodon
跳过正文
  1. Posts/

每日阅读

·1111 字·3 分钟·
reading - 这篇文章属于一个选集。
§ : 本文

腾讯技术工程
#

mp.weixin.qq.com
原文链接
这大概是我读过关于AI大模型最全面、好读又易懂的文章了

这篇写的确实全面好懂。

得物技术
#

mp.weixin.qq.com
原文链接
大模型网关:大模型时代的智能交通枢纽|得物技术

大模型网关确实是AI应用这块最基本的基础设施了,大厂肯定都要做的,后面有时间把xfg的gateway项目也得做一遍。

它针对的场景需求主要是:长时与流式响应、复杂输入输出、高资源消耗与批处理、上下文与状态管理、专属监控与计量、关注成本与业务效果等等。

得物的需求是:

  1. 避免资源浪费并提升效率
  2. 保障内外部模型成本可控
  3. 保障接入外部模型数据安全
  4. 保障模型服务运行稳定可靠

目前市场上的解决方案主要是:

类别代表厂商/产品特点适用场景
云厂商原生服务AWS Bedrock、Azure AI Studio、Google Vertex AI、阿里云灵积、腾讯云 TI-ONE深度集成自身云生态,提供一站式模型托管与网关能力,稳定性高已使用对应云服务的企业,强依赖云生态
独立第三方网关Zilliz Cloud(包括开源项目)、OpenRouter、LafAI、FastGPT、Dify(部分功能)跨云、跨模型适配灵活,常强调中立性和多模型支持多云/混合云环境,需要灵活切换模型的企业
开源方案LLM Gateway(开源项目)、LangChain/LangServe、OpenAI Proxy 类自建工具、Higress(阿里开源,基于云原生)可定制性强,成本低,但需自运维技术能力强、需深度定制的团队
企业级 API 管理平台扩展Kong、Apache APISIX、Tyk(通过插件支持 LLM)复用现有 API 网关能力,扩展 LLM 插件,非专门设计已有 API 网关体系,需快速扩展 LLM 支持
垂直领域方案PromptOps、BentoML(侧重部署)、Covalent(工作流集成)在特定环节(如 Prompt 管理、模型部署)增强需精细化 Prompt 管理或复杂工作流的场景

那么得物AI gateway的功能点主要包括:

  1. 对接入模型进行统一梳理,打造信息完备的模型市场,构建覆盖发现、评测、验证与集成的完整闭环。
  2. 统一各业务模型服务入口,将绝大部分AI模型服务的访问集中到单一入口,使不同业务线无需关注后端模型的具体实现细节,也能实现不同厂商模型服务之间的容灾。
  3. 建设全流程成本管控体系,打通从预算申请、模型选型、接入调用,到运行观测、成本结算的全链路
  4. 持续夯实稳定性架构能力,围绕“高可用、可控成本、稳定体验”三大目标,重点建设限流、调度和容灾三类核心架构能力,可实现分钟级容灾切换。
  5. 建设Key生命周期管理能力,实现了API Key申请工单及自动分发、Key场景/负责人/共享人/状态管理和黑名单功能,并实现接口鉴权、预算管理(预算分配/预算消耗/预算预警)、容量管理、模型调度等核心功能及关键流程节点的规范化管理。
tinuvile
作者
tinuvile
一个笨小孩
reading - 这篇文章属于一个选集。
§ : 本文