10万美元成本训练的小模型,在特定任务超越GPT-4o,延迟低99倍
13 小时前 / 阅读约9分钟
来源:36kr
在Scaling Law下,小模型在企业应用中,有独特优势。

现有的SOTA级别大语言模型固然拥有较强智能,在部分任务上达到或超过了人类的水准,但他们的参数尺寸动辄达到数千亿甚至万亿,无论是训练,部署,还是推理,都成本高昂。对于企业和开发者来说,这些SOTA模型在一些相对简单,但需要大规模和高并发的任务上,未必是综合成本及性能的最优选择。

一家叫Fastino的早期初创公司看到了这个痛点,使用低端游戏GPU,以平均不到10万美元的成本,训练出一系列称为“任务特定语言模型”(TLMs,Task-Specific Language Models)的小型模型,能够在特定任务上性能媲美大型语言模型,并且推理速度快99倍。

近日,Fastino获得由Khosla Ventures领投的1750万美元种子轮融资,Insight Partners,Valor Equity Partners,以及知名天使投资人前Docker首席执行官Scott Johnston和Weights & Biases首席执行官Lukas Biewald参与。在2024年11月,Fastino获得M12(微软旗下)和Insight Partners领投的700万美元前种子轮融资,累计融资近2500万美元。

连续创业者用小模型,帮企业摆脱用户越多,烧钱越多的窘境

Fastino由Ash Lewis(CEO)和George Hurn-Maloney(COO)共同创立,两人都是连续创业者,尤其Ash Lewis此前还参与创立过DevGPT、Ashtv AI等AI原生公司。

他们也组织了一个成员来自谷歌DeepMind、斯坦福大学、卡内基梅隆大学及苹果智能的强大技术团队。可以从底层技术上去革新模型,从而训练出“任务特定语言模型”(TLM)。

10万美元成本训练的TLM模型,性能不弱,推理速度比LLM快99倍

在Scaling Law的指导下,AI模型们都变得越来越大,数千亿,上万亿参数的SOTA模型们,确实在智能上持续进步,甚至在某些初级任务上代替了人力(客服,会议记录等)。但是大尺寸的模型们,同时带来的是高成本,无论是数千万美元的训练成本,还是高昂的部署和推理成本,都让它们在一些任务中,经济性不那么突出。

即便是OpenAI这样融资上百亿美元的头部基础模型公司,已经获得了接近10亿的周活用户,却难逃用户越多,烧钱越多,入不敷出的窘境。

Fastino的创始人Ash Lewis在谈及创业初衷时也表示:“我们上一家创业公司在爆红后,基础设施成本飙升。有段时间,我们在语言模型上的开支甚至超过了整个团队的费用。这促使我们创立了这家公司。”

除了模型尺寸带来的高昂运行成本之外,另一个矛盾是模型的通用性和专用性,大尺寸的模型固然带来了强智力和通用性,但是对于开发者来说,在一些特定专用任务上性能却不一定突出,还要为通用性带来的大尺寸额外付出成本,而且大尺寸模型更慢的运行速度,也让用户体验更差。目前的AI工作负载大多要求精准、速度和可扩展性,而非泛化的推理能力。

Fastino的联合创始人George Hurn-Maloney表示:“AI开发者不需要一个在无数无关数据点上训练的大语言模型,他们需要适合其任务的正确模型。所以我们推出了高精度、轻量化的模型,让开发者能无缝集成。”

Fastino的“任务特定语言模型”(TLMs,Task-Specific Language Models),专为需要低延迟、高精度AI的开发者和企业设计,在定位上,不针对消费级用户,不需要通用性。

Fastino表示,它们的TLM结合基于Transformer的注意力机制,但在架构、预训练和后训练阶段引入任务专精。它们优先考虑紧凑性、运行时的硬件适应性,同时不牺牲任务准确性。

这种架构和技术的创新,使TLM模型能够在低端硬件(如CPU和低端GPU)上高效运行,同时提升专注任务的准确性。性能提升源于系统性地消除参数冗余和架构低效,而非依赖硬件特定技巧。对比OpenAI的GPT-4o的4000ms,它的延迟低至100ms,快99倍。

在性能方面,Fastino对比了TLM模型在意图检测、垃圾信息过滤、情感倾向分析、有害言论过滤、主题分类和大型语言模型防护等基准与OpenAI标杆模型GPT-4o的性能对比。结果显示,其基准性能的F1分数比GPT-4o高出17%。

注:F1分数是评估分类模型性能的指标,它是精确率和召回率的调和平均数,综合衡量模型在正确预测正例和捕捉所有正例上的表现。

Fastino的TLM模型并非单个模型,而是针对每个特性用例训练的一组模型,它的首批模型能够应对一些需求最明确和广泛的企业和开发者核心任务,例如:

  • 文本摘要:从长篇或嘈杂文本中生成简洁、准确的摘要,适用于法律文件、支持日志和研究资料。
  • 函数调用(Function Calling):将用户输入转化为结构化API调用,适配代理系统或工具型聊天机器人。
  • 文本转JSON:从杂乱的非结构化文本中提取干净、适合生产的JSON,适用于搜索查询解析、文档处理和合同分析。
  • 个人身份信息(PII)屏蔽:以零样本方式屏蔽敏感或个人身份信息,支持用户定义的实体类型。
  • 文本分类:为任意自然语言文本打标签,内置垃圾信息检测、毒性过滤、越狱阻止、意图分类和主题检测等功能。
  • 脏话过滤:实时检测并屏蔽不当或品牌不安全的语言。
  • 信息提取:从文档、日志或自然语言输入中提取结构化数据,如实体、属性和上下文信息。

在收费模式上,尽管是针对企业而非消费者,但Fastino没有采用目前AI模型公司主流的以用量定价(例如GPT-4o的输入价格为2.5美元/百万tokens,输出价格为10美元/百万tokens),而是采用了订阅式,这种方式对于初级开发者和中小企业较为友好。

具体来说,它针对个人开发者,每月有1万次免费请求,Pro用户每月10万次请求,仅花费45美元,而团队用户300万次请求,每月1275美元。Pro用户和团队用户,额外增加了一些好处,例如更快的模型速度,更安全的模型访问,以及更大的上下文窗口等。

而能够以这种方式针对开发者和小企业用户提供模型,是建立在Fastino本身极低的模型运行成本之上的。

此外,对于企业客户,Fastino的TLM可部署在客户的虚拟私有云、本地数据中心或边缘设备上,使企业能够在保留敏感信息控制权的同时,利用先进的人工智能能力。

目前,Fastino的TLM已在多个行业产生影响,从金融和医疗领域的文档解析到电子商务中的实时搜索查询智能,更有财富500强企业正利用这些模型优化运营、提升效率。

在Scaling Law下,小模型在企业应用中,有独特优势

小模型低成本,低延迟,以及在特定任务上不弱于大尺寸通用模型的优点,其实并不止Fastino这一家公司发现这个机会。在模型厂商中,Cohere和Mistral都提供非常强的小尺寸模型;国内的大厂,例如阿里云的Qwen3,也有4B,1.7B,甚至0.6B的模型。此前我们介绍过的企业独角兽Writer,也有其仅需70万美元训练费用的小型模型Palmyra系列。

为什么当大尺寸模型的智能已经强到一定程度的时候,企业和开发者还是需要小模型?根源就在于成本,推理时延,能力匹配。

成本,首先最直观的是部署成本和推理成本,企业若追求高安全性,必然会将一部分业务放在私有部署,而数千亿参数的大尺寸模型进行大规模商业化推理的成本可能都超过小模型的训练成本。而且,如果是抖音,微信这样用户体量上10亿的应用,必须追求高并发,小模型的高并发推理和大尺寸模型的高并发推理成本,其差距是指数级的。

同样以大型C端应用举例,当使用大尺寸模型时,其推理时延就是比小模型高很多,小模型甚至能将时延做到微秒级,而大尺寸模型用起来总有卡顿,这对于用户体验的影响也是非常直观的。

对于一些应用规模大,但是比较特定的用例,其实并不需要通用能力,大尺寸和小尺寸模型带来的性能差距微乎其微,那么大尺寸模型带来的额外成本对于企业来说就是不必要的。

以上这三个方面,都在Scaling Law的笼罩下,给了小尺寸模型足够的生存空间。这个道理,对于中国的AI应用创业者们当然也同样适用。好在中国的模型开源生态已经日渐成熟,也已经有了足够强的小尺寸模型,创业者只需在自己的需求基础上进行后训练,就可以获得合用的模型。