中国大陆人工智能(AI)技术积极创新,阿里云推出的「Aegaeon」计算池化解决方案,获电脑作业系统界的「奥斯卡」、第31届作业系统原理研讨会(SOSP)大会收录,可解决AI模型服务中普遍存在的GPU资源浪费问题,将所需辉达(NVIDIA)H20 GPU用量削减82%。
南华早报报导,SOSP于18日在韩国首尔举行,这是电脑作业系统领域的顶尖会议,平均每年收录数十篇论文,入选论文被视为作业系统和软体领域最具代表性的研究成果。
其中,阿里云推出的「Aegaeon」获大会收录,通过创新的GPU资源池化技术,允许单个GPU动态服务于多个不同的AI模型。在阿里云模型市场进行为期超过三个月的Beta测试中,Aegaeon系统展现卓越的效能。数据显示,服务数十个参数量高达720亿的大模型,所需的辉达H20 GPU数量从1,192个成功减少至213个,用量削减82%。
IT之家报导,中国正推动科技自主,力拼降低对英伟达依赖。同时,现行云服务商在提供AI模型服务时,面临严重的资源效率低下问题。平台需要同时托管数千个AI模型以处理海量并发API调用,但用户请求往往高度集中在少数几个热门模型上,例如阿里巴巴的Qwen系列模型等。
研究人员发现,这种「长尾效应」导致严重的资源闲置,在阿里云的模型市场中,有17.7%的GPU算力仅被用于处理1.35%的请求,造成巨大的成本浪费。
由北京大学与阿里云合作的最新研究成果,被认为是首个揭示并解决市场上并发大语言模型服务存在过高成本的公开工作,为行业提供全新的优化思路。