第23届USENIX文件与存储技术会议:中国团队Mooncake获最佳论文奖
在上个月,一场在计算机存储领域享有盛誉的学术盛会——第23届文件与存储技术会议(File and ,简称FAST),于美国加利福尼亚州的圣克拉拉市成功举办。
在本届会议上,我国一家名为月之暗面的人工智能初创企业,与清华大学携手合作,共同发表了一篇论文。该论文中,他们提出了一种全新的系统。因此,他们荣获了埃里克·里德尔最佳论文奖(Erik Best Paper Award)。
香港《南华早报》3月14日的报道指出,这款大型语言模型系统的性能相较于先前基准提升了五倍,此举显著减少了计算资源的使用。在美对华在先进AI芯片领域持续施压的背景下,这一成就亦有助于抵制美国的芯片禁令,并降低对英伟达等公司生产的图形处理单元(GPU)的依赖。
在本月,无问芯穹(AI)携手上海交通大学与清华大学共同研发的视频生成大型模型推理知识产权项目,亦荣获了国际顶尖会议的奖项。他们首次在可重构逻辑集成电路(FPGA)上成功部署了视频生成模型(VGMs),实现了高效的推理过程。在广泛应用的V80 FPGA芯片上,该系统在性能方面实现了显著提升,达到了30%。与此同时,其能效比英伟达的旗舰产品RTX 3090 GPU高出4.5倍。
《南华早报》报道,我国人工智能科研团队成功以工业级芯片替换了英伟达的高性能GPU,荣获国际大奖。这一成就标志着全球范围内针对AI硬件优化竞赛发生了显著变化。
埃里克·里德尔最佳论文奖 清华大学网站新闻图
据相关报道,该篇荣获奖项的学术论文是由清华大学计算机科学与技术系教师章明星、武永卫以及郑纬民共同领衔的研究团队所撰写并发表的。该论文的名称为“基于键值缓存技术的存算优化大语言模型推理框架”——简称为“More for Less - A for LLM”。在这篇论文中,秦若愚博士担任第一作者,而他的指导老师则是助理教授章明星。
清华大学方面透露,该论文所提出的系统,是依托月之暗面开发的Kimi大语言模型服务的底层推理平台。该系统采用了一种以键值缓存为核心的独立架构,不仅实现了预填充与解码集群的分离,而且充分利用了推理集群中未充分使用的CPU、DRAM、SSD和NIC资源,打造了一个独立的缓存资源池。其核心创新点在于采用以中心思想为核心的全局缓存与调度机制,这一机制旨在确保在严格遵守相关服务级别目标(SLOs)的前提下,实现吞吐量的最大化。
实验数据表明,在应对长篇文本输入的情况下,该系统表现出卓越性能。通过采用实际数据进行的测试,相较于基准方法,在满足SLOs的前提下,其有效请求处理能力实现了从59%到498%的显著提升。目前,该系统已在数千个节点上稳定运行,每日可处理超过1000亿个token。在具体实施过程中,该创新架构使得Kimi在A800和H800集群上的处理能力分别提高了115%和107%,相较于以往的系统。
《南华早报》提到,近期美国政府针对向我国出口高端AI芯片实施了多项限制,其中包括对英伟达公司高端芯片的多项禁令。
英伟达的AI芯片在全球范围内广泛部署。 《华尔街日报》
自2022年10月起,美国政府便已推行了一系列针对AI芯片的出口管控政策。英伟达公司因无法向中国市场供应A100和H100两款AI处理器,特地为我国市场定制了符合美国规定要求的A800和H800芯片,目的在于规避美国政府的出口管制。
2023年10月,美国商务部再度发布了新的芯片出口管控政策,对高级AI芯片的界定进行了扩展,同时针对40余个国家出口的芯片产品增设了额外的审批条件,旨在防止这些产品被转售至中国。此举导致A800和H800两款芯片也被纳入了禁止销售的行列。
美国竭力采取措施进行封锁和压制,其目的在于遏制我国在人工智能领域的计算实力,从而对AI模型的培养与研制施加压力。但这样的限制措施却激发了我国科研人员与企业的积极应对,他们开始探索通过软件升级和创新数据结构等手段,以充分挖掘现有芯片的潜力。
据相关报道,清华大学的研究实验室在代码存储平台上成功开启了新项目,该项目的目标在于加快技术的普及与推广。与此同时,阿里巴巴集团及其子公司蚂蚁集团等众多企业已将此项目纳入内部使用,并且它已经成为了开源社区的组成部分。