以智算中心加快形成新质生产力
来源:通信世界全媒体 时间:2024-11-14 11:10

  作者:中国信息通信研究院云大所总工程师,正高级工程师 郭亮

  近年来,生成式人工智能(AIGC)技术的快速发展,极大地提升了人工智能的应用范围和服务水平,使人工智能具备了先进的生产创作和决策支撑能力,更好地服务于人们的生产生活。与此同时,作为AIGC的基础,大模型在训练过程中,需要大规模智能算力的支撑。 

  我国持续支持智算产业发展,加快推动数字经济和实体经济融合发展,并面向经济社会发展和国家重大战略需求,充分发挥算力驱动作用,以智算中心为抓手协同带动智算上下游产业发展,为数字经济高质量发展注入了新动能。2023年10月,工信部等六部门联合发布《算力基础设施高质量发展行动计划》,提出到2025年,我国算力规模超过300EFlops,智能算力占比达到35%。同时,在重点任务中提出鼓励各方创新探索智算建运模式和多方协作机制,满足智算在公共场景中的应用需求。

  顺应数字经济大潮,全国各地均在积极布局算力赛道,为我国经济发展提供了强大的算力支撑。从算力规模来看,截至2023年6月,我国智能算力规模占整体算力规模比例提高到25.4%,增速达到45%。从建设布局来看,包括北京、上海、深圳、武汉、西安、成都、南京、大连等在内,全国已有超过30个城市正在积极推动智算中心建设,北上广等东部城市智算中心建设数量多且规模大。从产业生态来看,我国已形成了涵盖供配电、制冷、异构芯片、算法、框架为一体的智算产业链,且产业链各环节均有国内厂商参与。智算产业发展面临的挑战主要表现为四个方面。

  一是单体智算中心规模较小,“小高炉炼铁”模式难以为大模型数据训练提供足够的算力支持。大模型进行模型训练需要大量智能算力支撑,随着模型规模的不断提升,完成模型训练所需的智能算力规模也在持续提升。以GPT为例,训练一次需要的总算力约为3640PF-days,即假如每秒计算一千万亿次,需要计算3640天。我国现有智算中心规模大多在100P~200P,单体规模不足,难以支撑大模型训练。

  二是自研芯片性能与国外品牌存在差距,存在基础不牢的风险。当前,全球智算芯片市场以英伟达为主,技术水平处于绝对领先地位。为突破国外限制,国产芯片厂商不断创新突破,涌现出华为、寒武纪等一批优秀智算芯片企业,基本能够满足推理场景下的算力需求,但由于单芯片能力与国外品牌仍存在较大差距,在支撑海量数据训练时表现不足,难以有效推动智算产业高效研发及应用。

  三是现有网络难以适应智算互联需求,亟需以太网技术革命性突破。与通用计算相比,智算卡间通信以及算存设备间通信变得更为频繁,链路流量明显增大,对拥塞、丢包等网络问题更为敏感。传统以太网在拥塞控制、带宽等方面表现不足,IB网络可实现服务器间高速互联,但技术封闭且长期由国外厂商掌握。中国信通院、中国移动等国内企事业单位正在积极推动以太网技术创新。

  四是智算功率密度大幅提升,对供配电、制冷等配套设施提出了新的要求。为了适应海量数据大规模运算,智算服务器、处理器性能相对更高,且服务器大多采用高密部署,其功率是通用服务器的数倍,这对电源功率、供电效率、安全保护等提出了更高的要求。除此之外,由于功率的提升,服务器散热量也进一步提高,传统风冷解决方案亟需创新突破,以满足智算发展要求。

 

 

附件下载

扫一扫在手机上查看当前页面

相关链接