PODsys:大模型AI算力平台部署的开源"神器"
北京2023年11月7日 /美通社/ -- 大模型是神器通用人工智能的底座,但大模型训练对算力平台的大模依赖非常大。大模型算力平台是算署指支撑大模型训练和推理部署的算力基础设施,包括业界最新的力平加速卡、高速互联网络、台部高性能分布式存储系统、开源液冷系统和高效易用的神器大模型研发工具和框架。在算力平台的大模部署过程中,大模型研发机构常常需要面对一系列的算署问题:大模型算力平台是什么样的?如何快速构建大模型算力平台?如何确保算力平台稳定可靠?如何提升部署效率?如何提升算力平台的性能……这些问题能否顺利解决,直接关系到大模型研发和应用落地的力平速度。
为了帮助用户加速大模型的台部技术创新与应用落地,浪潮信息发布了大模型智算软件栈OGAI(Open GenAI Infra)。开源OGAI由5层架构组成,神器从L0到L4分别对应于基础设施层的大模智算中心OS产品、系统环境层的算署PODsys产品、调度平台层的AIStation产品、模型工具层的YLink产品和多模纳管层的MModel产品。其中L1层PODsys是一个为客户提供智算集群系统环境部署方案的开源项目,具备基础设施环境安装、环境部署、用户管理、系统监控和资源调度等能力。用户只需执行两条简单的命令,即可完成大模型算力平台的部署,将大模型算力平台部署效率提升11倍,帮助用户顺利迈出大模型研发的第一步。(下载地址:https://podsys.ai/)
大模型算力平台部署难题亟待求解
大模型参数量和训练数据复杂性快速增加,对AI算力平台的建设提出了新的要求,即需要从数据中心规模化算力部署的角度,统筹考虑大模型分布式训练对计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡的可扩展集群系统,以满足AI大模型的训练需求。
强大的大模型算力平台不仅需要高性能的CPU、GPU、存储、网络等硬件设备,还需要考虑不同硬件和软件之间的兼容性和版本选择,确保驱动和工具的适配性和稳定性。当算力平台的规模从十几台服务器扩展到几百台,平台部署难度会呈指数级上升。
首先,算力平台部署需要的相关驱动程序、软件包往往高达数十个,正确安装、部署并优化这些驱动程序与软件,需要专业的运维工程师和大量调试时间,严重影响部署效率。其次,为了确保算力平台的高性能和稳定运行,需要验证不同硬件环境下的软件适配,优化BIOS、操作系统、底层驱动、文件系统和网络等多项指标,找到最优的选择,这一工作同样费时费力。此外,算力平台的资源状态处于时刻的变动中,如果不进行合理的资源调度与管理,很容易影响平台的资源利用率。
PODsys让大模型算力平台部署"易如反掌"
PODsys专注于大模型算力平台部署场景,提供包括基础设施环境安装、环境部署、用户管理、系统监控和资源调度在内的完整工具链,旨在打造一个开源、高效、兼容、易用的智算集群系统方案。
PODsys整合了大模型算力平台部署所需的数十个驱动、软件等安装包以及对应的依赖和兼容关系,并提供了一系列的简化部署的脚本工具。使用这些工具只需要简单2个步骤,PODsys即可帮助用户快速部署大模型算力平台。
步骤1:使用docker run命令快速启动PODsys系统。
PODsys系统集成了大模型算力平台部署所需的操作系统、GPU驱动、网卡驱动、通信加速库等数十个驱动程序、软件和安装包,并提供了一系列脚本工具来简化部署,让用户可以快速安装、配置和更新集群环境。PODsys大量选用了业界广泛使用的主流开源系统、工具、框架和软件,来保障整个部署方案的开放性、兼容性和稳定性。
步骤2:使用install_client命令快速部署大模型算力平台的并行软件环境。
PODsys将单机部署方式改成集群部署方式,可将部署效率提升11倍以上。在管理节点运行一句简单的命令(install_client.sh),即可完成大模型算力平台的环境配置,集成了高速文件系统接口、自动化运维工具、NVDIA CUDA编程框架、NCCL高性能通信库,支持NGC 加速平台等功能。并能实现多用户、多租户管理集群。
PODsys提供了全面的系统监控和管理,帮助用户实时监控集群的状态和性能指标。通过可视化的界面,用户可以查看集群资源的使用情况、作业的执行情况和性能瓶颈,从而及时调整集群配置和优化作业性能,来保证算力平台的高性能和稳定运行。
此外,PODsys具备高效的资源调度和作业管理功能,可以根据用户的需求自动调度和管理作业,确保集群的资源利用率和作业的执行效率。
伴随着大模型的快速应用,算力平台的鲁棒性、易用性、部署效率成为用户关注的首要问题。针对商业用户,PODsys还提供专业的算力平台性能调优服务。
总之,PODsys提供了一套完整的工具链,将大模型平台部署变得像系统安装一样简单,让用户省时、省力地部署大模型算力平台,助力大模型创新走好第一步。
-
文章
2
-
浏览
3
-
获赞
14
热门推荐
-
居家、囤货、“要不要回国”……“兵变”中的俄罗斯生活
“现在的形势有点危险,在莫斯科的人还是待在家里比较安全。”当地居民安娜告诉南方周末。2023年6月24日,莫斯科街头路人行色匆匆。就在前一日即6月23日,瓦格纳私人军事集团PMC)创始人叶甫根尼·普里卡西欧发布全新电子乐器品牌宣言"Sound for Style"
东京2024年5月20日 /美通社/ -- 卡西欧计算机株式会社 (Casio Computer Co., Ltd) 在戛纳国际电影节期间举办的"日本之夜" (JAPAN NIGH探营2025广州新春灯会,超7层楼高大凤冠惊艳全场!
1月13日晚,为做好2025广州新春灯会开幕前的准备工作,越秀公园在闭园后进行亮灯测试。主门楼灯光亮起,路过的行人不禁赞叹:“哇!好靓!”。2025广州新春灯会以“花开越秀,遇见锦鲤”为主题,将用255月25日,欢乐畅享2024年维珍航空上海英国日
上海2024年5月21日 /美通社/ -- 2024年度上海英国日将于5月25日周六)重磅回归。本届英国日由上海英国商会主办,得到维珍航空、英国伯克利集团等诸多品牌的强力支持。我们将在上海英国外籍人员审计报告:高标准农田建设资金,地方统筹整合使用存在难度
2023年6月13日,山东东营某农场高标准农田里,农机手驾驶收割机抢收小麦。 视觉中国/图)“整合后的‘高标准农田建设资金’仍由财政部和国家发展改革委同时安排,2022年分别为864.98亿元、226超越娱乐:刻画数娱打破传统营销定义,创造全新营销模式
北京2024年5月21日 /美通社/ -- 在当今的商业环境中,娱乐已不再仅仅是消遣和享乐,而是成为了一种强大的营销工具。赛诺贝斯旗下文娱营销"厂牌"——刻画数娱应运而生,旨在打破MARS 宣布与 TRIPADVISOR 合作,为宠物主人提供更愉快的旅行体验
这次合作将以 Canine Cuisine 狗粮系列隶属于 Mars 旗下品牌 C ESAR®) 的名义进行, 致力于为宠物狗提供更友善的旅行环境通过全新推出的 Pet Travel Hub,大湾区首个《苍兰诀》VR全感互动剧场将于暑假落地「澳门银河」
「澳门银河」与爱奇艺连手打造震撼的文娱科技体验及沉浸式国潮活动澳门2024年5月22日 /美通社/ -- 备受瞩目的爆款影视IP《苍兰诀》VR全感互动剧场将于今年暑期首次登陆大湾区,进驻「澳门银河™」女孩被判诈骗村支书一审获刑五年,其母后悔:“要是我在家,就不会走到这步”
2007年11月4日,李秀娟和女儿刘莲在临沂市罗庄区双月湖公园合影。受访者供图/图)26岁的刘莲化名),成了一桩“诈骗案”的主角。这位出生在山东省临沂市兰陵县下村乡西涧村的女孩,2023年7月7日被兰众合云科:中企出海势头强劲,人力资源企业出海步伐加快
上海2024年5月21日 /美通社/ -- 5月16日,在第三届专业雇主论坛上海站,众合云科联合创始人,HiWork业务负责人张轶带来《中国企业出海的三大必经挑战》主题分享。在推动HiWork海握科技正雅齿科携中国特色正畸方案参加匈牙利HADO展会
上海2024年5月22日 /美通社/ -- 2024年5月16日-5月19日,第二届匈牙利国际牙颌面矫形正畸协会大会在布达佩斯成功举办。展会吸引了超300家展商集中展示正畸行业发展新技术、新业态,并邀促进口腔用品行业交流,引领口腔健康事业发展
——好来牙膏参加中国口腔清洁护理用品工业协会第八届六次理事会议中山2024年5月22日 /美通社/ -- 5月14日,中国口腔清洁护理用品工业协会2024年理事会议在内蒙古呼和浩特市召开,会上对202猴痘再次在中国现身,意味着什么?
近日,据当地疾病预防控制中心通报,继北京出现两例猴痘病例之后,广州市也监测到两例猴痘病例。2023年5月11日,世界卫生组织宣布猴痘疫情不再构成“国际关注的突发公共卫生事件”。然而,仅仅一个多月后,猴李尔荣登《财富》杂志"2024年最受赞赏公司"榜单
连续八年蝉联榜单,九项关键指标均名列前五美国密歇根州南菲尔德2024年5月20日 /美通社/ -- 5月20日, 全球汽车座椅和电子电气技术引领者李尔公司NYSE:LEA)宣布,公司连续八年蝉联《财富泰康好牙一生医保个账支付版发布暨上海泰康口腔开业典礼隆重举行
上海和北京2024年5月21日 /美通社/ --5月21日,"齿险融合 申城绽放"泰康好牙一生个账支付版发布暨上海泰康口腔开业典礼"在上海隆重举行。中国非公立医疗机构协会