搜索職位:
-
職位描述
-
目前訓推平臺lead最著急,工作內容參考,JD參考訓練架構師那個JD
從 0 到 1 建立 AI infra,整體負責公司大規模分布式訓練,serving,推理系統
? 擔任公司千卡集群訓練項目(Kuae)架構師,整體負責訓練軟件棧的建設與性能優化,為客戶提供各種主流 LLM 高效訓練的解決方案
? 帶領團隊從 0 到 1 搭建國產 GPU 大規模分布式訓練系統(千卡規模,目標萬卡),并成功在國產 GPU 上使用 Megatron-LM 端到端產出模型
匯報上級:CTO
職位描述
1.負責訓練平臺、LLM 推理集群服務搭建及優化,提升訓練效率和模型性能;
2.設計和實現高效的分布式訓練算法和策略,提升訓練效率和模型性能;
3. 調研最新的分布式訓練技術并應用于公司項目。
職位要求
1.碩士學位,6年及以上經驗,計算機科學、人工智能、數學或相關領域專業優先;
2. 熟悉 Golang &Python,熟悉計算機體系結構以及并行計算基本技術,有 GPU研發經驗; 3. 至少擁有一方面3年以上的經驗:分布式系統/API設計/大規模集群管理/System for ML。
-
企業介紹
-
工作地址
-
上海