12月4日消息,浪潮信息近日發佈了“源 2.0”基礎大模型,並宣佈全面開源。源2.0基礎大模型包括1026億、518億、21億等三種參數規模的模型。
據介紹,源2.0通過使用中英文書籍、百科、論文等高質量中英文資料,降低了互聯網語料內容佔比。爲了獲取中文數學數據,浪潮信息清洗了從2018年至今約10PB的互聯網數據,但僅獲取到了約10GB的數學數據。
爲了更高效地獲得相對匱乏的高質量中文數學及代碼數據集,源2.0採用了基於大模型的數據生產及過濾方法,在保證數據的多樣性的同時也在每一個類別上提升數據質量。
算力方面,源 2.0 採用了非均勻流水並行的方法,綜合運用流水線並行 + 優化器參數並行 + 數據並行的策略,讓模型在流水並行各階段的顯存佔用量分佈更均衡,避免出現顯存瓶頸導致的訓練效率降低的問題。
源 2.0 在評測上進行了代碼生成、數學問題求解、事實問答方面的能力測試,測試結果顯示,源 2.0 整體表現處於中上水平。