4月24日,蘋果開源了大語言模型OpenELM。這與微軟剛開源的Phi-3 Mini類似,是一款專門針對手機等移動設備的模型。
以下是一些重點信息的摘要:
1. 開源OpenELM: 蘋果公司開源了一個名為OpenELM的大語言模型,這與微軟開源的Phi-3 Mini類似,是專為移動設備設計的模型。
2. 模型參數: OpenELM提供了四種不同參數規模的模型,分別是2.7億、4.5億、11億和30億參數。
3. 功能: 該模型能夠執行生成文本、代碼、翻譯、總結摘要等功能。
4. 預訓練數據: 盡管最小的模型只有2.7億參數,但蘋果使用了1.8萬億tokens的數據進行預訓練,這是其小參數下仍能表現出色的原因之一。
5. 深度神經網絡庫CoreNet: 蘋果同時開源了用于訓練OpenELM的深度神經網絡庫CoreNet,該庫在開源后不久就在GitHub上獲得了超過1100個星標。
6. 蘋果的開源策略: 蘋果通常在手機領域采取閉源策略,但此次開源可能是為了吸引用戶,未來可能會推出閉源產品實現商業化。
7. 技術貢獻: 蘋果不僅發布了模型權重和推理代碼,還發布了完整的訓練和評估框架,包括數據準備、模型訓練、微調和評估流程,以及多個預訓練檢查點和訓練日志。
8. OpenELM架構: OpenELM的架構,包括其技術創新點,如無編碼器的transformer架構、層級縮放策略、不使用全連接層中的可學習偏置參數等。
9. 訓練流程與數據集: 蘋果使用CoreNet作為訓練框架,Adam優化算法,以及動態分詞和數據過濾的方法。
開源地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com
CoreNet地址:https://github.com/apple/corenet?ref=maginative.com
論文地址:https://arxiv.org/abs/2404.14619