近日,蘋果公司與瑞士洛桑聯邦理工學院(EPFL)聯合開源了一款名為4M-21的多模態視覺模型。該模型具有廣泛的通用性和靈活性,盡管只有30億參數,但它可以執行數十種任務,包括圖像分類、目標檢測、語義分割、實例分割、深度估計和表面法線估計等。
4M-21模型在21種不同的模態下進行訓練,能夠處理包括圖像、文本、音頻等多種模態的任務。這種多模態能力使其在跨模態檢索、可控生成和開箱即用性能方面表現出色。
4M-21還支持任意到任意模態的轉換,進一步擴展了其應用范圍。
4M-21模型的推出標志著從傳統單模態優化模型向多模態綜合處理能力的重大轉變,展示了蘋果在AI領域的強大實力和創新能力。
開源地址:https://github.com/apple/ml-4m/
論文地址:https://arxiv.org/abs/2406.09406
在線demo:https://huggingface.co/spaces/EPFL-VILAB/4M