DeepSeek: 下周為「開源周」 每天開源一個代碼庫
21/2/2025 15:26
國產人工智能大模型DeepSeek公布, 將於下周開源五個代碼庫(repository), 以完全透明的態度分享公司取得的「小而真誠」的進展.
DeepSeek在其官方X賬號表示, 每天都將有解鎖. 沒有象牙塔, 只有純粹的車庫創業精神和社區文化驅動的創新.
據DeepSeek介紹, 這些在團隊線上服務中的基礎模塊, 都已經完成文檔編寫和部署, 並在生產環境中經受了實戰檢驗.
DeepSeek剛於周二展示了在大模型領域的最新成果, 該團隊發文並提出一種名為NSA(Native Sparse Attention)的全新原生稀疏注意力機制, 用於超快速的長上下文訓練與推理.
DeepSeek表示, 通過對硬件的優化設計, NSA在提升推理速度的同時降低了預訓練成本, 且不影響性能. 它在通用基準測試、 長上下文任務, 以及基於指令的推理中, 表現與採用全注意力機制的模型相當, 甚至更優.
DeepSeek創始人梁文鋒周一亦有出席, 國家主席習近平召開的高規格民營企業座談會.
|