金年会- 金年会体育- 金年会官方网站
在GDC期间,DeepSeek没有发言或动态露出,但在技术交流方面动作频繁。2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,这篇论文署名中包括DeepSeek创始人梁文锋。论文主要讨论了NSA(Natively Sparse Attention,原生稀疏注意力),这是一种针对现代硬件优化设计的技术,能够加速推理过程,同时降低预训练成本且不牺牲性能。有从业者认为,NSA具有很高的创新价值,对预训练意义深远。