()主要面向自然语言处理任务,旨在提供高效、可扩展的解决方案
2025-07-17
来源:作业在线

1、DeepSeek引入了低秩这一概念,对巨大的注意力机制矩阵进行压缩,减少参与运算的参数数量,显存占用仅为其他大模型的()。
A、10%-23%
B、8%-20%
C、5%-13%
D、2%-8%
2、()主要面向自然语言处理任务,旨在提供高效、可扩展的解决方案。
A、Deepseek-W3
B、Deepseek-T1
C、DeepSeek-V3
D、Deepseek-R1
3、()成为MoE发展的分水岭。
A、2017年
B、2019年
C、2020年
D、2023年
4、GRPO不依赖外部评估者,而是使用()来评估某个响应相对于同一批次中其他响应的表现如何。
A、量子动力学
B、群体动力学
C、刚体动力学
D、质点系动力学
5、()3月15日,OpenAI发布了升级后的GPT-4。
A、2021年
B、2022年
C、2023年
D、2024年
| THE END |
温馨提示:因考试政策、内容不断变化与调整,作业在线提供的以上信息仅供参考,如有异议,请考生以权威部门公布的内容为准。