24年7月来自香港科技大学广州分校的论文“A Survey on Mixture of Experts”。
大语言模型 (LLM) 在从自然语言处理到计算机视觉等各个领域都取得了前所未有的进步。LLM 的强大之处在于其庞大的模型规模、广泛而多样的数据集以及训练过程中利用的巨大计算能力,所有…
MMOE多任务模型
18年KDD google 原文链接:Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts 论文中提出了一个Multi-gate Mixture-of-Experts(MMoE)的多任务学习结构,学习任务之间的关系与特定任务功能…