当地时间6月14日,英伟达开源Nemotron-4 340B(3400亿参数)系列模型。据英伟达介绍,开发人员可使用该系列模型生成合成数据,用于训练大型语言模型(LLM),用于医疗保健、金融、制造、零售和其他行业的商业应用。
Nemotron-4 340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token(文本单位)进行训练。Nemotron-4 340B-Base在常识推理任务,如ARC-c、MMLU和BBH基准测试中,可以和Llama-3 70B、Mixtral 8x22B和Qwen-2 72B模型媲美。
苹果或弃自研模型转投OpenAI和Anthropic;Meta成立超级智能实验室。
华为诺亚方舟实验室在官方平台发布最新声明,表示盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型,并非基于其他厂商模型增量训练而来。
集体开源行动背后,既是对AI进入应用为王时代的回应,也有各家加速抢占市场高地、应对国际竞争的战略布局。
涵盖47B、3B激活参数的混合专家(MoE)模型,与0.3B参数的稠密型模型等10款模型。
盘古7B相关模型权重与推理代码将于近期上线开源平台。