当地时间6月14日,英伟达开源Nemotron-4 340B(3400亿参数)系列模型。据英伟达介绍,开发人员可使用该系列模型生成合成数据,用于训练大型语言模型(LLM),用于医疗保健、金融、制造、零售和其他行业的商业应用。
Nemotron-4 340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token(文本单位)进行训练。Nemotron-4 340B-Base在常识推理任务,如ARC-c、MMLU和BBH基准测试中,可以和Llama-3 70B、Mixtral 8x22B和Qwen-2 72B模型媲美。
最新发布的Granite 3.0版本使用英伟达H100 GPU进行训练,IBM还将在英伟达的软件工具堆栈上提供部分大模型版本。
跑分不代表一切。
上月初英伟达最新架构Blackwell系列芯片被曝将推迟三个月或更久发布的消息。
“真正做大模型的公司,如果你一万张卡都没有,你就根本不要讲自己是在干大模型的公司。”
OpenAI或最快今秋推出推理AI产品“草莓”;谷歌研究人员发布游戏生成引擎GameNGen。