当前位置:首页
> .html
导读:
IT之家 11 月 8 日消息,Meta 于上周发布新闻稿,宣布正式开源可在智能手机上运行的小语言模型 MobileLLM 家族,并同时为系列模型新增600M、1B 和 1.5B...
IT之家 11 月 8 日消息,Meta 于上周发布新闻稿,宣布正式开源可在智能手机上运行的小语言模型 MobileLLM 家族,并同时为系列模型新增600M、1B 和 1.5B 三种不同参数版本,IT之家附项目GitHub项目页如下(点此访问)。
Meta 研究人员表示,MobileLLM 模型家族专为智能手机打造,该模型号称采用了精简架构,并引入了“SwiGLU 激活函数”、“分组查询注意力(grouped-query attention)”机制,能够在兼顾效率与表现成果。
此外,MobileLLM 模型据称训练速度较快,Meta研究人员声称他们在 32 颗 Nvidia A100 80G GPU 的服务器环境下,以 1 万亿词(tokens)训练不同参数量的 MobileLLM 模型时,1.5B 版本只需 18 天,而 125M 版本仅需 3 天。
而从结果来看,MobileLLM 125M 和 350M 两款模型在零样本常识理解任务中的准确率比 Cerebras、OPT、BLOOM 等 State of the Art(SOTA)模型分别高出 2.7% 和 4.3%。
Meta研究人员同时将 MobileLLM-1.5B 与业界其他参数量更大的模型进行比较,在结果测试方面据称领先 GPT-neo-2.7B、OPT-2.7B、BLOOM-3B、Qwen 1.5-1.8B 等模型。
相关文章
- 使用tensorflow.keras.applications模块搭建MobileNetV2迁移学习框架
- Tensorflow2.0 tf.data.Dataset.from_tensor_slices 自定义图像数据集 (一)
- What my daughter whispered to me that caught me by surprise
- Why communication in the workplace is key to my business
- The first thing everyone should do when they get married
- How you can be a hero and change your own community
- XREAL 宣布 5 月 30 日举行空间计算新品发布会
- 3月25日外媒科学网站摘要:首例猪肾移植成功,
- 5月21日外媒科学网站摘要:蟑螂起源于南亚,后
- 生成式AI热潮掀起“淘数据热”,背后风险有多大
发表评论: