热门资讯> 正文

Meta称其LLaMA 语言模型比OpenAI 的 GPT-3更有前景

2023-02-28 18:13

在OpenAI推出大型语言模型ChatGPT后，竞争对手纷纷迎头赶上。谷歌有 Bard，微软有新必应。现在，Meta也上线了一个新模型LLaMA。目前，该模型只对研究人员开放。

据了解，LLaMA是 Large Language Model Meta AI 的首字母缩写词，比现有的模型更小，因为它是为无法访问大量基础设施的研究社区构建的。LLaMA 有多种尺寸，从70亿个参数到650亿个参数不等。

Meta方面称，尽管 LLaMA-13B 的尺寸较小，而且少了1620亿个参数，但“在大多数基准测试中”表现优于 OpenAI 的GPT-3。

据报道，最大的模型 LLaMA-65B 与 DeepMind 的Chinchilla70B和PaLM-540B等模型可相提并论。

LLaMA 是一个基础模型：它在大量未标记数据上进行训练，这使得研究人员更容易针对特定任务微调模型。由于模型更小，因此更容易针对用例进行再训练。

LLaMA不仅仅是使用英语文本构建的。Meta使用20种使用拉丁语或西里尔语脚本的语言训练其模型。然而，大多数训练数据都是英语，因此模型性能更好。

Meta 的研究人员声称，由于模型的大小，对当前大型语言模型的访问受到限制。

Meta 认为“这种受限访问限制了研究人员理解这些大型语言模型如何工作以及为何工作的能力，阻碍了提高其稳健性和解决已知问题（例如偏见、侮辱和产生错误信息的可能性）的努力”。

除了使模型更小之外，Meta 还试图让 LLaMA 更易于访问，包括在非商业许可下发布它。

对各种 LLaMA 模型的访问权限只会根据具体情况授予学术研究人员，例如隶属于政府、民间组织和学术界的研究人员。

与 ChatGPT 一样，LLaMA 与其他语言模型一样存在生成有偏见或不准确的信息。Meta 的 LLaMA 声明承认了这一点，并表示通过共享模型，研究人员可以“更轻松地测试新方法来限制或消除大型语言模型中的这些问题。”

Meta在去年5月曾推出一款面向研究人员的名为OPT-175B的大型语言模型，去年年底还发布过另一款模型Galactica，但后者被发现经常分享有偏见或不准确的信息，在48小时内被迅速下架。

免责声明：以上内容仅代表作者的个人立场和观点，不代表华盛的任何立场，亦并非旨在提供任何投资意见。有关内容不构成任何专业意见、买卖任何投资产品或服务的要约、招揽或建议。本页面的内容可随时进行修改，而本公司毋须另作通知。本公司已尽力确保以上所载之数据及内容的准确性及完整性，如对上述内容有任何疑问，应征询独立的专业意见，本公司不会对任何因该等资料而引致的损失承担任何责任。以上内容未经香港证监会审阅。

Meta称其LLaMA 语言模型比OpenAI 的 GPT-3更有前景

推荐文章

干货集锦！《跑赢美股》6月直播核心观点总结

美股前瞻 | AI牛市不停！美光绩后狂飙17%带飞存储板块；美国5月核心PCE同比增3.4%；IBM推出全球首款小于1nm芯片

压力测试过关 摩根大通、高盛等美国大型银行提高股利并回购股份

华盛早报 | 美光盘后飙升近16%！炸裂财报引爆芯片股，纳指期货应声涨2%；黄仁勋豪言AI进入盈利时代；高通全面进军AI数据中心

港股概念追踪 | 曝苹果折叠屏iPhone敲定7月底量产 产业链有望迎来高速发展拐点(附概念股)

美股前瞻 | AI风向标来袭！英伟达股东大会凌晨开始、美光财报盘后发布；布油跌破75美元创战后新低；海力士或7月10日登陆美股

抛售SpaceX，买入特斯拉？

资金复盘 | 北水逆势抄底港股近104亿港元！加仓中芯国际、建滔集团，抛售阿里巴巴

压力测试过关摩根大通、高盛等美国大型银行提高股利并回购股份

港股概念追踪 | 曝苹果折叠屏iPhone敲定7月底量产产业链有望迎来高速发展拐点(附概念股)