注册登录

EN | 中文

您当前的位置： > 详细浏览

大语言模型旋转位置编码的简易推导

Easy Derivation Of Rotary Position Embeddings For Large Language Models

作者： 何沧平 ¹ 许涛 ²
作者单位：

1. 微博

2. 曙光信息产业（北京）有限公司
通讯作者： 何沧平 Email:cangping@staff.weibo.com
提交时间：2023-07-12 15:57:43

摘要: 以 LLAMA 为代表的开源大语言模型广泛使用旋转位置编码，原始论文使用复函数推导。本文改用线性代数推导，期望更好地理解该编码方法；提出该方法的一个疑点并给出了改进建议。

大语言模型 LLM 旋转位置编码 LLAMA

来自： 何沧平
分类： 计算机科学 >> 自然语言理解与机器翻译
投稿状态： 未投稿
引用： ChinaXiv:202307.00071 (或此版本 ChinaXiv:202307.00071V3)
DOI:10.12074/202307.00071V3
CSTR:32003.36.ChinaXiv.202307.00071.V3
推荐引用方式： 何沧平,许涛.(2023).大语言模型旋转位置编码的简易推导.中国科学院科技论文预发布平台.doi:10.12074/202307.00071V3 (点此复制)

版本历史

[V3]	2023-07-12 15:57:43	ChinaXiv:202307.00071V3	下载全文
[V1]	2023-07-10 16:54:18	ChinaXiv:202307.00071v1 查看此版本	下载全文

相关论文推荐

1. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
2. Guiding Large Language Models to Generate Computer-Parsable Content	2024-04-23
3. SteganoDDPM: A high-quality image steganography self-learning method using diffusion model	2024-04-23
4. 引导大语言模型生成计算机可解析内容	2024-04-21
5. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
6. 大模型与标准文献知识库的融合应用探索	2024-04-10
7. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
8. Multimodal Physical Fitness Monitoring (PFM) Framework Based on TimeMAE-PFM in Wearable Scenarios	2024-04-07
9. 引导大语言模型生成计算机可解析内容	2024-04-07
10. Terrain Point Cloud Inpainting via Signal Decomposition	2024-04-05

点击下载全文

预览

PDF

同行评议状态

待评议

许可声明

ChinaXiv许可声明

metrics指标

点击量14413
下载量1153

评论

1.赞 (评论时间:2023-07-12 11:07:22 )

分享

分享至：

申请专家评阅

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募志愿者许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心