wordpress网站被自动跳转wordpress图片添加音乐
note
文章目录
- note
 - 一、引言
 - 二、大模型的能力
 - 三、大模型的有害性(上)
 - 四、大模型的有害性(下)
 - 五、大模型的数据
 - Reference
 
一、引言
- 语言模型最初是在信息理论的背景下研究的,可以用来估计英语的熵。 
- 熵用于度量概率分布: H ( p ) = ∑ x p ( x ) log  1 p ( x ) . H(p) = \sum_x p(x) \log \frac{1}{p(x)}. H(p)=x∑p(x)logp(x)1.
 - 熵实际上是一个衡量将样本 x ∼ p x∼p x∼p 编码(即压缩)成比特串所需要的预期比特数的度量。举例来说,“the mouse ate the cheese” 可能会被编码成 “0001110101”。熵的值越小,表明序列的结构性越强,编码的长度就越短。直观地理解, log  1 p ( x ) \log \frac{1}{p(x)} logp(x)1 可以视为用于表示出现概率为 p ( x ) p(x) p(x)的元素 x x x的编码的长度。
 - 交叉熵H(p,q)上界是熵H§: H ( p , q ) = ∑ x p ( x ) log  1 q ( x ) . H(p,q) = \sum_x p(x) \log \frac{1}{q(x)}. H(p,q)=x∑p(x)logq(x)1.,所以可以通过构建一个只有来自真实数据分布 p p p的样本的(语言)模型 q q q来估计 H ( p , q ) H(p,q) H(p,q)
 
 - N-gram模型在计算上极其高效,但在统计上效率低下。
 - 神经语言模型在统计上是高效的,但在计算上是低效的。
 - 大模型的参数发展:随着深度学习在2010年代的兴起和主要硬件的进步(例如GPU),神经语言模型的规模已经大幅增加。以下表格显示,在过去4年中,模型的大小增加了5000倍。
 
| Model | Organization | Date | Size (# params) | 
|---|---|---|---|
| ELMo | AI2 | Feb 2018 | 94,000,000 | 
| GPT | OpenAI | Jun 2018 | 110,000,000 | 
| BERT | Oct 2018 | 340,000,000 | |
| XLM | Jan 2019 | 655,000,000 | |
| GPT-2 | OpenAI | Mar 2019 | 1,500,000,000 | 
| RoBERTa | Jul 2019 | 355,000,000 | |
| Megatron-LM | NVIDIA | Sep 2019 | 8,300,000,000 | 
| T5 | Oct 2019 | 11,000,000,000 | |
| Turing-NLG | Microsoft | Feb 2020 | 17,000,000,000 | 
| GPT-3 | OpenAI | May 2020 | 175,000,000,000 | 
| Megatron-Turing NLG | Microsoft, NVIDIA | Oct 2021 | 530,000,000,000 | 
| Gopher | DeepMind | Dec 2021 | 280,000,000,000 | 
二、大模型的能力
三、大模型的有害性(上)
四、大模型的有害性(下)
五、大模型的数据
Reference
[1] 斯坦福大学CS324课程:https://stanford-cs324.github.io/winter2022/lectures/introduction/#a-brief-history
 [2] CS224N lecture notes on language models
