Pretraining
:material-circle-edit-outline: 约 272 个字 :material-clock-time-two-outline: 预计阅读时间 1 分钟
subword model
常见的单词都能当作独立词处理,一个词就是一个向量
但有些词会有变形,例如英语里的动词有不同形态,会变得不一样,但都是对应同一个词,如果每个都分配一个词向量显然不合理
以及,可能会遇到单词拼写错误,如果直接标记为无法识别显然效果不太好
所以我们可以尝试细分单词组成,将单词分为更小的单元 subword 进行处理
具体怎么划分,以及划分后怎么处理就见仁见智,本课程不深入学习
[09]2023 _ Lecture 9 - Pretraining.zh_en_哔哩哔哩_bilibili
基本看不懂
三种架构
BERT
上下文学习(GPT-3)
输入的前部分可以让模型学习到要解决的问题,并能够解决后部分提供的问题
思维链
模型的能力已经超出了人们的理解,人们在尝试理解并解释为什么模型可以这样做