Skip to content

Pretraining

:material-circle-edit-outline: 约 272 个字 :material-clock-time-two-outline: 预计阅读时间 1 分钟

subword model

常见的单词都能当作独立词处理,一个词就是一个向量

但有些词会有变形,例如英语里的动词有不同形态,会变得不一样,但都是对应同一个词,如果每个都分配一个词向量显然不合理

以及,可能会遇到单词拼写错误,如果直接标记为无法识别显然效果不太好

所以我们可以尝试细分单词组成,将单词分为更小的单元 subword 进行处理

具体怎么划分,以及划分后怎么处理就见仁见智,本课程不深入学习

[09]2023 _ Lecture 9 - Pretraining.zh_en_哔哩哔哩_bilibili

基本看不懂

三种架构

BERT

上下文学习(GPT-3)

输入的前部分可以让模型学习到要解决的问题,并能够解决后部分提供的问题

image-20250313181955768

思维链

模型的能力已经超出了人们的理解,人们在尝试理解并解释为什么模型可以这样做