DataWhale AI夏令营一期NLP方向总结
基于 Datawhale × 科大讯飞 暑期夏令营项目制作
由于时间原因,后期没有跟进,这里做个总结
夏令营合集链接(二次元的Datawhale):
https://space.bilibili.com/431850986/channel/collectiondetail?sid=1547964
因为学校不开设NLP方向课程,本次活动参与纯粹只是基于兴趣去了解,加上给这个假期没有太多活的我找点事干。后期的话可能倾向于ML或者CV方向。
NLP的火爆,毫无疑问源自于最近爆火的ChatGPT带来的新一轮AI革命。
这里推荐青工所小凡哥的一个视频,对于入门来说非常好。

夏令营期间,我们以赛题项目为核心展开,穿插知识讲解。
在讲解的背后,每天都会在群内组织打卡答题。


NLP对我而言,需要的就是在基本的pytorch,transformer等基础AI框架环境下,引入pandas,ntlk等专门应用于nlp的库,然后运用Bert,TF-IDF等方法,最后调参的过程。唯一可惜的是有雄心壮志的自己想凭借一个移动版3060就想跑遍天下模型,但是当显存溢出、程序不断报错的时候,无可奈何。
最终在实践上,由于忙于处理各种杂事,忘记了时间,最后都是紧跟ddl才跑出来,所以最后的分数跑的也不是太过理想。

重在参与吧,起码至少让我有了主动接触与了解的机会,所以还是很感谢这次夏令营的实践。

雁过留痕,补充一下答题的知识点,为总结画个省略号,以后再见。
1. 准确率(Accuracy)是衡量分类模型在所有类别上预测正确的比例,适用于多分类任务。满足:(TP + TN) / (TP + TN + FP + FN)。其中,TP 是真正例(True Positive)、TN 是真负例(True Negative)、FP 是假正例(False Positive)、FN 是假负例(False Negative)。
精确率(Precision)是衡量模型预测为正例中真正为正例的比例,适用于二分类任务。满足:TP / (TP + FP)。
召回率(Recall)是衡量模型找出所有真正正例的能力,适用于二分类任务。满足:TP / (TP + FN)。
F1-score是综合考虑精确率和召回率的指标,用于平衡两者。在不平衡数据集中较有用。满足:2 * (Precision * Recall) / (Precision + Recall)。
2. 词嵌入:词嵌入是将单词映射到连续向量空间的方法,其中相似含义的单词在向量空间中距离较近,距离就是欧氏空间距离吧。在自然语言处理中提高模型的性能,例如在文本分类、情感分析、语义搜索和机器翻译等任务中,使模型更好地理解和处理自然语言。
3. 稀疏连接:
定义:传统的全连接网络,每一个输出都与每一个输入单元产生交互,卷积使用了稀疏交互:每个输出神经元只与前一层的特定局部区域内的神经元产生交互
好处:参数更少,降低模型的复杂度,防止过拟合,提高模型的统计效率,原本一幅图像只能提供少量特征,现在每个像素区域都可以提供一部分特征
参数共享:
定义:在模型的不同模块中(也可以说是多个函数中)使用相同的参数。也可以叫作一个网络含有绑定的权重。
传统的全连接网络中,在计算一层的输出时,权重矩阵的每一个元素只使用一次,乘以输入的一个元素之后,再也不会用到了。而在卷积神经网络中,卷积核的每个元素将作用于每一次局部输入的特定位置上。
4. Transformer的核心思想是使用自注意力机制注意力机制通过计算不同位置之间的相关性权重,通过对所有位置的注意力加权求和,可以获得每个位置的上下文表示。当然Transformer包括编码器和解码器,还引入了残差连接和层归一化等技术,以增强模型的训练效果和泛化能力。
5. 依存分析:指通过分析句子中词与词之间的依存关系,确定每个词在句子中的句法角色,如主语、宾语、谓语等。句法分析则是通过分析句子的结构和语法规则,确定句子中各个短语的句法关系。
……