学习计划

服务器、 Git等基础：

掌握：linux、git、vscode(或者pycharm)等基础
- [git在线练习]
参考：https://github.com/iyuge2/Student
掌握linux常用命令
掌握debug调试技巧

课程基础

高等数学 (数分+高代)
概率论 (似然估计、统计推断)
运筹学 (凸优化)
数值分析 (最小二乘法、梯度下降)
数据结构和算法
人工智能相关课程、了解背景

高等代数与几何	概率论与数理统计	统计推断	随机过程
实变与泛函	统计自然语言处理	数学辞海	计算智能
统计机器学习	Deep Learning (花书)	计算语言学	计算机视觉

关于基础掌握（机器学习理论 + 实践）：

1. python基础（很重要）

熟练掌握list、dict、set等常见的python数据结构的应用，能够灵活使用python处理相关数据
掌握numpy、pandas、sklearn等工具使用，能够灵活处理数据、分析数据
掌握matplotlib 或 seaborn等可视化分析包

2. 机器学习基础

《机器学习实战》代码+实践：针对性练习、不要求掌握整本书、可作为工具书，用到时借鉴书中的代码是如何实现的。
熟练使用sklearn：一个python工具库，实现了大部分机器学习的算法实现，要学会使用，会看文档，如何调用、如何调参数等等。

3. 机器学习相关资料推荐（善用搜索，互联网资源很丰富、要有内驱力的主动学习）：

周志华->机器学习[南瓜书]
李航->统计机器学习[代码实现]
B站的资源就很丰富
- 吴恩达机器学习课程[B站]
- 机器学习[github]
- 李宏毅机器学习课程[B站]
- 白板推导--[github][B站]

重点掌握：logitc 回归、贝叶斯分类、SVM 、决策树、k 近邻、k-means 、PCA

了解使用：GBDT、XGBoost 、随机森林

实战推荐： kaggle中的入门竞赛（练习pandas数据处理、可视化分析、sklearn中机器学习算法、xgboost使用）

关于基础掌握（深度学习理论 + 实践）

1. 神经网络基础

理解神经网络、深度神经网络、反向传播、损失函数等概念。
掌握基础模型：DNN、MLP、RNN、LSTM、GRU
关于反向传播的机制：手动推导BP算法、了解BPTT算法

2. NLP基础

掌握基础概念： Transformer、Attention
理解词向量模型-> Word2vector、Glove、ELMo、GPT、BERT
如何分词、文本数据预处理：使用nltk工具，或者自己实现
- 掌握文本分词、词频统计等

3. 深度学习相关资料推荐（善用搜索，互联网资源很丰富、要有内驱力的主动学习）

邱锡鹏->《神经网络与深度学习》
斯坦福的计算机视觉课程 [CS231n官网] [B站]
斯坦福的自然语言处理课程 [CS224n官网] [B站]
B站的资源就很丰富
- 吴恩达深度学习课程[B站][中文笔记]
- 李宏毅深度学习课程[B站]
- 白板推导[B站]
- 吴恩达的《深度学习工程师》课程: [网易云课堂]，[作业练习]

4. 编程练习

Pytorch(不限于单一框架)搭建深度神经网络模型(github上有许多入门相关的资料)
- 比如：https://github.com/graykode/nlp-tutorial
- 动手学深度学习https://github.com/ShusenTang/Dive-into-DL-PyTorch
- NLP入门练习https://github.com/Alic-yuan/nlp-beginner-finish
- 阿里天池大赛https://tianchi.aliyun.com/competition/gameList/algorithmList
- 百度飞桨比赛https://aistudio.baidu.com/aistudio/competition
了解自动微分机制、[了解pytorch中autograd包]
无论是框架还是工具包遇到问题->多查官方文档、网上搜索相关问题

关系抽取方向

1. 基本要求

了解综述和顶会论文
- 实体关系抽取是什么，任务定义是什么样的。有什么用处？带着问题去读一读综述类论文
- 目前关系抽取都用什么方法，有什么方向值得再研究，现在对于关系抽取都在研究什么？多搜索近期，最新的顶会论文，看看大家在做什么，有什么新的数据集、新的任务（比如最近的对话数据中的关系抽取、小样本关系抽取、三元组关系抽取、跨领域、多任务、多模态、融入已有的知识图谱中的知识）、新的方法等等
从简单项目开始复现->复现顶会论文代码
paper list: https://github.com/thunlp/NREPapers

2. 实验准备

简单项目的练习
- 从数据读取处理->dataloader的建立->模型的搭建->如何评估模型性能（确定评估指标）->代码实现训练、测试过程
- 案例研究：随机选择几个测试样本，看看模型预测的结果
- 结果统计：性能的多维度比较、模型是否有预测偏好
收集相关数据集
- 如：FewRel、TACRED、DocRED等等。在paperwithcode上可以查找关系抽取方向，看看都在做什么具体的方向和用什么数据集
复现相关的开源的baseline代码
- 顶会论文中比较的、开源的或自己去复现
- 复现过程中主要把模型搞懂，对照论文和代码，在初次接触时，可以拿纸和笔记录模型中数据流向和维度变化加深理解。与数学公式相呼应，理解如何在代码层面实现

3. 自己研究

多读论文，启发自己的idea
- 一些其他领域的论文启发自己；要将最新的成果敢于融入自己研究的任务，不能局限于NLP
可以有很多idea，多做实验、迭代自己的想法
- idea不work很正常。100个想法中有1个work就很不错，多想多做实验
对一个任务可以分为：具体的任务和方法层面
- 比如关系分类本质是分类任务：可以分为：1.如何更好的编码文本和实体（特定任务） 2.如何更好的获取关系表示 3. 如何更好的分类（方法）
论文书写和图表公式：多看多练
- 学术如何入门：https://github.com/zibuyu/research_tao
- 写作方法和技巧：http://nlp.csai.tsinghua.edu.cn/~ly/talks/cwmt14_tut.pdf

论文搜索（多读文献、集思广益）：

纵向：（ACL、IJCAI、AAAI、EMNLP、NAACL等顶会搜索文献）

横向：（NIPS、ICML、ICCV、CVPR、ICLR等机器学习、CV相关的顶会）

论文搜索：paperwithcode、arxiv.org、顶会的paperlist等等

zhao9797 / ReadytoStart