zhao9797 / ReadytoStart

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

学习计划

服务器、 Git等基础:


课程基础

  • 高等数学 (数分+高代)

  • 概率论 (似然估计、统计推断)

  • 运筹学 (凸优化)

  • 数值分析 (最小二乘法、梯度下降)

  • 数据结构和算法

  • 人工智能相关课程、了解背景

推荐书籍(仅供参考):

高等代数与几何 概率论与数理统计 统计推断 随机过程
实变与泛函 统计自然语言处理 数学辞海 计算智能
统计机器学习 Deep Learning (花书) 计算语言学 计算机视觉

关于基础掌握(机器学习理论 + 实践):

1. python基础(很重要)

  • 熟练掌握list、dict、set等常见的python数据结构的应用,能够灵活使用python处理相关数据
  • 掌握numpy、pandas、sklearn等工具使用,能够灵活处理数据、分析数据
  • 掌握matplotlib 或 seaborn等可视化分析包

2. 机器学习基础

  • 《机器学习实战》代码+实践:针对性练习、不要求掌握整本书、可作为工具书,用到时借鉴书中的代码是如何实现的。
  • 熟练使用sklearn:一个python工具库,实现了大部分机器学习的算法实现,要学会使用,会看文档,如何调用、如何调参数等等。

3. 机器学习相关资料推荐(善用搜索,互联网资源很丰富、要有内驱力的主动学习):

重点掌握:logitc 回归、贝叶斯分类、SVM 、决策树、k 近邻、k-means 、PCA

了解使用:GBDT、XGBoost 、随机森林

实战推荐: kaggle中的入门竞赛(练习pandas数据处理、可视化分析、sklearn中机器学习算法、xgboost使用)


关于基础掌握(深度学习理论 + 实践)

1. 神经网络基础

  • 理解神经网络、深度神经网络、反向传播、损失函数等概念。
  • 掌握基础模型:DNN、MLP、RNN、LSTM、GRU
  • 关于反向传播的机制:手动推导BP算法、了解BPTT算法

2. NLP基础

  • 掌握基础概念: Transformer、Attention
  • 理解词向量模型-> Word2vector、Glove、ELMo、GPT、BERT
  • 如何分词、文本数据预处理:使用nltk工具,或者自己实现
    • 掌握文本分词、词频统计等

3. 深度学习相关资料推荐(善用搜索,互联网资源很丰富、要有内驱力的主动学习)

4. 编程练习


关系抽取方向

1. 基本要求

  • 了解综述和顶会论文
    • 实体关系抽取是什么,任务定义是什么样的。有什么用处?带着问题去读一读综述类论文
    • 目前关系抽取都用什么方法,有什么方向值得再研究,现在对于关系抽取都在研究什么?多搜索近期,最新的顶会论文,看看大家在做什么,有什么新的数据集、新的任务(比如最近的对话数据中的关系抽取、小样本关系抽取、三元组关系抽取、跨领域、多任务、多模态、融入已有的知识图谱中的知识)、新的方法等等
  • 从简单项目开始复现->复现顶会论文代码
  • paper list: https://github.com/thunlp/NREPapers

2. 实验准备

  • 简单项目的练习
    • 从数据读取处理->dataloader的建立->模型的搭建->如何评估模型性能(确定评估指标)->代码实现训练、测试过程
    • 案例研究:随机选择几个测试样本,看看模型预测的结果
    • 结果统计:性能的多维度比较、模型是否有预测偏好
  • 收集相关数据集
    • 如:FewRel、TACRED、DocRED等等。在paperwithcode上可以查找关系抽取方向,看看都在做什么具体的方向和用什么数据集
  • 复现相关的开源的baseline代码
    • 顶会论文中比较的、开源的或自己去复现
    • 复现过程中主要把模型搞懂,对照论文和代码,在初次接触时,可以拿纸和笔记录模型中数据流向和维度变化加深理解。与数学公式相呼应,理解如何在代码层面实现

3. 自己研究

  • 多读论文,启发自己的idea
    • 一些其他领域的论文启发自己;要将最新的成果敢于融入自己研究的任务,不能局限于NLP
  • 可以有很多idea,多做实验、迭代自己的想法
    • idea不work很正常。100个想法中有1个work就很不错,多想多做实验
  • 对一个任务可以分为:具体的任务和方法层面
    • 比如关系分类本质是分类任务:可以分为:1.如何更好的编码文本和实体(特定任务) 2.如何更好的获取关系表示 3. 如何更好的分类(方法)
  • 论文书写和图表公式:多看多练

论文搜索(多读文献、集思广益):

纵向:(ACL、IJCAI、AAAI、EMNLP、NAACL等顶会搜索文献)

横向:(NIPS、ICML、ICCV、CVPR、ICLR等机器学习、CV相关的顶会)

论文搜索:paperwithcode、arxiv.org、顶会的paperlist等等

About


Languages

Language:Jupyter Notebook 100.0%