数据竞赛Baseline & Topline分享

假如你是数据竞赛的初学者、爱好者，比赛的baseline不仅是比赛思路分享，同时也是一类数据问题的方法总结。本Repo想做的就是将收集并整理并分享各种比赛的baseline方案。

你可能会问为什么是baseline，而不是获胜者的代码分享？相比于获胜者的代码baseline代码都比较简单，容易整理和学习；其次baseline代码更加实用和简洁，适合入门学习。

数据竞赛

竞赛日历：http://coggle.club/

最新的竞赛信息和baseline推送，请关注：

竞赛公众号：Coggle数据科学
知乎专栏：机器学习理论与数据竞赛实战

竞赛分享

每个比赛的详细分享请见competition文件夹；

如果本仓库访问速度慢，可以访问国内备份：https://gitee.com/coggle/competition-baseline

2022年度 iFLYTEK A.I. 开发者大赛

2022年度 iFLYTEK A.I. 开发者大赛来了。本届大赛的总奖金池已升级到了超420万元，除此外还将进一步开放海量数据与核心技术，汇聚更多人工智能开发者，提供创孵平台，培育优质团队，给予扶持政策等。

本届大赛按照算法、应用、编程赛、虚拟形象选拔、辩论赛、创意集市创意赛等等方向设置众多赛道；覆盖了智能语音、视觉、自然语言、图文识别等AI热门技术；涵盖了元宇宙、遗址文化、生物与环保、医疗健康、智能家居、电商销售等众多领域。大赛地址：https://challenge.xfyun.cn/?ch=ds22-dw-sq04

AIWIN 秋季竞赛

赛题1- 手写体 OCR 识别竞赛

手写体 OCR 识别竞赛由交通银行命题，设立两个任务，其中任务一由第四范式提供开放数据集，特别针对金额和日期做识别，任务二要求在指定训练环境完成不可下载训练集的训练，增加了银行机构的文本内容。任务一适合新手，并配套学习营和特别的学习奖励。

比赛地址：http://ailab.aiwin.org.cn/competitions/65

baseline地址：https://aistudio.baidu.com/aistudio/projectdetail/2612313

赛题2- 心电图智能诊断竞赛

心电图智能诊断竞赛由数创医疗和复旦大学附属中山医院共同命题，设立两个任务，其中任务一诊断心电图的正常异常与否，任务二对10+种不同症状予以判断综合分类。任务一同步设有学习营和配套的学习奖励，欢迎新手参与。

比赛地址：http://ailab.aiwin.org.cn/competitions/64

baseline地址：https://aistudio.baidu.com/aistudio/projectdetail/2653802

2021阿里云供应链大赛——需求预测及单级库存优化

报名链接：https://tianchi.aliyun.com/competition/entrance/531934/introduction

比赛baseline:https://github.com/datawhalechina/competition-baseline/tree/master/competition/2021阿里云供应链大赛——需求预测及单级库存优化

CCF BDCI 2021

baseline汇总：https://github.com/datawhalechina/competition-baseline/tree/master/competition/DataFountain-CCFBDI-2021

基于飞桨实现花样滑冰选手骨骼点动作识别，计算机视觉、姿态估计
千言-问题匹配鲁棒性评测，自然语言处理、文本匹配
基于MindSpore AI框架实现零售商品识别，计算机视觉、图像分类
产品评论观点提取，自然语言处理、实体抽取
个贷违约预测，结构化数据挖掘、金融风控
剧本角色情感识别，自然语言处理、实体抽取
基于UEBA的用户上网异常行为分析，结构化数据挖掘、异常检测
POI名称生成，计算机视觉、OCR
客服通话文本摘要提取，自然语言处理、文本摘要
系统认证风险预测，结构化数据挖掘、风险检测
泛在感知数据关联融合计算，结构化数据挖掘、相似度计算
openLooKeng跨域数据分析性能提升，数据仓储SQL优化
大规模金融仿真图数据中金融交易环路查询的设计与性能优化，金融交易图谱挖掘
基于BERT的大模型容量挑战赛，深度学习模型优化

华为DIGIX2021：全球校园AI算法精英大赛

报名链接：https://developer.huawei.com/consumer/cn/activity/digixActivity/digixdetail/201621215957378831?ha_source=gb_sf&ha_sourceId=89000073

赛题1：基于多目标多视图的用户留存周期预测
赛题2：基于多模型迁移预训练文章质量判别
赛题3：基于多目标优化的视频推荐
赛题4：基于多模态多语言的搜索排序
赛题5：小样本菜单识别

比赛baseline和学习资料：https://github.com/datawhalechina/competition-baseline/tree/master/competition/DIGIX2021

科大讯飞AI开发者大赛2021

腾讯广告算法大赛

2021年度腾讯赛

本届从广告应用场景痛点出发，开设“视频广告秒级语义解析”和“多模态视频广告标签”两大赛道，兼具算法挑战性和商业应用价值。

2020年度腾讯赛

本届以用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。

2021世界人工智能创新大赛

互联网舆情企业风险事件的识别和预警, NLP类型比赛
保险文本视觉认知问答竞赛, CV/NLP，多模态类型比赛

CCF BDCI2020大数据与计算智能大赛

通用音频分类, LGB, CNN, 0.9+
遥感影像地块分割, U-Net
房产行业聊天问答匹配, Bert, RoBERTa
小学数学应用题自动解题, 规则思路
路况状态时空预测, OTTO Lab, 异度侵入
企业非法集资风险预测, 第一次打比赛, DLLXW, 阿水
大数据时代的Serverless工作负载预测, 第一次打比赛（A榜0.208）, siguo（A榜0.211）, CNN-LSTM,鱼佬(0.285), siliconx(0.311)
重点区域人群密度预测, 第1名方案

第四届工业大数据创新竞赛——算法赛道

2020数字**创新大赛大数据赛道

入门注册手册：https://mp.weixin.qq.com/s/NurvUDyGwVC4sSwzEzDrwg
高德地图城市交通健康榜：https://report.amap.com/diagnosis/index.do
赛题1数据分析：链接
赛题2学习内容：链接, 录屏

科大讯飞AI开发者大赛（2020年度）

其他类型

其他链接：

贡献者(按照贡献ID排序)

协作规范

欢迎大家fork并贡献代码，但请大家遵守以下规范和建议：

代码请按照比赛的形式进行整理，写明比赛的网址、数据类型和解题赛题；
代码请注明运行的环境，以及机器最低配置，如：
- 操作系统：Linux，内存16G，硬盘无要求；
- Python环境：Python2/3
- Pytorch版本：0.4.0
baseline代码只能提供可运行的代码和思路，请不要提供直接可以提交的结果文件；
代码提供者应对代码版权和共享权负责；
如果发现Repo存在版权等相关问题，请邮件联系finlayliu@qq.com

关注我们

LICENSE

GNU General Public License v3.0

About

数据科学竞赛知识、代码、思路

http://coggle.club/