剽窃项目 - 机器学习部署

此代码库包含使用 AWS SageMaker 部署剽窃检测器的代码和相关文件。

项目概述

在此项目中，你需要构建一个剽窃检测器，它会检测文本文件并进行二元分类：根据文本文件与提供的原文之间的相似度，将文件标为剽窃文件或非剽窃文件。检测剽窃行为是一个很活跃的研究领域；这项任务比较有挑战性，因为剽窃文件与原文之间的区别通常并不明显。

此项目将分成三个主要 notebook：

Notebook 1：数据探索

Notebook 2：特征提取

Notebook 3：在 SageMaker 中训练和部署模型

请参阅根目录下的 README，了解如何设置 SageMaker notebook 并下载项目文件（及其他 notebook）。