n1ko61 / banned-historical-archives.github.io

和谐历史档案馆

Home Page:https://banned-historical-archives.github.io

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

和谐历史档案馆 - Banned Historical Archives

https://banned-historical-archives.github.io

介绍

和谐历史档案馆,开源的数字档案馆。我们致力于搜集、整合各类受官方封禁的文稿、报纸、杂志和多媒体资料,对并它们进行标准化处理,通过解析、识别和分类,形成规范化的文稿档案和多媒体档案数据库。

尽管民间有许多人在进行资料收集和校验工作,但分散的工作可能难以避免重复劳动,资料的二次汇编难以确保真实性,且缺少统一的版本管理,难以维护。我们运用一系列自动化工具解决了这些问题,确保每篇文稿的溯源和可验证性。

其中已录入的文稿资料至少10万篇;待录入的文稿资料初步估计至少是已录入文稿资料的20倍。文稿内容包括但不限于**发布的文件、**高层会议纪要、主要人物的通知、著作、谈话/对话/讲话、宣言/声明、电报、通讯、书信、消息、评论/批语/批注/批示、意见、指示/命令,以及群众运动中的重要文献。涉及的主要人物包括***、江青、姚文元、张春桥、王洪文等。所收录资料立场不一,请注意辨别。我们仅进行收录和校对工作,力求保持文稿原貌,其内容并不代表我们的观点。

我们还收录了一些重要的学术性、第三方解读的哲学、政治经济学、历史书籍(通常以章节为最小单位录入)。 报纸和杂志经过类似处理,转换为标准文稿档案(以文章为最小单位),主要包括红旗杂志、学习与批判、参考消息、人民日报等。

多媒体资料涵盖音乐及歌词、电影、照片、录音等,目前主要收录了一些社会主义**创作的红色音乐。

前提

承认阶级斗争无产阶级专政无产阶级专政下继续革命这三大理论是开展历史研究讨论的前提。

官方封禁大量文件(甚至包括过去官方发布的公开的文件)的原因

  • 1976年10月6日怀仁堂政变后,执政党与国家的**群体已经完成了转化。没有无倾向性的史料,不敢鸣放的当权派冷处理及封禁与己方立场不一致的史料成为必然。
  • 建国以来,党的八届三中全会以来,特别是无产阶级文化大革命时期的历史资料包含了大量无产阶级专政实践经验,对当前官方政权稳定极为不利。
  • 许多观点与现行教科书、宣传方向和政策立场存在矛盾。官方甚至修改、编造和美化历史,为防止激起群众好奇心,避免对有争议的历史深入挖掘和讨论。

被封禁的资料中揭示的内容

  • 以刘少奇和***为首的走资本主义道路的当权派应对建国以后一系列人祸(浮夸风、“三年自然灾害”、一系列政治运动扩大化、文化大革命中绝大多数武斗事件等等)负首要责任。
  • “一举粉碎‘四人帮’”事件是冤案。四人帮被捕是因为他们在政治斗争中失利。四人帮在文化大革命中自始至终贯彻了***的无产阶级革命路线。
  • 改革开放是官僚资产阶级为攫取个人利益复辟落后生产关系,变社会主义全民所有制为资本主义所有制的借口。
  • 周恩来不是千古完人,他所领导的党内中右集团对于在文化大革命中压制革命路线、**各地左派群众也有一份“功劳”;另外,他对我国外交路线的右倾负主要责任。
  • 林彪名义上支持文化大革命,支持***,实质上代表了军内官僚集团,属于右派力量;他的死是与党内其他官僚集团(如周恩来中右集团)和革命司令部斗争的结果(主要是前者起作用)。
  • 建国以来,特别是文化大革命以来大量新生事物的涌现为今后革命实践提供了宝贵的经验。

鉴别真实的历史

一般方法: 针对多份资料相互印证的事实(某时某地某人做了什么事),分析事实对各个阶级造成了什么影响,由此得出结论。例:文化大革命中的大量群众运动,注意分析运动发起方与领导方,运动过程事件如何推进(武斗、打砸抢烧等),运动中各方的各种反映,后续如何,最后总结得出事件的性质。

  • 分析历史资料中的矛盾以及背后的原因:时间地点人物的矛盾;言行不一的矛盾;对同一事物前后观点的矛盾;
  • 深挖争议性话题以及被刻意回避的话题;通常真相与主流宣传相反

Wiki

资源贡献\校对\纠错
[Github issues]
本地运行 本地搜索 文稿录入与校对 标准化加工及开发说明

安全提醒

为了保护您的隐私与安全,建议您在访问过程中使用翻墙工具。 若需全文检索,可考虑使用本地搜索功能替代。

在使用 GitHub 和 Git 工具时,请谨慎操作,避免在以下操作中泄露个人身份:Issue 发言、Star、Watch、Fork、Pull Request、Git Commit。

建议您使用临时 GitHub 账户,设置随机 ID 和邮箱。

全文搜索

1. 谷歌搜索

在数据库内上方搜索框搜索即为谷歌搜索,谷歌搜索收到网页收录影响,不保证即时性与搜索效果。

2. 本地使用 Elastic Search(推荐、操作略复杂)

本地搜索的使用

3. 本地文本搜索(面向不懂技术的使用者)

下载此分支的压缩包,安装 VS Code 并使用它打开解压后的目录,在 VS Code 中进行搜索

功能

  1. 基本的文稿、音乐、图片查询功能;
  2. 文稿版本对比——多版本逐字对比、多版本逐行对比和文字原稿对比; 文稿版本对比

例如在扩大的**工作会议上的讲话这篇文章,点击右上角“对比”按钮,选择“对比不同来源解析后的文本”,可见***选集官方版本中被删减的内容。

文稿来源对比

  1. 文稿来源对比
  2. 歌曲歌词版本对比

与其他文库/数据库的区别

  • 收录多种来源的文稿,可进行版本对比。
  • 收录的文稿都经过文本识别或者校对并且进行了最细粒度的加工,最大程度保证文本的质量,不仅保留每个段落原有的排版信息,还保留了原有的角标注释信息。非标准化的加工则无法区分文中子标题/子标题日期/段落/引文/注释等信息,无论是正文的版本对比还是其他数据的对比都很困难。
  • 可溯源,可验证。所有信息均来自对原始文件(如 pdf)的解析,可以校验原始文件的摘要确保一致。
  • 文本识别的模型、训练集、代码,以及解析算法公开透明。
  • 包含完整的文稿校对记录。

源代码

[Github]

如果以备份为目的 fork 本仓库,最好同时 fork 本仓库对应的资源仓库 banned-historical-archives0, banned-historical-archives1, banned-historical-archives2 ... banned-historical-archives20

其他

静态 html 文件导出

https://github.com/banned-historical-archives/banned-historical-archives.github.io/tree/gh-pages

zip 压缩包

txt 文件导出

https://github.com/banned-historical-archives/banned-historical-archives.github.io/tree/txt

zip 压缩包

原始文件下载

包含已录入的和未录入的原始文件

https://huggingface.co/datasets/banned-historical-archives/banned-historical-archives

资料主要来源

计划收录的报刊杂志

名称 收录状态
红旗 已收录58-76年;77后待录入
人民日报 已收录涉及关键人物的文章
光明日报 暂缺
文汇报 已收录涉及关键人物的文章
解放日报 暂缺
解放军报 待解析,不完整
各地方报 待解析,不完整
学习与批判 部分录入
参考消息 待解析
自然辩证法 已收录

收录的文稿和书籍

收录的文稿和书籍

收录的多媒体资料

收录的多媒体资料

About

和谐历史档案馆

https://banned-historical-archives.github.io


Languages

Language:JavaScript 80.1%Language:TypeScript 19.9%Language:CSS 0.0%