Stock-analysis-system-based-on-big-data-and-deep-learning

主要数据分析技术：Spark、Hadoop家族（HDFS、Yarn）、Zookeeper、Hive 主要使用语言：Java（简易算法）、Python（深度学习算法）、Scala（Spark数据分析）项目前端架构：Spring Boot搭建微服务

项目描述：在证券市场中，存在着巨大的不确定性，但是经过长期比对和验证，很多股票走势会重复之前的走势，然而散户往往对证券市场的基本因素有先天的缺陷，就是知识不够专，也不够全，信息渠道窄。针对这一类人群的情况，我们开发了一套证券分析与统计系统，它是建立在对过往数据追溯的基础上形成的一种可推测性的理论，从而为这些投资客户带来全面的信息和投资参考。

1.数据爬取分析数据爬取阶段用 Python的re库+BeautifulSoup库+requests来编写爬虫程序。其中需要从新浪财经、腾讯财经知名的财经网站中，爬取全面的个股数据、每个省份下的证券信息、每个行业的证券信息等，一共1000万多条数据。 2.数据处理分析鉴于本命题数据量巨大的前提，我们利用Hadoop整合集群、分布式文件系统等成熟技术，将广域/局域网中数量巨大、类型各异的存储设施通过应用软件整合协调起来共同工作，以一个整体的形式对外提供数据存储和数据分析的服务。 3.数据处理（清洗）爬取的数据存在许多不可用的脏数据，我们需要根据一步步的清洗抽取出可用的数据。在清洗数据方面选用的是Scala语言。 4. SparkSQL分析数据将清洗成功的数据存入HDFS后，使用DataFrameAPI完成统计及计算操作，再将统计结果存入MySQL数据库（此处MySQL数据库只是存储分析出来的少量数据，为前端可视化做准备，海量非结构化数据依然存储在HDFS分布式文件系统）。关于具体需求如何分析我们会在后续详细设计说明书中详细说明。 5.前端可视化 UI部分：应用百度开源的ECharts图表展示爬取的结果，并且应用bootstrap框架对不同规格的网页进行适配。不仅使显示效果炫酷有冲击力，而且当屏幕规格不标准时，能够保持合适的布局。数据交互：选用微服务架构SpringBoot和后端数据库动态交互，实时显示数据库的变化。

Rookiecoder-Wang / Stock-analysis-system-based-on-big-data-and-deep-learning

Stock-analysis-system-based-on-big-data-and-deep-learning

About

Languages