Rookiecoder-Wang / Stock-analysis-system-based-on-big-data-and-deep-learning

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Stock-analysis-system-based-on-big-data-and-deep-learning

主要数据分析技术:Spark、Hadoop家族(HDFS、Yarn)、Zookeeper、Hive 主要使用语言:Java(简易算法)、Python(深度学习算法)、Scala(Spark数据分析) 项目前端架构:Spring Boot搭建微服务

项目描述:在证券市场中,存在着巨大的不确定性,但是经过长期比对和验证,很多股票走势会重复之前的走势,然而散户往往对证券市场的基本因素有先天的缺陷,就是知识不够专,也不够全,信息渠道窄。针对这一类人群的情况,我们开发了一套证券分析与统计系统,它是建立在对过往数据追溯的基础上形成的一种可推测性的理论,从而为这些投资客户带来全面的信息和投资参考。

1.数据爬取分析 数据爬取阶段用 Python的re库+BeautifulSoup库+requests来编写爬虫程序。 其中需要从新浪财经、腾讯财经知名的财经网站中,爬取全面的个股数据、每个省份下的证券信息、每个行业的证券信息等,一共1000万多条数据。 2.数据处理分析 鉴于本命题数据量巨大的前提,我们利用Hadoop整合集群、分布式文件系统等成熟技术,将广域/局域网中数量巨大、类型各异的存储设施通过应用软件整合协调起来共同工作,以一个整体的形式对外提供数据存储和数据分析的服务。 3.数据处理(清洗) 爬取的数据存在许多不可用的脏数据,我们需要根据一步步的清洗抽取出可用的数据。在清洗数据方面选用的是Scala语言。 4. SparkSQL分析数据 将清洗成功的数据存入HDFS后,使用DataFrameAPI完成统计及计算操作,再将统计结果存入MySQL数据库(此处MySQL数据库只是存储分析出来的少量数据,为前端可视化做准备,海量非结构化数据依然存储在HDFS分布式文件系统)。关于具体需求如何分析我们会在后续详细设计说明书中详细说明。 5.前端可视化 UI部分:应用百度开源的ECharts图表展示爬取的结果,并且应用bootstrap框架对不同规格的网页进行适配。不仅使显示效果炫酷有冲击力,而且当屏幕规格不标准时,能够保持合适的布局。 数据交互:选用微服务架构SpringBoot和后端数据库动态交互,实时显示数据库的变化 。

About


Languages

Language:JavaScript 60.3%Language:TSQL 31.6%Language:HTML 3.8%Language:CSS 3.8%Language:Java 0.6%