These are homework codes for EE208 in SJTU. The teachers are Ya Zhang and Dazhi He. I hope the codes are beneficial for you.
The last update time: 2021/12/24 22:25
The whole structure of the labs I have solved:
-
hello_world
初次体验docker环境的使用。
-
HTML_parser
通过对信息检索,网络搜索的基本概念,HTML语言的结构、基础、常见Tag的初步了解以及对HTML/XML解析器BeautifulSoup的初步学习,尝试爬取任意网页超链接的URL、所有图片链接以及相对应的文本内容。
-
Crawler
通过对HTTP 协议的定义及在python中的模拟访问、爬虫的概念及抓取方式(优先性、礼貌性)爬取一定量的网页(练习二)之后利用 BloomFilter 来加速查重过程(练习一),最后尝试对练习二的方式进行并行化的处理,加快运行效率(练习 三 )。
-
第三周没有实验
-
Lucene
基于对 Java 的全文检索库 Lucene 基本原理的学习(包括创建、搜索索引等操作),应用适当的分词器与Analyzer实现网页索引与搜索程序。
-
Lucene2
基于对Lucene 的初步认识,学习在多个域(Field)下的组合查询以及索引中的文档的更新来实现搜索带限定词的索引情况,同时学习图片搜索以完成对图片的文字标识进行索引。
-
Flask
基于对web框架Flask的初步认识,学习简单的网站开发。通过利用Flask模板内丰富的函数、过滤器以及Flask表单的创建,结合HTML、Lucene、中文分词等知识点,建立一个简单的搜索引擎。
-
中期整合
基于对前半学期课程内容的学习包括但不限于HTML语言、网络爬虫、Lucene、Flask框架等以及对div+css规范网页样式的接触、了解,尝试制作一个图片文字的搜索引擎并且规范其相应的格式。
-
OpenCV
基于对彩色、灰色数字图像在计算机内部的表示、存储方式的认知,利用python语言以及适合的环境配置实现对彩色、灰色数字图像的如颜色、灰度、梯度的特征提取,计算并画出相应的直方图。
-
第九周没有实验
-
SIFT实现
实现SIFT。
-
同第十周内容
-
LSH
实现LSH。
-
Pytorch
Pytorch初体验。
-
CNN
CNN初体验。