Python 資料科學程式馬拉松
學習大綱
NumPy_程式開發實作
主題 | 範例 | 作業 | 作業解答 |
---|---|---|---|
NumPy 基本操作 v2: NumPy 陣列的定義與屬性 |
Day_01_Sample Day_01_Sample_v2 |
Day_01_HW | Day_01_Solution Day_01_Solution_v2 |
NumPy 陣列進階操作 v2: NumPy 陣列中不同的資料型態 |
Day_02_Sample Day_02_Sample_v2 |
Day_02_HW | Day_02_Solution Day_02_Solution_v2 |
NumPy 陣列運算及數學函式 v2: NumPy 陣列的初始化 |
Day_03_Sample Day_03_Sample_v2 |
Day_03_HW | Day_03_Solution Day_03_Solution_v2 |
NumPy 陣列邏輯函式 v2: NumPy 陣列的算術運算 |
Day_04_Sample Day_04_Sample_v2 |
Day_04_HW | Day_04_Solution Day_04_Solution_v2 |
NumPy 統計函式 v2: NumPy 陣列的邏輯運算 |
Day_05_Sample Day_05_Sample_v2 |
Day_05_HW | Day_05_Solution Day_05_Solution_v2 |
使用 NumPy 存取各種檔案內容 v2: NumPy 中常見的陣列方法與函式 |
Day_06_Sample Day_06_Sample_v2 |
Day_06_HW | Day_06_Solution Day_06_Solution_v2 |
NumPy 的矩陣函式與線性代數應用 v2: NumPy 陣列的索引、切片和迭代 |
Day_07_Sample Day_07_Sample_v2 |
Day_07_HW | Day_07_Solution Day_07_Solution_v2 |
NumPy 結構化陣列(Structured Arrays) | Day_08_Sample | Day_08_HW | Day_08_Solution |
Back to 學習大綱
Pandas_程式開發實作
主題 | 範例 | 作業 | 作業解答 |
---|---|---|---|
v2: Pandas 物件的定義與屬性 | Day_08_Sample_v2 | Day_08_Solution_v2 | |
使用 Pandas 讀寫各種常用的檔案格式 v2: Pandas DataFrame 的初始化 |
Day_09_Sample Day_09_Sample_v2 |
Day_09_HW | Day_09_Solution Day_09_Solution_v2 |
Pandas 資料索引操作(資料過濾、選擇、合併) v2: Pandas DataFrame 的資料選取 |
Day_10_Sample Day_10_Sample_v2 |
Day_10_HW | Day_10_Solution Day_10_Solution_v2 |
Pandas 類別資料與缺失值處理 v2: Pandas 中的算術運算特性 |
Day_11_Sample Day_11_Sample_v2 |
Day_11_HW | Day_11_Solution Day_11_Solution_v2 |
v2: Pandas 迭代與重複操作 | Day_12_Sample_v2 | Day_12_HW_v2 | Day_12_Solution_v2 |
v2: Pandas DataFrame 的新增與刪除 | Day_13_Sample_v2 | Day_13_HW_v2 | Day_13_Solution_v2 |
v2: Pandas 的外部資料存取 | Day_14_Sample_v2 | Day_14_HW_v2 | Day_14_Solution_v2 |
Pandas 常見圖表程式設計 | Day_12_Sample | Day_12_HW | Day_12_Solution |
Pandas 統計函式使用教學 | Day_13_Sample | Day_13_HW | Day_13_Solution |
Pandas 撰寫樞紐分析表 | Day_14_Sample | Day_14_HW | Day_14_Solution |
Pandas Split-Apply-Combine Strategy | Day_15_Sample | Day_15_HW | Day_15_Solution |
Pandas 時間序列 | Day_16_Sample | Day_16_HW | Day_16_Solution |
Pandas 效能調校 | Day_17_Sample | Day_17_HW | Day_17_Solution |
Back to 學習大綱
Matplotlib/Seaborn_資料視覺化
主題 | 範例 | 作業 | 作業解答 |
---|---|---|---|
Python 資料視覺化工具與常見統計圖表介紹 | Day_18_Sample | Day_18_HW | Day_18_Solution |
使用 Matplotlib 繪製各種常用圖表 | Day_19_Sample | Day_19_HW | Day_19_Solution |
使用 Seaborn 進行資料視覺化 | Day_20_Sample | Day_20_HW | Day_20_Solution |
運用實際資料集進行資料視覺化練習 | Day_21_Sample | Day_21_HW | Day_21_Solution |
結合 Pandas 與 Matploglib 進行進階資料視覺化練習 | Day_22_Sample | Day_22_HW | Day_22_Solution |
Bokeh 輕鬆以網頁呈現視覺化圖表 | Day_23_Sample | Day_23_HW | Day_23_Solution |
Basemap 進行地理資訊繪圖 | Day_24_Sample | Day_24_HW | Day_24_Solution |
使用 Pandas 與 Basemap 將數據整合於地理資訊圖表 | Day_25_Sample | Day_25_HW | Day_25_Solution |
Back to 學習大綱
統計的基礎知識
Probability Distribution
為一伯努力試驗(Bernoulli Trail),即表示只有兩種結果(成功、失敗)的隨機試驗。
為一伯努利過程(Bernoulli Process),係重複 n 次伯努利試驗,其中,當 n=1 時為伯努利分佈。
持續進行伯努利試驗,直到第 r 次成功時才停止,伯努利試驗總共進行 X 次的機率分佈。
在 N 個樣本中有 K 個為我們所關心的類型樣本。從 N 個樣本中取出 n 個(取後不放回),而這 n 個當中有 k 個屬於我們所關心的類型的機率。
Reference
主題 | 範例 | 作業 | 作業解答 |
---|---|---|---|
用統計描述資料的樣態 | Day_26_Sample | Day_26_HW | Day_26_Solution |
用機率分佈描述亂中有序的世界 - 離散型分配(1) | Day_27_Sample | Day_27_HW | Day_27_Solution |
用機率分佈描述亂中有序的世界 - 離散型分配(2) | Day_28_Sample | Day_28_HW | Day_28_Solution |
用機率分佈描述亂中有序的世界 - 連續型分配 | Day_29_Sample | Day_29_HW | Day_29_Solution |
用貝氏定理讓你決策更精準 | Day_30_Sample | Day_30_HW | Day_30_Solution |
掌握 A/B Test 的精隨 - 假設檢定的概念 | Day_31_HW | Day_31_Solution | |
掌握 A/B Test 的精隨 - 假設檢定的進階概念與種類 | Day_32_HW | Day_32_Solution | |
A/B Test 的執行流程與計算 | Day_33_Sample | Day_33_HW | Day_33_Solution |
Back to 學習大綱
手把手來場資料科學專案吧
Reference
- Three ways to detect outliers
- KNNImputer: A robust way to impute missing values (using Scikit-Learn)
- Feature Selection Methods for Data Science (just a few)
主題 | 範例 | 作業 | 作業解答 |
---|---|---|---|
淺談資料科學與 EDA 所扮演的角色與重要性 | Day_34_HW | Day_34_Solution | |
探索性資料分析(EDA)_數據理解與重覆和遺失值處理 | Day_35_Sample | Day_35_HW | Day_35_Solution |
探索性資料分析(EDA)_異常值偵測 | Day_36_Sample | Day_36_HW | Day_36_Solution |
探索性資料分析(EDA)_遺失值與異常值的進階補值策略 | Day_37_Sample | Day_37_HW | Day_37_Solution |
探索性資料分析(EDA)_探討變數之間的關係 | Day_38_Sample | Day_38_HW | Day_38_Solution |
探索性資料分析(EDA)_從資料中生成特徵 | Day_39_Sample | Day_39_HW | Day_39_Solution |
探索性資料分析(EDA)_從資料中選取好的特徵 | Day_40_Sample | Day_40_HW | Day_40_Solution |
Back to 學習大綱
專題實作
主題 | 參考解答 |
---|---|
COVID 19 資料視覺化 | |
Netfiex 資料視覺化 | |
不動產時價登入分析 | Solution |
電商網頁銷售改進效果之 A/B Test 分析 | Solution |
Udacity 教學網站註冊效果之 A/B Test 分析 | Solution |
Back to 學習大綱