Data Taipei Hackthon 2015

##內容我們選擇「開放資料的加值應用」作為參賽主題，目標是尋找已開放的關於「市民與城市互動」的資料，在空間上呈現需求分布，並在時間上分析其出現的頻率，並希望利用其與其他資料的關聯，嘗試對這些需求做預測、關聯，發揮資料的更多價值。我們將以「台北市每日道路施工資訊」為資料主軸，問以下的問題：

可視化道路施工時程、類型的分佈：分各種施工類型（人孔蓋、例行施工等）、地域，在一個網頁頁面做出施工分布變化圖
對該專線的趨勢變化分析：以「週」與「天」為軸，分析各施工狀況的變化趨勢
以「各需求的發生的地理位置」來分群，看看不同地方是不是容易出現特定的施工需求
結合其他資料，例如各行政區人口數及戶數、捷運載客人數、道路資訊等，嘗試對道路施工類型和其他資訊做關聯（道路施工是什麼原因？有沒有顯著的影響交通狀況？），也計畫利用機器學習的線性模型，達到預測未來短期內道路施工需求的目標。

##講稿

###針對問題

###方法

###結果

###活動當天的表單（稍作修改）

針對問題：
1. 檢視各里工程需求
2. 預測搶修施工需求
3. 分析各種工程耗費時間金錢
呈現：
1. 視覺化網頁
2. 提出一個分析框架對施工與地理資訊做pattern recognition
方法：將19800筆施工資料依照「申請單位」、「施工原因」、「施工時間」等做label, 利用k-means clustering方法, 整合地理座標系統, 分析全台北市456個里的施工pattern
分析結果：結果可以成功得觀察到每個區的pattern, 每個patten代表該區的施工狀況, 相似的pattern標成相同顏色。若分成「建設類」與「搶修類」來分析，搶修類有四種 pattern，最明顯的是自來水搶修的次數也許可以當做檢視該區自來水管線是否有問題的依據，作為長期施工的考量，另外也可以配合 Poisson regression 來預測該里未來一個月發生故障需要搶修機率。「建設類」則可以與該里的調查配合，確認工程與當地需求相關另外從施工時間分析也可以看到各類工程所需時間長度相差很多，可以作為未來施工分析之參考
結論：資料若夠多，就可以做更多預測和觀察。此框架也可用在其他不同種的 data（如 1999, 110, 119 等）。

tweddielin / uConstruction