主題模式:
恢復默認
作品:
作者:
分類:
字數:1079
更新時間:21091222:46
賽題很長,有整整一頁。
前面是一大段關于賽題的介紹。
唐蘇總結了一下,就是需要對賽題提供的虛擬網站的數據進行爬取、清洗、整理、計算、表達、分析,最后要用圖表的形式實現數據可視化。
雖然只是初賽,但是唐蘇感覺賽題的難度真的有點大,尤其是她們現在才大一,一些專業知識沒有學過,甚至也沒有上過數據可視化相關的課程。
唐蘇倒是自學過數據可視化的一些課程,但是并不深入。
唐蘇點開賽題上給出連接,準備開始爬取數據。
但她還未操作,就見一些同學離場了。
唐蘇看了一下,離場的竟然包括自己寢室的同學楊璐和仇曉。有將近二三十個同學離場了,其中很多是自己的同學。
唐蘇深吸一口氣。
看來很多同學對于這個賽題是無從下手吧,或者因為沒有掌握相關的一些技能,而不得不放棄比賽。
唐蘇不管其他人了,她開始操作了。
她先進行了Hadoop相關組件安裝部署,主要是安裝Hive組件。
第一步完成之后,她開始使用Python語言爬取數據。
唐蘇以前也去一些網站爬取過數據,這一步對于她來說難度并不是很大,這也是作為大數據專業的學生需要掌握的基本技能之一。
第二步,爬取到了數據,唐蘇開始提取有效數據,然后對數據進行格式轉化,轉化為json格式。這一步唐蘇很熟練的完成了,因為以前就做過。
第三步,需要對數據進行清洗和分析。這一步是非常關鍵的一步。唐蘇考慮了一下后,使用了java語言編寫了用于數據清洗的MapReduce程序。清洗好數據之后,她將可用數據加載到Hive數據庫中,通過運行HQL命令完成數據的分析與統計。最后在Hive中執行SQL腳本,查看表中的數據。
這一系列操作花了不少的時間,唐蘇看到兩個小時已經過去了。
她僅剩一個小時完成賽題。
第四步是完成數據可視化,唐蘇思考了一下后分別采用柱狀圖,折線圖,以及雷達圖來輸出自己分析的數據。
這次賽題的主題是對各地IT行業從業人員的薪資情況進行對比分析,得出分析結果。
第五步,是寫數據分析報告。
此時距離比賽結束還有半個小時。
而到這個點,還在現場的已經只剩下不到三分之一的人了。
很多同學要么放棄比賽直接離開,有的則可能是提前做完了離開。
有了可視化的圖表,唐蘇做數據分析比較順利,也順利在規定的時間內寫出了分析報告。
寫完報告后,唐蘇點擊了提交,然后離開了比賽現場。
分數不會當場出來,所以唐蘇還需要等幾天后公布的復賽名單才會知道自己有沒有機會晉級復賽。
將近150人參加初賽,但是只有30名同學能進復賽,唐蘇不知道自己有沒有這個機會,但是她已經盡力了,做按照步驟做完了題。
如果最后沒有晉級,只能說,她現在的專業水平還不夠。