LKY 只有原創內容的 Blog

今之能者,謂能轉貼,至於魯蛇,皆能轉貼。不原創,何以別乎?

  1. 1. 玩數據就不要玻璃心,尊重一下這場遊戲的基本邏輯
  2. 2. 讓資料分析融入組織
  3. 3. 先有軟體與數據文化,才有 AI
  4. 4. 資料專案的完整流程 1:Information-in
  5. 5. 高質量數據集哪裡來?機器學習公司的十大數據蒐集策略
  6. 6. 未来 3~5 年内,哪个方向的机器学习人才最紧缺?
  7. 7. 「打造人工智慧團隊」筆記(2017.09.02)

由於不時會在網路上看,其他資料科學工作者分享他們自己的心路歷程,看了都頗有同感。所以我決定開闢一篇文章用來收錄這些心聲。

個人實際從事資料科學工作的經驗中,發現最大的困難,不像學生時期都集中在技術面,而是文化面。文化面的障礙經驗,和當下的 context 有關,很難有意識的立即說清楚,所以特別需要筆記。

玩數據就不要玻璃心,尊重一下這場遊戲的基本邏輯

  • 「專業和價值」只是擋箭牌,擋掉媒體人適應新變化、不得不做出改變時的心理痛苦

讓資料分析融入組織

  • 領導團隊必須明白,成功需要勇氣,因為一旦踏上這個旅程,資料分析的見解常常會顯示,必須做出修改路線的決定。領導人必須誠實面對自己,想清楚是否願意把這些見解納入決策過程,並讓自己與團隊為這麼做負起責任。
  • 文化抗拒也可能成為比預期更大的阻礙。

先有軟體與數據文化,才有 AI

  • 長年缺乏的軟體環境與無結構化的資料,要如何提供養分給機器學習?業界知道資料的重要性嗎?業界的 training data 哪裡來?大數據喊了很久,業界有在積極收集、處理、分析資料嗎?
  • 近年深度學習(deep learning)正夯,在校園徵才時聽聞不少實驗室都開始在做深度學習,可以說,只要是理工的實驗室,做深度學習就一點也不奇怪;但我卻發現有些案例只專注於研究深度學習,其他基礎的機器學習模型並不熟、甚至不會。或許這只是特例,但我卻開始擔心這是常態。

資料專案的完整流程 1:Information-in

  • 常常會希望跟我們合作的人有明確一點的描述,你資料的「變數」與「樣本」有哪些,對你來說什麼叫做「有趣」,你想要拿「有趣的事情」做些什麼。所以當有人直接叫我從資料找出重要的資訊時,我心中最真實的想法是:我怎麼知道要拿來幹嘛啦!!!
  • 這些步驟需要許多不同專業的人互相合作,才能解決實務上的問題。我認為,不應該強求成為一個「全能的資料科學家」(畢竟我並不是天才),我想成為的是一個「T 型資料科學家」,對於所有資料分析的議題有基本認識,對於統計、電腦科學、或是領域知識其中一項有著朝深入的了解。

高質量數據集哪裡來?機器學習公司的十大數據蒐集策略

  • 不幸的是,初創公司往往在一開始只有有限的或沒有標籤的數據,這一情況會阻礙創始人在構建數據驅動的產品方面取得重大進展。因此,在僱傭數據科學團隊或建立昂貴的核心基礎設施之前,從一開始就值得探索一套數據收集策略。
  • 挑戰在於說服早期用戶在機器學習的好處完全發揮作用之前保持使用該產品(因為首先需要數據來訓練和微調算法)。

未来 3~5 年内,哪个方向的机器学习人才最紧缺?

  • 已有工作/研究經驗的朋友,要試著利用自己的工作經歷。舉例,不要做機器學習裡最擅長投資的人,而要做金融領域中最擅長機器學習的專家,這才是你的價值主張(value proposition)

「打造人工智慧團隊」筆記(2017.09.02)

  • 科學定義

    • 系統性
    • 一般化
    • 可驗證
  • 資料科學定義

    • 可以從資料裏面追求知識的活動
  • 選才

    • 這方面專長的人不太會在市場上流動
    • 創意、細心。細心最重要
    • 湖人隊有自己的資料分析師
    • 建議不要外包資料分析工作,因為太難定規格。但 model training 很好定誤差,可以外包
  • Big Data

    • 資料大到被逼著擺脫傳傳統單機處理,必須換到分散式架構、或其他特殊工具。
    • 太多公司瘋 Hadoop,但絕大部分台灣公司資料量沒有多到這樣,10 萬元單機能解決就不必走分散式系統。
  • 很多公司組完資料科學團隊,最常見就是會被誤用

    • 資料倉儲團隊
    • 報表產生器
      • 看報表只是潛層應用,驅動產品或流程改變才是實在的作用
      • 超過 3 個維度的資料被視覺化以後,都是片面的,因為視覺化最多只能呈獻 3 個維度。而絕大多數有價值的資料也超過 3 個維度,所以只靠視覺化資料做決策參考是危險的。
本文最后更新于 天前,文中所描述的信息可能已发生改变