根據AI、大數據沖咖啡?淺談甚麼才是真·數據科學

| | , ,

20211731001
(Credits: 《Dilbert》by Scott Adams)

近年,尤其自從幾年前DeepMind研發出「神之一手」,能夠捉圍棋打敗所有職業棋士的AlphaGo後,人工智能(artificial intelligenceAI)、機械學習(machine learning)、數據科學(data science)、大數據(big data)這些便成為了潮流用語,差不多所有行業也會聽到的buzzword。情況就像10幾年前的科網熱潮;或者原子彈冷戰年代,甚麼也加「原子」兩隻字;又或現在不少東西都加「量子」、「納米」在前面般。不過事實上,當中有幾多才是真材實料,有幾多其實只是胡扯吹水而且?真正的數據科學、大數據又是指甚麼呢?

今次小弟想在物理/數學以外,開一個新系列,談談數據科學和人工智能。

AI大數據沖咖啡?

20211731002
(AI大數據咖啡Preface Coffee,圖擷取自[1])

好像最近香港有篇新聞(鱔稿?)報導,談及有間咖啡廳,會根據當天的時事新聞、天氣等,分析這堆「大數據」去調節口味,沖出最適合當天的咖啡[1]。

利申:小弟未有幸光顧過那咖啡廳,不敢貿貿然妄下判斷,說他們是類似「咖啡機兄弟」的那類騙局。不過,一杯咖啡沖得好與否,合不合顧客心水,很明顯最重要、最關鍵的是咖啡師的手勢與咖啡豆的質素。當天室外附近環境的氣溫、當天新聞頭條等等那堆數據,很多著實不太相關,即使真的有影響,也大多只是次要及非常細微。

而且每個人的喜好準則不同,如有些人喜歡冷/熱的天氣,有些人鍾意味道苦/酸些;政治上又有黃絲/藍絲、「中立x/中間超人」,難道在買咖啡前,咖啡廳會要求客人先做一份詳細個人問卷?另外「開心」這東西,本身就很難可以很客觀、準確地定義到。就如有人見到「私煙BB」染武肺死了會「開香檳」,但有人(?)即會惋惜、悼念她。現實是不存在一套適用於所有人的單一標準,來定義一個所謂的「開心指數」。

20211731003
(網上圖片)

如其花錢和時間去研發一個複雜,聲稱用到自然語言處理(Natural Language Processing)*的程式,去分析一堆次要或不大相關的數據,其實去培訓咖啡師手藝、改善工作和室內環境、選取優質的原料,鑽研不同配方還來得實際。即使真的要用到人工智能或大數據,也應該用來分析員工、咖啡豆原材料等,優先及實際過甚麼用時事新聞、天氣等數據去分析所謂的「開心指數」。所以個人是認為這「AI大數據沖咖啡」多數只是噱頭罷了,多過真的能實際改善到咖啡品質或口味,增加到營業額。

*自然語言處理簡單講就是將人類語言翻譯成電腦「看得明」的東西,即一堆0同1的數字,指用電腦將語言變成有相關意思的符號及關係,再根據目的作處理同分析。詳細的講解有機會再談

數據科學和數據分析的分別

好啦,說了這麼久,那究竟甚麼才算是數據科學或大數據呢?很老實說,始終數據科學/大數據不屬數學或理論物理學範疇,所以它們其實是沒一套統一標準定義的。不過小弟還是可以用自己現時在做數據科學家(data scientist)的經驗,談一下數據科學業界,通常是如何界定數據科學的。

固名思義,數據科學要做的,當然是分析數據(data)啦!當中數據可以包括任何範疇,基本上所有你想得到的東西,也可以是數據,好像你說的一句說話、去過那裡、上過甚麼網站等等,尤其是現在這個digital era。

不過除了分析數據外,更加重要的是深入理解、洞悉數據背後其意義,建構數學或機械學習模型,去嘗試模擬及作出準確客觀的預測,去幫助人類執行,甚至自動化一些決定(decision making process)。就如透過你的網上瀏覽記錄,去推測你喜歡的東西(甚至是政治取態或價值觀,如像Big brother is watching you的強國)。所以懂得寫程式,甚至是軟件可以說是必須的。另外了解整個機械學習運作流程,包括數據如何收集得來、數據清洗(data cleaning/cleansing)、如何安全及有效儲存數據等等,也很重要。單純只是用Power BI、Tableau,甚至Excel等坊間軟件,去分析數據的,一般只會稱為數據分析師(data analyst)#。

#雖然廣義上來說,只是用Excel執行曲線擬合(curve fitting),也是迴歸分析(regression analysis),屬機械學習的一種。

數據科學的重點應該是科學

20211731004 1
(credits: xkcd #925

除了上面說的外,作為(前)物理學家,個人覺得「真.數據科學」要稱得上「科學」,當然還需要包含自然科學的精神在內。即是要(至少某種程度上)理解不同機械學習演算法(algorithms)與模型背後的邏輯、合理性,甚至是描繪出不同數據、現象背後的因果關係,而不是單純的執行統計學數據分析,不求甚解地追求最準確的預測,尤其這世界那麼多數據,統計學上相關的巧合根本多不勝數^[2]。

^記住相關不蘊涵因果,相關不蘊涵因果,相關不蘊涵因果(correlation does not imply causation)。很重要所以要說三遍,好像是

另一方面,communication、數據可視化(data visualisation)也是重要的一環。數據科學家需要明白及理解機械學習模型所做出的決定(至少某種程度上,例如知道邊啲數據影響決定較大),然後透過簡單易明的圖像及語言,去講解給其他人明白,而不是當機械學習模型是一個黑盒般。

今次說到這,待下回有機會再談多些人工智能、數據科學。

延伸閱讀:

[1] 《AI大數據沖咖啡 分析時事調節口味》,刊於信報財經新聞「StartupBeat創科鬥室

[2] 偽相關嘅數據例子https://www.tylervigen.com/spurious-correlations

Previous

活著就是反抗:活著不是反抗

身體最誠實

Next
Notice: ob_end_flush(): failed to send buffer of zlib output compression (0) in /var/www/html/wp-includes/functions.php on line 4755