成都銘萌科技有限公司
電(diàn)話(huà):028-65065822
郵箱:cdhaiqing@163.com
聯系人(rén):袁女士
地址:成都市高(gāo)新區(qū)天府三街(jiē)69号
亞馬遜工具如何利用大(dà)數(shù)據分析解決大(dà)數(shù)據問題
所有(yǒu)關于用戶數(shù)據的收集,都是為(wèi)了對數(shù)據進行(xíng)智能分析,期待發現新的趨勢和(hé)不可(kě)預見的行(xíng)為(wèi)。考慮到商業智能應用能夠從PB級别數(shù)據中篩選數(shù)據的日子可(kě)能永遠不會(huì)到來(lái),一些(xiē)企業以天為(wèi)單位收集數(shù)據,但(dàn)是這不能成為(wèi)企業大(dà)數(shù)據分析狹隘觀點的借口。但(dàn)如何才能使企業在條件有(yǒu)限的情況下,最好地利用他們積累的新資料和(hé)統計(jì)數(shù)據?這需要時(shí)間(jiān),耐心,而且你(nǐ)将看到,投資必要資金的負責人(rén)将可(kě)以為(wèi)企業實施正确的計(jì)劃。
選擇正确的負責人(rén) 大(dà)數(shù)據本身到成熟期也就隻花(huā)了幾年時(shí)間(jiān),這意味着大(dà)分析(Big Analytics)才開(kāi)始孵化。這意味着,在這個(gè)浩大(dà)的技(jì)術(shù)舞台上(shàng)存在一個(gè)相當大(dà)的缺口,尋找合适的專家(jiā)将是一個(gè)挑戰。最近一次信息周刊關于“分析,商業智能和(hé)信息管理(lǐ)”的調查中, 47%的受訪者列出了作(zuò)為(wèi)使用大(dà)數(shù)據軟件的首要問題是‘專業知識既稀缺且昂貴’。”但(dàn)要正确地使用商業智能(BI) ,找到合适的人(rén)才是絕對必要的。 在O’Reilly 2012 Strata 大(dà)會(huì)上(shàng)生(shēng)機勃勃的數(shù)據科學論戰确認,要确定聘請(qǐng)誰來(lái)為(wèi)大(dà)洞察挖掘大(dà)數(shù)據不是件容易的事情,人(rén)工智能領域專家(jiā)或機器(qì)學習專家(jiā)将能夠為(wèi)企業提供更多(duō)的價值。 數(shù)據科學家(jiā)隻專注于數(shù)字和(hé)模式就能取得(de)顯著成績的歲月已經過去,他們需要結合機器(qì)學習,嘗試真正的算(suàn)法來(lái)找到大(dà)多(duō)數(shù)經驗豐富的專家(jiā)都錯過的數(shù)據相關性。但(dàn)大(dà)數(shù)據顧問Drew Conway做(zuò)出了一個(gè)強有(yǒu)力的證明(míng),機器(qì)學習作(zuò)為(wèi)一種工具可(kě)以提供一些(xiē)有(yǒu)趣的答(dá)案,但(dàn)這些(xiē)答(dá)案需要滿足一個(gè)重要的條件。 “你(nǐ)能以任何有(yǒu)意義的方式解釋這個(gè)結果嗎?”Conway說。 “我猜測也許不是。
一個(gè)專業領域專家(jiā)将不得(de)不看那(nà)個(gè)模型,并決定所選擇功能,以及傳遞的輸出和(hé)回歸系數(shù),是否真正與訓練集和(hé)測試集之外的樣本相關。這是專業領域的基礎知識。” 企業将需要建立一個(gè)團隊,其中包括這兩個(gè)學科的專家(jiā)。為(wèi)了數(shù)據挖掘的準确性,需要一位某個(gè)專業領域的專家(jiā)來(lái)開(kāi)發問題,然後依賴一個(gè)機器(qì)學習專家(jiā)開(kāi)發并且實施查詢或創建分析,然後才有(yǒu)兩個(gè)領域專家(jiā)結合得(de)出的正确結果。 舊(jiù)酒裝新瓶 大(dà)分析不隻是因為(wèi)大(dà)數(shù)據時(shí)代的來(lái)臨企業才用于挖掘信息。 “我們已經看到客戶以全新的商業模式出現,他們使用與社交媒體(tǐ)相關的曆史數(shù)據集,這些(xiē)曾經是免費的,現在他們把變現或定價,”英特爾的Girish Juneja在最近舊(jiù)金山(shān)舉行(xíng)的亞馬遜AWS峰會(huì)上(shàng)說。但(dàn)是,新技(jì)術(shù)永遠是洞察用戶行(xíng)為(wèi)最有(yǒu)力的工具,尤其移動用戶更是一個(gè)特别需要培養的肥沃資源。 “我們所看到的是,随着越來(lái)越多(duō)應用正在被移動用戶推動,正因如此生(shēng)成的數(shù)據量越來(lái)越大(dà)。大(dà)部分數(shù)據是被收集在雲環境中,比如AWS。然後,新的商業模型正在利用這些(xiē)數(shù)據,并基于這些(xiē)數(shù)據提供新的服務。” 在大(dà)分析競賽中先拔頭籌 企業都使用什麽類型的工具來(lái)篩選他們的大(dà)數(shù)據,以發現一些(xiē)大(dà)分析?亞馬遜的Elastic MapReduce一直是很(hěn)受歡迎的選擇,它幫助客戶挖掘當前未充分利用大(dà)數(shù)據源,然後利用BI展示。從幾年前就開(kāi)始被經常吹捧的一個(gè)的案例,Yelp開(kāi)始整理(lǐ)其巨大(dà)的編輯日志(zhì)文件,以尋找隐藏的關聯性。
“他們通(tōng)過分析這些(xiē)數(shù)據找出的一件事情是,人(rén)們是通(tōng)過移動設備上(shàng)訪問這個(gè)站(zhàn)點,”亞馬遜高(gāo)級産品經理(lǐ)John Einkauf在2014年舊(jiù)金山(shān)舉行(xíng)的AWS峰會(huì)上(shàng)表示。 “這已經是幾年前的事情,那(nà)時(shí)候很(hěn)多(duō)公司還(hái)不曾開(kāi)始了解向移動轉移。因此,他們在移動上(shàng)做(zuò)了很(hěn)好的投資,為(wèi)他們的服務取得(de)了很(hěn)好的流動性。截至2013年1月,他們正為(wèi)950萬獨特移動設備提供服務。這一切都歸功于這個(gè)最初的洞察力,他們能夠分析出TB的日志(zhì)數(shù)據。“識别數(shù)據的競争者是最近被忽略的,并創建一個(gè)策略來(lái)挖掘它。這些(xiē)途徑和(hé)策略就能區(qū)分出市場(chǎng)領導者和(hé)競争失敗者。 生(shēng)成正确的結果 進行(xíng)數(shù)據分析的另一個(gè)經常尚未開(kāi)發的數(shù)據源是社會(huì)渠道(dào)的非結構化數(shù)據。處理(lǐ)非結構化數(shù)據始終是一個(gè)巨大(dà)的挑戰,因為(wèi)在判斷數(shù)據相關性方面非常困難,但(dàn)盡管如此,非結構化數(shù)據在商業智能和(hé)大(dà)數(shù)據分析領域越來(lái)越重要。那(nà)麽,企業組織在非結構化數(shù)據分析時(shí)如何濾掉幹擾呢?大(dà)多(duō)數(shù)處理(lǐ)非結構化文本策略包含一個(gè)反饋回路,用以随着時(shí)間(jiān)推移産生(shēng)更多(duō)具有(yǒu)高(gāo)度針對性的數(shù)據用于測試。從現有(yǒu)的社會(huì)資源收集然後可(kě)以變成可(kě)使用的社交媒體(tǐ)參與者,作(zuò)為(wèi)測試對象進行(xíng)實驗。在企業層面,這可(kě)能意味着啓動了提出問題,各種社會(huì)媒體(tǐ)宣傳,邀請(qǐng)解說,或挑釁,然後可(kě)以測量和(hé)分析一些(xiē)其他的回應。這是一個(gè)費時(shí)且高(gāo)度複雜的過程,而是通(tōng)過社交媒體(tǐ)獲得(de)有(yǒu)意義的信息可(kě)以是金色的,當涉及到了解客戶真正想要的。 諷刺的是,許多(duō)能夠使大(dà)分析更有(yǒu)效的解決方案,都需要收集和(hé)創造更多(duō)的數(shù)據。然而,與其被動承受不如主動出擊,企業能夠自己定位,從而利用隐藏在過去,現在和(hé)未來(lái)大(dà)數(shù)據的洞察力。