Big Data 热潮,科学还是迷信?

Big Data的内容主要是指有关人类活动所留下的各种数据轨迹,例如:行动电话记录、信用卡消费记录、社群网站活动等。
Thinkstock
第153期
林茂昌
林茂昌为台湾知名的翻译家,翻译过多本重量级财经著作,如葛林斯潘的回忆录《我们的新世界》、畅销书《黑天鹅效应》、《师父》、《马丁沃夫教你看懂全球金融》、《大债时代》等。曾任台证期货总经理、期货商公会理事。自2004年即财务独立从事价值投资。2011年出版第一本着作《我的职业是股东》,广受好评。

首先,甚么是Big Data?甚么不是Big Data?这个问题没有标准答案,各家有各家的说法,但大同小异。

麻省理工学院教授席多哥(Cesar A. Hidalgo)在《科学美国人》(Scientific American)的论坛上发表了一篇文章,认为Big Data的内容主要是指有关人类活动所留下的各种数据轨迹,例如:行动电话记录、信用卡消费记录、社群网站活动等。这些数据,全部的数据,经过数据可视化(data visualization)和机器学习(machine learning)等技术,找出一些形态或相关性,可供管理决策参考运用或是预测未来行为。

基本上这套技术和传统的统计抽样、问卷调查、访谈等完全不同。传统的统计总是来自抽样,所以不是「大数据」。

 

先玩玩Google Trends

你也许会认为Big Data莫测高深,离自己很远,其实不然,任何人都可以立即体验一下。请进入Google Trends网站(www.google.com.tw/trends/),在网页最上端「Search Google Trends」的那一栏里打入任何你想知道(有多少人在搜寻)的字词,例如「股市行情」,这时Google Trends就会把历年来搜寻「股市行情」的人数消长图显示出来。不过这资料包括大陆和香港,如果我们只想知道台湾的部分,可以在网页上面蓝色那行,把「全球」改成「台湾」。于是我们可以看到台湾关心股市的程度,从我目前的资料看起来,是呈现「暴增」的趋势。

这就是最容易上手的Big Data了,除了有趣之外,潜力更是无可限量。你要查甚么字词,找出甚么现象,几乎没有限制。Google工程师还弄了一个Google Flu Trends系统(http://www.google.org/flutrends/),用流感症状的相关词汇搜寻状况来分析疫情,发现他们的指标只比实际疫情落后一天,远优于疾病管理局(CDC)落后一周的通报资料。他们把这个成果发表于《自然》杂志,引起广大回响,并带动Big Data的风潮。虽然Google Flu Trends事后被发现有些瑕疵,但其历史意义则不容否认。

 

不花大钱也可以试玩Big Data

如果你的企业所有信息,也能有一套类似Google Trends的东西,随时提供经营上的线索给老板和经理人参考,不是很好吗?以往,Big Data只属于超大型企业的东西,现在,基本上不用花大钱也能玩入门款了。

大家最担心的系统架设问题,IBM Watson Analytics、Amazon Web Services、Google BigQuery等都有收费低廉甚至于免费试用的方案,很适合小企业使用。我们只要上去他们的网站,在系统的指引下,就可以一步一步地动手开始做。

至于人员培训方面,实体课程有资策会或各大学推广中心可选择,而由全球一百多所知名大学所提供的Coursera网络课程,则是完全免费。此外,你也可以先用公领域的数据库当作练习,Amazon Web Services上提供了从美国普查数据、联准会经济数据、到基因定序的各种Big Data数据库,任何人都可以下载使用。

总之,要玩Big Data已经不再是遥不可及的事。但是请注意,长期而深度使用Big Data系统的成本仍然不低,须审慎评估效益。因此,我们接下来的思考重点是,煞费苦心搞了一套Big Data系统之后,到底有没有用?

 

具体效益难显现

我个人的猜测是,对大多数的企业,尤其是中小企业,营运资料的复杂程度并不高,Big Data没甚么用武之地,它很难胜过人脑,尤其是优秀员工的头脑。

就算是稍微复杂一些的大企业,他们大致上也已经计算机化,而且有一套以上的经营管理系统在运作,当然有一定的水平。更何况在市场竞争机制之下,能够存活的厂商绝非泛泛之辈。而Big Data系统纯靠机械的数据学习来找出特定型态,要超越现有经营绩效,如果没有高手相助,恐怕是不行的。而一般的企业,顶多是边做边学Big Data,如何能够在短期间培育出高手?

因此,除了极少数例外,大多数企业建置Big Data的初期,效益是不容易被看见的,倒是鼓励和培养人才的意义比较大。美国IDG Research Service和Kapow Software在2013年曾发表一份调查报告指出,高达85%的企业主管认为Big Data「有助于做出更周全的商业决策」,但只有23%主管认为这些Big Data计划「到目前为止还算成功」,52%则认为「不怎么成功」。原因是「计划拖太久……东西太艰深,大部分员工无法了解……如果不聘请昂贵的顾问或数据科学家,便很难从中得出关键而有效的观点」。

 

举办一场竞赛

很多企业花了好大功夫把Big Data架设起来之后,面对海量的数据,由于功力不够,只能一筹莫展。怎么办呢?头都洗下去了。最常见的手法就是举办一场Big Data竞赛,把整套的数据提供出来(当然,敏感的部分或名称必须用代号或其它方式转换),悬赏奖金,请各界高手展现真功夫。或是先办一场比赛,找出高手,再聘请他们进来公司解决问题。

国内许多企业都曾举办过Big Data赛事,至于国外就更不胜枚举了。由于有这个需求,于是有Kaggle这么一家企业设置了一个平台,专门协助企业和学界在上面举办Big Data竞赛,以找出优胜者和最好的模型。在竞争之下,人的潜能无限发挥,Big Data或许可以有惊人的成果。

限于篇幅,只能走笔至此。但请想一想,我们为甚么要花那么大的工夫,找一个不了解我们企业的「高手」(可能还在读大学)来解读数据库里的无字天书,然后大家在不知其所以然的情况下就奉为圭臬?

这到底是科学还是迷信?

你可能會有興趣的文章

「整容共和國」 全民外貌至上危害韓國
韓國《中央日報》2月19日發表文章借用中國古代故事,批判韓國人以貌取人,整個社會沉迷美色。 這篇題為〈傾國之色〉的文章,…
太陽系開派對 又見「五星連珠」
據英國《每日郵報》報導,自2016年1月20日開始,太陽系裡的五顆主要行星將在天空中同時出現,且用肉眼即可看到,成為罕見的「五星連珠」…
朱發展 務實經營闖出搬家達人一片天
朱發展於台大MBA碩士畢業後,卻放下身段擔任搬家工,不僅快速累積資金創立搬家公司,也讓搬家行業優質化。丹尼爾攝影 一提到搬家工人…
亞港遊艇父子檔 談台灣遊艇王國特種部隊
2007年的一天,在美國馬里蘭州附近的一個小島上,美國的遊艇品牌Kadey Krogen正在舉行品牌30週年慶祝會。Kadey…
執政者怎樣才不會整碗捧走
總統當選人蔡英文曾說她當總統不會把整碗捧走,她又說內閣裡多數會是非民進黨的人。這做法應有助於降低台灣以往的政黨對立甚至惡鬥。但「…
聯合國的人權體制為何崩壞?
美國智庫「布魯金斯學會」(Brookings Institution)國際人權專家泰德‧皮克內(Ted Piccone)…
簡祺珅堅持在台灣挑戰木構造房
有能力、有執行力、甚至金主支持,夢想就會實踐了嗎?致力推廣木建築的建築師簡祺珅無法給出一個明確的答案。在去年拿下「台灣室內設計大獎(TID…
回憶林克孝
台新金控總經理林克孝,8月10日於探勘宜蘭南澳古道時墜崖,各界聞訊悲痛萬分。隨著遺體載送回台北,…