生活中神奇的工具—大数据

    /    2017-07-13

  一:大数据在第三产业的运用!

  这一个有些的内容比较多。这儿只提出一些典型的运用比如,期待补充。

  健康与医疗:Fitbit® Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕带可以搜集有关咱们走路或许慢跑的数据,例如行走步数、卡路里耗费、睡觉时长等数据与健康记载来改善咱们的健康状况;Early Detection of Patient Deterioration等公司正在开发垫子监测传感器,主动监测和记载心脏速率、呼吸速率、运动和睡觉活动。该传感器搜集的数据以无线办法被发送到智能手机和平板电脑进行进一步剖析;美国公共卫生协会(APHA: American Public Health Association)开发Flu Near You用来的表现,经过大数据剖析生成陈述显现用户所在区域的流感活动。

  视频:互联网电视可以追寻你正在看的内容,看了多长时刻,乃至可以辨认多少人坐在电视机前,来断定这个频道的盛行度。Netflix 美国国内规划最大的商业视频流供货商,搜集的数据包含用户在看啥、喜爱在啥时段观看、在哪里观看以及运用哪些设备观看等。乃至记载用户在哪视频的哪个时刻点撤退、快进或许暂停,乃至看到哪里直接将视频关掉等信息。典型的运用是Netflix公司运用数据压服BBC从头翻拍了电视连接剧《纸牌屋》,并且成功的发掘出艺人Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性,断定新剧拍照的最佳人选。

  交通:《车来了》经过剖析公交车上GPS定位体系天天的方位和时刻数据,结合时刻表猜测出每一辆公交车的到站时刻;WNYC开发的Transit Time NYC经过开源行程渠道(Github:OpenTripPlanner和MTA )获取的数据将纽约市划分成2930个六边形,模拟出从每一个六边形中点到边际的时刻(地铁和步行,时刻是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或许输入地址就能知道地铁抵达每个方位的时刻;实时交通数据搜集商INRIX-Traffic的口号是(永不迟到!^^),经过记载每位用户内行进进程中的实时数据例如行进车速,所在方位等信息并进行数据汇总剖析,而后核算出最佳线路,让用户可以避开拥堵。

  电子商务:Decide 是一家猜测产品报价并为消费者提出采购时刻主张的创业公司,经过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据进行剖析,最终整合在一个页面中方便消费者比照查看,并且可以猜测产品的报价趋势,协助用户断定产品的最佳采购机遇。现已于2013年被eBay收买。

  政治:奥巴马在总统竞选中运用大数据剖析来搜集选民的数据,让他可以专心于对他最感爱好的选民,谷歌履行董事长Eric Schmidt当时向奥巴马的大数据剖析团队出资数百万美元并靠拢中心成员成立了Civis Analytics咨询公司,该公司将会将在奥巴马连任竞选中所取得的经历运用到商业和非营利职业中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)

  金融:ZestFinance | Big Data Underwriting 是由是Google的上一任 CIO,Douglas Merrill创建金融数据剖析效劳供给商,运用机器学习算法和大数据为放款者供给承保模式,旨在为那些自个信誉不良或许不满足传统银行贷款资历的自个供给效劳。公司运用剖析模型对每位信贷请求人的上万条初始信息数据进行剖析,只需几秒时刻便可以得出超越十万个做法目标。现在违约率比职业平均水平低 60%左右。别的一个不得不说到的是风险办理先驱者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,经过大数据剖析为银行和信誉卡发卡机构、稳妥、医疗保健、政府和零售职业供给效劳。FICO 信誉分核算的基本思想是:把借款人过去的信誉前史材料与数据库中的整体借款人的信誉习气相比较,查看借款人的发展趋势跟常常违约、随意透支、乃至请求破产等各种堕入财政窘境的借款人的发展趋势是不是类似。FICO 现已为三分之二的国际 100 强银行供给效劳,提高了客户忠诚度和盈利率、削减诈骗丢失、办理信贷风险、满足监管与竞赛请求并迅速获取市场份额。想了解更多的公司可以看看附录中《经济学人》的文章《Big data: Crunching the numbers》。

  电信: 美国T-mobiles选用Informatica - The Data Integration Company渠道开展大数据作业,经过集成数据归纳剖析客户丢失的因素,依据剖析成果优化网络规划为客户供给了非常好的体会,在一个季度内将丢失率折半;韩国 SK telecom新成立一家公司SK Planet,经过大数据剖析用户的运用做法,在用户做出决议之前推出符合用户爱好的事务避免用户丢失。美国AT&T 公司将记载用户在Wifi网络中的地理方位、网络阅读前史记载以及运用的运用等数据销售给广告客户。比方当用户间隔商家很近时,就有也许收到该商家供给的折扣很大的电子优惠券。英国BT - Broadband公司发布了新的安全数据剖析效劳Assure Analytics—BT news releases,协助公司搜集、办理和评价大数据集,将这些数据经过可视化的办法出现给公司,协助公司改善决策。

  一般来说盈利性质的商业公司和公司都不会容易走漏自个的数据、建模办法和剖析进程,所以还有许多咱们不知道的奥秘运用潜伏在漆黑里,好像《三体》中的”漆黑森林规则“。

  世界即是一座漆黑森林,每个文明都是带枪的猎人,像鬼魂般潜行于林间,轻轻拨开挡道的树枝,极力不让脚步发出一点儿声音,连呼吸都有必要当心谨慎:他有必要当心,由于林中处处都有与他相同潜行的猎人,假如他发现了别的生命,能做的只要一件事:开枪消除之。在这片森林中,他人即是地狱,即是永久的威胁,任何露出自个存在的生命都将很快被消除,这即是世界文明的图景,这即是对费米悖论的解说。

  二、大数据的解说

  大数据(Big Data)是指“无法用现有的软件东西获取、存储、查找、共享、剖析和处理的海量的、杂乱的数据调集。”业界通常用4个V(即Volume、Variety、Value、Velocity)来归纳大数据的特征。

  数据体量无穷(Volume)。到现在,人类出产的一切打印材料的数据量是200PB,而前史上全人类说过的一切的话的数据量大约是5EB(1EB=210PB)。

  数据类型繁复(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据不断增加,包含网络日志、音频、视频、图像、地理方位信息等,这些多类型的数据对数据的处理才能提出了更高请求。

  价值密度低(Value)。价值密度的凹凸与数据总量的巨细成反比。怎么经过强壮的机器算法更迅速地完结数据的价值“提纯”变成现在大数据布景下亟待解决的难题。

  处理速度快(Velocity)。大数据区别于传统数据发掘的最显著特征。依据IDC的“数字世界”的陈述,预计到2020年,全球数据运用量将到达35.2ZB。

  看看专家们怎么说。

  舍恩伯格,大数据时代 (豆瓣)

  不是随机样本,而是整体数据;不是精确性,而是稠浊性;不是因果联系,而是有关联系。

  埃里克·西格尔,大数据猜测 (豆瓣)

  大数据时代下的中心,猜测剖析已在商业和社会中得到广泛运用。跟着不断增加的数据被记载和收拾,将来猜测剖析必定会变成一切范畴的要害技术。

  城田真琴,大数据的冲击 (豆瓣)

  从数据的类别上看,“大数据”指的是无法运用传统流程或东西处理或剖析的信息。 它界说了那些超出正常处理规模和巨细、迫运用户选用非传统处理办法的数据集。

  三、大数据的价值

  了解了大数据的典型运用,理解了大数据的界说。这时信任在每自个的心中,对于大数据的价值都有了自个的答案。

  2010年《Science》上刊登了一篇文章指出,尽管人们的出行的模式有很大不一样,但咱们大多数人同样是可以猜测的。这意味着咱们可以依据个别之前的做法轨道猜测他或许她将来行迹的也许性,即93%的人类做法可猜测。

  Limits of Predictability in Human Mobility

  A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.

  而大数定理通知咱们,在试验不变的条件下,重复试验屡次,随机事情的频率近似于它概率。“有规则的随机事情”在很多重复出现的条件下,通常出现简直必定的计算特性。

  举个比如,咱们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶尔的,但当咱们上抛硬币的次数足够多后,到达上万次乃至几十万几百万次今后,咱们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶尔中包含着某种必定。

  跟着核算机的处理才能的日益强壮,你能取得的数据量越大,你能发掘到的价值就越多。

  试验的不断重复、大数据的日渐堆集让人类发现规则,猜测将来不再是科幻电影里的读心术。

  假如银行能及时地了解风险,咱们的经济将愈加强壮。

  假如政府可以下降诈骗开支,咱们的税收将愈加合理。

  假如医院可以更早发现疾病,咱们的身体将愈加健康。

  假如电信公司可以下降成本,咱们的话费将愈加廉价。

  假如交通动态天气可以把握,咱们的出即将愈加方便。

  假如商场可以动态调整库存,咱们的产品将愈加实惠。

  最终,咱们都将从大数据剖析中获益。


(8)

分享至