原文链接https://www.oreilly.com/ideas/big-datas-big-ideas
引言:从认知增强到人工智能,我们来看看影响数据世界的主要力量。
作者:Ben Lorica,2014年10月28日
正文:
回顾我们整体行业的演变历史和数据空间的总体情况,我们惊叹于可观的数据应用和工具正在被许多行业的公司使用。数据正在对公司的商业模式和盈利能力产生影响。很难找到一个不重点使用数据的有价值的应用程序。使用数据和分析来驱动决策过程的公司能够持续的超越他们的同行。
目前为止,接触大数据工具和技术仍然需要具备相当专业的知识。但是分享最佳实践经验的工具已经有所改进,交流社区也已经成型。我们为针对新数据集和数据类型的解决方案兴奋不已。在这个必要的数据技能跨越了传统学科的时代,企业也开始强调过程、文化和人的重要性。
当我们展望未来时,以下是指导我们目前对数据蓝图思考的主要主题。
认知增强
消费应用例如:Waze或Google中可以看到大数据、算法和高效的用户界面的组合。我们对这个主题的兴趣来源于许多民主化分析的工具,在这个过程中,使得领域专家和商业分析师产生了兴趣。特别是新的可视化界面正在挖掘出新的数据源和数据类型。
举例:
1.叙事科学将描述性摘要添加到商业智能工具(仪表盘、图表、表格)输出的结果中。
2.Palantir和Quid利用可视化、搜索和分析的组合,使得领域专家能够发现大型数据集中隐藏的模式。
3.StitchFix通过专业算法和专家设计的结合提供产品推荐。
4.“移动点”(例如:体育运动的跟踪数据)正在被专门研究时空模式识别的公司分析。他们启用第二频谱为许多专业篮球队的教练和决策人员提供分析。在不久的将来,在比赛中将技术和建议实时提供给教练将被实现。
智能问题:人工智能与算法
谈到算法这个话题,必定伴随着关于人工智能(AI)的最新发展的讨论。AI是O’Reilly Radar上一系列文章的主题。尽管存在“数据的不合理有效性”问题,算法仍然是一个重要的创新领域。我们为算法的广泛应用感到兴奋,例如深入学习以及诸如特征工程、梯度提升和积极学习等主题。随着智能系统的普及,安全和隐私变得至关重要。我们感兴趣的是努力使机器学习在对抗环境中安全。
参考资料:
1、O’Reilly Radar上的“Intelligence Matters”系列涵盖了人工智能领域的最新发展。
2、流线型特征工程:O’Reilly Radar发布了最新工具,可以实现特征发现。
3、2014年的Strata+Hadoop World 大会的硬核数据科学日,涵盖特征深度学习和其他算法,分析技术,以及来自UC Berkeley’s AMPLab的一个迷人的机器学习流水线工具包。
廉价传感器、快速网络和分布式计算的集合
物联网(IoT)将需要能够处理和解锁大量事件数据的系统。这些系统将从为检测IT操作而开发的分析平台中提取数据。除了数据管理之外,我们也在关注流分析和大量时间序列分析的最新进展。
参考资料:
1、我的❤日志:事件数据、流处理和数据集成:这是合作作者Apache Kafka一本新书。
2、机器数据中的表面异常与模式:O’Reilly Radar将来自IT操作世界的数据在大规模事件数据平台发布。
3、Twitter如何监控数以百万计的时间序列:O’Reilly Radar在分布式、近实时系统上发布,从而简化了大规模事件数据的收集、存储和挖掘。
4、流数据分析: 一个近期的关于实时分析流行技术的网络直播。
数据(科学)管道
分析项目包含一些列步骤,它们通常需要不同的工具。越来越多的公司和开源项目将各种分析工具集成到一致的用户界面和软件包中。这些集成工具很多可以实现复制、协作和部署。这仍然是一个活跃的领域,因为专业工具急于扩大分析管道的覆盖范围。
示例和参考资料:
1、复制数据项目:O’Reilly Radar发布了关于复制、管理和部署复杂数据项目的流行方法。
2、Jupyter项目:来自IPython创始者的一项新倡议。
3、数据库工作区:一个引人注目的记事本界面,能够将Spark生态系统的各个组成部分结合在一起。
4、数据清洗新视角:O’Reilly Radar发布了新的数据准备工具。
5、数据分析只是数据科学工作流的一部分:现代数据通道概述。
逐步进化趋于成熟的大数据组件市场
大数据生态系统中许多流行的组件都是开源的。因此,许多公司通过组装Spark、 Kafka、Cassandra和ElasticSearch等组件来搭建数据基础设施和产品。相比之下几年前,许多组件还没有准备好(或者不存在),公司从零开始建立了类似的技术。但是相较于单个组件,公司对应用和分析平台更感兴趣。为此,熟悉维护稳定数据流、数据存储和组装这些组件的数据工程师和架构师的需求很高。
示例和参考资料:
1、一些流行的Apache项目:Hadoop、Spark、Cassandra、Kafka、Mesos、ZooKeeper。
2、大数据系统在对抗癌症方面起到了作用:O’Reilly Radar发布栏提供了一个开源分布式计算工具是如何在医疗领域产生深远影响的例子。
3、垂直化大数据解决方案:O’Reilly Radar上关于特定领域大数据应用的栏目。
4、Hadoop应用架构:一本关于构建数据管理解决方案的最佳实践的书。
5、设计数据密集型应用:一本着眼于如何使用流行的大数据组件来构建应用的书。
数据科学家、设计和社会科学
要清楚的是,数据分析师通常是从数据科学家(例如:调查、心理测量学)和设计发展而来。然而我们注意到,更多的数据科学家正在扩大他们与产品设计师和社会科学家的合作。
示例和参考资料:
1、IDEO’s Hybrid Insights group: 将定量技术与产品设计师中流行的定性技术相结合。
2、Datascope Analytics:一个总部设在芝加哥的数据科学咨询集团,他们在产品设计中融入技术。
3、一些数据科学家开始使用思维(创意生成)研讨会。
4、用数据思考:Max Shron的这本书对社会科学的想法和技术做了概述。
构建数据文化
“数据驱动”组织擅长使用数据来改善决策。一切都从仪器开始,“如果你不能测量它,你就无法修复它”,RelateIQ的产品副总裁DJ Patil说。此外,在过去十年里,分布式计算(技术)的发展促使了一大批擅长构建数据产品的公司(大多为技术公司)。在许多情况下,数据产品分阶段演进(从“最小可行产品”开始),它们由采用替代分析技术的跨职能团队构建。
参考资料:
1、建立数据科学团队:数据科学家在许多数据驱动组织中居于创新前沿。这份报告为构建能够推动创新的团队提供了切实可行的建议。
2、Just Enough Math是一系列使用商业案例介绍数学概念的视频。
3、精益分析:通过30个案例研究获得一个数据驱动思维模式。
4、数据柔术:组织团队和构建数据产品的入门书。
大数据风险
1、似乎每隔几个月就会有一篇文章批判围绕大数据的炒作。深入挖掘你会发现,许多批判都是指向糟糕的分析和有经验的数据分析师已知的突出问题。我们的看法是,隐私和模型的文化影响等问题更为重要。
示例和参考资料:
1、做一个数据怀疑论者: 对大数据和数据科学的细微看法。
2、诸如Code for America、Bayes Impact、Datakind和Data & Society这样的组织拓宽了关于数据科学家可以致力于什么和思考什么的讨论。
3、NIPS 2014 Workshop: 公平、责任和透明机器学习:研究人员提出“…人们越来越担心机器学习在商业、就业、医疗、教育和警务等领域的决策中所起的作用。”
4、没有完全之策:去身份识别仍然不起作用:普林斯顿安全和隐私研究人员调查了各种数据类型的匿名策略。
我们还将通过出版、事件模块发布、网络广播和在线覆盖继续探讨这些问题,当这些探索是双向的时候是效果最好的,所以请通过Twitter (@bigdata)分享你的反馈。
第一次尝试翻译oreilly上大数据相关的文章,专业词汇还不是很熟悉,所以有些吃力,也因此一篇不是很长的文章分了四次才翻译完成。回过头看,很多地方还是翻译的不够好,请大家多多交流指教。