数据科学的艺术:“右”脑思维的兴起

由于大多数最新讨论都集中在机器学习(尤其是深度学习)中的最新技术上,因此两者的重大利益现在已成为公共现实。然而,实际上,机器学习代表了数据科学家已使用多年的预测分析技术。此外,数据科学家及其最终用户始终认识到预测分析的巨大经济优势。但是在过去的五年中,深度学习的重大进步只是将预测分析的应用扩展到了当时在技术上不可行的其他领域。这些解决方案的市场巨大,竞争激烈。这导致公司提供了包含所有最新机器学习技术的自动化解决方案。在今天’环境,速度和易用性是任何机器学习软件公司的关键要求。

But as I have stated in previous 艺术icles, what happens to the data scientist who is typically equipped with very advanced mathematical and statistical skills in this new paradigm. Do their skills become redundant in an analytics environment which is become increasingly automated.  对数据科学家的需求会减少吗?与其相反,对数据科学家的需求不会减少,反而会发生,但是会重新关注与问题识别和创建数据分析或架构有关的其他技能。但是,这种重新聚焦的增加实际上将着重于“art”在数据科学领域,对于许多数据科学家而言,这当然不是新现象。但是,这是什么意思呢?

认为我们的大脑是”left” brain vs. “right”大脑有助于更好地了解数据科学家的角色。例如,一个倾向于变得更“剩下-聪明的“通常被认为是更具逻辑性,分析性和客观性的。换句话说,当前对编程和数学技能的强调似乎更偏向于左脑。 -聪明的“据说是更直观,更周到和更主观的。换句话说,这些人似乎更有创造力,或者更多“art”解决给定业务问题的组件。

在如上所述的自动化程度日益提高的世界中,数据科学家的技能将随着需求的增长而发展,这种需求将从更多的技术类型需求转变为将其数据科学知识应用于解决业务问题的所谓的较软技能。  In this evolution, the 对-brain of the data scientist will be emphasized as data scientists need to exercise more of their creative skills as they attempt to use apply their knowledge to a myriad number of business problems. The data scientist will still need to have a deep understanding of the technical side but more on understanding output rather than generating output.

今天,我们观察到这类混合动力的增长,这些混合动力在数据科学的更多技术方面很精通,但在混合动力方面也表现出强大的能力。“softer”商业技能或“art”数据科学的一面。 随着人们对在日益自动化的环境中解决更多业务问题的期望增加,对这些混合动力汽车的需求将继续增长。

为了提供一些在实践中实际上意味着什么的观点,让我重点介绍一下如何“right”脑侧或“art”组件用于数据科学学科。

即使在确定业务问题的数据科学的第一阶段,数据科学家的创造力也可以用来更好地定义业务问题。例如,业务团队可能会确定对预测模型的需求,以识别出最容易遭受叛逃的客户。但是,数据科学家了解到,超过50%的客户基础是不活跃的。然后他或她可能会建议,真正的问题应该是确定高价值的高风险叛逃者。该问题也可能与营销如何从保留计划中获得最大影响有关。换句话说,营销团队希望尽最大努力来挽救这些高风险,高价值的客户。在这种情况下,简单的保留模型已不再足够,因为净举升模型可以真正优化那些可能通过市场营销活动节省下来的高需求者。

现在,我们定义了保留问题,但让’继续探索保留的建模,其中“art”或大脑右侧继续使用,但现在用于创建分析文件。有人可能会认为,一旦确定了问题,对数据进行编程以创建分析文件的技术方面便是排他性的需求。当然,在此阶段,技术和编程方面是非常关键的组成部分。但是在创建分析文件时,一项关键要求是创建保留目标变量。如何对杂货商和客户的客户保留目标变量进行编程  credit card company? 与响应模型不同,响应模型中的数据科学家可以根据某些数据字段对响应的目标变量进行特定编码,而在任何原始定义保留的原始数据上都没有一个数据。取而代之的是,数据科学家需要积极主动地确定一种能够捕获保留行为的方法。该方法利用了数据科学家的力量’的分析能力以及保留的领域知识。领域知识将强调保留是与购买行为有关的。在定义保留期时,需要了解典型的购买期限,该期限将取决于业务,当然也取决于行业。例如,客户在食品杂货上的平均购买期将与客户在信用卡上的平均购买期相差很大。为客户购买食品杂货定义保留时间时,定义信用卡使用的保留时间可能为一个星期,可能为三个月。 但是在两种情况下,都建立了一种分析方法来帮助确定适当的时间段。

欺诈模型的开发与保留模型的开发类似,因为我们需要利用领域知识和适当的分析方法。欺诈和保留都面临着相同的定义挑战。任何数据库上都没有与欺诈有关的特定数据字段。取而代之的是,数据科学家必须探索数据以寻找看似欺诈的模式和见解。当然,这会因行业而异。保险中欺诈行为的评估将与信用卡欺诈活动的评估有很大不同。但是再次“right”大脑的一侧被用来进行分析过程,以确定什么  “fraudulent” behaviour is. However, once this 欺诈的 behaviour is identified, we then use the data to in building models that predict the likelihood of this behaviour. In both fraud and retention, one could actually state that the behaviours being identified are quasi or pseudo measures rather than direct measures sourced directly from the database. But this phenomenon of utilizing quasi or pseudo measures as our target variables is often the norm rather than the exception in building many predictive models.  实际上,这种情况正在增长,因为尽管访问了更多数据,但我们似乎仍然面临更多业务问题。

对此的需求“right”大脑思维在不断增加,在自动化程度不断提高的时代,对“art”数据科学的发展将成为商业的呼声越来越高。


作者:Environics 分析工具高级副总裁Richard Boire

告诉我们你的想法
  1. If you haven't 剩下 a comment here before, you may need to be approved by CMA before your comment will appear. Until then, it won't appear on the entry.
    感谢您的等待。查看CMA的 博客政策.