Einstein Discovery Stories

爱因斯坦发现故事(2)了解发生了什么见解

学习目标

完成本单元后,您将能够:

  • 导航到故事的What Happened见解并探索它们。
  • 查看显示一个变量如何解释结果变量变化的见解。
  • 查看显示双变量组合如何解释结果变量变化的见解。

了解发生了什么见解

注意

注意

本单元中的说明假设您已根据“使用故事获取大图片”中的步骤成功创建了爱因斯坦探索故事,这是此Trailhead模块中的第一个单元。

创建故事后,您看到的第一个见解是What Happened 见解。这些是您故事中的主要见解。它们是描述性的见解,可以帮助您在概览级别上根据对数据集的统计分析来探索导致结果的因素。爱因斯坦发现使用条形图来帮助您可视化发生的事情。

你的故事的结果变量和目标

配置故事时,您告诉Einstein Discovery 在AcquiredAccount数据中最大化变量 CLV。CLV是 您故事中的结果变量,最大化CLV是您的目标。本故事中的所有见解都向您展示了变量和变量组合如何解释CLV的变化。列表中的最高见解反映了结果变量中统计上最显着的变化。

T-测试

对于爱因斯坦分析数据集中的每个类别,爱因斯坦发现执行称为t检验的统计计算,以确定该类别是否具有统计显着性。t检验有助于识别表现出与其他类别在统计上不同的模式的类别。例如,对于名为Naval的类别 ,第一步是将数据拆分为两组:Naval不是Naval。第二步是使用t检验来确定这两组是否在统计学上不同。

查看一阶分析

让我们从查看列表中的第一个洞察开始。

CLV by Division insight
注意

注意

如果这里的图像与您在爱因斯坦发现中看到的屏幕略有不同,请不要担心。界面元素通常是相同的,但一些细节 – 包括它们显示的数据 – 可能略有不同。

根据Einstein Discovery对Einstein Analytics数据集中AcquiredAccount数据的统计分析,Division是解释CLV变化最大的变量。这种类型的洞察,称为一阶分析,检查一个变量(分部)如何解释结果变量(CLV)的变化。

让我们来看看洞察力的不同部分。

解释性文字

洞察力的左侧包括解释性文本。

洞察力的说明文字。

解释性文字包括:

  • 洞察力的标题:CLV by Division
  • 洞察力摘要:分部解释了CLV变异的14.2%。
  • 最重要的观察摘要列表(与图中的蓝色条相关联),其变化具有统计学意义(高于或低于平均值)。

将鼠标悬停在超链接上会突出显示右侧图表中的相关栏。

单击超链接可向下钻取到观察图表中,该图表显示由您的选择过滤的数据。

洞察的过滤数据图表。
注意

注意

单击x以删除过滤器并返回上一屏幕。

这一洞察力的关键在于该部门解释了CLV变异的14.2%。爱因斯坦发现进行了统计计算,以找出确定系数R 2(R平方)。R 2告诉你多少分部解释了结果变量(CLV)的变化 – 换句话说,分区变量有多少预测能力。其他观察描述了影响CLV的其他因素。

图形

洞察力右侧的图像是条形图:

图表的洞察力。

在此图中:

  • CLV是垂直轴, 分区是水平轴。
  • 图表中的橙色水平线显示平均CLV,刚好高于 20K
  • 蓝条表示在平均CLV之上和之下进一步延伸的变量。这些是最有趣的相关性。在这些部门中,原材料和 制图是最高于平均水平的,而标准硬件是最低于平均水平的。
  • 灰色条显示接近平均CLV的变量。这些划分在统计上不太重要,因此未列在左侧的解释性文本中。在考虑灰色条时,您无法得出与其他类别的差异有意义的结论。

将鼠标悬停在栏上查看详细信息

将鼠标悬停在图表中的条形图上可查看弹出的详细信息框。例如,如果将鼠标悬停在 原材料上,则会看到:

将鼠标悬停在图表中的条形图上可查看详细信息。

请注意,当选择蓝色条时,左侧的相应说明文字会突出显示。弹出窗口向您显示分部 为原材料的基础统计详细信息:

  • 与整体的差异显示您在该类别的平均值之上或之下的距离。如果数字为负数,则低于平均值。
  • 总计显示原材料的总CLV 。
  • 平均值是类别中每个值的总和除以值的数量(Count)。
  • 标准偏差可让您了解该类别中的项目与平均值的差异。较小的标准偏差告诉您大多数数字接近平均值。在上面的例子中,原材料类别的标准偏差是8,440。这是一张图像,显示两条具有不同标准偏差的曲线。平均值位于中间,处于峰值。在蓝色曲线中,请注意更多的值更接近平均值。它具有较小的标准偏差。在红色曲线中,值更加分散,因此它具有更大的标准偏差。
两条曲线说明了不同的标准偏差
  • Count是该类别中的事物数量。在这个例子中,我们的原材料部门有417个客户。

让我们探索列表中的下一个洞察力。

查看二阶分析

在Type is Consulting时,向下滚动到标题为CLV by division的洞察。

当Type是咨询洞察时,CLV by Division

这是对前面讨论过的第一个见解的改进,CLV by Division。它增加了第二个变量,当Type为Consulting时,意味着两个变量的组合(CLV是Division和Type是Consulting)给出了强烈的信号。这种类型的洞察,称为二阶深入挖掘,比较多个变量解释结果变量的变化。

请注意,图表中首先突出的是海军上方的蓝色条形图,其中显示当Division为Naval时,咨询是最高的。

当Type是咨询洞察力 - 图表时,CLV by Division

该图表并排显示数据条以进行比较。对于Naval,蓝色条表示Type is Consulting,灰色条表示所有其他类型。

看着解释性文字。正如预期的那样,解释性文本中第一次也是最重要的观察是海军高出6,780。Type is Customer可能会使结果恶化。

当Industry is Retail时,向下滚动到下一个洞察,CLV by Division。它也是一个二阶钻取图,它着眼于双变量组合,分部和行业是零售。这种见解是与分部相关的另一个统计相关模式。

当行业是零售洞察时,CLV by Division

每个师有两个酒吧。左侧的条形图表示仅包含零售行业时的部门平均值。右边的栏表示除零售以外的所有行业的分部平均值。通过比较这些条形,您可以了解此配对的行为有多么不同。

爱因斯坦发现标志着这种洞察力的原因在于,就分部而言,这个特定行业零售业与其他人群的行为不同。在这种情况下,每个柱子指的是工业零售时的分部。当我们将每个部门与其他人口进行比较时,我们将零售行业的这一部门与所有其他行业的部门进行比较。如果这两个组在统计上不同,则条形图以蓝色突出显示。

在图表中,将鼠标悬停在标准硬件蓝色栏上。

行业零售时按部门划分的CLV统计数据 - 标准硬件见解

和以前一样,此框显示有关该类别的总体,总计,平均值,标准差和计数差异的信息。此外,还显示了与常见的差异。在此示例中,当行业为零售时,标准硬件的常用差异为2,450。为什么?因为这是行业零售时标准硬件与所有其他行业标准硬件之间的差异。

现在,向下滚动查看,直到您看到CLV by Type,这是另一个重要的一阶分析。

CLV by Type insight

在划分之后,从统计学角度来看,Type是下一个最具说明性的单一变量。换句话说,Type是第二强的一阶项。

你可能也会喜欢...