
小提琴图是一种结合了箱线图和密度图优点的数据统计图,因其形状酷似小提琴而得名。
1 小提琴图有什么用?
我们用一个通俗的例子说明。假如有2个班级:A班和B班,这两个班的某一次考试的平均分都是75分,那是不是说明大家都考75分左右?是不是说明这两个班级的学生情况都差不多?不一定。
当你只需要知道“平均是多少”时,那看平均值或中位数就行。但如果你想知道“这个平均值是如何产生的,是大部分人都在平均线附近?还是学霸和学渣对半分导致了平均值”?那么你就需要看小提琴图。
2 小提琴图怎么看?
那具体怎么解读一张小提琴图呢?这个图主要由两个部分构成:外部的密度图以及内部的箱线图。
密度图(Density Plot)
展开剩余74%这是小提琴图最具特色的部分,也就是上图所示的左右对称的黄色区域。它反映的是数据在不同数值上的分布密度。图形越宽的地方,表示在这个数值范围内的数据越多,越窄,说明该区域的数据越少。
箱线图(Box Plot)
在琴身,也就是密度图的内部,有一个类似“箱子”的矩形区域,这就是箱线图。它能提供关键的统计信息,帮助我们快速判断数据的集中趋势和离散程度。
箱线图包含以下元素:
1. 中位数:白色圆点,代表数据的中间值。表示有一半数据比它大,一半比它小。
2. 第一四分位数(Q1):箱子的下边界,表示有25%的数据低于这个值。
3. 第三四分位数(Q3):箱子的上边界,表示有75%的数据低于这个值。
4. 四分位距(IQR):IQR=Q₃-Q₁,也就是箱子的高度。矩形区域越长,说明中间 50% 的数据越分散,反之则说明越集中。
5. 最小值和最大值:分别对应数据的最低值和最高值。
3 什么时候会用到小提琴图?
小提琴图经常会出现在单细胞RNA测序(scRNA-seq)这类前沿研究中。
研究者们可以将数万个细胞分成不同的类型(比如免疫细胞、神经细胞等),然后利用小提琴图来比较某个关键基因在这些不同细胞类型中的表达量有何不同。
每一把“小提琴”代表一种细胞类型,“琴身”的形状能直观地反映该基因在这种细胞类型中的表达量分布。
如果我们发现某把“小提琴”的上半部分很宽,下半部分很窄,那就说明大部分这种类型的细胞中的该基因表达量都很高。反之,若图形底部宽、顶部窄,则表明表达量普遍偏低。
如果“琴身”中间凹陷,甚至呈现双峰或多峰,则意味着这种类型的细胞内部可能存在异质性——比如可进一步细分为高表达和低表达两个亚群,可能对应不同的功能状态或分化阶段。
毕合生物(www.bihebio.com)提供服务内容:分子生物学、免疫, 重组蛋白及ELISA相关、活性小分子化合物、高端化学、材料化学、细胞资源库与培养相关、生命科学、天然产物
发布于:上海市富灯网提示:文章来自网络,不代表本站观点。