数据分析与知识发现
    主页 > 综合新闻 >

细胞“社交”平台让研究人员随时随地进行数据

1665年,英国科学家罗伯特·胡克用自制的光学显微镜首次观察到了形似小隔间的细胞。多年以来,人体由细胞组成的事实已经是一个基本的,易于理解的概念。然而令人惊讶的是,科学家们仍在尝试确定组成我们的器官并有助于我们健康的各种细胞。

一种称为单细胞测序的相对较新的技术使研究人员能够根据特征(例如它们表达的基因)来识别和分类细胞类型。但是,这类研究会产生大量数据,其中包含数十万到数百万个细胞的数据集。

来自密歇根大学计算医学和生物信息学系的Joshua Welch博士开发了一种新算法。其团队使用在线学习,大大加快了这一过程,并为全世界的研究人员提供了一种使用常规笔记本电脑上发现的内存量来分析大型数据集的方法。该研究发表在《自然生物技术》杂志上。

Welch说:“我们的技术可以使任何拥有计算机的人都可以对整个生物体进行分析。” “这是这个领域未来的方向。”

Welch解释说,通常,对于像这样的项目,必须按到达的顺序使用先前的数据集对提交的每个单单元格数据集进行重新分析。他们的新方法允许将新数据集添加到现有数据集中,而无需重新处理旧数据集。它还使研究人员能够将数据集分解为所谓的迷你批处理,以减少处理数据集所需的内存量。

这一技术对于越来越多地生成数百万个细胞的集合至关重要。光是今年就已经有五到六篇论文用到了两百万个或以上的细胞数据,而仅用于存储原始数据所需的内存量就已经大大超过了任何一台计算机的容量。

他将在线技术比作Facebook和Twitter之类的社交媒体平台进行的连续数据处理,后者必须处理用户连续生成的数据,并持续更新每个人的信息流。“与大家在社交平台上发布推文类似的是,世界各地的实验室同样进行着实验,并发布数据。”

这一发现可以显著提升其他细胞数据分析量较大的项目的效率,例如人体细胞图谱项目等。Welch说:“了解人体细胞的正常功能是了解它们在疾病中如何出错的第一步。”

参考资料: