Dirichlet Multinomial Mixtures (DMM)的R实现

Dirichlet Multinomial MixturesCommunity typing with Dirichlet Multinomial MixturesDirichlet Multinomial Mixtures (DMM)是一种用于对微生物群落分析数据进行群落分型（或聚类）的概率方法。这是一个无限的混合模型，这意味着该方法可以推断出最佳数量的群落类型。请注意，群落类型的数量可能会

一个人旅行-

3725人浏览 · 2020-11-30 21:10:02

一个人旅行*-* · 2020-11-30 21:10:02 发布

Dirichlet Multinomial Mixtures

Community typing with Dirichlet Multinomial Mixtures

Dirichlet Multinomial Mixtures (DMM) 是一种用于对微生物群落分析数据进行群落分型（或聚类）的概率方法。这是一个无限的混合模型，这意味着该方法可以推断出最佳数量的群落类型。请注意，群落类型的数量可能会随数据大小而增长。

library(microbiome)
library(DirichletMultinomial)
library(reshape2)
library(magrittr)
library(dplyr)
# Load example data
data(dietswap)
pseq <- dietswap

# To speed up, only consider the core taxa
# that are prevalent at 0.1% relative abundance in 50% of the samples
# (note that this is not strictly correct as information is
# being discarded; one alternative would be to aggregate rare taxa)
pseq.comp <- microbiome::transform(pseq, "compositional")
taxa <- core_members(pseq.comp, detection = 0.1/100, prevalence = 50/100)
pseq <- prune_taxa(taxa, pseq)

# Pick the OTU count matrix
# and convert it into samples x taxa format
dat <- abundances(pseq)
count <- as.matrix(t(dat))

拟合 DMM 模型.，让我们将群落类型的最大允许数量设置为3，以加速示例。

fit <- lapply(1:3, dmn, count = count, verbose=TRUE)

##   Soft kmeans
##   Expectation Maximization setup
##   Expectation Maximization
##   Hessian
##   Soft kmeans
##     iteration 10 change 0.000029
##   Expectation Maximization setup
##   Expectation Maximization
##     iteration 10 change 0.000000
##   Hessian
##   Soft kmeans
##     iteration 10 change 0.030731
##     iteration 20 change 0.000110
##   Expectation Maximization setup
##   Expectation Maximization
##     iteration 10 change 0.000063
##   Hessian

判断拟合效果

lplc <- sapply(fit, laplace) # AIC / BIC / Laplace
aic  <- sapply(fit, AIC) # AIC / BIC / Laplace
bic  <- sapply(fit, BIC) # AIC / BIC / Laplace
#plot(lplc, type="b", xlab="Number of Dirichlet Components", ylab="Model Fit")
#lines(aic, type="b", lty = 2)
#lines(bic, type="b", lty = 3)

选择最佳模型

best <- fit[[which.min(unlist(lplc))]]

参数pi及theta

mixturewt(best)

##          pi     theta
## 1 0.3738027 159.10473
## 2 0.3188891  81.91265
## 3 0.3073082  64.24696

元素（otu）分配给不同cluster

ass <- apply(mixture(best), 1, which.max)

每个otu对每个组成群落的贡献

for (k in seq(ncol(fitted(best)))) {
  d <- melt(fitted(best))
  colnames(d) <- c("OTU", "cluster", "value")
  d <- subset(d, cluster == k) %>%
     # Arrange OTUs by assignment strength
     arrange(value) %>%
     mutate(OTU = factor(OTU, levels = unique(OTU))) %>%
     # Only show the most important drivers
     filter(abs(value) > quantile(abs(value), 0.8))     

  p <- ggplot(d, aes(x = OTU, y = value)) +
       geom_bar(stat = "identity") +
       coord_flip() +
       labs(title = paste("Top drivers: community type", k))
  print(p)
}

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ChatGPT 提示词：2024最新AIGC提示词大全

开放原子开发者工作坊

项目实战9—企业级分布式存储应用与实战MogileFS、FastDFS

企业级分布式存储应用与实战-mogilefs　　环境：公司已经有了大量沉淀用户，为了让这些沉淀用户长期使用公司平台，公司决定增加用户粘性，逐步发展基于社交属性的多样化业务模式，决定开展用户讨论区、卖家秀、买家秀、用户试穿短视频等业务，因此，公司新的业务的业务特征将需要海量数据存储，你的领导要求基于开源技术，实现对公司海量存储业务的技术研究和实现，你可以完成任务吗？总项目流程图，详见...

开放原子开发者工作坊

.NET Core开源API网关 – Ocelot中文文档

.NET Core开源API网关 – Ocelot中文文档原文:.NET Core开源API网关 – Ocelot中文文档Ocelot是一个用.NET Core实现并且开源的API网关，它功能强大，包括了：路由、请求聚合、服务发现、认证、鉴权、限流熔断、并内置了负载均衡器与Service Fabric、Butterfly Tracing集成。...