通明学练教程-单细胞转录组测序

SCUBA（Sequential Coverage-Uncertainty Budget Allocation）算法是一种用于处理大规模、高维度数据的主动学习方法。它通过有效地分配预算来选择最有价值的数据进行标注，从而减少对大量数据的人工标注工作。 SCUBA算法的基本流程如下： 1. 初始化：首先，从整个数据集中随机选择一小部分样本进行人工标注，并将这些样本作为初始训练集。 2. 训练模型：使用初始训练集训练一个机器学习模型。 3. 预测和不确定性评估：用训练好的模型对未标注数据进行预测，并计算每个样本的不确定性。不确定性通常可以通过模型的预测概率或熵来衡量。 4. 预测覆盖度评估：计算每个样本的预测覆盖度，即该样本的预测结果在已有的标注数据中的覆盖率。如果一个样本的预测结果在已有的标注数据中没有出现过，那么它的预测覆盖度就为0。 5. 预算分配：根据每个样本的不确定性得分和预测覆盖度，分配预算给每个样本。预算的分配策略是使总的不确定性减小和总的预测覆盖度增大。 6. 标注和更新：根据预算分配的结果，选择一部分样本进行人工标注，然后将这些新的标注数据加入到训练集中，更新模型。 7. 重复步骤2-6，直到达到预设的迭代次数或者预算用完为止。 SCUBA算法的主要优点是能够有效地利用有限的标注预算，选择最有价值的数据进行标注，从而提高模型的性能。同时，由于它考虑了预测覆盖度，因此可以避免过度关注某些特定的样本类别，使得模型的学习更加全面。