UniProt(Universal Protein Resource)是一个综合性的蛋白质数据库,它由欧洲生物信息学研究所(EMBL-EBI)、瑞士生物信息学研究所(SIB)和美国国家生物技术信息中心(NCBI)共同维护。UniProt的目标是为全球科研人员提供全面、准确和高质量的蛋白质数据。
UniProt数据库主要包括三个部分:UniProtKB(知识库)、UniParc(序列库)和UniRef(聚类库)。
1. UniProtKB:这是UniProt的核心部分,包含了所有已知蛋白质的详细信息,包括其氨基酸序列、功能注释、结构域信息、同源性信息、翻译后修饰信息等。UniProtKB又分为两个子库:Swiss-Prot和TrEMBL。Swiss-Prot是经过人工审核和注释的高质量蛋白质序列库,而TrEMBL则是通过自动化方法生成的蛋白质序列库。
2. UniParc:这是一个包含所有公开可用蛋白质序列的数据库,不论这些序列是否已经被注释或研究过。UniParc的主要目的是为了保存蛋白质序列的原始版本,以防止因后续的数据库更新或修改而导致的信息丢失。
3. UniRef:这个库将UniProtKB中的蛋白质序列按照90%以上的序列相似性进行聚类,形成UniRef50、UniRef90和UniRef100三个子库。这种聚类方式有助于减少大规模数据分析中的冗余,并可以提高计算效率。
总的来说,UniProt是一个非常重要的生物信息学资源,对于理解蛋白质的功能、结构和相互作用等方面的研究具有重要价值。
3.2 Protein Data Bank (PDB)
Protein Data Bank (PDB) 是一个全球性的数据库,用于存储和分享蛋白质、核酸以及大分子复合物的三维结构信息。它是由世界卫生组织(WHO)下属的国际生物化学与分子生物学联合会(IUBMB)赞助的一个非营利性项目。
PDB的历史可以追溯到1971年,当时研究人员开始使用X射线晶体学和核磁共振光谱法来解析蛋白质的三维结构。这些数据需要被妥善保存并提供给其他研究者使用,因此在1971年,美国布鲁克海文国家实验室的研究人员创建了第一个PDB文件。从那时起,PDB已经发展成为一个包含超过150,000个分子结构的大型数据库。
PDB中的每个结构都以原子级别进行描述,并且包括了所有原子的位置、类型和键长等信息。这些信息对于理解蛋白质的功能、设计药物以及进行基础科学研究都是非常重要的。
除了储存结构信息外,PDB还提供了许多工具和资源,帮助研究者们分析和解读这些数据。例如,PDB搜索引擎可以帮助用户查找特定的蛋白质结构;PDB-101则是一个教育资源中心,为教师和学生提供了关于蛋白质结构和功能的教育材料。
总的来说,Protein Data Bank是一个非常宝贵的资源,对生命科学领域的研究和发展起到了重要的推动作用。