生信通明教程-生物信息数据库

CATH是蛋白质结构分类的一个数据库，全称是"Class, Architecture, Topology, Homologous superfamily"。这个数据库提供了一种系统化的方法来组织和理解蛋白质的三维结构。 1. Class（类别）：这是最高级别的分类，根据蛋白质的整体形状进行划分。目前有四类：主要是α螺旋的（主要由α螺旋构成），主要是β折叠的（主要由β折叠构成），α/β混合的（由α螺旋和β折叠共同构成），以及小蛋白和其他（包括所有的单个域小于100个氨基酸的小蛋白，以及一些无法明确归入上述三类的蛋白）。 2. Architecture（架构）：这一级别进一步细化了蛋白质的三维结构。一个架构是由多个独立的结构域组成的，这些结构域在空间上的排列方式决定了整个蛋白质的架构。 3. Topology（拓扑）：在这个级别上，我们关注的是每个结构域内部的二级结构元素（如α螺旋和β折叠）是如何连接在一起的。拓扑描述了这些二级结构元素的顺序和方向。 4. Homologous superfamily（同源超家族）：这是最低级别的分类，基于蛋白质的进化关系。如果两个蛋白质具有相似的三维结构，并且可以追溯到一个共同的祖先，那么它们就被认为属于同一个同源超家族。 CATH数据库通过这四个层级的分类，为我们提供了一个全面而深入的理解蛋白质结构的方式。这对于生物学研究，尤其是对于药物设计和疾病治疗等领域，都具有重要的意义。