当这本书的第一版于2003年出版时,人类基因组计划(Human Genome Project)刚刚完成,耗资近30亿美元。当第二版于2009年出版时,第一个个体基因组序列(J.Craig Venter)刚刚发表,耗资约8000万美元。 让我告诉你一个非凡的故事吧。现在是2015年,获得一个个体的完整基因组序列仅需几千美元。斯特奇-韦伯综合征(Sturge-Weber syndrome)是一种罕见的神经皮肤疾病(影响大脑和皮肤),有时会使人虚弱:一些患者必须进行大脑半球切除术(切除一半大脑)以减轻严重的癫痫发作。我们从3个患有斯特奇-韦伯综合征的个体处获得配对样本:身体中受影响的部位(例如面部、颈部或肩部,发生的葡萄酒色斑)和推测未受影响的部位的活检。我们将DNA纯化并对这6套全基因组进行测序,比较了匹配的样本对,并鉴定出是GNAQ基因中一个碱基对的突变导致了斯特奇韦伯综合征。这种突变是体细胞的、嵌合的以及激活性的:体细胞的,是因为它在发育过程中发生,而不是从父母处遗传得到;嵌合的,是因为它只影响身体的一部分;而激活性的,是因为GNAQ编码一种蛋白质,这种蛋白质的突变形式会启动信号级联。我们发现,该基因的突变也会导致葡萄酒色斑胎记(影响着全球每300人中的1人或者说全球约2300万人)。当时我实验室的研究生Matt Shirley进行了生物信息学分析,从而得出了这一发现。他分析了约7000亿个DNA碱基。在找到突变后,他通过对几十个样本重新测序来确认它,测序覆盖深度通常超过10000倍。我们在2013年的《新英格兰医学杂志》(New England Journal of Medicine)上报道了这些发现。 这个故事说明了生物信息学和基因组学领域的几个方面。首先,我们处于DNA序列的可用性呈爆炸性增长的时期。这使我们能够以前所未有的方式解决生物学问题。第二,虽然获取DNA序列的成本很低,但知道如何分析它们是至关重要的。本书的一个目标就是介绍序列分析。第三,生物信息学为生物学服务:我们只有在一些生物过程(如处于疾病状态)的背景下才能解释DNA序列变异的重要性。在GNAQ突变的例子中,该基因编码一种蛋白质(称为Gαq),我们可以使用生物信息学工具对这种蛋白质进行大量深入的研究;我们可以评估它的三维结构,与它相互作用的蛋白质和化学信使,以及它所参与的细胞途径。第四,生物信息学和基因组学为我们提供了希望。对于斯特奇-韦伯综合征患者和葡萄酒色斑胎记患者,我们希望对这些疾病的分子水平的理解将引导治疗。 本书由一位生物学家撰写,他利用生物信息学工具帮助理解生物医学研究问题。我将在解决生物问题的背景下介绍相关概念。与早期版本相比,本书强调了Linux(或Mac)平台上的命令行软件,并辅以基于网络的一些方法。在“大数据”时代,以生物医学科学为知识核心的人与那些以计算机科学为重点的人之间存在着很大的分歧。我希望本书有助于弥合这两种文化之间的分歧。 写这样一本书是一种美妙而不断学习的经历。感谢我实验室中过去和现在的成员,他们教了我许多,包括Shruthi Bandyadka(有关R的建议)、Christopher Bouton、Carlo Colantuoni、Donald Freed(有关下一代测序或NGS的大量建议)、Laurence Frelin、Mari Kondo、Sarah McClymont、Nathaniel Miller、Alicia Rizzo、Eli Roberson、Matt Shirley(也提供了有关NGS的大量建议)、Eric Stevens和Jamie Wangen。关于具体章节的建议,我感谢:国家生物技术信息中心(NCBI)的Ben Busby对第1章、第2章和第5章的建议以及对第9章和第10章的详细评论;NCBI的Eric Sayers和Jonathan Kans在第2章中提出的有关EDirect的建议;Heiko Schmidt在第7章中就TREE-PUZZLE和MrBayes提出的建议;Joel Benington对第8章和第15~19章的详细评论以及有关教学的有益讨论;Harold Lehmann对各种信息学领域的指导;以及N.Varg对所有章节的有用评论。感谢多年来参与生物信息学和基因组学课程教学的同事。我从这些老师那里学到了很多东西,包括Dimitri Avramopoulos、Jef Boeke、Kyle Cunningham、Garry Cutting、George Dimopoulos、Egert Hoiczyk、Rafael Irizarry、Akhilesh Pandey、Sean Prigge、Ingo Ruczinski、Alan Scott、Alan F.Scott、Kirby D Smith、David Sullivan、David Valle和Sarah Wheelan。我很感谢与我一起教授基因组学研讨会的教师,包括Elana Fertig、Luigi Marchionni、John McGready、Loris Mulroni、Frederick Tan和Sarah Wheelan。本书包括数千篇参考文献,但我还是要向更多没有引用其工作成果的同事道歉。我还引用了900个网站,并再次向我未包括在内的许多开发者道歉。 我也感谢Kennedy Krieger研究所总裁兼首席执行官Gary W Goldstein博士的支持。Kennedy Krieger研究所每年遇到22000多名患者,其中大多数孩童患有神经发育障碍,从常见病症(如自闭症谱系障碍和智力残疾)到罕见的遗传性疾病。我有动力尝试应用生物信息学和基因组学的工具来帮助这些孩子。这个观点指导了我对这本书的写作,这本书大体上强调了生物信息学和基因组学中的所有主题与人类疾病的相关性。我们希望基因组学将引发对这么多可怕疾病的分子基础的理解,而这反过来可能有一天会引导更好的诊断、预防、治疗乃至治愈。 我很高兴地感谢WileyBlackwell的编辑——Laura Bell、Celia Carden、Beth Dufour、Elaine Rowan、Fiona Seymour、Audrie Tan和Rachel Wade——在整个项目中给予的慷慨支持。我很感激他们对本书价值的所有奉献。 就个人而言,我感谢我的妻子Barbara在我编写这本书的漫长过程中给予我的爱和支持。最后致我的女儿Ava和Lillian:我希望你们永远受到启发,对我们周围的世界永远充满好奇和疑问。 谨以此书献给我的家人们:我的父母Aihud和Lucille,我的妻子Barbara,我的女儿Kim、Ava和Lillian,以及我的侄女Madeline。
田卫东,美国华盛顿大学(圣路易斯)博士,哈佛大学医学院博士后,上海市浦江人才、上海市曙光学者。2008年起任复旦大学生命科学学院教授,博士生导师。目前兼任复旦大学遗传工程国家重点实验室学术带头人和生物信息学平台负责人,复旦大学附属儿科医院兼职教授,中国细胞生物学学会功能基因组信息学与系统生物学分会理事。
《生物信息学与功能基因组学》先前的版本受到了广泛的欢迎,它为这一爆炸性的新学科提供了最广泛的介绍。本书已经进行了彻底的更新和扩展,它仍然是学生、教师和希望对生物信息学和基因组学的跨学科领域有所了解的专业人士的“首选”资源。 在这个快速发展的领域中,采用了最新的方法和概念,本书的更新包括: ●对内容大规模的修订和重新组织,以方便教学和学习; ●增加了介绍下一代测序的新章节; ●提供了一个扩展的相关网站,由作者维护,提供完整的生物信息学教学课程,并经常对信息进行更新; ●更加强调计算方法,对软件工具如何工作以及命令行工具如何使用有清晰明确的指导,例如用于下一代序列分析软件,R编程语言和NCBI搜索工具。 本书还辅以丰富的插图和500多个图片和表格,其中许多是为本书新创建的,使得更加清晰和容易理解。每章都包含学习目标和知识框,说明关键技术以及相关数学和统计学的原理、观点和需要注意的部分、讨论问题、计算机问题、多项选择测验、推荐阅读材料和可免费获得的软件列表。教师可以访问本书的配套网站,以获取补充信息,例如每章末尾的问题答案以及书中的所有图表,以供教学使用。本书作者还创建了一个网站,为学生和教师提供了大量的相关资源。 本书是一部优秀的单本教材,适用于生物科学和计算机科学领域的本科生和研究生入门课程。对于使用生物信息学和基因组学工具研究特定问题的生物学家、开发计算机算法和数据库的生物信息学家和计算机科学家以及想要了解病毒、细菌、寄生虫或其他疾病基因组基础的医学研究人员和临床医生而言,本书也是不可或缺的资源。
第1部分DNA、RNA和蛋白质序列的分析 第1章引言【2】 1.1本书的组织架构【3】 1.2生物信息学:全景【4】 1.3各章节的组织架构【6】 1.4对学生和教师的建议:练习,寻找一个基因,研究一个基因组【7】 1.5生物信息学软件:两种风格【8】 1.6生物信息学和其他信息学学科【11】 1.7对学生的建议【11】 第2章序列数据的获取和相关信息【14】 2.1生物数据库的入门介绍【14】 2.2集中存储DNA序列的数据库【15】 2.3DNA、RNA和蛋白质数据库【19】 2.4信息的获取:用于标记和鉴别序列的索引编号【27】 2.5利用NCBI的基因资源进行基因信息的获取【31】 2.6使用命令行进行NCBI数据的获取【35】 2.7信息的获取:基因组浏览器【41】 2.8如何获取序列数据的例子:单个基因/蛋白质【44】 2.9生物医学文献的获取【50】 2.10展望【51】 2.11常见问题【51】 2.12给学生的建议【51】 2.13网络资源【51】 第3章双序列比对【58】 3.1引言【58】 3.2打分矩阵【66】 3.3在双序列比对中,PAM矩阵的实用性【76】 3.4比对算法:全局和局部【79】 3.5双序列比对的统计显著性【88】 3.6展望【91】 3.7常见问题【91】 3.8给学生的建议【92】 3.9网络资源【92】 第4章局部比对搜索基本工具BLAST【100】 4.1引言【100】 4.2BLAST搜索步骤【102】 4.3BLAST算法使用局部比对搜索的策略【114】 4.4BLAST的搜索策略【119】 4.5使用BLAST预测基因:找到新基因【128】 4.6展望【131】 4.7常见问题【131】 4.8对学生的建议【131】 4.9网络资源【132】 第5章高级数据库搜索【137】 5.1引言【137】 5.2特殊BLAST的网站【138】 5.3寻找远缘相关蛋白质:位置特异性迭代BLAST(PSI-BLAST)和DELTA-BLAST【141】 5.4谱搜索:隐马尔可夫模型【148】 5.5用类似于BLAST的比对工具快速搜索基因组DNA【154】 5.6将二代测序读段与参考基因组比对【159】 5.7展望【161】 5.8常见问题【162】 5.9给学生的建议【162】 5.10网络资源【162】 第6章多重序列比对【168】 6.1引言【168】 6.2五种主要的多重序列比对方法【170】 6.3用标准数据集进行研究:方法,发现和挑战【181】 6.4多重序列比对的数据库【182】 6.5基因组区域的多重序列比对【186】 6.6展望【192】 6.7常见问题【193】 6.8给学生的建议【193】 第7章分子水平的系统发育和进化【200】 7.1分子进化介绍【200】 7.2分子系统发育与进化的法则【201】 7.3分子系统发育:树的特征【211】 7.4树的类型【217】 7.5系统发育分析的五个步骤【221】 7.6展望【240】 7.7常见问题【241】 7.8给学生的建议【241】 7.9网络资源【241】 第2部分DNA、RNA和蛋白质在全基因组层次上的分析 第8章DNA:真核染色体【250】 8.1引言【250】 8.2真核生物基因组和染色体的一般特征【252】 8.3真核生物染色体的DNA重复片段【263】 8.4真核生物染色体的基因含量【273】 8.5真核生物基因组的调控区域【279】 8.6真核生物DNA的比较【283】 8.7染色体DNA的变化【284】 8.8测定染色体变化的技术【290】 8.9展望【292】 8.10常见问题【293】 8.11给学生的建议【293】 8.12网络资源【293】 第9章二代测序数据的分析【310】 9.1引言【310】 9.2DNA测序技术【311】 9.3二代测序的基因组DNA的分析【318】 9.4二代测序的特定应用【347】 9.5展望【348】 9.6常见问题【348】 9.7给学生的建议【349】 9.8网络资源【349】 第10章处理核糖核酸(RNA)的生物信息学工具【356】 10.1引言【356】 10.2非编码RNA【358】 10.3信使RNA介绍【370】 10.4微阵列和RNA-seq:全基因组层面的基因表达量测定【379】 10.5RNA分析的解读【384】 10.6展望【386】 10.7常见问题【386】 10.8给学生的建议【387】 10.9网络资源【387】 第11章基因表达:芯片和RNA-seq数据分析【395】 11.1引言【395】 11.2芯片分析方法1:NCBI的GEO2R工具【397】 11.3芯片分析方法2:Partek软件【409】 11.4芯片分析方法3:利用R分析GEO数据库【417】 11.5芯片数据分析:描述性统计学方法【423】 11.6RNA-seq【430】 11.7芯片数据的功能注释【438】 11.8展望【438】 11.9常见问题【439】 11.10对学生的建议【440】 11.11推荐读物【443】 第12章蛋白质分析和蛋白质组学【447】 12.1引言【447】 12.2蛋白质鉴定技术【450】 12.3蛋白质的四个方面【457】 12.4展望【476】 12.5常见问题【477】 12.6给学生的建议【477】 12.7网络资源【477】 第13章蛋白质结构【488】 13.1蛋白质结构总结【488】 13.2蛋白质结构原理【490】 13.3PDB数据库(Protein Data Bank)【500】 13.4蛋白质结构预测【513】 13.5固有无序蛋白质(INTRINSICALLY DISORDERED PROTEINS)【518】 13.6蛋白质结构与疾病【518】 13.7展望【519】 13.8常见问题【520】 13.9给学生的建议【520】 13.10推荐读物【523】 第14章功能基因组学【529】 14.1功能基因组学介绍【529】 14.2用于功能基因组学研究的八种模式生物【532】 14.3使用反向和正向遗传学的功能基因组学【541】 14.4功能基因组和中心法则【555】 14.5用蛋白质组学的方法研究功能基因组学【559】 14.6展望【572】 14.7常见问题【572】 14.8给学生的建议【573】 14.9推荐读物【574】 第3部分基因组分析 第15章生命树上的基因组【584】 15.1引言【584】 15.2优秀的互联网资源【593】 15.3基因组测序计划:年表【594】 15.4基因组分析计划:介绍【602】 15.5基因组分析项目:测序【608】 15.6基因组分析计划:组装【610】 15.7基因组分析计划:注释【616】 15.8展望【620】 15.9常见问题【620】 15.10给学生的建议【621】 15.11推荐读物【624】 第16章已完成测序的基因组:病毒基因组【632】 16.1引言【632】 16.2病毒的分类【634】 16.3解决病毒学问题的生物信息学方法【641】 16.4人类免疫缺陷病毒(HIV)【641】 16.5流感病毒【646】 16.6麻疹病毒【649】 16.7埃博拉病毒【650】 16.8疱疹病毒:从生殖细胞到基因表达【650】 16.9巨病毒【656】 16.10展望【659】 16.11常见问题【659】 16.12给学生的建议【659】 16.13网络资源【659】 第17章已完成测序的基因组:细菌和古细菌【668】 17.1引言【668】 17.2细菌和古细菌的分类【669】 17.3人类微生物组【681】 17.4细菌和古细菌的基因组分析【682】 17.5细菌基因组比较【696】 17.6展望【700】 17.7常见问题【700】 17.8给学生的建议【700】 17.9网络资源【700】 第18章真核生物基因组:真菌【711】 18.1引言【711】 18.2真菌的描述和分类【712】 18.3对酿酒酵母(Saccharomyces cerevisiae )的介绍【714】 18.4酿酒酵母的基因倍增和基因组倍增【723】 18.5半子囊菌类的比较分析【727】 18.6真菌基因组分析【731】 18.7展望【737】 18.8常见问题【737】 18.9给学生的建议【738】 18.10网络资源【738】 第19章真核基因组:从寄生生物到灵长类【746】 19.1引言【746】 19.2位于树底层的原生动物缺乏线粒体【748】 19.3单细胞病原体的基因组:锥虫和利什曼原虫【751】 19.4囊泡藻类(Chromalveolates)【753】 19.5植物基因组【763】 19.6后生动物底层附近的黏菌与子实体【771】 19.7后生动物【772】 19.8展望【792】 19.9常见问题【792】 19.10给学生的建议【793】 19.11网络资源【793】 第20章人类基因组【807】 20.1引言【807】 20.2人类基因组计划的主要结论【808】 20.3获得人类基因组数据的门户网站【809】 20.4人类基因组计划【813】 20.525条人类染色体【826】 20.6人类基因组变异【832】 20.7展望【843】 20.8常见问题【844】 20.9给学生的建议【844】 20.10推荐读物【848】 第21章人类疾病【852】 21.1人类遗传疾病:DNA变异的结果【852】 21.2疾病的种类【859】 21.3疾病数据库【872】 21.4鉴定疾病相关基因及其位点的方法【881】 21.5模式生物中的人类疾病基因【888】 21.6疾病基因的功能分类【893】 21.7展望【895】 21.8常见问题【895】 21.9给学生的建议【895】 21.10推荐读物【897】 附录【906】 1.词汇表【906】 2.自我检测题答案【921】
ISBN:978-7-122-34410-6
语种:汉文
开本:16
出版时间:2020-01-01
装帧:精
页数:922