1985年,我正在俄罗斯的莫斯科找工作,当时我正面临着一个困难的选择。一方面我在一个颇有声望的电子工程研究所获得了一个从事应用组合学研究的职位,另一方面,在莫斯科郊外的俄罗斯生物技术中心NIIGENETIKA,当时正在组建一个计算生物学小组。后一份工作的薪水是前一份的一半,而且连每周的食品包裹“zakaz”也没有,“zakaz”在当时食品匮乏的莫斯科是最重要的工作福利。我至今还不知道电子工程研究所中的人做的是哪种机密研究,因为在我没有签订保密协议之前,他们是不准泄露的。相反,NIIGENETIKA的Andrey Mironov则花了几个小时和我谈了一个崭新的超前的学科——计算分子生物学中的算法问题,于是我选择了NIIGENETIKA。我从没后悔过我的选择,虽然在一段时间里我不得不在莫斯科火车站收集空瓶子来补贴我在NIIGENETIKA的收入,在改革前的莫斯科,收集空瓶子是为数极少的挣外快的合法途径之一。 计算生物学对我而言是一门新的学科,我每个周末都泡在莫斯科列宁图书馆,那是惟一能找到计算生物学论文的地方。当时可用的书仅有Sankoff和Kruskal那本经典的“Time Warps,String Edits and Biomolecules:The Theory and Practice of Sequence Comparison”。由于1985年莫斯科实际上还没有供使用的复印机,我几乎把这本书的每一页都抄在了笔记本上。半年以后我意识到我已经看完了世界上所有的或几乎所有的计算生物学论文。哈,这不是什么了不起的事,这些论文中的一大部分是计算分子生物学的创立者David Sankoff和Michael Waterman写的,而且只有六本期刊需要细看。在接下来的7年里,我每个月去一次图书馆,阅读计算生物学这个领域中发表的所有文献。这样的情形没有持续很久。1992年,我察觉到计算生物学开始蓬勃发展了,因为我第一次没有时间看完所有已发表的计算生物学论文。 由于有些期刊连列宁图书馆也没有收藏,于是我向国外科学家发信索要文章,他们中的许多人好心地寄来了他们的文章预印本。1989年我收到了Michael Waterman寄来的沉重的包裹,里面有一沓即将出版的手稿。其中的一份用公式记述了一个未决问题,而我已经解出了此问题,我没有太担心证明过程就将我的解答寄给了Mike。后来Mike告诉我说,那封信是用非常“俄式的英语”写的,难以看懂,但是他对于有人能够通读他的论文一直到提出未决问题这一情节感到惊讶。不久之后,Mike邀请我去南加州大学和他一起工作,在1992年我讲授了我的第一堂计算生物学课。 本书是我在宾夕法尼亚州州立大学计算机科学系(1992~1995年)和南加州大学数学系(1996~1999年)讲授计算分子生物学课程的基础上完成的,它面向计算机科学专业和数学专业的研究生和高年级本科生。对生物信息学感兴趣的分子生物学家也会对本书的部分内容感兴趣。我也希望本书对计算生物学和生物信息学专业人员有所帮助。 本书的基本理论是阐述计算生物学中的算法思想,并说明了它们是如何同分子生物学和生物技术相联系的。为达到这个目的,本书有大量的“不含公式的计算生物学”内容,用简单的方式介绍了生物学动机和计算思想。这些对生物学和计算目标的简化叙述力求使进入这个新领域的计算机科学家和没有充分计算机技术背景的生物学家能够理解本书。例如,在“计算基因搜寻”一章中介绍了许多和搜寻囊肿性纤维化基因有关的计算问题,然后用公式表示了由这些问题导出的组合问题。每一章都有一节引言,叙述计算和生物学思想而无任何公式。本书着重于计算思想而非算法细节,并尽最大努力以简单的方式来介绍这些思想。毫无疑问,达到这一目标的惟一方法就是隐藏一些计算细节和生物学细节,但这在以后可能会被谴责为将计算生物学“卑俗化”。本书的另一个特点就是在每章的最后一节简要地叙述了一些超出本章内容的、重要的、最新的进展。 在计算机科学系开设的计算生物学课程通常先上2~3周的“简易分子生物学”导论。我注意到计算机专业的学生(通常对生物学一点儿也不懂)在一开始上生物学导论时如果不联系计算问题,他们的兴趣会很快减弱。如果给生物学家讲述算法而不联系实际的生物学问题,同样的情况也会发生。我发现同时介绍生物学和算法对保持学生在这方面的兴趣非常重要。“计算基因搜寻”一章符合这个目的,虽然这有意简化了生物学和算法的概念。我还发现有些计算生物学家没有清楚地看到计算生物学中不同领域之间的相互联系。例如,从事基因预测的研究人员可能对序列对比算法不甚了解。我尝试着去阐明计算分子生物学中不同领域所涉及的计算思想之间的联系。 本书的内容既包含了计算生物学中新兴的领域,也包含了其中一些相当老的领域。例如,“计算蛋白质组学”、“序列比较”和“DNA阵列”、“基因组重排”几章中的大部分内容还从未在其他的书中发表过。同时也有一些主题,比如在“限制酶切作图”一章中提到的是相当老的,其中所叙述的实验方法现在已经很少使用了。将这些相当老的计算思想包含在内的原因有两个:一是向新入门的人展示该领域中这些思想的来龙去脉,同时提醒他们计算生物学中的热点转移很快;二是这些计算思想常常在不同的应用领域里获得第二次生命。例如,限制酶切作图中那些几乎被遗忘的技术在计算蛋白质组学这个研究热点中得到新生。还有许多诸如此类的例子(比如一些和杂交测序有关的思想现在正用在大规模鸟枪法拼接上),所以我觉得同时包含老的和新的计算方法是重要的。 简要地谈一下本书中有关应用部分与理论部分间的孰轻孰重。毫无疑问,21世纪的生物学家必须要知道离散数学和算法的基本原理——至少能用公式来表示他们研究中导出的算法问题。在计算生物学中,将生物学问题恰当地公式化也许是研究中最困难的部分,至少和解这些问题同样困难。那么,我们如何教学生用计算术语来公式化地表示生物学问题呢?因为我不知道,所以我用一个故事代替。 20年前我从大学毕业,在莫斯科登了一则“数学咨询”的广告。我的客户主要是各个不同领域中的Cand.Sci.(俄语,类似于Ph.D.)学员,他们缺少良好的数学背景,为毕业证书(或至少是数学这部分)而希望得到帮助。我接触到从“机场清雪设备盘存的最优化”到“向特许经销商交付汽车的时间安排”大量不同领域的课题。在所有的项目中,最难的部分是断定这是一个怎样的计算问题并使其公式化,接下来的求解就是直接利用已有的方法了。 我永远忘不了一位来访者,他40来岁,彬彬有礼,体格健壮。他和别的客户不同,没有描述他的研究领域,而是让我解一个微分方程。一开始我很高兴,可结果却发现那个方程是没有意义的。要想出如何解决这个问题的惟一办法就是回到原始的应用问题并推导出一个新的方程。这位来访者对此有点踌躇,不过这是他获得Cand.Sci.学位的惟一办法,于是他开始透露一点他研究领域里的细节。到了最后,我领会到他研究的是让某个物体着陆在一个摇晃的平台上。这也使我明白了他为何从不给我他的电话号码,他是一位从事机密研究的军官,摇晃的平台是船,着陆的物体是飞机。我希望20年后揭露这个故事不会伤害他的军事生涯。 关于生物问题的公式化,大自然泄露的比那位军官还要少。此外,一些生物问题如果用足够多的公式来表示,则会变得太花哨,有时会遮蔽和掩盖计算思想。由于本书着重于计算思想而非技术细节,我有意用简化的公式来清楚地表达计算思想。这会使人感到本书太理论化,但我想不出别的方法来教授生物学中的计算思想。换句话说,要在真实的船上着陆真实的飞机之前,学生必须学会如何在玩具船上着陆玩具飞机。 我要强调一下,本书不打算一成不变地探讨计算生物学中的所有领域。当然,本书所选择的主题受我的爱好和研究兴趣的影响。计算生物学中的一些重大领域——其中大部分是值得注意的——没有在书中涉及,如DNA统计、遗传作图、分子进化、蛋白质结构预测和功能基因组。这些领域中的每一个都可以单独写成一本书,其中有些已经完成了。例如,Waterman在1995年写的书中【357】极好地介绍了DNA统计,Gusfield在1997年写的书中【145】详细地解释了字符串算法,Salzberg等在1998年写的书中【296】有几章全面地描述了蛋白质结构预测。Durbin等在1998年写的书【93】和Baldi与Brunak在1997年写的书【24】是着重于隐马氏模型和机器学习的专著。Baxevanis与Ouellette在1998年写的书【28】是一本优秀的生物信息学实用指南,那本书更注重算法的应用而非算法本身。 我要感谢许多曾经教授给我计算分子生物学各方面知识的人。Andrey Mironov教导我的常识也许是任何应用研究中最重要的部分。当我从莫斯科来到洛杉矶的时候,Mike Waterman是我科学研究和生活上的最好的导师。尤其是他耐心地教导我,每一篇准备发表的论文都必须至少反复查看十几遍。虽然这个规矩使本书的出版延迟了几年,但我仍将它认真地传授给我的学生。我以前的学生Vineet Bafna和Sridhar Hannenhalli热心地教我他们所了解的知识,并加入了我这个艰难、长期的项目。我还要感谢Alexander Karzanov教我组合最优化,其中一些思想在我的计算生物学研究中非常有用。 我要感谢我的同事们和合著者:Mark Borodovsky,我和他共同研究过DNA统计,1985年他使我相信计算生物学有一个远大的前景;Earl Hubbell,Rob Lipshutz,Yuri Lysov,Andrey Mirzabekov和Steve Skiena是我做DNA阵列研究时的同事;Eugene Koonin,在第一个细菌基因组测序完成前,我就和他试着分析完整的基因组;Norm Arnheim,Mikhail Gelfand,Melissa Moore,Mikhail Roytberg和SingHoi Sze是我做基因搜寻时的同事;Karl Clauser,Vlado Dancik,Maxim FrankKamenetsky,Zufar Mulyukov和Chris Tang是我做计算蛋白质组学时的同事;Eugene Lawler,Xiaoqiu Huang,Webb Miller,Anaoly Vershik和Martin Vingron是我做序列比较时的同事。 我还要感谢许多同事,我和他们一起讨论计算分子生物学的各个方面,这都直接或间接地影响到本书:Ruben Abagyan,Nick Alexandrov,Stephen Altschul,Alberto Apostolico,Richard Arratia,Ricardo BaezaYates,Gary Benson,Piotr Berman,Charles Cantor,Radomir Crkvenjakov,KunMao Chao,Neal Copeland,Andreas Dress,Radoje Drmanac,Mike Fellows,Jim Fickett,Alexei Finkelstein,Steve Fodor,Alan Frieze,Dmitry Frishman,Israel Gelfand,Raffaele Giancarlo,Larry Goldstein,Andy Grigoriev,Dan Gusfield,David Haussler,Sorin Istrail,Tao Jiang,Sampath Kannan,Samuel Karlin,Dick Karp,John Kececioglu,Alex Kister,George Komatsoulis,Andrzey Konopka,Jenny Kotleman,Leonid Kruglyak,Jens Lagergren,Gadi Landau,Eric Lander,Gene Myers,Giri Narasimhan,Ravi Ravi,Mireille Regnier,Gesine Reinert,Isidore Rigoutsos,Mikhail Roytberg,Anatoly Rubinov,Andrey Rzhetsky,Chris Sander,David Sankoff,Alejandro Schaffer,David Searls,Ron Shamir,Andrey Shevchenko,Temple Smith,Mike Steel,Lubert Stryer,Elizabeth Sweedyk,Haixi Tang,Simon Tavarè,Ed Trifonov,Tandy Warnow,Haim Wolfson,Jim Vath,Shibu Yooseph等。 我和麻省理工学院出版社的Bob Prior和Michael Rutter合作很愉快。我要感谢Amy Yeager编辑了本书,Mikhail Mayofis设计了封面,Oksana Khleborodova举例说明了基因预测的算法步骤。我还要感谢那些曾经支持过我研究的部门:能源部、美国国立卫生研究院和美国国家科学基金会。 最后,很感谢Paulina和Arkasha Pevzner好心地保持安静并容忍我在写书时的心不在焉。 编者
计算分子生物学是数学、计算机科学和生物科学交叉的新兴领域之一。本书覆盖了算法和组合问题的主要领域,并揭示了这些问题是如何同分子生物学和生物技术相联系的。本书包含一个内容丰富的“无公式的计算分子生物学”部分,用相对简单的方式介绍了生物学概念和计算思想,但涉及的内容却是许多基因组基本问题及其结果的核心思想。本书力求用通俗的写法表达如何用深刻的数学思想解释复杂的生物难题,这使得没有经过生物学训练的计算机科学家和只有有限的计算机科学背景的生物学家都能够理解本书。
1计算基因搜寻1 11引言1 12遗传作图1 13物理作图4 14测序6 15相似性搜寻8 16基因预测9 17突变分析10 18比较基因组11 19蛋白质组学13 2限制酶切作图15 21引言15 22双酶切问题16 23双酶切问题的多重解17 24着色图中的交错圈20 25交错欧拉圈的变换21 26物理图谱与交错欧拉圈23 27部分酶切问题25 28同效集26 29若干其他的问题和方法28 291光学作图28 292加探针部分酶切作图29 3图谱装配30 31引言30 32非惟一探针的作图33 33惟一探针的作图36 34区间图37 35用限制酶切片段指纹图谱作图39 36若干其他的问题和方法41 361LanderWaterman统计41 362筛选克隆文库41 363放射杂交作图42 4测序44 41引言44 42重叠、排列和共有序列45 43双管鸟枪测序46 44若干其他的问题和方法47 441最短超字符串问题47 442DNA测序的结束阶段48 5DNA阵列49 51引言49 52杂交测序51 53SBH和最短超字符串问题52 54SBH和欧拉路问题53 55惟一序列重构的概率56 56字符串重排57 572最优欧拉圈60 58杂交法定位测序62 59DNA阵列的设计62 510DNA阵列的分辨率64 511多探针阵列与均匀阵列的比较65 512DNA阵列的制造66 513若干其他问题和方法69 5131利用通用碱基的SBH69 5132自适应SBH70 5133SBH类型的鸟枪测序法70 5134DNA阵列的保真探针70 6序列比较71 61引言71 62最长共同子序列问题73 63序列联配75 64局部序列联配76 65有缺口罚分的联配77 66空间效率高的序列联配77 67杨氏表79 68最长共同子序列的平均长度82 69广义序列联配和对偶性84 610序列比较的原始对偶方法86 611序列联配和整数规划87 612近似字符串匹配88 613依靠数据库的序列比较89 614多重过滤90 615若干其他的问题和方法92 6151参数的序列联配92 6152联配统计量和相变92 6153次优序列联配93 6154串联重复片段的联配93 6155筛选数据库中的搜索结果93 6156文本之间的统计距离93 6157RNA折叠94 7多重联配95 71引言95 72计算多重联配的得分96 73装配成对联配97 74多重联配的近似算法98 75装配l路联配99 76点阵和图像重构100 77点阵相乘的多重联配101 78若干其他的问题和方法102 781借助于进化树的多重联配102 782在编辑图中切割角102 8发现DNA中的信号103 81引言103 82Edgar Allan Poe和DNA语言学104 83适合傻子的最好的赌博106 84Conway等式107 85DNA中的频繁词108 86共有词的分析110 87CG岛和“公平赌场”111 88隐马氏模型112 89Elkhorn赌场和隐马氏模型参数估计114 810剖面隐马氏模型联配114 811吉布斯抽样116 812若干其他的问题和方法116 8121找出带缺口的信号116 8122在带偏倚频率样本中找出信号116 8123信号寻找中字母表的选择117 9基因预测118 91引言118 92基因预测的统计学方法119 93基于相似性的基因预测方法121 94剪接联配123 95反向基因搜索和cDNA中外显子定位126 96关于基因的多次提问策略127 97可变剪接与癌症128 98若干其他的问题和方法130 981基因预测的隐马氏模型130 982细菌基因预测131 10基因组重排132 101引言132 102断点图141 103难以排序的排列142 104期望的反序距离143 105有符号排列145 106交叉图和障碍146 107排列的等价变换149 108搜索安全反序153 109清除障碍156 1010反序距离的对偶定理160 1011反序排序算法163 1012人基因组变换成老鼠基因组164 1013加帽染色体168 1014帽子和尾部171 1015基因组距离的对偶定理173 1016基因组重复175 1017若干其他的问题和方法175 10171基因组重排和系统发育研究175 10172依照反序排序的快速算法176 11计算蛋白质组学177 111引言177 112肽测序问题178 113谱图180 114学习离子类型182 115给谱图中的路径打分183 116肽测序与反对称路径185 117肽鉴定问题186 118谱的卷积186 119谱联配188 1110依靠谱联配肽191 1111若干其他的问题和方法192 11111从蛋白质组学到基因组学192 11112大尺度蛋白质分析192 12问题193 121引言193 122限制酶切作图193 123图谱装配195 124测序196 125DNA阵列197 126序列比较199 127多重联配202 128探测DNA中的信号203 129基因预测203 1210基因组重排204 1211计算蛋白质组学206 13必须了解的分子生物学208 参考文献211 索引230
ISBN:7-5025-5649-4
语种:中文
开本:16
出版时间:2004-03-20
装帧:平装
页数:240