计算机已进入了我们日常生活的每一个方面。很清楚,科学家和工程师们在将计算机用于解决实际问题的这个过程中起到了一个领导作用。在化学研究中,化学家们很早就认识到,大量数据的处理只能依靠电子设施,将数据存储于数据库中来完成。只有通过这种方式,大量现存的化合物(3500万)的数据才能被处理。这样,早在20世纪60年代,有关化学数据库的工作就已启动。更进一步,有关化合物结构与其物理、化学或者是生物性质之间的关系是非常复杂的,这就要求有高度复杂的计算,或是要求在对相应数据进行分析后进而对这些性质进行预测。很多国家的化学协会都意识到计算机在各自领域的重要性,并成立了相应的分会(分部),这些分会的主要任务就是怎样将计算机用于化学研究。 然而,从一开始,在为进行量子力学计算而用计算机的理论化学家和采用计算机来进行信息处理和数据分析的化学家之间就存在着一条鸿沟。在美国,就存在着两个分部,即计算化学分部和化学信息分部。在德国,存在着理论化学分部从属于“Deutsche Bunsen-Gesellsschaft fur physikalische chemie”和化学信息分部从属于“Gesellsschaft Deutsche chemie$quot$ 。事实上,在1989年,化学信息分部更名为化学-信息-计算机分部(Chemie-information-computer,CIC) ,以承认采用计算机来处理化学信息的重要性。在这一分部工作的科学家非常积极进行着计算机在化学中应用研究的推广工作。在1987年,组成了两个研讨班(workshop) ,一个是化学软件的开发,另一个是分子模拟,从那以后这两个研讨班就每年都进行一次。 另一方面,德国联邦研究技术部(German Federal Minister of Research and Technology,BMFT后改名为BMBF)于20世纪80年代启动一个资助所谓的科学信息中心(Fachinformationszentren,FIZ)的项目,而且,也开始建立数据库。化学家们都十分庆幸政治家和专家们认识到了化学数据库的重要性。这样,一些目前在国际上公认的知名数据库也开始启动,如Beilstein有机化合物数据库;Gmelin无机和金属无机化合物数据库;Chem Inform RX反应数据库;以及SpecInfo波谱数据库。 然而,尽管这些事件的发生,我们还必须认识到化学家们还只是逐步在接受“计算机是一种很需要的、日常工作的工具”的说法。但是,他们逐渐地(或勉强地)在接受这样一种说法:我们在经常使用数据库来检索信息,我们在经常使用量子化学或是分子力学的程序计算(大多数是事后的),以增加我们对化学现象的理解。更进一步,随着组合化学和高通量筛选的出现,我们可以清楚地看到,由这些技术所产生出来的潮水般的信息是只能由计算机方可处理的。 这样,计算机将继续深入化学的各个方面,我们也必须为我们的下一代化学家作出准备,使他们能尽快地熟悉这些计算机方法。实际上,我们也将看到,为解决化学研究中出现的问题,在化学中,不同的计算机应用方法正在不断地增加。所以,从化学整体的观点来对这些方法进行梳理是有必要的。将在化学中应用不同的计算机方法归类并整理,并将它们组成一门自身的分支学科,化学信息学。 在这本教科书中,我们将化学信息学进行了全面总结,并将它们集成起来成为课程,可以作为化学信息学整个课程的一个基础。 这本书所包含的内容可以说是建立在我们研究小组25年来研究与发展的成果之上的。所以,首先我得感谢我所有的,现在和过去的同事,感谢他们与我一道共同在这一新的研究领域进行的冒险和探索。事实上,这本教科书完全是由我们研究小组的成员完成。这样,我们可以方便地对全书各章进行调整,以达到使全书在内容取舍方面达到平衡,并尽量展示整个化学信息学领域的成果。然而,每个作者的个人表达的写作方式和特点在此过程中是不可能完全消失的,我们希望这可能还能让读者在阅读和学习过程中体会到某些生动的经验。将此书的写作置于他们日常工作的首位,无论如何将是一项艰巨的任务。所以,在此我必须感谢他们与我一道完成这一旅行。 我们还同样要感谢德国联邦教育和研究部(German Federal Minister of Education and Research,BMBF)对由科学信息中心(FIZ)化学部组织的“化学中的网络教育”的资助,就是在此项目中,我们为化学信息学发展了网络学习(eLearning)的工具。 此外,我们感谢Wiley-VCH出版社的Gudrun Walter博士在完成此书过程中对我们的鼓励,感谢Romy Kirsten博士在处理此书编辑中的愉快合作。 我们谨希望这本教科书将引起广大读者对化学信息学的兴趣,并希望此书能使他们为此研究领域而感到激动,就像我们经常为之激动一样。 Johann Gasteiger2003年5月,于ErLangen
本书系统介绍了化学信息学的各个研究方向,深入浅出地评述了化学信息学各领域的现状和今后的发展动向。本书重点阐述了化学分子结构及反应的表征,数据类型与数据库,检索方法,数据分析方法,以及化学信息学在结构解析,反应模拟,合成与药物设计方面的应用。同时还介绍了常用计算机软件与因特网资源。适用于化学系高年级本科生和研究生教材,同时了也可为从事化学和药学的科研人员提供参考。
第1章 导言1 11 化学的研究领域1 12 化学家的基本问题2 13 化学信息学的范畴4 14 化学信息学的学习6 15 主要任务8 151 目标物的表征8 152 数据8 153 学习9 16 化学信息学的历史9 161 结构数据库9 162 定量结构与活性关系10 163 分子模拟10 164 结构解析10 165 化学反应与合成设计10 17 本书的内涵11 18 化学信息学的教学12 第2章 化合物的表示法13 21 引言13 22 化学命名15 221 化学命名的发展16 222 化学元素的表达16 2221 元素的描述16 223 (无机)化合物的经验式的描述16 2231 现行表示法17 224 有机化合物的经验式表示法17 2241 现行表示法17 225 无机和有机化合物的系统命名17 23 线性符号表示法19 231 Wiswesser线性符号表示法19 2311 应用21 232 ROSDAL21 2321 应用22 233 SMILES编码22 2331 应用24 234 Sybyl线性符号表示法24 2341 应用25 24 结构的编码26 241 图论26 2411 图论基础27 242 矩阵表达29 2421 邻接矩阵29 2422 距离矩阵30 2423 原子连接矩阵30 2424 关联矩阵30 2425 键矩阵30 2426 键-电子矩阵31 243 连接表33 244 化学结构的输入与输出35 245 标准的结构交换格式37 246 指南:Molfile和SDfile39 2461 Molfile的结构40 2462 SDfile的结构43 2463 库和工具箱43 25 结构信息的表达45 251 环识别45 2511 最小环数目46 2512 所有的环46 2513 最小基本环47 252 表达的无歧义性和惟一性48 2521 结构异构体和同构48 2522 标准化49 253 摩根算法50 2531 指南:摩根算法51 26 连接表的不足53 261 用连接表来表达分子结构的不足53 262 用电子体系表达分子结构54 2621 基本概念54 2622 简单的单键和双键54 2623 共轭性和芳香性54 2624 π体系的正交性56 2625 非键轨道56 2626 带电物质和自由基56 2627 电离状态57 2628 缺电子化合物57 2629 有机金属化合物57 263 从VB表达中产生RAMSES58 27 化合物结构的特殊标记58 271 Markush结构59 272 碎片编码59 2721 应用60 273 指纹60 2731 Hashed指纹60 274 Hash编码61 2741 应用62 28 立体化学的表征62 281 基本概念62 282 分子手性和构型异构体的表征64 2821 手性的探测与表征66 283 排序列表67 284 旋转序列68 285 置换说明68 286 Molfile和SMILES中的立体化学69 2861 Molfile中的立体化学70 2862 SMILES中的立体化学71 287 指南:通过置换基团来解决立体化学问题72 2871 四价碳的立体化学73 2872 双键的立体化学75 29 三维结构的表征77 291 分层介绍化学结构表征77 292 三维结构的表征78 293 为什么需要三维结构以及怎样获得三维结构80 294 三维结构的自动生成82 295 获取所有构象:何谓构象分析?88 296 全体构象的自动生成89 297 指南:三维结构编码(PDB, STAR, CIF, mmCIF) 95 2971 简介95 2972 PDB文件格式96 2973 STAR文件格式和字典102 2974 晶体信息文件(CCDC)103 2975 mmCIF文件格式105 2976 软件105 210 分子表面106 2101 范德华表面108 2102 Connolly表面109 2103 溶剂可及表面109 2104 溶剂排斥表面110 2105 酶腔表面(Enzyme Cavity Surface, 联合表面)110 2106 基于等值的电子密度表面110 2107 用实验方法获取表面111 211 分子模型可视化111 2111 历史回顾111 2112 结构模型113 21121 金属线结构模型113 21122 帽棍模型113 21123 球棍模型113 21124 空间填充模型114 2113 生物大分子模型115 21131 圆柱体模型115 21132 带状模型116 21133 管状模型116 2114 晶体图模型(Crystallographic Model)116 2115 分子属性的可视化116 21151 基于等表面的性质(Properties Based on Isosurfaces)116 212 工具:化学结构绘制软件--分子编辑软件与显示软件118 2121 概述118 2122 分子编辑器119 21221 单机应用120 21222 基于网页(web)的应用124 2123 分子显示器(Molecule Viewers)127 21231 单机应用127 21232 基于网页(web)的应用129 213 基于网页(Web)的三维结构产生工具137 第3章 化学反应表达148 31 引言148 32 反应类型151 33 反应中心151 34 化学反应度153 341 物化效应153 3411 电荷分布154 3412 诱导效应155 3413 共振效应155 3414 极化效应155 3415 立体效应155 3416 立体电子效应156 342 化学反应度定量的简单方法156 3421 前沿分子轨道理论156 3422 线性自由能关系(Linear Free Energy Relationships, LFER) 157 3423 经验反应度公式159 35 反应分类159 351 模型驱动方法160 3511 Hendrickson方案160 3512 Ugi方法161 3513 信息化学反应分类166 352 数据驱动的方法166 3521 HORACE166 3522 反应前景167 36 反应的立体化学170 37 指南:反应的立体化学170 第4章 数据175 41 引言175 411 数据、信息和知识175 412 数据采集途径176 42 数据采集177 421 数据质量的重要性177 422 数据复杂度179 423 实验数据179 424 数据交换180 4241 DAT文件180 4242 JCAMP-DX格式181 4243 PMML182 425 实际数据和它们潜在的不足183 43 数据预处理184 431 中心化、定标度和自标度184 432 高级方法186 4321 快速傅里叶变换(Fast Fourier Transformation, FFT) 186 4322 小波变换(Wavelet transformation,WT)187 4323 奇异值分解(Singular Value Decomposition,SVD) 187 433 变量选择188 4331 基于遗传算法(genetic algorithm,GA)的方法188 4332 基于正交化(orthogolization)的方法189 4333 基于模拟退火(Simulated Annealing,SA)的方法190 4334 基于主成分分析(principal component analysis,PCA) 的方法190 434 目标选择(或称样本选择)190 44 准备验证模型质量的数据192 441 训练集和测试集192 442 测试数据集的收集193 第5章 化学数据库和数据资源196 51 引言196 52 基本数据库理论197 521 信息系统中的数据库197 522 搜索引擎198 523 访问数据库199 524 数据库系统类型200 5241 层次数据库系统200 5242 网络模型202 5243 关系模型203 5244 基于对象的模型204 53 数据库分类205 531 文献数据库205 532 事实数据库206 5321 数字数据库206 5322 化合物目录206 5323 研究项目数据库207 5324 元数据库207 533 结构数据库207 534 反应数据库207 54 文献数据库207 541 化学文摘文件207 542 SCISEARCH208 543 Medline(在线医药文献、分析和获取系统)208 55 指南:使用化学文摘系统208 551 在线访问209 552 用SciFinder Scholar 2002访问CAS209 5521 入门209 5522 各种主题检索210 56 特性(数字)数据库213 561 Beilstein数据库214 562 Gmelin214 563 DETHERM215 57 指南:检索Beilstein数据库【23】215 571 例1结构与事实联合检索215 572 例2反应检索218 58 波谱数据库221 581 SpecInfo222 59 晶体结构数据库222 591 ICSD223 592 CSD223 593 PDB223 510 分子生物学数据库224 5101 GenBank (基因序列库)224 5102 EMBL224 5103 PIR(蛋白质信息资源)225 5104 SWISS-PROT225 5105 CA 登录数据库225 511 结构数据库225 5111 CAS登录数据库225 5112 国家癌症研究所(NCI)数据库226 512 化学反应数据库226 5121 CASREACT227 5122 ChemInform RX227 513 指南:检索ChemInform反应数据库227 5131 简介227 5132 例1反应检索228 5133 例2高级反应检索229 5134 对检索结果的反应进行分类230 514 专利数据库231 5141 INPADOC232 5142 世界专利索引(WPINDEX) 233 5143 MARPAT233 515 互联网上的化学信息233 516 指南:搜索互联网上的化学信息234 517 指南:搜索互联网的环境科学信息236 5171 简介:从互联网上提取环境科学信息的困难236 5172 从互联网上提取环境科学信息的方法237 51721 元数据库和门户网站237 51722 搜索引擎238 51723 数据库239 518 工具:互联网(化学在线数据库)240 第6章 化学结构检索249 61 引言249 62 全结构检索250 63 子结构检索253 631 基本思想253 632 回溯算法255 633 回溯算法的优化257 634 筛法258 64 结构相似性搜索258 641 结构相似性基本概念258 642 结构相似性测度259 643 结构相似性搜索过程265 6431 结构相似性搜索过程265 6432 结构描述子的选择与编码266 6433 相似性测度的选择267 6434 查询目标的说明267 6435 相似度得分267 6436 应用领域268 65 三维结构搜索方法268 第7章 物理化学参数的计算273 71 计算性质的经验方法273 711 简介273 712 原子贡献的加和性274 7121 杂化状态275 713 键贡献的加和性276 714 基团贡献的加和性276 715 环效应278 716 药物-受体结合自由能279 717 衰减模型281 7171 电荷分布的计算281 7172 极化效果285 72 分子力学287 721 简介287 722 没有原子类型的非力场计算288 723 通用力场的函数形式288 7231 键的伸缩289 7232 键角弯曲291 7233 扭转项291 7234 平面外弯曲292 7235 静电相互作用293 7236 范德华作用294 7237 剪力项295 724 可利用的力场296 7241 用于小分子的力场297 7242 用于生物分子的力场299 73 分子动力学304 731 简介304 732 分子的连续运动305 733 方法306 7331 算法306 7332 加快计算的方法307 7333 溶剂效应308 7334 周期边界条件311 734 不变的能量、温度或压力?311 735 远程作用力312 736 分子动力学技术的应用313 74 量子力学318 741 分子轨道理论318 742 半经验分子轨道理论322 743 从头计算分子轨道理论324 744 密度泛函理论329 745 量子力学可计算的性质331 7451 净原子电荷331 7452 偶极矩和更高的多极矩332 7453 极化率332 7454 轨道能量333 7455 表面描述子333 7456 局部电离势333 746 用于很大的分子的量子力学技术334 7461 线性缩放方法334 7462 杂化QM/MM计算334 747 量子力学方法在化学信息学中的发展335 第8章 结构描述子的计算341 81 引言341 811 结构描述子的定义342 812 结构描述子的分类342 82 关键结构和1D指纹343 821 距离和相似量度标准344 83 拓扑描述子345 831 图论的一些基本原理346 832 邻接矩阵346 833 Laplacian矩阵347 834 距离矩阵347 835 Wiener指数348 836 Randic连接指数348 837 拓扑自相关向量349 838 特征树349 839 更深入的拓扑描述子350 84 3D描述子350 841 3D结构产生350 842 3D自相关350 8421 二甲苯异构体的例子351 843 基于电子衍射编码的3D分子结构表征(3D MoRSE Code) 352 844 径向分布函数编码352 85 手性描述子【34】354 851 手性定量描述子354 852 连续函数的手性度量(CCM) 355 853 手性代码356 86 指南:独立于构象的手性和取决于构象的手性代码【34】356 861 简介356 862 独立于构象的手性代码(CICC) 357 8621 预备计算知识357 8622 与手性中心键连的相邻原子357 8623 组合枚举357 8624 组合特征357 8625 代码产生358 863 取决于构象的手性代码(CDCC) 358 8631 总体印象358 8632 组合枚举358 8633 组合中4个原子的分级359 8634 组合特征359 8635 代码产生361 8636 应用举例361 87 深入的描述子363 871 比较分子场分析(CoMFA) 363 872 BUCT描述子364 873 4D-QSAR364 874 HYBOT描述子364 88 独立于结构的描述子365 89 结构描述子的性质366 第9章 数据分析方法372 91 引言372 92 机器学习方法372 921 机器学习过程373 922 无监督学习373 923 有监督学习374 93 决策树374 94 化学计量学375 941 多元统计方法375 942 相关376 943 多元线性回归分析377 944 主成分分析378 945 主成分回归380 946 偏最小二乘/特征结构投影380 947 例子:矿物水样中的离子浓度380 948 工具:在线数据分析服务(ELECTRAS) 381 95 神经网络383 951 人脑的模拟:生物神经元与人工神经元383 952 网络385 9521 训练385 9522 学习策略385 953 Kohonen网络386 9531 结构386 9532 训练386 954 评论:Kohonen网络在橄榄油分类中的应用 (运用ELECTRAS) 【9】387 955 对传神经网络389 9551 结构389 9552 训练390 956 工具:SONNIA【12】(用于信息分析的自组织神经网络)390 957 反向传播网络391 9571 结构391 9572 训练391 958 指南:神经网络392 959 神经网络的任务和正确选择神经网络的方法393 96 模糊集以及模糊逻辑393 961 一些概念393 962 化学中的模糊逻辑应用394 97 遗传算法395 971 染色体的表示及编码395 972 个体的初始化396 973 适应和目标函数396 974 函数选择396 975 遗传操作子397 976 指南:用于结构活性研究中的相关描述子的选择397 9761 例子:药物设计398 98 数据挖掘398 981 分类399 982 聚类和相似性探测399 983 预测和回归399 984 关联400 985 描述的探测400 986 化学中的数据挖掘400 99 可视化数据挖掘400 991 可视化数据挖掘方法的优点401 992 信息可视化技术402 9921 数据类型402 9922 可视化技术402 9923 交互及变形技术403 910 专家系统403 9101 专家系统的构架404 9102 专家系统的任务405 9103 化学中的专家系统405 91031 DENDRAL405 91032 EROS406 第10章 应用410 101 化合物性质的预测410 1011 简介410 1012 线性自由能关系(LFER) 411 1013 定量结构-性质关系(QSPR) 412 10131 结构表示412 10132 描述子分析412 10133 模型构建412 1014 正辛醇/水分配系数(logPOW)的预测413 10141 其他基于子结构的方法414 10142 QSPR模型415 1015 水溶性(logS)的预测416 10151 水溶性预测方法416 10152 指南:用18个拓扑描述子建立预测水溶性模型418 10153 用32个径向分布函数值和8个描述子建立的模型422 1016 化合物毒性的预测424 10161 如何定量化毒性424 10162 毒性的模型化424 1017 指南:把化合物归类于不同的作用模式中427 1018 结论和展望430 102 结构-波谱的相互关系433 1021 前言433 1022 分子描述子433 10221 基于碎片的描述子433 10222 拓扑结构编码434 10223 三维分子描述子435 1023 13C NMR波谱435 1024 1H NMR波谱437 10241 化学位移预测437 10242 工具:预测1H NMR化学位移441 1025 红外光谱445 10251 总论445 10252 红外光谱模拟445 10253 工具:TeleSpec-红外光谱模拟的在线服务446 1026 质谱449 1027 计算辅助结构解析450 103 化学反应和合成设计455 1031 化学反应的预测456 10311 引言456 10312 反应知识库的知识提取457 10313 指南:吡唑合成中对区域化学的预测458 10314 CAMEO462 10315 EROS463 10316 指南:在土壤中s-三嗪除草剂降解反应的模拟466 10317 生化反应途径468 10318 指南:生化途径的多维检索475 1032 计算机辅助的合成设计478 10321 导论478 10322 基本术语480 10323 计算机辅助的有机合成中的有关概念483 10324 合成设计系统483 10325 指南:用WODCA程序进行合成设计493 104 药物设计503 1041 简介503 1042 影响药物设计的经济方面考虑504 1043 药物设计中的术语及其定义505 1044 药物发现过程506 10441 靶标鉴定及确证506 10442 先导化合物发现与优化507 10443 预临床和临床试验508 1045 化学信息学在药物设计中应用的各个领域508 10451 化合物选择和相似度/多样性检索508 10452 HTS数据分析509 10453 虚拟筛选509 10454 组合化合物库的设计510 10455 进一步的问题510 1046 基于配体的和基于结构的药物设计511 10461 基于配体的药物设计512 10462 基于结构的药物设计514 1047 应用517 10471 发现生物活性分子与发现先导化合物结构之异同-基于 配体的药物设计之实例517 10472 基于结构的药物设计之实例519 1048 展望521 第11章 将来的发展方向527 附录530 索引(按汉语拼音顺序排序)535
ISBN:7-5025-6139-0
语种:中文
开本:16
出版时间:2005-01-21
装帧:精装
页数:568