基于 Transformer 的大型语言模型正在为实时探索化学领域创造新的可能性。BioNeMo 是一种特定领域的框架,用于在超级计算规模下训练和部署基于 NeMo Megatron 的生物分子 LLM。该框架包含 Transformer 模型 MegaMolBART、ESM-1b 和 ProtT5。
MegaMolBART 是一种基于 14 亿个分子(SMILES 字符串)训练的生成式化学模型,可用于药物研发中的各种化学信息学应用,例如反应预测、分子优化和小分子的重新生成。
ProtT5 和 ESM-1b 表明,无监督式预训练可用于生成包含属性的习得嵌入,以预测蛋白质结构、功能、细胞位置、水溶性、膜结合性、保守区和可变区等。