O BioBridge surge como uma solução inovadora para superar as limitações dos modelos de linguagem de proteínas (PLMs) e dos modelos de linguagem de propósito geral (LLMs). De acordo com informações do arXiv, o BioBridge utiliza um framework de pré-treinamento contínuo adaptativo ao domínio para melhorar a compreensão de proteínas.
Como o BioBridge funciona?
O BioBridge emprega o Domain-Incremental Continual Pre-training (DICP) para integrar simultaneamente o conhecimento do domínio de proteínas e o corpus de raciocínio geral em um LLM. Isso ajuda a mitigar o esquecimento catastrófico, um problema comum em modelos de aprendizado contínuo. A aliança entre os modelos é alcançada através de um pipeline PLM-Projector-LLM, que mapeia os embeddings de sequência de proteínas para o espaço semântico do modelo de linguagem.
Quais são os benefícios do BioBridge?
O BioBridge demonstra desempenho comparável aos PLMs em benchmarks de proteínas, como EC e BindingDB, e também alcança resultados semelhantes aos LLMs em tarefas de compreensão geral, como MMLU e RACE. Isso destaca sua vantagem inovadora de combinar adaptabilidade específica de domínio com competência de linguagem de propósito geral.
“Nosso proposto BioBridge demonstra desempenho comparável ao dos PLMs convencionais em múltiplos benchmarks de proteínas.”
— Publicidade —Google AdSense • Slot in-article
O framework não apenas melhora a previsão de propriedades de proteínas, mas também suporta uniformemente várias tarefas, incluindo perguntas e respostas baseadas em conhecimento.
Fonte original: arXiv