Assessing the performance of generative artificial intelligence in retrieving information against manually curated genetic and genomic data.

生成式人工智慧在檢索手動整理的遺傳與基因體資料時的表現評估

<think> 嗯，我现在要分析这个PubMed的研究，标题是评估生成式人工智能在检索信息方面的性能，对比手动整理的遗传和基因组数据。摘要里提到，他们用了GPT-3.5和GPT-4，测试它们在提取和呈现数据方面的能力，和人类策展人比较。研究对象是小麦和大麦的遗传学文章，特别是盐耐性和病害抗性这些特征。他们用了36篇论文，由专业策展人整理到GrainGenes数据库。同时，他们开发了一个基于GPT的检索增强生成问答系统，比较GPT在回答特征和QTL问题上的表现。首先，研究目的应该是评估大型语言模型在文献信息提取方面的效果，可能的假设是GPT-4比GPT-3.5表现更好，或者AI可以有效辅助人类策展。方法方面，他们用了现有的文献和专业策展人进行比较，优点是有对比基准，但可能缺乏多样性和长期测试。结果显示GPT-4在分类、特征提取和关联提取上都有一定准确率，但不如人类。局限性可能包括数据量小，文献范围有限，以及可能忽略了其他影响因素。临床意义可能是AI可以辅助策展，但需谨慎使用。未来研究可能需要更大规模的测试和多领域验证。可能的偏见包括对GPT的过度依赖，或者策展人的专业程度影响结果。此外，可能还有其他因素影响AI的表现，如提示工程的设计。未来的研究可能需要考虑这些因素，并探索更复杂的任务。 </think> ### 1. 研究目的與假設這項研究的主要目的是評估大型語言模型（LLM），如GPT-3.5和GPT-4，在從科學文獻中提取和呈現資訊方面的性能，特別是與人工策展的遺傳和基因組資料相比。研究假設是LLM有潛力輔助或取代人工策展，但可能仍存在一定的準確性和完整性問題。 ### 2. 方法與設計研究採用了問答系統和DataFrame代理來評估LLM的表現，優點是提供了對比基準，但樣本量小可能限制了結果的普遍性。 ### 3. 數據解釋與結果 GPT-4在多數任務中表現優於GPT-3.5，顯示模型改進的重要性，但仍存在不準確和不完整的風險。 ### 4. 局限性與偏見研究可能受限於樣本量小和單一領域，可能忽略了其他影響因素，如策展者的專業程度和文獻的複雜性。 ### 5. 臨床及未來研究意涵研究表明AI可以輔助策展，但需注意其局限，未來研究應考慮更大規模和多領域的驗證。 ### 6. 其他觀點 AI在策展中的應用可能受限於提示工程和模型偏見，未來需探索更多因素以提升性能。