Evaluation of large language models for discovery of gene set function.
評估大型語言模型在基因集功能發現中的應用。 Res Sq 2024-02-10

本研究使用OpenAI的GPT-4大型語言模型，評估其在功能基因組學中的應用價值。結果顯示，GPT-4能夠生成具有生物醫學知識的基因功能假設，並提供比傳統方法更豐富的資訊。這顯示大型語言模型在功能基因組學研究中具有潛力成為有用的工具。 PubMed DOI

Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages.
大型語言模型能否取代人類進行系統性回顧？評估 GPT-4 在篩選和提取來自多種語言的同行評審和灰色文獻中的數據的效力。 Res Synth Methods 2024-03-14

系統性回顧很重要，但耗時。大型語言模型如GPT-4可加速，但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好，但受機會和數據集影響。調整後表現下降，尤其在數據提取和篩選任務。給予提示後，在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎，但在特定條件下可匹敵人類。 PubMed DOI

Evaluating a Large Language Model's Ability to Answer Clinicians' Requests for Evidence Summaries.
評估大型語言模型回答臨床人員對證據摘要的能力。 medRxiv 2024-05-15

研究比較了GPT-4與醫學圖書館員回答臨床問題的表現，發現GPT-4在83.3%問題中回答正確，16.2%部分正確，0.5%錯誤。AI提供的參考資料在37%案例中被證實為真實。雖然顯示潛力，但仍需進一步研究整合到醫學圖書館員工作流程中。 PubMed DOI

Evaluating the Capabilities of Generative AI Tools in Understanding Medical Papers: Qualitative Study.
評估生成式 AI 工具在理解醫學論文中的能力：質性研究。 JMIR Med Inform 2024-09-04

這項研究探討大型語言模型（LLMs）在理解醫學研究論文的能力，特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現，包括GPT-3.5-Turbo和GPT-4系列，與專業醫學教授的評估。分析了50篇來自PubMed的論文，結果顯示GPT-3.5-Turbo的準確率最高（66.9%），而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力，但也指出需進一步研究以克服現有限制。 PubMed DOI

Evaluating Generative AI's Ability to Identify Cancer Subtypes in Publicly Available Structured Genetic Datasets.
評估生成式人工智慧在公開可用的結構性基因數據集中識別癌症亞型的能力。 J Pers Med 2024-10-25

這篇論文探討基因數據在疾病診斷與治療中的重要性，特別是癌症研究，並指出將這些數據整合進臨床護理的挑戰，如電子健康紀錄的結構、保險成本及基因結果的可解釋性。研究也提到人工智慧（AI）和大型語言模型（LLMs）在解決這些問題上的潛力。儘管AI在醫學研究中的成功有限，但基於大量數據訓練的LLMs在基因分析上顯示出希望。研究評估了GPT模型在基因表達數據的預測能力，並與傳統機器學習方法進行比較，以探討其在預測癌症亞型的潛力。 PubMed DOI

Evaluation of large language models for discovery of gene set function.
大型語言模型在基因集功能發現中的評估。 Nat Methods 2024-11-28

這項研究評估了五種大型語言模型（LLMs）在識別基因集共同功能的有效性，並探討現有基因功能數據庫的限制。結果顯示，GPT-4在73%的案例中提出的功能與整理的基因集名稱相符，且其自信度與準確性相關。相比之下，隨機基因集的零自信率高達87%。其他模型如GPT-3.5和Gemini Pro則表現不一，經常在隨機基因集上出現錯誤自信。GPT-4在分析組學數據的基因簇時，識別出共同功能的案例達45%，顯示其在特異性和基因覆蓋率上優於傳統方法，顯示LLMs在組學研究中的潛力。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Evaluating GPT Models for Automated Literature Screening in Wastewater-Based Epidemiology.
評估 GPT 模型在污水基礎流行病學中自動文獻篩選的應用。 ACS Environ Au 2025-01-20

這項研究探討了利用AI模型，特別是GPT-3、GPT-3.5和GPT-4，自動化污水流行病學文獻篩選，以提升綜合分析的效率。結果顯示，GPT-4在識別原始數據論文方面表現優異，精確度達0.96，召回率為1.00，超越目前的人工篩選標準。不過，這些模型在準確識別相關取樣地點上仍有挑戰，顯示人類監督的重要性。研究強調模型設計的謹慎性，建議AI輔助篩選能提升WBE研究效率，但仍需人類介入以確保準確性。 PubMed DOI

Evaluating a large language model's ability to answer clinicians' requests for evidence summaries.
評估大型語言模型回答臨床醫師對證據摘要請求的能力。 J Med Libr Assoc 2025-02-20

這項研究評估了GPT-4生成式AI工具aiChat在回答臨床問題的效果，並與醫學圖書館員的資料進行比較。研究團隊使用了圖書館員處理的臨床問題資料庫，並根據COSTAR框架設計標準化提示。結果顯示，aiChat在216個問題中，有83.3%被評為「正確」，但只有37%的參考文獻被確認有效。雖然AI表現出潛力，但許多參考文獻無法驗證，未評估新概念的準確性。作者建議這是系列研究的第一部分，探討AI如何融入醫學圖書館員的工作。 PubMed DOI

Enhancing systematic literature reviews with generative artificial intelligence: development, applications, and performance evaluation.
利用生成式人工智慧增強系統性文獻回顧：發展、應用及效能評估。 J Am Med Inform Assoc 2025-03-04

您開發了一個大型語言模型（LLM）輔助的系統，專門用於健康技術評估（HTA）的系統性文獻回顧（SLR）。這個系統包含五個模組，從文獻搜尋到數據總結，並具有人機協作的設計，能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估，系統在摘要篩選中表現優異，達到90%的敏感度和82的F1分數，顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程，降低時間和成本，並提升證據生成的準確性。 PubMed DOI

原始文章

站上相關主題文章列表