Evaluating the effectiveness of large language models in abstract screening: a comparative analysis.
評估大型語言模型在摘要篩選中的有效性：比較分析。 Syst Rev 2024-08-21

這項研究評估大型語言模型（LLMs）在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本，與多種LLMs互動，包括ChatGPT 3.5和4.0、Google PaLM 2等，並將其表現與人類專家的納入決策進行比較。結果顯示，ChatGPT v4.0的準確率超過90%，顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家，但能顯著提升篩選效率，未來可能改變相關工作流程。 PubMed DOI

Testing the reliability of an AI-based large language model to extract ecological information from the scientific literature.
測試基於人工智慧的大型語言模型從科學文獻中提取生態信息的可靠性。 NPJ Biodivers 2024-09-06

這項研究評估大型語言模型（LLMs）在從科學文獻中提取生態數據的表現，並與人類審稿人進行比較。結果顯示，LLMs提取相關數據的速度超過50倍，對於離散和類別數據的準確率超過90%。不過，它們在某些定量數據的提取上仍有困難。雖然LLMs能顯著提升建立大型生態數據庫的效率，但仍需額外的質量保證措施來確保數據的完整性。 PubMed DOI

Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性：一個簡化人類專家評估的框架。 J Biomed Inform 2024-09-14

這篇論文提出了一個評估大型語言模型（LLMs）在生物醫學知識編碼的框架，特別針對抗生素研究。框架分為三個步驟：流暢性、提示對齊和語義一致性，並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型，透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示，雖然流暢性有所提升，但事實準確性仍有待加強，對LLMs作為生物醫學知識庫的可靠性提出了疑慮，並強調需要更系統的評估方法。 PubMed DOI

Benchmarking Large Language Models in Evidence-Based Medicine.
基於證據的醫學中大型語言模型的基準測試。 IEEE J Biomed Health Inform 2024-10-22

這項研究探討如何將大型語言模型（LLMs）整合進證據基礎醫學（EBM），以自動化任務如證據檢索和傳播，來提升臨床決策。研究比較了七個LLMs的表現，結果顯示這些模型在理解和總結方面表現優異，知識引導的提示也顯著提升了效果。不過，在命名實體識別和事實準確性上仍面臨挑戰，需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

Large language models surpass human experts in predicting neuroscience results.
大型語言模型在預測神經科學結果方面超越人類專家。 Nat Hum Behav 2024-11-28

這份摘要強調大型語言模型（LLMs）在預測實驗結果方面的潛力，特別是在神經科學領域。研究介紹了BrainBench，一個評估LLMs預測能力的基準測試。結果顯示，LLMs在預測上可超越人類專家，而專門模型BrainGPT的準確性更高。當LLMs表現出高度信心時，預測也相對可靠，顯示它們在協助人類發現過程中的潛在角色。這種方法論不僅適用於神經科學，還可能對其他知識密集型領域產生廣泛影響。 PubMed DOI

Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Evaluating search engines and large language models for answering health questions.
評估搜尋引擎和大型語言模型在回答健康問題上的表現。 NPJ Digit Med 2025-03-11

這項研究評估了搜尋引擎和大型語言模型在回答健康問題上的效果。研究比較了四個熱門搜尋引擎和七個大型語言模型，包括檢索增強變體，使用了150個來自TREC健康錯誤資訊追蹤的問題。結果顯示，搜尋引擎的正確回答率在50%到70%之間，主要因為檢索結果不相關。而大型語言模型的準確率約為80%，但會因輸入提示而異。RAG方法顯著提升了小型大型語言模型的表現，準確率提高了多達30%。 PubMed DOI

High-performance automated abstract screening with large language model ensembles.
高效能自動化摘要篩選與大型語言模型集成。 J Am Med Inform Assoc 2025-03-22

這項研究探討大型語言模型（LLMs）在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs，並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示，LLMs在小型數據集上表現優於人類研究者，但在大型數據集上，由於類別不平衡，精確度下降。研究還發現，LLM與人類的結合能減少工作量並保持高敏感性，顯示自動化篩選可減輕研究者負擔。總體而言，LLMs有潛力提升系統性回顧的效率與質量，但仍需進一步驗證。 PubMed DOI

The emergence of large language models as tools in literature reviews: a large language model-assisted systematic review.
大型語言模型作為文獻回顧工具的興起：大型語言模型輔助的系統性回顧 J Am Med Inform Assoc 2025-05-07

這篇研究回顧了LLM在自動化科學文獻回顧的應用，分析了172篇論文。多數專案用ChatGPT或GPT系列，特別在文獻搜尋和資料擷取上表現比BERT好。不過，實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制，但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

Evaluating evidence-based health information from generative AI using a cross-sectional study with laypeople seeking screening information.
使用橫斷面研究評估生成式 AI 所提供的循證健康資訊：以尋求篩檢資訊的民眾為對象 NPJ Digit Med 2025-06-09

大型語言模型在健康溝通上，常常無法達到專業醫療標準，尤其當提問不夠明確時。雖然有方法能稍微提升回答品質，但還是無法完全符合需求。因此，LLMs不適合單獨用來給健康建議，未來還需要加強模型設計和使用者教育，才能讓健康溝通更安全有效。 PubMed DOI

原始文章

站上相關主題文章列表