The role of artificial intelligence in generating original scientific research.
人工智慧在產生原創科學研究中的角色。 Int J Pharm 2024-02-23

人工智慧，特別是大型語言模型（LLMs），現在被廣泛運用，因為能跟人類溝通。透過大量網路資料訓練，LLMs能產生各種專業文本。研究指出，GPT-4能在不到一小時內寫出完整的藥學手稿。雖然LLMs在科學研究有潛力，但仍需要人類參與，如參考文獻和數據驗證。該研究探討了將LLMs融入科學研究的優勢和挑戰。 PubMed DOI

Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages.
大型語言模型能否取代人類進行系統性回顧？評估 GPT-4 在篩選和提取來自多種語言的同行評審和灰色文獻中的數據的效力。 Res Synth Methods 2024-03-14

系統性回顧很重要，但耗時。大型語言模型如GPT-4可加速，但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好，但受機會和數據集影響。調整後表現下降，尤其在數據提取和篩選任務。給予提示後，在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎，但在特定條件下可匹敵人類。 PubMed DOI

Evaluating the effectiveness of large language models in abstract screening: a comparative analysis.
評估大型語言模型在摘要篩選中的有效性：比較分析。 Syst Rev 2024-08-21

這項研究評估大型語言模型（LLMs）在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本，與多種LLMs互動，包括ChatGPT 3.5和4.0、Google PaLM 2等，並將其表現與人類專家的納入決策進行比較。結果顯示，ChatGPT v4.0的準確率超過90%，顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家，但能顯著提升篩選效率，未來可能改變相關工作流程。 PubMed DOI

Closing the gap between open source and commercial large language models for medical evidence summarization.
縮小開源與商業大型語言模型在醫學證據總結之間的差距。 NPJ Digit Med 2024-09-09

這項研究探討了微調開源大型語言模型（LLMs）在醫學證據總結方面的潛力，與專有模型相比，開源模型雖然表現較弱，但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調，結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現，且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性：一個簡化人類專家評估的框架。 J Biomed Inform 2024-09-14

這篇論文提出了一個評估大型語言模型（LLMs）在生物醫學知識編碼的框架，特別針對抗生素研究。框架分為三個步驟：流暢性、提示對齊和語義一致性，並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型，透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示，雖然流暢性有所提升，但事實準確性仍有待加強，對LLMs作為生物醫學知識庫的可靠性提出了疑慮，並強調需要更系統的評估方法。 PubMed DOI

Closing the gap between open-source and commercial large language models for medical evidence summarization.
縮小開源與商業大型語言模型在醫學證據總結之間的差距。 ArXiv 2024-10-07

這項研究探討如何透過微調提升開源大型語言模型（LLMs）在醫學證據摘要的表現。雖然專有模型通常更有效，但也存在透明度不足和依賴供應商的風險。研究人員使用包含8,161對系統性回顧摘要的MedReview數據集，對三個開源模型—PRIMERA、LongT5和Llama-2進行微調。結果顯示，微調後這些模型的表現顯著提升，特別是LongT5在零樣本設定中表現接近GPT-3.5，甚至有些小型模型超越了大型模型。這顯示微調開源LLMs能有效提升其在專業任務中的表現，成為專有模型的可行替代方案。 PubMed DOI

Large language models surpass human experts in predicting neuroscience results.
大型語言模型在預測神經科學結果方面超越人類專家。 Nat Hum Behav 2024-11-28

這份摘要強調大型語言模型（LLMs）在預測實驗結果方面的潛力，特別是在神經科學領域。研究介紹了BrainBench，一個評估LLMs預測能力的基準測試。結果顯示，LLMs在預測上可超越人類專家，而專門模型BrainGPT的準確性更高。當LLMs表現出高度信心時，預測也相對可靠，顯示它們在協助人類發現過程中的潛在角色。這種方法論不僅適用於神經科學，還可能對其他知識密集型領域產生廣泛影響。 PubMed DOI

Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Leveraging Large Language Models and Agent-Based Systems for Scientific Data Analysis: Validation Study.
利用大型語言模型和基於代理的系統進行科學數據分析：驗證研究。 JMIR Ment Health 2025-02-13

大型語言模型有潛力改變科學數據的分析與溝通，但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統，透過整合外部數據檢索和分析工具，旨在提供可靠的輸出，讓專家與非專家都能輕鬆使用。研究顯示，LITURAt在查詢一致性和準確性上表現優異，能改善科學數據分析的可及性。儘管有些限制，LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

Enhancing systematic literature reviews with generative artificial intelligence: development, applications, and performance evaluation.
利用生成式人工智慧增強系統性文獻回顧：發展、應用及效能評估。 J Am Med Inform Assoc 2025-03-04

您開發了一個大型語言模型（LLM）輔助的系統，專門用於健康技術評估（HTA）的系統性文獻回顧（SLR）。這個系統包含五個模組，從文獻搜尋到數據總結，並具有人機協作的設計，能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估，系統在摘要篩選中表現優異，達到90%的敏感度和82的F1分數，顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程，降低時間和成本，並提升證據生成的準確性。 PubMed DOI

原始文章

站上相關主題文章列表