原始文章

現有LLM文獻檢索工具常出現錯誤或捏造引用。LITERAS是一套開源多代理人系統,能高準確度搜尋並引用PubMed/MEDLINE的生醫文獻,引用準確率高達99.82%,表現優於Sonar等工具,且只引用同儕審查期刊。LITERAS大幅減少幻覺現象,優先引用新文獻,能產出更完整的文獻回顧,是AI輔助學術寫作的可靠選擇。 PubMed DOI


站上相關主題文章列表

人工智慧工具如The Literature、微軟的Copilot和谷歌的Gemini對醫學和醫學研究有深遠影響。Gemini在撰寫皮膚科文獻綜述方面表現最佳,尤其在證據、分析、結論和參考文獻方面得分最高。儘管AI生成的文獻提供即時摘要,但全面性和準確性仍有限制。 PubMed DOI

這項研究探討了ChatGPT-4在文獻回顧中的有效性,特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧,並根據準確性、反應時間等標準進行比較。結果顯示,GPT-4在反應時間和知識廣度上表現優異,但在深入理解和情境相關性上較弱。研究強調,雖然GPT-4可作為初步工具,但仍需專家評估以提升學術成果的準確性和情境豐富性,特別是在醫學研究領域。 PubMed DOI

大型語言模型有潛力改變科學數據的分析與溝通,但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統,透過整合外部數據檢索和分析工具,旨在提供可靠的輸出,讓專家與非專家都能輕鬆使用。研究顯示,LITURAt在查詢一致性和準確性上表現優異,能改善科學數據分析的可及性。儘管有些限制,LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

您開發了一個大型語言模型(LLM)輔助的系統,專門用於健康技術評估(HTA)的系統性文獻回顧(SLR)。這個系統包含五個模組,從文獻搜尋到數據總結,並具有人機協作的設計,能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估,系統在摘要篩選中表現優異,達到90%的敏感度和82的F1分數,顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程,降低時間和成本,並提升證據生成的準確性。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI

隨著醫學文獻快速增長,使用大型語言模型(LLMs)來創建臨床評估的興趣也在上升。不過,對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估,發現LLMs雖然能快速產出內容,但通常缺乏深度、參考文獻少且邏輯不夠一致。此外,LLMs常引用不知名期刊,且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足,顯示需要改進檢測方法和建立更強的倫理框架,以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

這項研究開發了 SourceCheckup 工具,能自動檢查 GPT-4o 等大型語言模型在健康問題回答時,所引用的資料是否真的可靠。結果顯示,七種 LLM 中有 50–90% 的回答其實沒被來源完整支持,就算是 GPT-4o 也有三成內容沒被來源證實。醫師審查也證明這點,顯示 LLM 在醫學資訊引用上還有很大改進空間。 PubMed DOI

這項研究發現,Claude 3.5 Sonnet 在產生放射科參考文獻時最準確,正確率高達 80.8%,捏造比例僅 3.1%,明顯勝過其他模型。相較之下,ChatGPT 和 Google Gemini 1.5 Pro 的正確率較低,捏造比例甚至高達 60.6%。不同放射科次專科的正確率也有差異。整體來說,Claude 3.5 Sonnet 學術可靠度高,其他模型則有誤導風險,引用功能還需加強。 PubMed DOI

用開源大型語言模型自動產生PICOS摘要,可以大幅提升系統性文獻回顧的篩選效率和準確度。審查者有PICOS摘要輔助,篩選速度快75%,敏感度和準確性也更高。即使經驗較少,只要有PICOS摘要,表現也優於沒用PICOS摘要的資深審查者。建議未來可在其他領域推廣應用。 PubMed DOI

這篇論文提出用大型語言模型自動產生高品質科學文獻綜述的方法,不只品質媲美人工,還能跨領域應用,使用者不用專業背景也能操作。系統有嚴格控管,產生錯誤資訊的機率極低(低於0.5%)。在催化劑研究領域測試時,能全面且可靠地整理資料。釋出的軟體讓大家一鍵就能產生綜述,大幅提升研究效率。 PubMed DOI