原始文章

現有LLM文獻檢索工具常出現錯誤或捏造引用。LITERAS是一套開源多代理人系統,能高準確度搜尋並引用PubMed/MEDLINE的生醫文獻,引用準確率高達99.82%,表現優於Sonar等工具,且只引用同儕審查期刊。LITERAS大幅減少幻覺現象,優先引用新文獻,能產出更完整的文獻回顧,是AI輔助學術寫作的可靠選擇。 PubMed DOI


站上相關主題文章列表

人工智慧工具如The Literature、微軟的Copilot和谷歌的Gemini對醫學和醫學研究有深遠影響。Gemini在撰寫皮膚科文獻綜述方面表現最佳,尤其在證據、分析、結論和參考文獻方面得分最高。儘管AI生成的文獻提供即時摘要,但全面性和準確性仍有限制。 PubMed DOI

這項研究探討了ChatGPT-4在文獻回顧中的有效性,特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧,並根據準確性、反應時間等標準進行比較。結果顯示,GPT-4在反應時間和知識廣度上表現優異,但在深入理解和情境相關性上較弱。研究強調,雖然GPT-4可作為初步工具,但仍需專家評估以提升學術成果的準確性和情境豐富性,特別是在醫學研究領域。 PubMed DOI

本研究比較了開源人工智慧大型語言模型(LLMs)在撰寫脈衝鈦鋁石榴石(p-Tm:YAG)激光系統性回顧的準確性,與一篇由內尿路學專家撰寫的基準系統性回顧進行對比。四個LLMs(ChatGPT3.5、Vercel、Claude和Mistral-7b)被要求撰寫相關內容。結果顯示,人類撰寫的系統性回顧準確性顯著高於LLMs,得分分別為96%和86.8%。雖然ChatGPT3.5的表現最佳,但整體準確性仍低於專家。研究指出,LLMs在臨床應用中需有人監督,因為其在技術性主題上的準確性仍不足。 PubMed DOI

這項研究比較了OpenAI的GPT-4和Google的Gemini Ultra在生成醫學研究引言的表現,特別是引用的準確性。結果顯示,Gemini在引用精確度上優於GPT-4,正確率分別為77.2%和54.0%。雖然GPT-4生成的引言較長,但包含更多未引用的信息。儘管Gemini表現較佳,兩者仍生成虛構證據,讓人對其學術可靠性產生疑慮。這強調了驗證AI生成內容的重要性,並建議進一步研究AI在科學寫作中的能力與限制。 PubMed DOI

大型語言模型有潛力改變科學數據的分析與溝通,但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統,透過整合外部數據檢索和分析工具,旨在提供可靠的輸出,讓專家與非專家都能輕鬆使用。研究顯示,LITURAt在查詢一致性和準確性上表現優異,能改善科學數據分析的可及性。儘管有些限制,LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

您開發了一個大型語言模型(LLM)輔助的系統,專門用於健康技術評估(HTA)的系統性文獻回顧(SLR)。這個系統包含五個模組,從文獻搜尋到數據總結,並具有人機協作的設計,能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估,系統在摘要篩選中表現優異,達到90%的敏感度和82的F1分數,顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程,降低時間和成本,並提升證據生成的準確性。 PubMed DOI

隨著醫學文獻快速增長,使用大型語言模型(LLMs)來創建臨床評估的興趣也在上升。不過,對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估,發現LLMs雖然能快速產出內容,但通常缺乏深度、參考文獻少且邏輯不夠一致。此外,LLMs常引用不知名期刊,且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足,顯示需要改進檢測方法和建立更強的倫理框架,以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

這項研究開發了 SourceCheckup 工具,能自動檢查 GPT-4o 等大型語言模型在健康問題回答時,所引用的資料是否真的可靠。結果顯示,七種 LLM 中有 50–90% 的回答其實沒被來源完整支持,就算是 GPT-4o 也有三成內容沒被來源證實。醫師審查也證明這點,顯示 LLM 在醫學資訊引用上還有很大改進空間。 PubMed DOI

這項研究發現,Claude 3.5 Sonnet 在產生放射科參考文獻時最準確,正確率高達 80.8%,捏造比例僅 3.1%,明顯勝過其他模型。相較之下,ChatGPT 和 Google Gemini 1.5 Pro 的正確率較低,捏造比例甚至高達 60.6%。不同放射科次專科的正確率也有差異。整體來說,Claude 3.5 Sonnet 學術可靠度高,其他模型則有誤導風險,引用功能還需加強。 PubMed DOI

這篇論文提出用大型語言模型自動產生高品質科學文獻綜述的方法,不只品質媲美人工,還能跨領域應用,使用者不用專業背景也能操作。系統有嚴格控管,產生錯誤資訊的機率極低(低於0.5%)。在催化劑研究領域測試時,能全面且可靠地整理資料。釋出的軟體讓大家一鍵就能產生綜述,大幅提升研究效率。 PubMed DOI