LLM 相關三個月內文章 / 第 3 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

2022年11月推出的ChatGPT引起了對大型語言模型在臨床環境中應用的關注。最近一項針對英國全科醫生的調查顯示,20%的醫生已在臨床實踐中使用生成式人工智慧工具。使用者中,29%用於生成就診後文檔,28%用於建議鑑別診斷。儘管醫生認為這些工具在行政和臨床推理上有價值,但缺乏明確的指導和政策,醫療界面臨著教育專業人員和患者的挑戰。 相關文章 PubMed DOI

這項研究評估了GPT-4撰寫放射學社論的能力,並與人類撰寫的社論進行比較。分析了來自八本期刊的十六篇社論,結果顯示AI撰寫的社論在評分上表現較好,但人類撰寫的文章在整體感知上仍較受青睞。編輯們在配對評估中,有82%更傾向於出版人類撰寫的文章。研究結論指出,雖然GPT-4能產出高品質文章,但編輯對人類內容的偏好依然明顯。 相關文章 PubMed DOI

針對G蛋白偶聯受體(GPCRs)開發新療法對藥物發現非常重要,因為這些受體在生理過程中扮演關鍵角色。雖然已有許多針對GPCRs的藥物,但仍缺乏選擇性調節劑,這顯示出新療法的潛力。我們推出了GPCRSPACE,這是一個專為GPCR設計的可購買化學庫,利用G蛋白偶聯受體大型語言模型(GPCR LLM)創建。這種創新方法減少了假陰性,簡化了負樣本標記,並提升了GPCR互動分子的識別與篩選,成為GPCR藥物發現的重要資產。 相關文章 PubMed DOI

這項研究探討如何透過提示工程提升ChatGPT-4在放射學問題上的表現,特別針對2022年美國放射學會的測試題。雖然ChatGPT-4在文字任務上表現優異,但在影像問題上則較弱。研究人員設計了四種角色,使用不同提示來評估其對準確性的影響。結果顯示,鼓勵性提示或責任免責聲明能提高準確性,而威脅法律行動的提示則降低準確性,且未回答問題的比例較高。這強調了提示背景在優化大型語言模型回應中的重要性,並呼籲在醫療環境中負責任地整合人工智慧的進一步研究。 相關文章 PubMed DOI

基於知識圖譜的檢索增強生成(KG-RAG)框架,成功解決了大型語言模型在生物醫學等知識密集型領域的挑戰。透過SPOKE生物醫學知識圖譜,KG-RAG優化了標記使用,提升了Llama-2、GPT-3.5和GPT-4的表現。該框架有效降低標記消耗超過50%,同時保持準確性,顯著改善了對生物醫學提示的回應,並在基準數據集上提升表現,Llama-2在多選題上提高了71%。KG-RAG以具成本效益的方式結合知識圖譜與大型語言模型,讓通用模型更能應對特定領域查詢。SPOKE KG和KG-RAG的代碼已公開,並提供生物醫學基準數據集供研究使用。 相關文章 PubMed DOI

持續的研究正在評估大型語言模型(LLMs)在內科考試中的表現,特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現,並使用檢索增強生成的方法進行測試。結果顯示,GPT-4.0的得分介於77.5%到80.7%之間,優於其他模型及人類受試者,尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性,顯示這種方法在醫學領域的潛力。 相關文章 PubMed DOI

這項研究評估了具視覺功能的GPT-4V在眼科診斷玻璃體視網膜疾病的表現。研究在巴斯科姆·帕爾默眼科診所進行,分析了2010年至2023年的病人數據。結果顯示,GPT-4V在開放式問題中的診斷準確率為13.7%,而多選題為31.3%。該模型能準確識別後玻璃體脫離等病症,但在開放式問題的有效性有限,顯示出提供複雜醫療建議的挑戰。總體而言,GPT-4V在臨床護理中仍有潛力。 相關文章 PubMed DOI

這項研究開發了一個大型語言模型(LLM),能根據影像生成放射學印象,並評估其專業及語言表現。研究在上海總醫院進行,六位放射科醫生使用該模型並進行修正。LLM在20 GB醫學及一般文本數據上預訓練,並用1.5 GB數據微調,包含800份放射學報告。結果顯示,LLM的中位召回率為0.775,精確度0.84,F1分數0.772,表現良好。專家對其印象評價高,顯示其在放射學檢查中具專業性。 相關文章 PubMed DOI

這項研究評估了ChatGPT對COVID-19引起的嗅覺功能障礙的回應質量。使用30個相同問題,並在四種不同提示下詢問ChatGPT,結果顯示480個回應中有75.8%被評為「至少良好」。不同提示類型影響回應質量,針對八年級學生和患者的回應更易理解。總體來看,ChatGPT的答案大多準確,但表述方式會影響回應的質量和複雜性。研究認為,ChatGPT在患者教育上有潛力,但回應常過於複雜。 相關文章 PubMed DOI

這項研究評估了ChatGPT在識別腎臟科疾病的ICD-10代碼的準確性,使用了模擬案例。兩位腎臟科醫生創建了100個案例,測試了ChatGPT的3.5和4.0版本。結果顯示,3.5版本的準確率為91%,而4.0版本則高達99%。雖然3.5在第二輪下降至87%,但4.0仍維持99%。這顯示4.0在腎臟科編碼上有顯著優勢,並可能減輕醫療人員的負擔。不過,仍需注意小錯誤率,強調持續改進AI系統的重要性。 相關文章 PubMed DOI