原始文章

這項研究評估了多種大型語言模型(LLMs)在協助醫生對放射治療保險拒絕上訴的表現。測試的模型包括GPT-3.5、GPT-4及其具網路搜尋能力的版本。研究使用20個模擬病歷進行評估,結果顯示GPT-3.5、GPT-4和GPT-4web能產生清晰且具臨床相關性的上訴信,對加速上訴過程有幫助。相對而言,經微調的GPT-3.5ft表現較差,且所有模型在引用文獻時均有困難。整體而言,LLMs可減輕醫生的文書負擔,但小型數據集微調可能影響性能。 PubMed DOI


站上相關主題文章列表

研究發現大型語言模型(LLMs)在回答放射腫瘤學物理問題上有應用價值。ChatGPT(GPT-4)在演繹推理能力方面表現優異,但合作的醫學物理師團隊仍可超越其。LLMs有助於放射腫瘤學專家,值得進一步探討。 PubMed DOI

研究比較四個大型語言模型在眼科、骨科和皮膚科領域生成醫學內容的表現,發現不同模型在治療建議的質量、準確性和安全性上有差異。GPT-3.5-Turbo最安全,Bloomz質量較差。研究強調需持續改進人工智慧工具,確保醫學建議可靠。建議引入GPT-4的自動評估機制,擴展評估範疇。 PubMed DOI

研究比較四個大型語言模型(LLMs)與專家醫師在協助精準腫瘤學臨床決策的表現。LLMs提供更多治療方案,但品質和可信度不如專家。然而,部分LLMs提出的治療方案獲得委員會認可。研究建議LLMs可提供協助,但無法取代人類專家。 PubMed DOI

LLMs在放射腫瘤學患者溝通方面有潛力,但需要進一步研究。一項評估顯示LLM在正確性、完整性和簡潔性方面表現良好,並幾乎沒有危害風險。儘管LLM的回應水準高,仍需進行再訓練,但對放射腫瘤學等醫學領域的患者查詢有價值。 PubMed DOI

研究比較三款大型語言模型在乳癌臨床上的表現,結果指出GPT-4.0在反饋質量、相關性和應用性方面表現最佳,勝過GPT-3.5和Claude2。GPT-4.0提供更詳盡的反饋,在各臨床領域表現優異,尤其在心理社會支持和治療決策方面。研究強調LLMs的潛力,特別是GPT-4.0,在乳癌臨床應用上的重要性,並呼籲在醫療環境中持續優化和評估準確性。 PubMed DOI

研究比較五種大型語言模型對乳腺癌治療建議的一致性,發現GPT4與腫瘤委員會最符合,其次是GPT3.5、Llama2和Bard。GPT4在放射治療方面表現一致,但在基因檢測建議上有差異。研究指出,大型語言模型應用於臨床前,仍需進一步技術和方法改進。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是ChatGPT-4.0,對於三級醫療機構病人投訴的回應效果。研究比較了ChatGPT與病人關係部門的回應,結果顯示87.2%到97.3%的受訪者更偏好ChatGPT的回應,且其在適當性、同理心等方面得分較高。ChatGPT的回應平均較長,且與高得分有關。研究顯示,ChatGPT能有效提升病人投訴的解決效果,未來可進一步探討AI在醫療系統中的應用潛力。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI