原始文章

這項研究評估大型語言模型(LLMs)在小兒耳鼻喉科資訊提供的有效性,並與人類醫師比較。研究中提出54個問題,詢問幾個LLMs、一名住院醫師和一位小兒ORL專家。結果顯示,LLMs在理論情境下表現接近專家,但缺乏來源透明度,且在病人中心問題上效果較差。評審者對於區分人類與AI回答的共識不佳。總體而言,LLMs在小兒ORL有輔助潛力,但仍需人類監督以改善來源透明度和溝通能力。 PubMed DOI


站上相關主題文章列表

研究發現大型語言模型在耳鼻喉科疾病診斷中表現不錯,ChatGPT-3.5準確率最高達89%,建議仍需醫師監督。 PubMed DOI

LLMs(大型語言模型)如Bard 2023.07.13、Claude 2和ChatGPT 4在醫學領域表現比六位耳鼻喉科(ORL)顧問稍差,但差距不大。其中,Claude 2在LLMs中表現最好。顧問的答案與驗證的解決方案相符次數較多。雖然LLMs有風險,但在耳鼻喉科臨床上仍有潛力,需要進一步研究。 PubMed DOI

這項研究評估了多個大型語言模型(LLMs)在耳鼻喉科及頭頸外科臨床選擇題的表現。使用4,566個問題的數據集,結果顯示GPT-4表現最佳,正確率達77.1%,其次是MedPaLM的70.6%。其他模型如Llama3、GPT-3.5和PaLM2的正確率分別為66.8%、58.5%和56.5%。提供推理提示能提升準確性,GPT-4更修正了31%的錯誤。雖然LLMs在耳鼻喉科的理解上有差異,但GPT-4在教育上仍具潛力,需注意其局限性。 PubMed DOI

大型語言模型(LLMs)如ChatGPT(GPT-4)、Gemini和Bing在醫學教育上展現潛力,特別是在臨床管理和住院醫師考試準備方面。一項針對耳鼻喉科住院醫師的研究顯示,GPT-4的準確率為54.75%,優於Gemini(40.50%)和Bing(37.00%)。高年級住院醫師的準確率達75.5%,明顯高於LLMs。雖然LLMs能與準高年級住院醫師相當,但仍未達到更有經驗的住院醫師的準確性,顯示在醫學教育中有潛在應用價值。 PubMed DOI

這項研究評估了ChatGPT-3.5與美國耳鼻喉科醫學會(AAO-HNS)提供的喉科病人資訊的可讀性與質量。使用了Flesch-Kincaid年級水平、Flesch可讀性指數、DISCERN及PEMAT-P等工具進行分析。結果顯示,ChatGPT生成的資料可讀性較低,閱讀年級高出AAO-HNS兩級,但在資訊質量上兩者差異不大。總體來看,AAO-HNS的資料更易理解,而資訊質量則相當。 PubMed DOI

白內障是失明的主要原因之一,許多人在線上尋求醫療建議,但可靠資訊難以獲得。研究人員針對46個白內障護理的常見問題,評估了不同大型語言模型(LLMs)的回應準確性與完整性。結果顯示,ChatGPT-4o和Google Bard在準確性上表現優異,ChatGPT-4o在完整性方面也領先其他模型。這項研究強調了LLMs在提供白內障相關資訊的潛力,特別是在預防方面,並呼籲持續提升其醫療諮詢的準確性。 PubMed DOI

這項研究比較了十五個大型語言模型(LLMs)在處理眼科案例的表現,測試來自《JAMA Ophthalmology》的二十個案例。結果顯示,這些模型的平均得分為19,三個模型(ChatGPT 3.5、Claude Pro和Copilot Pro)表現優於平均,其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平,對一般人來說較難理解,但對眼科醫生則可接受。研究認為,雖然LLMs的準確性不足以單獨用於病人護理,但在協助醫生方面顯示出潛力,特別是訂閱制模型。 PubMed DOI

這項研究探討大型語言模型(LLMs)在耳鼻喉科手術腫瘤建議中的潛力。研究比較了多學科腫瘤委員會(MDT)與兩個LLMs(ChatGPT-4o和Llama 3)的建議。結果顯示,ChatGPT-4o與MDT的符合率為84%,Llama 3則為92%。兩者都能識別第一線治療選擇,且MDT的建議在28%的案例中被模型採納。雖然LLMs的建議受到正面評價,但研究強調應用於輔助決策,而非取代專業醫師,特別是考量數據保護問題。Llama 3的本地運行特性顯示出臨床應用潛力。 PubMed DOI

這項研究探討六種多模態大型語言模型(MLLMs)在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像,提出1084個臨床問題來評估模型表現,並由兩位醫師獨立評估。結果顯示,Claude 3.5 Sonnet的準確率最高,達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯,最佳商業模型的表現比其他模型高出19個百分點。研究指出,雖然MLLMs在手術決策支持上有潛力,但仍需針對特定需求進行開發,並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4 和 Google Gemini,在解讀小兒耳鼻喉科指導方針的表現。評審使用李克特量表對模型的準確性和完整性進行打分,結果顯示兩者都表現良好,GPT-4 準確性為 4.74,Google Gemini 則為 4.82。雖然兩者在準確性和完整性上沒有顯著差異,但都強調了個別化需求和醫療專業諮詢的重要性。研究指出這些模型在小兒耳鼻喉科的輔助潛力,並強調持續改進的必要性,AI 應輔助而非取代人類專業知識。 PubMed DOI