原始文章

這項研究評估了五種多模態大型語言模型(LLMs)在日本診斷放射學委員會考試中的表現,涵蓋2021至2023年的考題。測試模型包括GPT-4o、Claude 3 Opus等,準確率介於30.21%到45.00%之間,GPT-4o表現最佳。雖然Claude 3 Opus在無圖像問題中表現較好,但添加圖像並未顯著提升準確性,甚至有模型表現下降。所有模型均未達到60%的及格標準,顯示目前LLMs在放射學的應用仍需進一步發展。 PubMed DOI


站上相關主題文章列表

研究評估大型語言模型在臨床放射學問題上的表現,使用JRBE考題,發現GPT-4比其他模型表現更好。GPT-4在簡單問題、單一答案及核醫學方面表現優異,顯示在日本放射學領域有應用潛力。 PubMed DOI

這項研究評估了一個名為GPT-4V的多模式大型語言模型在醫學領域中的影像識別能力,方法是測試其在回答日本國家醫學執照考試問題時的表現。研究中向模型呈現了有和沒有相關影像的問題,以觀察視覺信息如何影響其準確性。結果顯示,影像的存在並未顯著提高GPT-4V在回答考試問題時的表現。 PubMed DOI

這項研究評估了不同視覺語言模型(VLMs)在放射學診斷的準確性,特別針對日本的專業考試。比較的模型包括GPT-4o、GPT-4V和Claude-3。分析了383個JDR考題、300個JNM考題和322個JIR考題。結果顯示,GPT-4o在所有考試中表現最佳,JDR得分49%、JNM得64%、JIR得43%。對於有圖片的問題,JDR得48%、JNM得59%、JIR得34%。統計分析顯示,GPT-4o在大多數評估中顯著優於其他模型,顯示其在放射學診斷中的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題,結果顯示 GPT-4o 的正確回答中位數為 63.1%,優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳,但在醫學影像解讀方面仍需改進。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

這項研究評估了幾款先進的多模態大型語言模型(LLMs),如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro,針對日本核醫學考試(JNMBE)問題的表現。分析了92道問題,結果顯示在使用文字和圖片的情況下,模型的準確性並無顯著差異。GPT-4o和Claude 3 Opus在多模態下的準確率為54.3%,而僅用文字時達71.7%。Gemini 1.5 Pro的表現則較差。研究指出,當前LLMs在核醫學的診斷能力不足,需加強圖片資訊的使用,以提升其在教育和實踐中的有效性。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs),包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考題進行測試。結果顯示,GPT-4o 的正確回答中位數為 63.1%,表現最佳,其次是 GPT-4 Turbo(60.7%)、GPT-4(56.8%)和 Gemini(40.5%)。雖然 GPT-4o 在文字題上表現優異,但在醫學影像解讀方面仍需改進。研究建議這些模型可在臨床環境中協助醫生,特別是處理文字相關問題時。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答放射科考試問題時的表現,特別是當問題包含影像時。研究選取了280個問題,測試了三個模型:GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet,使用多模態、僅影像和僅文字三種提示格式。 結果顯示,GPT-4V和Gemini 1.5 Pro的正確回答率約54-57%,而Claude 3.5 Sonnet在僅文字(63%)和多模態(66%)的表現上明顯優於僅影像(48%)。整體來看,這些模型未能有效利用影像來提升表現,顯示出進一步研究的潛力。 PubMed DOI

這項研究評估了多模態大型語言模型(LLMs)在解讀放射影像的準確性,並與不同經驗的人類讀者進行比較。研究回顧了272個案例,使用了如GPT-4 Omni等LLMs,並收集了初任教職放射科醫師、臨床醫師和醫學生的回應。 主要發現包括:GPT-4 Omni的準確率為59.6%,超過醫學生的47.1%,但仍低於初任教職的80.9%和訓練中的放射科醫師的70.2%。LLMs在較長文本輸入下表現較佳,顯示文本長度對準確性有顯著影響。總體來說,LLMs的準確性不錯,但仍需注意文本長度的影響。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI