原始文章

這項研究評估了幾款先進的多模態大型語言模型(LLMs),如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro,針對日本核醫學考試(JNMBE)問題的表現。分析了92道問題,結果顯示在使用文字和圖片的情況下,模型的準確性並無顯著差異。GPT-4o和Claude 3 Opus在多模態下的準確率為54.3%,而僅用文字時達71.7%。Gemini 1.5 Pro的表現則較差。研究指出,當前LLMs在核醫學的診斷能力不足,需加強圖片資訊的使用,以提升其在教育和實踐中的有效性。 PubMed DOI


站上相關主題文章列表

這項研究評估了一個名為GPT-4V的多模式大型語言模型在醫學領域中的影像識別能力,方法是測試其在回答日本國家醫學執照考試問題時的表現。研究中向模型呈現了有和沒有相關影像的問題,以觀察視覺信息如何影響其準確性。結果顯示,影像的存在並未顯著提高GPT-4V在回答考試問題時的表現。 PubMed DOI

研究比較了處理文字和圖像輸入的GPT-4 Turbo with Vision(GPT-4TV)與僅處理文字輸入的GPT-4 Turbo(GPT-4 T)在回答日本放射診斷醫學會考試(JDRBE)問題的表現。結果顯示,兩者準確度差不多,但放射科醫師對GPT-4TV的可信度較低。總結來說,加入圖像輸入的GPT-4TV對於JDRBE問題的回答並沒有明顯提升。 PubMed DOI

這項研究評估了不同視覺語言模型(VLMs)在放射學診斷的準確性,特別針對日本的專業考試。比較的模型包括GPT-4o、GPT-4V和Claude-3。分析了383個JDR考題、300個JNM考題和322個JIR考題。結果顯示,GPT-4o在所有考試中表現最佳,JDR得分49%、JNM得64%、JIR得43%。對於有圖片的問題,JDR得48%、JNM得59%、JIR得34%。統計分析顯示,GPT-4o在大多數評估中顯著優於其他模型,顯示其在放射學診斷中的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題,結果顯示 GPT-4o 的正確回答中位數為 63.1%,優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳,但在醫學影像解讀方面仍需改進。 PubMed DOI

這項研究指出,人工智慧(AI)在兒童放射學的應用上存在重大差距,特別是針對最新的大型語言模型(LLMs),如GPT-4、Gemini 1.5 Pro和Claude 3 Opus。測試結果顯示,這些模型在90張兒童放射影像中,正確診斷率僅27.8%,部分正確率13.3%,錯誤率高達58.9%。研究顯示,儘管多模態LLMs能處理多種輸入,但目前仍缺乏準確解讀兒童放射影像的專業能力。 PubMed DOI

這項研究評估了先進大型語言模型(LLMs)在醫學考試中的視覺能力,特別是GPT-4和Google的Gemini。研究比較了它們在台灣專科醫師考試(肺部與重症醫學)的表現,並以僅處理文本的GPT-3.5為基準。結果顯示,GPT-4的表現持續優於Gemini和GPT-3.5,經常超過60的及格門檻,接近人類考生的水準。相對而言,Gemini的表現較低,而GPT-3.5得分最低,顯示出新模型在解讀複雜醫療資訊方面的優勢。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

這項研究評估了五種多模態大型語言模型(LLMs)在日本診斷放射學委員會考試中的表現,涵蓋2021至2023年的考題。測試模型包括GPT-4o、Claude 3 Opus等,準確率介於30.21%到45.00%之間,GPT-4o表現最佳。雖然Claude 3 Opus在無圖像問題中表現較好,但添加圖像並未顯著提升準確性,甚至有模型表現下降。所有模型均未達到60%的及格標準,顯示目前LLMs在放射學的應用仍需進一步發展。 PubMed DOI