原始文章

這項研究發現,OpenAI 的推理型語言模型在日本放射科專科考題上表現比基礎模型好,但運算成本和處理速度都比較高。雖然正確率提升不少,但要考慮到費用和時間的增加。 PubMed DOI


站上相關主題文章列表

這項研究評估了不同視覺語言模型(VLMs)在放射學診斷的準確性,特別針對日本的專業考試。比較的模型包括GPT-4o、GPT-4V和Claude-3。分析了383個JDR考題、300個JNM考題和322個JIR考題。結果顯示,GPT-4o在所有考試中表現最佳,JDR得分49%、JNM得64%、JIR得43%。對於有圖片的問題,JDR得48%、JNM得59%、JIR得34%。統計分析顯示,GPT-4o在大多數評估中顯著優於其他模型,顯示其在放射學診斷中的潛力。 PubMed DOI

這項研究評估了GPT-4o在歐洲放射學委員會考試中的表現,結果顯示它在選擇題和短案例問題上超過了平均放射科醫生的分數(70.2%對58.4%)。不過,在臨床推理部分,GPT-4o的得分低於平均及及格分數(52.9%對66.1%)。該模型在超聲影像問題上表現優異(87.5-100%),但在影片問題上則較差(50.6%)。整體來看,這項研究顯示大型語言模型如GPT-4o在協助放射科醫生方面的潛力。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

這項研究評估了五種多模態大型語言模型(LLMs)在日本診斷放射學委員會考試中的表現,涵蓋2021至2023年的考題。測試模型包括GPT-4o、Claude 3 Opus等,準確率介於30.21%到45.00%之間,GPT-4o表現最佳。雖然Claude 3 Opus在無圖像問題中表現較好,但添加圖像並未顯著提升準確性,甚至有模型表現下降。所有模型均未達到60%的及格標準,顯示目前LLMs在放射學的應用仍需進一步發展。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-4o和o1-preview,在安全管理及日本法律下處理X光的能力。研究使用了2023年4月至2024年10月的四套考題,結果顯示GPT-4o的準確率在57.5%到70.0%之間,大部分科目通過,但法律法規表現不佳。相對而言,o1-preview的準確率更高,達71.1%到86.5%,且在所有科目中均通過,尤其在法律法規方面表現優異。總體來看,o1-preview的表現明顯優於GPT-4o。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

最近大型語言模型(LLMs)在醫療領域的應用逐漸增加,特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示,OpenAI-o1的正確率達97.0%,解釋準確率為86.4%;而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性,未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

**重點整理:** OpenAI-o1 具備更優秀的推理能力,在 15 題日本醫師執照考試題目中表現優於 GPT-4(正確率 100% 對 80%;辨識禁忌選項的正確率 87% 對 73%),但由於樣本數較少,這些結果僅供初步參考。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

這項研究發現,最新的五款大型語言模型在放射腫瘤物理學選擇題上表現都達到專家水準,甚至有模型超越醫學物理師。不過,當答案設計成「以上皆非」時,模型表現明顯下滑,顯示推理還有待加強。用「先解釋再作答」等提示,部分模型推理能力會提升。整體來說,這些模型已具備專業領域的專家能力。 PubMed DOI