原始文章

這項研究評估了大型語言模型(LLMs),特別是GPT-4和Gemini Advanced,對輻射安全與防護的理解,使用了日本輻射防護監督考試的問題。結果顯示,GPT-4的準確率為71.0%,Gemini Advanced則為65.3%。兩者在文本問題上表現較好,但在法律和法規方面的準確性較低,顯示出需要進一步訓練。總體而言,雖然這兩個模型在輻射安全的核心主題上有不錯的表現,但在法律領域仍需加強。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-3.5和GPT-4在日本醫師執照考試(JMLE)中的表現,結果顯示GPT-4比GPT-3.5更準確,尤其在各種問題上表現更好。GPT-4在困難和特定疾病問題上也表現出色,符合JMLE的及格標準。這顯示GPT-4可能成為非英語國家醫學教育和臨床支援的實用工具。 PubMed DOI

研究發現大型語言模型(LLMs)在回答放射腫瘤學物理問題上有應用價值。ChatGPT(GPT-4)在演繹推理能力方面表現優異,但合作的醫學物理師團隊仍可超越其。LLMs有助於放射腫瘤學專家,值得進一步探討。 PubMed DOI

研究評估OpenAI的GPT在放射防護和健康物理領域的效果,發現GPT-3.5和GPT-4都未達到及格標準,GPT-4稍微優於GPT-3.5。研究強調應謹慎使用GPT處理放射防護相關問題,並強調人類監督的重要性。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題,結果顯示 GPT-4o 的正確回答中位數為 63.1%,優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳,但在醫學影像解讀方面仍需改進。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—GPT-3.5、GPT-4 和 Google Gemini(Bard)在回答60道乳腺癌護理相關的多選題的表現。結果顯示,GPT-4的準確率最高,正確回答了95%的問題,接著是GPT-3.5的90%和Google Gemini的80%。研究還發現,來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異,顯示LLMs在乳腺癌護理方面有良好的應用潛力,但仍需進一步訓練以提升表現。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在回答2018至2022年日本醫學物理師考試問題的表現。結果顯示,ChatGPT-4.0的正確率為72.7%,明顯高於ChatGPT-3.5的42.2%。不過,兩者在輻射計量及輻射相關法律和醫學倫理方面的表現較差,正確率分別為55.6%和40.0%。這些結果為ChatGPT在醫學物理領域的應用提供了基準,並可作為開發相關工具的參考,特別是在日本的放射治療支持上。 PubMed DOI

這項研究評估了GPT-4 V在日本國家臨床工程師執照考試的表現,分析了2012至2023年的2,155道題目。該模型的平均正確率為86.0%,在臨床醫學和基礎醫學領域特別高(≥ 90%)。不過,在醫療設備安全管理等領域的表現較差,正確率僅64.8%到76.5%。涉及圖形和計算的問題準確率更低,特別是需要了解日本工業標準的問題,正確率僅31.0%。研究指出ChatGPT在圖像識別和理解特定標準方面的局限性,使用時需謹慎。 PubMed DOI

這項研究評估了GPT-4.0在2021至2023年日本醫學執照考試的表現,重點在於準確性和醫學知識解析能力。問題依難度和類型分類,包括一般和臨床部分,以及單選和多選題。GPT-4.0的正確回答率達80.4%,顯示出合格的表現,但不同問題的準確性有顯著差異。研究結果顯示,雖然GPT-4.0在醫學教育和研究中有價值,但仍需大量醫學數據來提升準確性,整合ChatGPT進醫學領域可能帶來新機會。 PubMed DOI

這項研究探討了語言選擇和翻譯品質對GPT-4在放射學診斷問題回答準確性的影響。分析了146個來自日本放射學考試的問題,並由兩位認證放射科醫師提供答案。結果顯示,GPT-4在英文翻譯的表現最佳,其次是日文、中文和德文。翻譯品質與正確回答數量有顯著關聯,尤其在英文翻譯表現不如日文時,專業翻譯的問題得分更高。研究強調高品質翻譯對提升GPT-4準確性的重要性,特別是對非母語英語使用者。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI