原始文章

這項研究探討如何透過提示工程提升ChatGPT-4在放射學問題上的表現,特別針對2022年美國放射學會的測試題。雖然ChatGPT-4在文字任務上表現優異,但在影像問題上則較弱。研究人員設計了四種角色,使用不同提示來評估其對準確性的影響。結果顯示,鼓勵性提示或責任免責聲明能提高準確性,而威脅法律行動的提示則降低準確性,且未回答問題的比例較高。這強調了提示背景在優化大型語言模型回應中的重要性,並呼籲在醫療環境中負責任地整合人工智慧的進一步研究。 PubMed DOI


站上相關主題文章列表

研究使用ChatGPT將放射學報告翻譯成易懂語言,供患者和醫護參考。ChatGPT翻譯成功率高,且提供37%相關建議。雖有簡化,但更詳細提示可改進。與GPT-4比較,顯示報告品質提升。建議臨床教育可使用大型語言模型,並有進一步改進空間。 PubMed DOI

研究評估ChatGPT回答患者影像問題的表現,結果顯示準確性約83%,提示可提高。回答一致性隨提示增加而改善,大多相關。易讀性高,但複雜。ChatGPT有潛力提供正確相關資訊,但需監督。提示可提供針對性資訊,但易讀性未改善。需進一步研究克服限制,更適用於醫療。 PubMed DOI

大型語言模型如ChatGPT和Bard被運用在醫學領域,幫忙放射學報告翻譯和研究論文起草。研究發現,這些模型在臨床決策中使用美國放射學院適當性標準時表現相似,但ChatGPT在提供提示方面稍微比Bard好。提示工程技術可提高模型準確性,但在提供提示方面則沒有太大改善。LLMs在臨床決策有潛力,尤其是有良好提示的情況下。進一步研究不同臨床環境下的影響仍然很重要。 PubMed DOI

研究指出,在巴西放射學委員會考試中,使用QAPG和簡單指示風格的ChatGPT表現最好,特別是在放射學和診斷影像考試中。整體而言,GPT-4比GPT-3.5表現更佳,且較不受提示風格變化影響。建議提示不要太複雜,以免影響表現。QAPG提示可能對“A”選項有偏見。 GPT-4通過所有考試,而GPT-3.5在適當提示下通過兩個考試。 PubMed DOI

大型語言模型如ChatGPT在放射學領域有潛力,但成效需靠即時工程處理。不同提示策略可客製化模型回應,無需額外訓練。少樣本學習和嵌入式技術對提升聊天機器人輸出和透明度至關重要。在放射學等專業任務中,提示工程對LLMs利用至關重要,隨模型演進,零樣本學習等方法愈見重要。 PubMed DOI

研究測試了GPT-4對比劑問題回答能力,發現有指引可提升其表現。GPT-4展現了提供建議的能力,可在臨床決策支援上有潛力,但仍需改進以提高效能。 PubMed DOI

最新研究指出,ChatGPT 3.5和GPT-4在放射學診斷上表現優異。研究發現,使用不同提示影響它們對胸部放射學案例的診斷準確性。124個案例顯示,複雜提示顯著提升模型準確性。ChatGPT 3.5使用複雜提示後,準確率從25%提升至56.5%,GPT-4基準準確率為53.2%,使用複雜提示後提升至59.7%。研究強調提示工程對提升模型診斷性能的重要性。 PubMed DOI

這項研究評估了不同提示技術對GPT-3.5在回答美國醫學執照考試(USMLE)第一階段考題的影響。研究分析了1000個GPT-4生成的問題和95個真實考題,結果顯示各種提示類型的準確性差異不大,直接提示成功率為61.7%,思考鏈為62.8%,修改版思考鏈為57.4%。所有p值均高於0.05,顯示無顯著差異。結論認為,思考鏈提示並未顯著提升GPT-3.5的醫學問題處理能力,顯示人工智慧工具可有效融入醫學教育中,無需複雜提示策略。 PubMed DOI

這項研究探討不同提示工程技術對大型語言模型(如ChatGPT3.5和GPT4)在回答視網膜疾病相關問題時的影響。研究中使用了二十個常見問題,並在獨立問題、優化提示(提示A)及加上長度和閱讀水平限制的提示B下進行測試。三位視網膜專家評估回應的準確性和全面性,結果顯示兩個模型在各指標上無顯著差異,但提示B的可讀性較高,卻以準確性和全面性為代價。研究建議未來需進一步探討LLM在病人教育中的有效性及倫理問題。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5)在2021年ASPS整形外科在職考試中的表現,使用了不同的提示和檢索增強生成(RAG)技術。結果顯示,當以「住院醫師」身份回應時,準確率最高為54%,而RAG的使用並未顯著改善表現,準確率僅微幅提升至54.3%。整體而言,ChatGPT的表現位於第10百分位,顯示出需要進一步微調及採用更先進的方法,以提升AI在複雜醫療任務中的有效性。 PubMed DOI