原始文章

最新研究比較四種AI模型在腎臟科問題上的表現,發現GPT-4o最準確且穩定,GPT-4同理心最佳,PaLM 2和Gemini 1.0 Ultra則在部分任務表現突出。結果顯示,生成式AI有助於提升腎臟科病患的溝通與衛教,不同模型可依臨床需求選用。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現,結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分,尤其在倫理問題上。AI有助於醫師,但不應取代人類專業知識,需進一步研究整合到臨床環境中的方法。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究評估了生成式人工智慧模型在正式醫學考試中的表現,使用了台灣內科醫學會的考題。測試了三個AI模型:GPT-4o、Claude_3.5 Sonnet和Gemini Advanced。結果顯示,GPT-4o在2022年達到最高分86.25,Claude_3.5 Sonnet在精神科和腎臟科表現優異,最高分88.13,而Gemini Advanced的平均分較低。所有模型在文字題上表現較好,顯示AI在醫學教育中有潛力,但不同專科和問題類型的熟練程度仍有差異。 PubMed DOI

這項研究探討了OpenAI的ChatGPT 3.5和GPT 4.0在生成針對病人的臨床筆記時的表現,針對2型糖尿病、重度抑鬱症和懷疑腸癌三種病症進行分析。主要發現包括:生成的筆記比原始的更長,且使用了更多的代名詞;可讀性要求較高,特別是ChatGPT 3.5;同理心表現更佳;醫學準確性方面,ChatGPT 4.0的評價較高。總體來看,雖然增強了情感和同理心,但語言複雜性也提高,可能影響醫學準確性。 PubMed DOI

這項研究評估了三種AI模型—ChatGPT-4、ChatGPT-3.5和Google Gemini—在提供多囊卵巢症候群(PCOS)資訊的有效性。結果顯示,ChatGPT-4和3.5在回答準確性和質量上優於Gemini,但Gemini的可讀性較高,讓回答更易懂。此外,Gemini的錯誤資訊傾向較低。總體來看,ChatGPT-4和3.5在臨床上可成為教育患者的有用工具,未來AI技術的進步可能進一步提升其效用。 PubMed DOI

這項研究評估了兩個AI語言模型,GPT-3.5和GPT-4,在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分,結果顯示兩者表現相似,GPT-4稍微高一些,但差異不顯著。分析顯示,模型的內部一致性較低,專家經驗與評價無明顯相關。研究指出,這些AI模型雖能提供基本資訊,但未能解決小兒腎臟科的特定挑戰,強調專業訓練和人類監督的重要性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

研究發現,GPT-4能幫助醫師提升腎臟科答題分數,尤其對資淺醫師幫助最大。不過,在某些臨床領域,資深醫師參考GPT-4後反而表現變差。雖然GPT-4有助提升準確率,但在醫療決策時仍需謹慎使用。 PubMed DOI

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示,ChatGPT-4.0和Gemini Advanced部分表現較佳,但整體水準還是普通。三款AI都無法正確判斷癌症分期,且有不少引用文獻是假的。研究認為,AI雖然進步中,但臨床應用前還是需要專家把關。 PubMed DOI