原始文章

這項研究指出,使用大型語言模型如GPT-4能有效提升公眾對口腔癌預防和早期檢測的認識。研究人員評估了GPT-4對60個口腔癌相關問題的回答能力,結果顯示標準版和自訂版的表現都不錯,大部分回答獲得高分。雖然兩者的中位數分數略有差異,但統計分析顯示表現無顯著差異。研究強調,GPT-4能提供有用的資訊,但仍無法取代醫療專業人士的專業知識,應作為輔助資源使用。 PubMed DOI


站上相關主題文章列表

人工智慧如ChatGPT在醫療方面有潛力,尤其在診斷和治療上。研究顯示,在外科知識問題上,ChatGPT的表現接近或超越人類水準,尤其在多重選擇問題上更優秀,提供獨到見解。然而,有時答案可能不正確,且回應可能不一致。儘管表現令人驚豔,但仍需進一步研究以確保在臨床上的安全使用。 PubMed DOI

研究比較了ChatGPT在回答攝護腺癌篩檢問題時的表現,發現GPT-4優於GPT-3.5,易讀性也更高。提示影響回應質量,尤其是清晰度。 PubMed DOI

一項研究評估了 GPT-4.0 對神經外科常見臨床問題的回答。該模型在各個專業領域提供了通常準確、安全和有用的資訊。然而,也有一些不切實際或冒險的資訊、遺漏的症狀和不可靠的引用。雖然 GPT-4.0 顯示出潛力,但臨床醫師在實踐中依賴它時應該謹慎小心。 PubMed DOI

自2023年以來,ChatGPT一直是語言模型研究的領頭羊。研究發現,ChatGPT/GPT-4在口腔手術後追蹤病人方面有潛力,能提供準確知識和安慰。儘管如此,仍需謹慎使用,並在醫師指導下應用。 PubMed DOI

研究比較三款大型語言模型在乳癌臨床上的表現,結果指出GPT-4.0在反饋質量、相關性和應用性方面表現最佳,勝過GPT-3.5和Claude2。GPT-4.0提供更詳盡的反饋,在各臨床領域表現優異,尤其在心理社會支持和治療決策方面。研究強調LLMs的潛力,特別是GPT-4.0,在乳癌臨床應用上的重要性,並呼籲在醫療環境中持續優化和評估準確性。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—GPT-3.5、GPT-4 和 Google Gemini(Bard)在回答60道乳腺癌護理相關的多選題的表現。結果顯示,GPT-4的準確率最高,正確回答了95%的問題,接著是GPT-3.5的90%和Google Gemini的80%。研究還發現,來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異,顯示LLMs在乳腺癌護理方面有良好的應用潛力,但仍需進一步訓練以提升表現。 PubMed DOI

這項研究評估了ChatGPT在回答結腸直腸癌篩檢問題的有效性,旨在提升病患的認知與遵循篩檢計畫的意願。研究中,專家和非專家對ChatGPT的回答進行評分,結果顯示專家對準確性的評分為4.8(滿分6分),而完整性則較低,為2.1(滿分3分)。病患對回答的評價則普遍正面,認為其完整性、可理解性和可信度高達97-100%。整體而言,ChatGPT在提供CRC篩檢資訊上表現良好,顯示出提升病患認知的潛力。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT-3.5 和 ChatGPT-4,對牙齦和根管健康問題的回答效果。共提出33個問題,包含17個常識性和16個專家級問題,並以中英文呈現。三位專家對回答進行五分制評分。結果顯示,兩者在英文表現較佳,ChatGPT-4的平均得分為4.45,優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性,並指出需進一步評估LLMs以解決其在不同語言環境中的局限性,避免口腔健康資訊誤解。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI

這項研究評估了ChatGPT在診斷結腸癌的能力,特別是比較GPT-3.5和GPT-4.0的表現。研究分析了286份腸癌病例,結果顯示GPT-4.0在初診和次診的準確率均高於GPT-3.5,分別為0.972對0.855和0.908對0.617。雖然GPT-4.0在處理病史和實驗室數據上有所改善,但在識別症狀方面仍有挑戰。整體而言,GPT-4.0在臨床輔助診斷中展現出潛力,但仍需進一步研究以克服其限制。 PubMed DOI