原始文章

這項研究評估了四種自然語言處理(NLP)模型——ChatGPT 3.5、ChatGPT 4、Bard 和 Claude 2.0——在腹股溝疝氣管理方面的回應準確性與質量。六位疝氣外科醫生使用李克特量表評分,結果顯示相關性高(4.76),但完整性(4.11)和準確性(4.14)較低。ChatGPT 4 在準確性上表現最佳。可讀性評估顯示,無一文件符合美國醫學會標準,ACS 文件在可讀性和教育質量上得分最高。總體而言,雖然NLP提供了相關資訊,但可讀性和教育質量仍需改善,外科醫生應注意這些工具的優缺點。 PubMed DOI


站上相關主題文章列表

ChatGPT是一個強大的語言模型,經測試證實在回答肥胖手術相關問題上非常準確可靠。這些問題來自權威來源,由肥胖外科醫生評分。ChatGPT能全面回答86.8%的問題,在各類別中表現優異,且有90.7%的問題有可重現性。對於尋求肥胖手術資訊的病人來說,ChatGPT是一個實用的資源,可輔助醫療專業人員的指導。未來研究可進一步探索如何運用此技術提升病人的結果和生活品質。 PubMed DOI

大型語言模型(LLM)是強大的人工智慧工具,可促進類似人類的溝通並提供有價值的資訊。研究發現,ChatGPT在回答脊椎外科醫師有關急性腰椎間盤突出(LDH)問題時表現良好,清晰度高且特定。儘管未涵蓋所有知情同意書內容,但提供額外見解。然而,回答中有些許不準確。LLM如ChatGPT有助於患者教育,但需謹慎監控風險與機會。 PubMed DOI

這項研究旨在評估ChatGPT對於處理腹股溝疝氣的詢問所回答的準確性和適用性。 PubMed DOI

這個研究旨在評估ChatGPT對於處理腹壁疝氣相關問題的回應的準確性和適用性,因為有必要驗證AI模型在醫學主題上提供的資訊可靠性。 PubMed DOI

生成式人工智慧如ChatGPT和Google Bard被應用在患者教育,例如腰椎間盤突出。研究發現,這些AI回答腰椎間盤突出的問題時,準確性和清晰度有差異,需要改進。未來應該專注於提升AI模型,以增進患者和醫師之間的溝通。 PubMed DOI

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現,結果顯示兩者回答品質高,但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高,Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在回答腰椎間盤突出合併神經根症的臨床問題時的表現。結果顯示,ChatGPT-3.5的準確率為47%,而ChatGPT-4.0提升至67%。雖然兩者都提供了補充資訊,但ChatGPT-4.0的補充資訊較少。特定方面如定義和病史檢查兩者皆達100%準確率,但在診斷測試上,3.5為0%,4.0則為100%。整體來看,ChatGPT-4.0的表現優於3.5,但醫師仍需謹慎使用,以防錯誤資訊。 PubMed DOI

對於ChatGPT在腹股溝疝氣修補手術的建議評估,專家與非專家的回應質量差異明顯。專家的評分較低(中位數2),而非專家的評分較高(中位數2),且這差異具統計意義(p < 0.001)。此外,聊天機器人提供的參考資料中,有一半是虛假的。儘管如此,受訪者對神經網絡在臨床決策中的潛力持樂觀態度,並普遍反對限制其醫療應用。因此,建議不要將大型語言模型作為臨床決策的主要資訊來源。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—ChatGPT 3.5、ChatGPT 4.0 和 Google Bard—在提供青少年特發性脊柱側彎(AIS)資訊的效果。研究人員針對AIS的常見問題設計了10個關鍵問題,並由專業醫生評估這些模型的回答。結果顯示,只有26%的回答被評為「優秀」,其中ChatGPT 4.0表現最佳,達39%。雖然這些模型在清晰度和同理心上表現不錯,但仍需改進,特別是在語言適用性和情境理解方面。整體而言,這項研究顯示了LLMs在病人教育中的潛力。 PubMed DOI