原始文章

這項研究評估了三種大型語言模型(LLMs)—ChatGPT 3.5、ChatGPT 4.0 和 Google Bard—在提供青少年特發性脊柱側彎(AIS)資訊的效果。研究人員針對AIS的常見問題設計了10個關鍵問題,並由專業醫生評估這些模型的回答。結果顯示,只有26%的回答被評為「優秀」,其中ChatGPT 4.0表現最佳,達39%。雖然這些模型在清晰度和同理心上表現不錯,但仍需改進,特別是在語言適用性和情境理解方面。整體而言,這項研究顯示了LLMs在病人教育中的潛力。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLM)是強大的人工智慧工具,可促進類似人類的溝通並提供有價值的資訊。研究發現,ChatGPT在回答脊椎外科醫師有關急性腰椎間盤突出(LDH)問題時表現良好,清晰度高且特定。儘管未涵蓋所有知情同意書內容,但提供額外見解。然而,回答中有些許不準確。LLM如ChatGPT有助於患者教育,但需謹慎監控風險與機會。 PubMed DOI

大型語言模型如ChatGPT在骨科領域扮演重要角色,能提供簡單易懂的醫療資訊給患者、醫生和研究人員。雖然ChatGPT在回答骨科問題上表現最好,但仍需留意回答可能不完整或過時的情況。未來應進一步研究LLM聊天機器人在骨科領域的應用挑戰和潛力。 PubMed DOI

生成式人工智慧如ChatGPT和Google Bard被應用在患者教育,例如腰椎間盤突出。研究發現,這些AI回答腰椎間盤突出的問題時,準確性和清晰度有差異,需要改進。未來應該專注於提升AI模型,以增進患者和醫師之間的溝通。 PubMed DOI

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現,結果顯示兩者回答品質高,但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高,Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI

頸椎病是常見的退化性脊椎疾病,患者常尋求醫療資訊來管理症狀。本研究評估大型語言模型(LLMs)對頸椎病患者常見問題的回答準確性。三位經驗豐富的脊椎外科醫生評估來自不同LLMs的回應,結果顯示所有模型表現滿意,尤其是GPT-4的準確性最高。分析中也顯示不同主題的表現差異,反映了目前人工智慧的限制及未來發展的潛力。 PubMed DOI

這項研究評估了幾個商業可用的大型語言模型(LLMs)在提供治療建議時,與美國骨科醫學會(AAOS)針對肩袖撕裂和前交叉韌帶(ACL)損傷的臨床指導方針(CPGs)的符合度。分析了48項CPGs,結果顯示70.3%的回應與指導方針一致,ChatGPT-4的符合率最高(79.2%),而Mistral-7B最低(58.3%)。研究指出,雖然LLMs能提供一致建議,但缺乏透明的資料來源,限制了其作為臨床支持工具的可靠性,未來應擴大評估範圍以減少偏見。 PubMed DOI

這項研究評估了大型語言模型(LLM)聊天機器人對於常見病人問題(如下背痛)的回答準確性和可讀性。研究分析了30個由臨床醫師制定的問題,結果顯示120個回答中,55.8%準確,42.1%不準確,1.9%不清楚。治療和自我管理的回答較準確,但風險因素的回答最不準確。整體可讀性被評為「相當困難」,平均得分為50.94。此外,70%-100%的回答都包含健康建議的免責聲明。研究建議,雖然LLM聊天機器人對病人教育有幫助,但準確性和可靠性可能因主題而異,影響病人理解。 PubMed DOI

患者和家屬常在網路上尋找醫療資訊,隨著像 ChatGPT 的 AI 聊天機器人興起,他們可能會用這些工具詢問青少年特發性脊柱側彎(AIS)的問題。最近的評估顯示,ChatGPT對AIS的回應中,有四個滿意、三個需要中等澄清、兩個不滿意。特別是在手術選項上,這個聊天機器人的表現不佳。雖然提供的資訊通常準確,但也可能讓患者產生誤解,因此在使用AI資源時,對於複雜醫療問題,進行資訊驗證非常重要。 PubMed DOI

這項研究探討大型語言模型(LLMs),如Chat-GPT,如何提供牙齒矯正治療副作用的資訊。研究評估了GPT-3.5和GPT-4生成的資訊,專家認為整體可接受,但GPT-4表現較佳。對46名牙齒矯正患者的調查顯示,他們認為AI生成的資訊更有用且全面,能減少焦慮,約80%的患者偏好這類內容。不過,研究指出提示的質量和全面性仍需改進,以提升患者教育效果。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI