原始文章

頸椎病是常見的退化性脊椎疾病,患者常尋求醫療資訊來管理症狀。本研究評估大型語言模型(LLMs)對頸椎病患者常見問題的回答準確性。三位經驗豐富的脊椎外科醫生評估來自不同LLMs的回應,結果顯示所有模型表現滿意,尤其是GPT-4的準確性最高。分析中也顯示不同主題的表現差異,反映了目前人工智慧的限制及未來發展的潛力。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLM)是強大的人工智慧工具,可促進類似人類的溝通並提供有價值的資訊。研究發現,ChatGPT在回答脊椎外科醫師有關急性腰椎間盤突出(LDH)問題時表現良好,清晰度高且特定。儘管未涵蓋所有知情同意書內容,但提供額外見解。然而,回答中有些許不準確。LLM如ChatGPT有助於患者教育,但需謹慎監控風險與機會。 PubMed DOI

大型語言模型如ChatGPT在骨科領域扮演重要角色,能提供簡單易懂的醫療資訊給患者、醫生和研究人員。雖然ChatGPT在回答骨科問題上表現最好,但仍需留意回答可能不完整或過時的情況。未來應進一步研究LLM聊天機器人在骨科領域的應用挑戰和潛力。 PubMed DOI

研究發現,病患在Bing搜尋脊椎手術資訊時,大多數回答都準確完整,且錯誤會被更正。商業來源常見,政府來源評分最高。研究強調需持續評估改進大型語言模型,以提供病患可靠網路資訊。 PubMed DOI

研究比較大型語言模型(LLM)與神經外科醫生在前庭神經瘤管理上的表現,結果顯示LLM表現優異,提供快速且準確的回應,但專家對其管理細節能力表示擔憂。neuroGPT-X平台旨在提供臨床支持,提高資訊可靠性,並有應用潛力。 PubMed DOI

生成式人工智慧如ChatGPT和Google Bard被應用在患者教育,例如腰椎間盤突出。研究發現,這些AI回答腰椎間盤突出的問題時,準確性和清晰度有差異,需要改進。未來應該專注於提升AI模型,以增進患者和醫師之間的溝通。 PubMed DOI

脊椎關節炎(SpA)是一種慢性發炎性疾病,影響骶髂關節和脊椎,可能導致殘疾。準確診斷SpA有挑戰,但大型語言模型(LLMs)有潛力。新醫學模型開發中,旨在改善SpA診斷和治療,特別是在醫療資源不足的地區。預計2024年初有重大進展,並在同年晚些時候公布結果。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)對常見偏頭痛相關查詢的回答準確度。結果顯示,ChatGPT-4.0的準確率最高,達到96.7%,而其他LLMs提供的準確回答率為83.3%至90%不等。這項研究凸顯了LLMs在協助偏頭痛教育和管理方面的潛力。 PubMed DOI

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現,結果顯示兩者回答品質高,但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高,Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI

這項研究評估了幾個商業可用的大型語言模型(LLMs)在提供治療建議時,與美國骨科醫學會(AAOS)針對肩袖撕裂和前交叉韌帶(ACL)損傷的臨床指導方針(CPGs)的符合度。分析了48項CPGs,結果顯示70.3%的回應與指導方針一致,ChatGPT-4的符合率最高(79.2%),而Mistral-7B最低(58.3%)。研究指出,雖然LLMs能提供一致建議,但缺乏透明的資料來源,限制了其作為臨床支持工具的可靠性,未來應擴大評估範圍以減少偏見。 PubMed DOI

這項研究評估了大型語言模型(LLM)聊天機器人對於常見病人問題(如下背痛)的回答準確性和可讀性。研究分析了30個由臨床醫師制定的問題,結果顯示120個回答中,55.8%準確,42.1%不準確,1.9%不清楚。治療和自我管理的回答較準確,但風險因素的回答最不準確。整體可讀性被評為「相當困難」,平均得分為50.94。此外,70%-100%的回答都包含健康建議的免責聲明。研究建議,雖然LLM聊天機器人對病人教育有幫助,但準確性和可靠性可能因主題而異,影響病人理解。 PubMed DOI