原始文章

這項研究發現,GPT-3.5-Turbo在判斷健康新聞品質時,評分準確度雖然不如傳統機器學習模型,尤其在某些標準上表現較弱,但它能提供清楚且有條理的解釋。整體來說,GPT-3.5-Turbo仍有潛力幫助大家更好理解健康資訊,提升健康素養,並對抗錯誤訊息。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT在評估科學文章時模仿人類評論者的能力。它分析了ChatGPT對20篇醫學研究文章的評論與人類評論者之間的一致性。結果顯示,ChatGPT與人類評論者的一致性程度不同,並且有限的能力完全複製人類的反饋。 PubMed DOI

研究發現ChatGPT在回答本體性震顫問題上表現不錯,但專業人士間意見不一致,易讀性有待提升。建議ChatGPT提供的資訊會因對ET的認知而有所不同,未來需重視監控大型語言模型生成的健康相關內容。 PubMed DOI

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現,GPT-4和人類專家在醫學準確性上差不多,人類專家在高準確性回答上表現較好,但也有更多低準確性回答。GPT-4回答較長,用詞較少多樣,可能有助於一般人理解。然而,人類專家在藥物資訊和初步診斷等特定問題上表現更好,顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力,但需改進整合臨床推理,確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

這項研究探討了ChatGPT(GPT-3.5和GPT-4)在評估認知表現的有效性,對象包括正常認知者和中風倖存者。90名參與者接受了記憶、數字處理、語言流暢度和抽象思維的評估。主要發現顯示GPT-3.5在記憶和語言評估上與醫生的評估存在顯著差異,但透過優化方法可改善這些差異。GPT-4的表現更接近醫生評分,顯示其在認知評估中有進一步提升的潛力。整體而言,ChatGPT作為醫療評估的輔助工具顯示出潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI

這項研究評估了ChatGPT3.5和ChatGPT4在生成乳房篩檢病人資訊表的表現。雖然兩者提供了一些有用資訊,但準確性和清晰度都不理想。ChatGPT4在可理解性和可行性上表現較好,但仍有明顯遺漏。整體而言,這兩個版本被視為不可靠的健康資訊來源,特別是對健康素養較低的人士。這引發了對乳房篩檢參與可能造成的負面影響的擔憂,並強調醫療教育者需針對AI工具的錯誤資訊進行處理。 PubMed DOI

這項研究評估了ChatGPT-4o在放射組學質量評分(RQS)方面的有效性,並與人類專家進行比較。研究納入了52篇2023至2024年發表的文章,結果顯示ChatGPT-4o和專家的中位RQS均為14.5,且無顯著差異。ChatGPT-4o的評分可靠性高,內部信度為0.905,且評估速度遠快於專家(每篇2.9-3.5分鐘對比13.9分鐘)。總結來說,ChatGPT-4o在放射組學研究質量評估上是有效且可靠的,未來可望成為快速自動化的評估工具。 PubMed DOI

這項研究評估了ChatGPT在醫療查詢中的可靠性,透過18個開放式問題來檢視其回應的一致性、品質和準確性。結果顯示,ChatGPT在「什麼」問題上表現較好,但在「為什麼」和「如何」問題上則不理想,出現計算錯誤和不正確的單位等問題,甚至有些引用文獻是虛構的。研究結論認為,ChatGPT目前不適合用於醫療學習者或專業人士,因為其回應不一致且參考資料不可靠,可能影響臨床決策。 PubMed DOI

這項研究發現,GPT-4在回答放射治療常見問題時,比GPT-3.5表現更好,但兩者的回答對一般人來說還是太難懂,也有可能出現錯誤資訊。建議在正式用於病人前,還需要加強內容的易讀性和正確性。 PubMed DOI

這項研究比較了四款主流AI(ChatGPT-3.5、ChatGPT-4、Ernie Bot、iFLYTEK Spark)辨識網路健康資訊真偽的能力。結果顯示,ChatGPT-4 準確率最高,Ernie Bot 和 iFLYTEK Spark 表現也不錯,ChatGPT-3.5 稍微落後。雖然整體表現佳,但在專業或複雜情境下還有進步空間。 PubMed DOI