原始文章

這項研究評估了大型語言模型(LLM),特別是ChatGPT,在回答結直腸癌相關病理問題的有效性。研究人員比較了ChatGPT的回答與腸胃科醫生的回答,並創建了一個互動系統,讓用戶上傳病理報告圖片以獲得AI生成的答案。結果顯示,對於常見問題,腸胃科醫生對AI的評價與傳統答案相似,但在特定報告問題上,AI的表現獲得更高評價。總體而言,ChatGPT能提供可信的病理問題答案,增強醫生與患者的溝通。 PubMed DOI


站上相關主題文章列表

研究指出,ChatGPT 4.0協助病理學家和實驗室主任回答問題時,準確性高、完整性佳,還能節省時間。專家評分結果顯示,大部分回答不需額外工作。這個工具被視為安全且省時,特別適合回答醫療提供者的問題。在各病理學領域中表現一致,ChatGPT 4.0可能成為病理學家重要的資源。 PubMed DOI

研究評估了使用參考書回答結腸直腸癌相關問題的人工智慧模型ChatGPT。結果顯示ChatGPT回答可重複,但全面性和準確性不如專家。在放射療法和疼痛控制方面表現好,但在基本資訊和手術方面較弱。ChatGPT有潛力,但仍需進步才能達到專家水準,提供病患更完整的教育資訊。 PubMed DOI

研究評估了ChatGPT 3.5語言模型在大腸癌篩檢上的效用,結果顯示其準確率僅45%,且在不同情境下回答不一致。與醫師使用手機應用程式相比,模型表現顯著較差。研究建議需改進語言模型才能在臨床上更可靠。 PubMed DOI

研究評估大型語言模型(LLMs)提供脈絡膜黑色素瘤資訊的準確性,比較三個LLMs,專家審查結果顯示ChatGPT在醫療建議上最準確,手術前後問題上與Bing AI相似。回答長度不影響準確性,LLMs可引導患者尋求專業建議,但在臨床應用前仍需更多微調和監督。 PubMed DOI

這項研究調查了病理學家對大型語言模型(LLM)如ChatGPT的使用情況。全球215位病理學家參與,結果顯示46.5%曾用LLM處理專業任務,並感受到明顯的時間節省。學術病理學家對LLM的理解較好,雖然有時提供不正確資訊,但在病理學知識上被認為具中等專業能力。LLM主要用於創建教育材料和編程,參與者對資訊準確性和隱私問題表示擔憂。整體來看,病理學家對LLM的接受度逐漸提高,但仍對可靠性和倫理問題有顧慮。 PubMed DOI

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題,並由六位專業醫師評估其準確性和可讀性。結果顯示,ChatGPT 準確回答 9 題(45%),Gemini 12 題(60%),Bing 6 題(30%)。但在準確性和可靠性方面,ChatGPT 只有 6 題(30%)同時符合,Gemini 8 題(40%),Bing 3 題(15%)。可讀性方面,ChatGPT 得分最低(29),顯示其可讀性差。研究指出,這些模型的回答常常不準確、不可靠或難以閱讀。 PubMed DOI

這項研究評估了 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 兩個大型語言模型在結腸癌管理建議上的準確性。結果顯示,兩者在 36% 的情境中提供正確回應。ChatGPT 有 39% 的回應缺乏資訊,24% 不準確;Copilot 則有 37% 缺少資訊,28% 不準確。兩者表現差異不顯著。此外,臨床醫師的回應明顯較短,平均 34 字,而 ChatGPT 和 Copilot 分別為 251 和 271 字。研究指出,雖然 LLM 可協助臨床決策,但仍需優化以確保準確性。 PubMed DOI

這項研究評估了AI聊天機器人,特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現,所有大型語言模型的準確性相似,但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面,而Bard的回答最易讀,獲得最高的易讀性分數。總體來說,這些AI模型雖無法取代醫療專業人員,但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現,特別針對中國的情境。分析了60個腫瘤科醫生提出的問題,結果顯示: - ChatGPT 提供了最多的全面回答,佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低,平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。 總體來看,這些模型可作為乳腺癌資訊工具,但在專業治療問題上不可靠,應在醫療專業人員指導下使用。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT和Bard在病理學的表現,並與病理學實習生的回答進行比較。研究使用了150道選擇題,結果顯示ChatGPT的平均得分為82.2%,明顯優於Bard的49.5%和實習生的45.1%。在困難問題上,ChatGPT表現特別突出,而在簡單問題上,ChatGPT和實習生的表現相近。分析顯示,ChatGPT的一致性率高達80%-85%,而Bard僅54%-61%。這顯示ChatGPT在病理學教育中有潛力,但仍需持續發展和人類監督。 PubMed DOI