原始文章

這項研究探討了大型語言模型(LLMs),如GPT-3.5、GPT-4和Llama,在提取針灸穴位位置關係的有效性,特別是使用世界衛生組織的標準作為數據集。研究標註了五種穴位關係,並根據精確度、召回率和F1分數評估模型表現。結果顯示,微調後的GPT-3.5表現最佳,達到最高微平均F1分數0.92,顯示針灸領域的微調對關係提取的重要性。研究建議LLMs可增強針灸的臨床決策支持及教育資源,推進傳統醫學的資訊學發展。 PubMed DOI


站上相關主題文章列表

研究比較四個大型語言模型在眼科、骨科和皮膚科領域生成醫學內容的表現,發現不同模型在治療建議的質量、準確性和安全性上有差異。GPT-3.5-Turbo最安全,Bloomz質量較差。研究強調需持續改進人工智慧工具,確保醫學建議可靠。建議引入GPT-4的自動評估機制,擴展評估範疇。 PubMed DOI

研究指出,GPT-3.5和GPT-4處理臨床數據時,只需少量訓練數據即可提取有價值資訊。透過改進提示策略,可增進模型在臨床命名實體識別任務表現,減少大量標註數據需求。雖GPT模型在臨床應用有潛力,仍需進一步改進。研究結果凸顯了量身定制的提示框架重要性,以提高大型語言模型在臨床環境性能。 PubMed DOI

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

這篇評論討論了使用大型語言模型(LLMs)製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效,但需注意部分問題不適合醫學考試,需修改。未來研究應解決這些限制,LLMs可作為撰寫醫學多重選擇題的工具,但應謹慎使用。 PubMed DOI

關係抽取是NLP中的一個任務,專注於提取生物醫學實體之間的語義關係。研究者們正在研究使用大型語言模型如GPT-3.5-turbo和GPT-4來進行這項任務。在研究中,這些模型在EU-ADR、GAD和ChemProt三個標準數據集上進行了測試,並取得了不錯的成績。在某些情況下,GPT模型的表現甚至可以與BioBERT和PubMedBERT相媲美。 PubMed DOI

研究使用大型語言模型幫助病人提出問題,提升溝通效率。以范德堡大學醫學中心數據測試三個模型,CLAIR在清晰度、完整性和簡潔性表現最佳。GPT4在效用和完整性較高,但清晰度和簡潔性較差。CLAIR生成的問題與醫療者相符,有助改善溝通。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究致力於開發一個針對傳統中醫的語言模型,旨在提升臨床推理能力,如診斷和處方建議。研究人員創建了三個重要數據集,並開發了Lingdan預訓練模型及兩個專門模型,分別用於症狀分析和草藥處方建議。這些模型在中醫知識回答和處方建議上表現優異,Lingdan-PR的F1-score比最佳基準提高了18.39%。這項研究顯示了人工智慧在改善醫療決策中的潛力,相關資料可在 https://github.com/TCMAI-BJTU/LingdanLLM 獲得。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答結膜炎相關問題的有效性,於復旦大學眼耳鼻喉醫院進行。研究分為兩階段,第一階段四個LLM(GPT-4、Qwen、Baichuan 2和PaLM 2)回答22個問題,專家評估其正確性、完整性等。結果顯示GPT-4表現最佳,Qwen在有用性和安全性上也不錯。第二階段中,30名結膜炎患者與GPT-4或Qwen互動,滿意度高。研究結論認為LLMs能提升患者教育,但需改善個性化和複雜性處理能力。 PubMed DOI

這項初步研究探討了大型語言模型(LLM),特別是LLaMA3,如何從三級醫院的出院摘要中提取中風審核數據。研究分析了一個月內的中風住院病人出院摘要,成功提取144個數據點,LLM的準確率高達93.8%(135個正確)。結果顯示,LLM能有效提升中風審核數據的收集效率,並建議進一步研究以優化LLM與醫療專業人員的合作。 PubMed DOI