原始文章

這篇論文探討預訓練大型語言模型(LLMs)在科學文本總結的有效性,指出傳統評估方法如 $n$-gram 和嵌入比較無法充分評估科學摘要的理解和關鍵內容識別。為了解決這些問題,作者提出了面向的度量(FM),利用LLMs進行高級語義匹配,並根據不同面向評估摘要。他們還推出了一個新的科學摘要數據集(FD),並附有詳細註釋。研究結果顯示,FM提供了一個更一致的評估框架,且較小的微調模型在科學領域的表現可與LLMs相媲美,顯示出改進的潛力。 PubMed DOI


站上相關主題文章列表

LLMs(如GPT-3.5和ChatGPT)在各種任務上表現逐漸提升,包括醫學證據摘要。然而,自動評量不一定準確,人類評估發現LLMs有時會產生不準確或誤導性的摘要,尤其在醫學領域。這些模型在識別關鍵信息和處理長文本時仍有改進空間。 PubMed DOI

這篇論文評估了大型語言模型(LLMs)在各種生物醫學任務上的表現,發現即使在較小的生物醫學數據集上沒有進行特定微調,LLMs 也能表現良好。雖然LLMs 在所有任務上可能不如專門的生物醫學模型表現優秀,但它們展現了在具有有限標註數據的生物醫學任務中作為有用工具的潛力。 PubMed DOI

最近大型語言模型和提示工程的進展,讓自訂聊天機器人變得更容易,不再需要程式設計技能。不過,進行大規模的提示評估仍然很具挑戰性。我們的研究確定了五個關鍵挑戰,並提出了一個以特徵為導向的提示評估工作流程,特別針對文本摘要,強調根據摘要特徵來評估提示,而非僅依賴傳統指標。為了支持這個流程,我們推出了Awesum,一個視覺分析系統,幫助用戶識別最佳提示改進。我們的測試顯示,Awesum能有效幫助非技術用戶進行系統性評估,並可應用於其他自然語言生成任務。未來建議專注於大型語言模型的特徵導向評估。 PubMed DOI

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI

這項研究探討了訓練大型語言模型(LLMs)來根據美國住院醫師教育認證委員會(ACGME)的標準分類受訓者的反饋。研究發現,雖然複雜的模型未必能提高分類準確率,但較小的模型如BERT-mini在性能上與FastText相當,且在個人設備上部署時更具優勢,能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

隨著科學文章數量快速增加,如何組織和提取資訊成為一大挑戰,顯示出自動化的必要性。本研究探討利用大型語言模型(如OpenAI的GPT-4.0)來提取科學文獻中的關鍵洞察。我們開發了名為ArticleLLM的系統,透過手動基準微調來提升模型表現,並採用多演員LLM策略,結合多個微調模型的優勢,增強提取效果。本研究顯示LLMs在關鍵洞察提取上的潛力,並強調協作微調的好處,有助於提升學術文獻調查與知識發現的效率。 PubMed DOI

這篇論文探討了六種大型語言模型(LLMs)在自動化出院摘要方面的有效性,並提出了一種新的自動評估指標,與人類評估結果相符。研究使用F1-Score來評估模型表現,並與醫療專業人員的評估進行比較。結果顯示,雖然LLMs有潛力,但在醫學知識和診斷能力上仍需改進。實驗的源代碼和數據可在GitHub上找到。 PubMed DOI

大型語言模型(LLMs)大幅提升了臨床自然語言生成(NLG)的能力,為處理醫療文本提供了新方法。不過,將這些模型應用於醫療環境前,必須進行全面評估,以確保其可靠性與有效性。我們的回顧探討了現有NLG在醫療領域的評估指標,並提出一種未來的方法,旨在減少專家評估的限制,平衡資源效率與人類判斷的一致性,確保生成內容符合臨床高標準。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

這項研究評估了生物醫學調整的大型語言模型(LLMs)在臨床任務中的表現,與通用模型相比。研究發現,生物醫學LLMs的表現通常不如通用模型,尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似,但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念,建議探索其他策略,如檢索增強生成,以更有效地整合LLMs進入臨床環境。 PubMed DOI