原始文章

細粒度實體辨識很難做,因為缺乏標註資料。這篇論文提出 FGER-GPT,利用 GPT 等大型語言模型,搭配階層式、多步驟推理,不用標註資料也能辨識細粒度實體。這方法能減少 LLM 產生幻覺的問題,在標準資料集上表現也很好,特別適合資源有限的實際應用。 PubMed DOI


站上相關主題文章列表

這項研究探討了使用調校過的大型語言模型(LLMs)進行複雜化學文本挖掘任務,並在各種任務中取得了令人印象深刻的表現,僅需少量標註數據。調校過的ChatGPT模型表現優異,超越其他LLMs,展示了它們在化學知識提取的自動化數據獲取方面的潛力。 PubMed DOI

知識圖譜(KGs)改變了知識的表現方式,將實體及其關係以圖形結構組織,提升了推薦系統和問答系統的效能。像是Expert.AI的Sensigrafo,專注於透過機器導向的詞彙來增進自然語言理解。不過,維護知識圖譜仍然面臨挑戰,通常需要手動輸入。近期大型語言模型(LLMs)的進展,為自動化知識圖譜的豐富提供了新機會,本文探討了基於LLM的最新技術,並針對數據質量、經濟性、隱私等問題提供見解。 PubMed DOI

這段文字探討了從文本中識別和提取關鍵資訊的重要性,特別是在食品領域,對營養師和醫生很有幫助。文中提到命名實體識別(NER)和命名實體連結(NEL)的角色。大型語言模型(如ChatGPT)為這些任務提供了新機會。作者評估了ChatGPT-3.5和ChatGPT-4在食品數據的NER和NEL表現,並比較它們在生物醫學領域的能力。結果顯示,ChatGPT在NER上表現不錯,但在實體連結的有效性上則較低。作者提醒,雖然ChatGPT有潛力,但在食品和生物醫學的關鍵決策上不應過度依賴。 PubMed DOI

這篇論文評估了不同微調的生成大型語言模型(LLMs)在臨床領域的零樣本命名實體識別(NER)表現。研究在第八屆生物醫學聯結註解黑客松進行,重點分析Llama 2和Mistral模型,並比較其基本版本與針對特定任務微調的版本。使用的數據集標註了疾病、症狀和醫療程序。結果顯示,經過指示微調的模型在實體識別上表現優於聊天微調和基本模型,且在要求簡單輸出結構時表現也有所提升。 PubMed DOI

這篇論文探討生物醫學文本中的命名實體識別(NER)挑戰,特別是在數據稀缺的情況下。作者指出現有數據增強方法的不足,可能會影響語義,且忽略多尺度句子特徵。為了解決這些問題,他們提出利用ChatGPT生成多樣化的數據,並採用動態卷積捕捉多尺度語義,結合PubMedBERT增強特徵表示。實驗結果顯示,這種方法在四個生物醫學NER數據集上表現優於現有模型,顯示出在數據增強和模型泛化上的有效性。 PubMed DOI

這篇研究發現,用GPT-4o這類大型語言模型,只要給很少範例,就能準確從科學文獻中擷取材料性質資料,還能用資料增強法提升傳統模型表現。研究也分析了錯誤和資料品質,幫助了解實際應用時會遇到的問題。 PubMed DOI

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現,雖然用了多種技術,LLMs 在這類任務上還是有不少困難,並針對醫療應用提出改進建議。 PubMed

這篇論文提出LLaFS++新架構,首次用大型語言模型(LLMs)來提升少量樣本分割(FSS)效果。透過LLMs的知識,LLaFS++能克服標註資料少的問題,分割表現更好。架構有多項創新設計,像是直接輸出多邊形、區域-屬性表、多模態引導、課程學習結合偽樣本合成,以及新推論方法減少過度分割。實驗結果在多個基準上都拿下最佳表現,展現LLMs在少量樣本視覺任務的潛力。 PubMed DOI

這項研究比較GPT-4等大型語言模型,和專為材料科學設計、經過微調的模型(如MatSciBERT、DeBERTa)在材料疲勞資料集上的命名實體辨識能力。結果顯示,針對任務微調的模型表現明顯較佳,基礎模型的上下文學習效果則高度依賴範例品質。領域預訓練對提升NER表現非常重要。 PubMed DOI

這篇論文探討用大型語言模型從非結構化或半結構化文本中自動擷取感測器資料,並強調設計精確提示語讓模型輸出標準 JSON 格式。實驗發現 GPT-4 效果最好,但資料結構明確時,開源模型表現也不差。小型模型處理自由文本較弱,但對表格資料還行;大型模型則更穩定可靠。 PubMed DOI