原始文章

深度學習光學字符識別(OCR)在提取圖像文本方面發展迅速,但針對古代阿拉伯手稿的數據集卻相對不足,這對研究者來說是一大挑戰。為了解決這個問題,我們創建了一個包含來自麥地那伊斯蘭大學中央圖書館的八本古書、四十頁圖像及其專家轉錄文本的數據集。這些手稿展現了阿拉伯文學的多樣性,對於阿拉伯OCR的研究和模型開發至關重要。我們希望透過公開這個數據集,能夠提升古代手稿的文本識別準確性,並支持相關研究。 PubMed DOI


站上相關主題文章列表

癌症研究中,病理報告是重要資料,但常被忽略。缺乏公開資料集來測試基於報告的模型。利用OCR和NLP技術處理病理報告,建立9523份報告的機器可讀語料庫。在32種組織的癌症類型分類上取得高準確度。這資料集對各領域研究有幫助。 PubMed DOI

在自然語言處理(NLP)訓練中,擁有有語義標註的文本數據集很關鍵。建立自訂數據集對特定任務非常重要,尤其是在醫學數據處理等非英語語言中。建議使用預先訓練的大型語言模型來提升訓練效率。我們透過建立德語文本的醫學命名實體識別(NER)模型自訂數據集GPTNERMED來展示這一點。可在 https://github.com/frankkramer-lab/GPTNERMED 找到更多資訊。 PubMed DOI

病理報告在癌症研究中很重要,但常被忽略。最近OCR和NLP技術進步,可從報告中提取資訊。透過這些技術,從9523份報告建立新數據集,可準確分類32種組織的癌症類型。對臨床NLP、臨床試驗和臨床醫師都有幫助。 PubMed DOI

ArzEn-MultiGenre是一個收錄埃及阿拉伯歌曲歌詞、小說和電視劇字幕及其英文翻譯的資料集,共有25,557組對應片段。可用於評估機器翻譯模型、微調語言模型,改善Google翻譯等商業應用。對於翻譯研究、跨語言分析和詞彙語義研究有重要價值,也適用於培訓翻譯學生和協助專業翻譯人員。以多元流派和專家翻譯高品質資料著稱。 PubMed DOI