Assessing Scientific Text Similarity: A Novel Approach Utilizing Non-Negative Matrix Factorization and Bidirectional Encoder Representations from Transformer

Jia, Zhixuan; Tian, Wenfang; Li, Wang; Song, Kai; Wang, Fuxin; Ran, Congjing

Assessing Scientific Text Similarity: A Novel Approach Utilizing Non-Negative Matrix Factorization and Bidirectional Encoder Representations from Transformer

Zhixuan Jia (), Wenfang Tian, Wang Li, Kai Song, Fuxin Wang and Congjing Ran ()
Additional contact information
Zhixuan Jia: School of Information Management, Wuhan University, Wuhan 430072, China
Wenfang Tian: School of Information Management, Wuhan University, Wuhan 430072, China
Wang Li: School of Information Management, Wuhan University, Wuhan 430072, China
Kai Song: Library, Shandong Normal University, Jinan 250358, China
Fuxin Wang: School of Information Management, Wuhan University, Wuhan 430072, China
Congjing Ran: School of Information Management, Wuhan University, Wuhan 430072, China

Mathematics, 2024, vol. 12, issue 21, 1-18

Abstract: The patent serves as a vital component of scientific text, and over time, escalating competition has generated a substantial demand for patent analysis encompassing areas such as company strategy and legal services, necessitating fast, accurate, and easily applicable similarity estimators. At present, conducting natural language processing(NLP) on patent content, including titles, abstracts, etc., can serve as an effective method for estimating similarity. However, the traditional NLP approach has some disadvantages, such as the requirement for a huge amount of labeled data and poor explanation of deep-learning-based model internals, exacerbated by the high compression of patent content. On the other hand, most knowledge-based deep learning models require a vast amount of additional analysis results as training variables in similarity estimation, which are limited due to human participation in the analysis part. Thus, in this research, addressing these challenges, we introduce a novel estimator to enhance the transparency of similarity estimation. This approach integrates a patent’s content with international patent classification (IPC), leveraging bidirectional encoder representations from transformers (BERT), and non-negative matrix factorization (NMF). By integrating these techniques, we aim to improve knowledge discovery transparency in NLP across various IPC dimensions and incorporate more background knowledge into context similarity estimation. The experimental results demonstrate that our model is reliable, explainable, highly accurate, and practically usable.

Keywords: patent similarity; bidirectional encoder representations from transformers (BERT); non-negative matrix factorization; natural language processing; auto-encoder model (search for similar items in EconPapers)
JEL-codes: C (search for similar items in EconPapers)
Date: 2024
References: View references in EconPapers View complete reference list from CitEc
Citations:

Downloads: (external link)
https://www.mdpi.com/2227-7390/12/21/3328/pdf (application/pdf)
https://www.mdpi.com/2227-7390/12/21/3328/ (text/html)

Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.

Export reference: BibTeX RIS (EndNote, ProCite, RefMan) HTML/Text

Persistent link: https://EconPapers.repec.org/RePEc:gam:jmathe:v:12:y:2024:i:21:p:3328-:d:1505083

Access Statistics for this article

Mathematics is currently edited by Ms. Emma He

More articles in Mathematics from MDPI
Bibliographic data for series maintained by MDPI Indexing Manager ().