NLP에서 명명 된 엔티티 정보를 사용하는 그래프 기반 텍스트 유사성 방법

[ad_1]

으로 Prakhar Mishra, IIIT-Bangalore 연구원

이 블로그에서는 논문을 요약 해 보았습니다. 명명 된 엔터티 정보를 사용하는 그래프 기반 텍스트 유사성 측정 내 이해에 따라. 당신의 생각에 대해서도 같은 의견을 주시기 바랍니다!

문제 설명

저자는 텍스트 문서의 Named Entity riched Graph 표현을 기반으로 텍스트 유사성을 계산하는 새로운 기술을 제안합니다. 객관적으로 이것을 다음과 같이 생각할 수 있습니다. 두 개의 문서 (D1, D2)가 주어지면 이들 간의 유사성 점수를 반환하려고합니다. 여기서 {s ∈ R | 0 ≤ s ≤ 1}은 유사성의 강도를 나타냅니다. 1은 정확히 유사하고 0은 유사하지 않습니다.

제안 된 방법


NLP에서 명명 된 엔티티 정보를 사용하는 그래프 기반 텍스트 유사성 방법 |  관로
제안 된 파이프 라인 | 이미지 출처 출처

저자는 다음과 같은 일련의 유사성 측정을 제안합니다. n-gram 그래프 표현 텍스트 문서의 경우. 이를 위해 3 단계 파이프 라인을 제안합니다.

  • 정보 추출 — 이것은 두 가지 방법을 사용하는 텍스트 문서에서 관련 정보 청크를 추출하는 파이프 라인의 첫 번째입니다. 추출 명명 된 엔티티 2. 탑 추출TF-IDF를 사용한 순위 용어.
  • 그래프 표현 — 첫 번째 단계에서 추출 된 정보는 해시됩니다. (여러 단어 용어에 대한 단일 노드 표현을 얻으려면) 그래프에서 고유 한 노드로 사용되는 반면 나머지 모든 단어는 단일 자리 표시 자 단어로 대체됩니다. 이제 이것은 모델링 선택이거나 표현하려는 플레이스 홀더 노드 수에 대한 절충 매개 변수로 생각할 수 있습니다. 단일 자리 표시 자 단어를 사용하면 중요하지 않은 모든 단어에 대해 하나의 노드 만있는 단어 그래프가 생성되므로 n-gram 그래프의 크기와 유사성 연산자의 복잡성이 크게 줄어 듭니다. 이를 이해하기 위해 예를 들어 보겠습니다. 예를 들어 입력 문장이“내 이름은 Prakhar Mishra. 나는 개발자”. 전처리 된 문장 표현은 “AAA 213aaeb1 AAA _개발자”, 어디, 자리 표시 자 기호입니다. 중요하지 않은 말, 213aaeb1 에 대한 해시입니다 Prakhar Mishra _개발자 이다 해시시 단어 개발자. 이를 시각적으로 이해하려면 아래 그림을 참조하십시오.


텍스트 예제의 N- 그램 그래프 표현
N- 그램 그래프 표현

가장자리는 위의 n-gram 그래프에서 볼 수있는 가중치이며, 사전 처리 된 문장 표현을 가로 지르는 크기 L의 슬라이딩 윈도우에서 용어의 동시 발생 수를 기반으로 결정됩니다.

  • 그래프 유사성 측정 — 그래프가 준비되면 작성자는 다음과 같은 메트릭을 사용합니다. 가치 유사성, 크기 유사성 정규화 된 값 유사성 두 그래프 간의 유사성을 측정하기 위해

— 가치 유사성 : 이것은 각각의 가중치와 함께 두 그래프 사이의 공통 간선 세트를 고려합니다. 수학적으로 다음과 같이 표현됩니다.


가치 유사성 텍스트 그래프
가치 유사성

여기서 e는 두 그래프 Gi, Gj 및 VR (e) 사이의 공통 간선이며 다음과 같이 계산됩니다.



VR 계산

— 크기 유사성 : 다음과 같이 계산되는 그래프의 크기를 고려합니다.


크기 유사성 측정
크기 유사성

— 정규화 된 값 유사성 : 이 유사성 측정은 비교 중에 그래프의 상대적 크기를 무시합니다. 그리고 다음과 같이 정의됩니다.


정규화 된 값 유사성 텍스트 그래프
정규화 된 값 유사성

만약 SS (크기 유사성) = 0, NVS 값도 0으로 설정됩니다.

사용 사례에 따라 위의 유사성 측정 세트를 사용하는 방법을 결정할 수 있습니다. 풀링 기능을 사용하여 위의 모든 방법의 점수를 병합하고 집계 된 유사성 점수로 나타낼 수 있습니다. 또 다른 방법은 그래프를 위의 방법에서 얻은 유사성 점수의 벡터로 표현한 다음 위에서 클러스터링 또는 분류를 수행하는 것입니다.

가능한 확장 (내 생각)

동일한 항목 그룹에 동일한 해시가 제공되는 약간 제어 된 해싱 방법을 사용할 수 있습니다. 이것은 그래프에서 범주 적 유사성을 유도하고 공간 / 시간 복잡성을 감소시키기 때문입니다.

내가 작성한 다른 연구 논문 설명을 확인할 수도 있습니다.

NLP의 10 가지 인기 키워드 추출 알고리즘

BERT-QE : 문맥 화 된 검색어 확장

정확성 그 이상 : 체크리스트를 사용한 NLP 모델의 행동 테스트

추출 텍스트 요약을위한 BERT

ML을 사용하여 텍스트에서 자동 Hypernym 관계 추출

논문을 읽고“안녕하세요”라고 말하고 저자의 기여에 감사드립니다.

논문 제목 : 명명 된 엔터티 정보를 사용하는 그래프 기반 텍스트 유사성 측정

종이 링크 : 액세스 용지

저자 : 레오니다스 체 쿠라 스, 이라 클리스 발라 미스, 조지 지아 나코 폴로 스

감사합니다!

약력 : Prakhar Mishra Prakhar는 현재 IIIT Bangalore의 데이터 과학 석사 (연구) 대학원생입니다. 그의 연구 관심 분야는 자연어 이해 및 생성, 정보 검색, 비지도 학습 및 강화 학습입니다.

실물. 허가를 받아 재 게시되었습니다.

관련 :

[ad_2]

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *