Notice
Recent Posts
Recent Comments
Link
«   2025/03   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
Archives
Today
Total
관리 메뉴

꾸스코딩

[논문리뷰] Temporal Knowledge Question Answering via Abstract Reasoning Induction, ACL'24 본문

논문리뷰

[논문리뷰] Temporal Knowledge Question Answering via Abstract Reasoning Induction, ACL'24

꾸스코딩 2025. 3. 9. 12:47

벌써 4번째 논문이네요!!

날씨가 좀처럼 따뜻해질 생각을 안하더니 이제는 슬슬 봄이 오려나봐요 ㅎㅎ

그럼 시작해볼까요?!

 

https://aclanthology.org/2024.acl-long.267/

 

Temporal Knowledge Question Answering via Abstract Reasoning Induction

Ziyang Chen, Dongfang Li, Xiang Zhao, Baotian Hu, Min Zhang. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.

aclanthology.org

 

오늘 들고 온 논문은 지금까지 들고온 논문에서 Temporal이라는 키워드가 추가된 논문입니다.

논문 제목을 한 번 살펴볼게요!

"Temporal Knowledge Question Answering via Abstract Reasoning Induction"

Temporal
해당 키워드를 보면 일반적인 질문이 아닌 시간적 개념이 들어간 질문을 처리하겠구나~라는 것을 추측할 수 있습니다.

Abstract Reasoning Induction

해당 키워드에서는 뭔가 추론을 하는데 abstract이다 induction이다 조금은 바로 이해가 가지 않는데요. 

뭔가 키워드만 봤을때는 abstract하다니까 조금은 간단하게 축약된 표현들을 활용해서 추론을 유도한다? 정도로 감을 잡을 수 있을 것 같아요! 

 

우선, 제목만 살펴보았을때 뭔가 시간적 개념이 들어간 질문을 다루기 위해서 abstract하게 reasoning을 할 수 있게끔하는 방법론을 소개하지 않을까하는 생각이 드네요. 그럼 한 번 논문 내용을 살펴볼까요?

 


Introduction (Background, Motivation, Contribution)

◼︎ Background

  • Temporal Knowledge란?
    [예시]
    2018 동계 올림픽은 South Korea에서 열렸지만, 2022 동계 올림픽은 Beijing에서 열렸음
    ⇒ 이렇게 정보가 시간에 따라 변하는 경우 존재
  • TKGQA (Temporal Knowledge Graph Question Answering)
    1. Hand-crafted rule에 의존 ⇒ TEQUILA: 질문은 decompose하여 sub-question과 temporal constraint로 나누어서 standard KGQA 모델 적용
    2. Learnable representation에 의존 ⇒ CronKGQA : learnable한 reasoning process를 특징으로하며 답변 결정에 semantic similarity를 평가하기 위해 TKG임베딩 활용
  • 외부 지식 사용하는 LLM reasoning ( 목적 : LLM의 hallucination 완화 )
    1. Explicit injection: prompt를 통해 적절한 knowledge를 직접적으로 LLM에게 전달
    2. Implicit injection: reasoning이나 decoding 과정에서 knowledge semantic embedding을 통합하여 LLM을 미세하게 조정
  • 메모리로 LLM reasoning시 LLM은 long-term memory가 본질적으로 약하고 short-term memory는 context window의 제약을 받음

◼︎ Motivation

  • Complex temporal reasoning task에 대해서 LLM이 잘 수행하지 못함
    ⚠ 예시
    Q. Which country’s government leader visited China for the last time in 2015?
    질문 해결을 위한 step
      STEP #1. 어떤 도시들이 중국을 2015년에 방문 했는지 알아야 함
      STEP #2. 가장 빠른 방문 날짜로 필터링 진행해야 함

    LLM이 각 step 별로 실패 사유
      STEP #1 ⇒ 불확실한 parameterised knowledge와 불완전한 training data 때문에 쉽게 hallucination 발생
      STEP #2 ⇒ Time filtering의 부정확성으로 LLM의 오류 유발
    ⇒ 즉, LLM이 temporal에 대해서 익숙하지 않음!!
    1. Temporal knowledge의 부족
      : LLM은 이미 기존의 방대한 데이터로 학습이 되었기 때문에 unseen하고 evolving하는(=update 되는) knowledge에 대해서 성능이 떨어질 수 밖에 없음
    2. Complex temporal reasoning의 부족
      : LLM은 최대 확률을 계산하여 output을 생성하기 때문에 복잡한 reasoning을 handling 하는데 한계가 존재! + 그렇기 때문에 LLM이 복잡한 reasoning을 진행하면 error가 축적될 수 밖에 없음

◼︎ Contribution

  • Constructivism의 원리를 반영하여 LLM의 reasoning의 능력과 task adaptability 향상
  • Abstract Reasoning Induction (ARI) framework 제안하여 historical reasoning sample들로부터 학습하고 구성하여 LLM의 reasoning 능력 향상
  • 2 종류의 temporal QA dataset에 대해서 좋은 성능 보임

Methods

해당 파트에서는 방법론에대해 설명하는 파트입니다.

📑 방법론 요약
  • Knowledge-based : 주어진 질문과 관련있는 subgraph를 추출하고 순회하여 가능한 모든 fine-grained action들을 생성
    ⇒ fine-grained atomic operation들을 결합하여 복잡한 knowledge query 만들기 가능해짐
  • Knowledge-agnostic : LLM은 높은 수준의 전략적 결정과 후보 action 선택 진행
  • Inference 과정 : 우선 주어진 질문의 유형을 구분하고 가장 적합한 abstract methodological guidance를 선택

1️⃣ Knowledge-based Interaction

  1. 주어진 질문과 TKG가 interaction 할 수 있도록 filtering mechanism 적용
  2. 각 step 별로 feasible candidate action의 집합들을 생성
  3. LLM이 가장 적합한 action을 선택
  • Candidate Action Enumeration
    • 질문 q의 subject entity $e_h$ 로부터 시작하여 1-hop subgraph 를 TKG에서 찾기.
    • 아래의 수식에서 $G_{e_h}$ 는 subject entity의 subgraph를 의미
      $$G_{e_h} = \{\,(e,r) \mid e  \in N_{e_h},\, r  \in R_{e_h} \,\}$$
    • Agent는 현재 subgraph에 있는 relation과 entity들을 순회하고 교체하면서 candidate actions $P_0$ 집합 형성
      $$P_0 = \{\text{Enum}(\text{action}, e, r) \mid e, r \in G_{e_h} \}$$
  • Candidate Action Filteration
    •  Correct, Feasible, Semantically relevant 한 candidate actions만 남기도록
      if function이 non-empty라면 조건을 만족한 action, empty라면 discard!
      $$P_0' = \{\ a \mid \text{exec}(a) \neq \emptyset \wedge a \in \text{Top-K}(P_0, q) \ \}$$

2️⃣ Knowledge-agnostic Interaction

  • LLM이 다양한 질문에 적용 가능하도록 historical reasoning example로 부터 abstract methodology를 distill & apply할 수 있게 함
  • Historical Memory Storage and Learning
    • Temporal reasoning이 complex하고 multi-step으로 이루어지긴하지만, reasoning의 종류들은 consistent하고 비슷한 inference step들을 필요로할 것 ⇒ K-means 사용하여 유형화!
      ▵ 각 clsuter = accurate reasoning + erroneous reasonig
  • LLM Decision w/ Abstract Reasoning
    1. 새로 들어온 question에 대해서 가장 관련이 깊은 historical reasoning cluster를 식별
      ⇒ 각 clsuter들과 question 사이의 유사도 점수 계산
    2. 현재 question을 처리할 수 있는 abstract methodology 추출
      ⇒ 계산한 점수들의 max cluster로부터 abstract methodology 추출
      $$C^* = \underset{C_i}{\arg\max} \, S(C_i, q)$$
      $$a^*_i = \text{LLM}(M_{C^*}, q, P_i)$$
      ⁕ $a^*_i$ 가 LLM이 최종적으로 내뱉는 output!

ARI 알고리즘과 figure

Experiments

해당 파트에서는 실험 세팅 및 결과에대해 설명하는 파트입니다. 
  • 데이터셋 : MultiTQ, CronKGQA
  • 실험 결과
  • Ablation Study (논문에서 설명하는 수치와 table의 수치가 align이 안되더라구요,,ㅎ)
    • Abstract Guidance가 성능에 가장 큰 영향을 미침
    • Incorrect example이 수치화되어서 contratstive learning 처럼 작용하진 않지만, active learning을 하면서 학습을 하긴 하는구나!

 

🐹 SUM UP

3월의 첫 논문이자 제가 정리하는 4번째 논문을 마무리 지어보았는데요!

기존의 논문들에 추가적으로 "temporal"이라는 키워드가 들어간 논문이었습니다. 

사용자의 질문들이 일반적인 질문일 수도 있지만, 이 논문에서 다루는 것처럼 시간과 관련된 질문이 있을 수 있는데, 

그런 부분을 LLM으로 잘 해결하려고 했던 논문인 것 같습니다. 

물론 현재 나오고 있는 논문들이 훨씬 더 성능이 좋긴하지만, LLM을 활용하는 TKGQA 초반 논문들이라 한 번쯤 읽어두면 도움이될 것 같아서 정리해보았어요 :)

틀린 내용 혹은 이해가 가지 않는 내용은 댓글로 남겨주시면 적극 반영하고 소통하겠습니당 ㅎㅎ 

그럼 다음 논문으로 찾아뵐게요!