banner
홈페이지 / 블로그 / 학술 지식에 대한 벤치마크에 답하는 SciQA 과학 질문
블로그

학술 지식에 대한 벤치마크에 답하는 SciQA 과학 질문

May 24, 2024May 24, 2024

Scientific Reports 13권, 기사 번호: 7240(2023) 이 기사 인용

2289 액세스

12 알트메트릭

측정항목 세부정보

지식 그래프는 지난 10년 동안 과학과 기술 분야에서 점점 더 인기를 얻고 있습니다. 그러나 지식 그래프는 현재 주로 사실 진술의 모음인 상대적으로 단순하거나 중간 정도의 의미 구조를 갖고 있습니다. 지금까지 QA(질문 응답) 벤치마크 및 시스템은 주로 DBpedia 및 Wikidata와 같은 백과사전적 지식 그래프에 맞춰져 있었습니다. 우리는 학문적 지식에 대한 과학적 QA 벤치마크인 SciQA를 제시합니다. 벤치마크는 709개 연구 분야의 약 15,000개 학술 논문의 연구 기여를 설명하는 약 170,000개 리소스가 포함된 ORKG(Open Research Knowledge Graph)를 활용합니다. 상향식 방법론에 따라 먼저 이 지식 그래프를 사용하여 답변할 수 있는 100개의 복잡한 질문 세트를 수동으로 개발했습니다. 또한 우리는 추가 2465개의 질문을 자동으로 생성하는 8개의 질문 템플릿을 고안했으며 이 질문은 ORKG로도 답변할 수 있습니다. 질문은 다양한 연구 분야와 질문 유형을 다루며 ORKG를 통해 해당 SPARQL 쿼리로 변환됩니다. 두 가지 예비 평가를 바탕으로 결과 SciQA 벤치마크가 차세대 QA 시스템에 대한 어려운 작업을 나타냄을 보여줍니다. 이 작업은 2023년 제22회 국제 시맨틱 웹 컨퍼런스에서 열리는 QALD(링크된 데이터에 대한 질문 답변) 챌린지 공개 대회의 일부입니다.

지식 그래프는 지난 10년 동안 과학과 기술 분야에서 점점 더 인기를 얻고 있습니다. 이는 다양한 교차로에서 지식의 다양하고 진화하는 의미론적 표현을 가능하게 합니다.

정보 구조화 수준: 비구조화, 반구조화, 구조화;

추상화 수준: 개념적 대 운영적 수준;

지식 표현 형식: 그래프, 사실, 실체-관계, 논리; 그리고

기술 생태계.

그러나 DBpedia 또는 Wikidata와 같이 공개적으로 사용 가능한 대부분의 지식 그래프는 상대적으로 단순하거나 중간 정도의 의미 구조를 가지고 있습니다1. 내용, 크기, 적용 범위 및 중복이 다양하지만 모두 기본적으로 엔터티 설명에 정렬된 사실 진술 모음을 나타내며 클래스 계층 구조 및 해당 속성 정의로 강화될 수 있습니다. QA(질문 응답) 벤치마크와 시스템은 지금까지 주로 DBpedia 및 Wikidata2,3와 같은 백과사전적 지식 그래프에 맞춰져 있었습니다. 현재 연구 지식 그래프라고 불리는 새로운 유형의 지식 그래프가 등장하고 있으며, 그 내용은 학술적 기여4,5 또는 개인화를 위한 OMICS 데이터 구조로 전달되는 아이디어, 이론, 접근법 및 주장과 같은 서지 메타데이터와 과학적 요소입니다. 의학6. 이러한 새로운 연구 지식 그래프는 이전에는 크게 격리되었던 세 가지 측면인 의미론적 표현(의미론적 지능), 기계 학습(기계 지능), 군중 및 전문가 소싱(인간 지능)을 점점 더 얽혀 있습니다. 특히 학술 커뮤니케이션은 다음과 같은 이유로 QA 적용이 더욱 어려운 영역입니다.

지식 표현의 이질성;

과학적 담론과 함께 개념 표류와 지식 진화;

연구 기여를 설명하는 데 사용되는 다양한 지식 세분화

단순한 개체 설명을 뛰어넘는 새로운 지식 구조입니다.

우리는 학문적 지식에 대한 과학적 QA 벤치마크인 SciQA를 제시합니다. 벤치마크는 현재 709개 연구 분야의 약 15,000개 학술 기사의 연구 기여를 설명하는 약 170,000개 리소스로 구성된 ORKG(Open Research Knowledge Graph)4,7(https://orkg.org)를 활용합니다. 이러한 연구 기여에는 무엇보다도 연구 과정, 사용된 방법 및 재료, 특정 결과에 대한 세부 정보가 포함됩니다. 그림 1은 ORKG9에 기술된 Budde et al.8의 논문의 구체적인 예를 보여줍니다. 이 문서에서는 하이브리드 고체 부품을 제조하는 네 가지 기계적 공정에 대해 보고합니다. 그림 1에서는 ORKG에 설명된 4가지 프로세스 중 하나에 대한 설명의 일부만 표시합니다. 전반적으로 네 가지 설명 각각에는 개별 단계, 순서, 단계당 들어오고 나가는 구성 요소, 측정 방법 및 측정 결과와 관련된 전체 기계 프로세스에 대한 세부 정보가 포함되어 있습니다.

1000 Sequences)?/p>

The third question (ID 78 in SciQA-Handcrafted) belongs to the research field Ecology and Biodiversity of Animals and Ecosystems, Organismic Interactions from the domain of Zoology. This non-factoid question is based on the comparison Genetic Variability (COI Variation) in Studies Large Sampled (>1000 Sequences)1000 sequences). https://doi.org/10.48366/R149849 (2022)." href="/articles/s41598-023-33607-z#ref-CR42" id="ref-link-section-d14718875e2936"42 which compares the genetic variability in studies containing more than 1000 cytochrome c oxidase I (COI) barcoding sequences. The question aims to identify where the study with the maximum geographic scope took place, which in this case is a study conducted in the United States of America, Mexico, and Canada. The SPARQL query has six triple patterns, uses six query components, and is shaped like a tree./p>

1000 sequences). https://doi.org/10.48366/R149849 (2022)./p>