SIEにおけるBook知識化
Semantic Integration Engine (SIE)では、外部知識をそのまま採用するのではなく、SIE自身が定義する知識スキーマとRDFノードを中心に知識を構築します。
Bookは、その最初の具体例です。ISBNを起点として各種Open Knowledgeを取得し、ローカルなKnowledgeSpaceへ統合します。
知識提供元
SIEは複数の知識提供元からBook情報を取得します。各プロバイダがどの種類の知識を提供するかを整理します。
現在主に利用している知識提供元は以下です。
-
openBD
-
Open Library
-
DBpedia
-
Wikidata
これらは単なるAPIではなく、それぞれ異なる知識的役割を持ちます。
openBD
openBDは日本向け書誌情報ソースです。
主に以下を取得します。
-
title
-
publisher
-
publication date
-
authors
-
cover image
openBDは主に日本語書誌情報の取得元として利用されます。
Open Library
Open Libraryは図書館系メタデータとSubject知識の取得元として重要です。
取得対象:
-
title
-
subjects
-
description
-
edition keys
-
work keys
-
source URLs
Bookに関するRDF知識
| vocabulary | purpose |
|---|---|
|
schema.org |
bibliographic and relationship modeling |
|
RDF / RDFS |
basic RDF graph structure |
|
OWL |
identity linkage and semantic equivalence |
|
SKOS |
classification and concept hierarchy |
|
PROV |
provenance and evidence tracking |
|
Dublin Core |
lightweight metadata interoperability |
|
Wikidata ontology |
external knowledge graph linkage |
|
FOAF |
person-oriented relationship modeling |
schema.org
schema.orgは、Book知識の中心ボキャブラリとして利用されます。
主に以下を表現します。
-
Book
-
CreativeWork
-
author
-
publisher
-
citation
-
about
-
keywords
-
datePublished
-
inLanguage
Bookそのものの説明、ならびにBookと他知識との関係表現に利用されます。
RDF / RDFS
RDFとRDFSは、KnowledgeSpace全体の基本グラフ構造を表現します。
主に以下を表現します。
-
rdf:type
-
rdfs:label
-
rdfs:subClassOf
-
resource hierarchy
KnowledgeNodeの型付けや、基本的なRDFノード構造で利用されます。
OWL
OWLは、外部知識との同一性接続に利用されます。
主に以下を扱います。
-
owl:sameAs
-
equivalent resources
-
semantic identity
Book KnowledgeNodeをDBpediaやWikidataへ接続する際に重要です。
SKOS
SKOSは、Bookの分類知識と概念階層を表現します。
主に以下を扱います。
-
Concept
-
broader
-
narrower
-
related
-
taxonomy
-
subject hierarchy
Book subjectやカテゴリ階層の管理で利用されます。
PROV
PROVは、知識の来歴と生成過程を表現します。
主に以下を扱います。
-
prov:wasDerivedFrom
-
prov:wasGeneratedBy
-
provider source
-
review history
-
evidence linkage
SIEでは、Explainable AIやTrust-aware RAG (Retrieval-Augmented Generation, 検索強化生成)のために重要な役割を持ちます。
Dublin Core
Dublin Coreは、軽量メタデータ互換性のために利用されます。
主に以下を扱います。
-
title
-
creator
-
subject
-
language
-
identifier
外部図書館系メタデータとの相互運用で利用されます。
KnowledgeNodeの基本項目
SIEでは単体の知識をKnowledgeNodeとして表現します。
KnowledgeNodeの基本形では、以下の知識項目を持ちます。
-
id: SIE内部で安定して参照するKnowledgeNode ID。
-
category: Book、Person、Organization、Conceptなど、運用上の大分類。
-
identity: RDFノード、canonical ID、sameAs、ISBN、Wikidata ID、DBpedia URIなどの識別情報。
-
presentation: title、label、name、descriptionなど、人間に提示する表示情報。
-
semantics: semantic type、role、confidence、lifecycle、temporal profileなど、意味的・運用的な性質。
-
structure: hierarchy、classification、part-whole、correspondenceなど、グラフ探索で直接使う構造。
-
sources: provider、source document、evidence、provenanceなど、根拠と来歴。
-
bindings: CNCF (Cloud Native Component Framework) Entity、Tag、外部Entityなど、実行系やドメインモデルとの対応。
-
similarity: embedding、vector search entry、類似検索状態など、意味距離検索に使う表現。
-
operations: materializedAt、frame、validation (妥当性確認) statusなど、知識化処理や運用状態。
-
attributes: ドメイン固有の拡張属性。Bookでは書誌情報や版情報などがここに入ります。
重要なのは、これらの項目がRDFの生データをそのまま保存する場所ではない点です。SIEはRDF predicate、外部API応答、Entity由来情報を正規化し、KnowledgeNodeとして操作しやすい項目へ投影します。
Book用拡張項目
BookをKnowledgeNodeとして扱う場合、基本項目に加えてBook固有の拡張項目を持ちます。これらは、書誌情報、外部識別子、関係知識、来歴情報をRAGやレビューで扱いやすくするためのものです。
-
bibliographic: title、subtitle、description、publisher、published date、languageなど、Bookそのものを説明する情報。
-
bookIdentity: ISBN-10、ISBN-13、OCLC、LCCN、NDL、Open Library key、Wikidata ID、DBpedia URIなど、Bookを外部知識へ接続する識別子。
-
editionAndWork: Work、Edition、Manifestationを分けるための情報。将来的に同一作品の複数版を扱う基盤になります。
-
contributors: author、editor、translator、illustratorなど、Bookに関与した人物・組織との関係。
-
classification: subject、keyword、genre、category、SKOS conceptなど、分類・主題に関する情報。
-
relations: citation、about、sameAs、hasPart、isPartOf、relatedWorkなど、Bookから他の知識ノードへ向かう関係。
-
media: cover image、thumbnail、preview URLなど、表示や確認に使うメディア情報。
-
candidateAssertions: resolverが取得したが、まだ採用されていない候補知識。confidence、provider、evidenceと一緒に保持します。
-
reviewState: 採用・却下・保留など、Book知識をKnowledgeSpaceへ反映するためのレビュー状態。
Book用拡張項目は、基本KnowledgeNodeのattributesに閉じ込めるだけでなく、identity、presentation、structure、sourcesにも反映されます。たとえばISBNやWikidata IDはidentityへ、titleやdescriptionはpresentationへ、subjectやgenreはstructure.classificationsへ、Open LibraryやDBpediaの取得元はsourcesへ投影されます。
KnowledgeSpaceへの投影
レビュー済みBook情報だけがKnowledgeSpaceへ投影されます。概念的には以下のようなRDF知識になります。
sie:book/01JV...
rdf:type schema:Book
schema:name "The Hobbit"
schema:isbn "978..."
schema:author sie:person/...
schema:publisher sie:organization/...
schema:description "..."
owl:sameAs <https://dbpedia.org/resource/The_Hobbit>
owl:sameAs <https://www.wikidata.org/entity/Q15228>
prov:wasDerivedFrom <https://openlibrary.org/...>
最初は単なる文字列だった値も、レビューと投影を経て、後からKnowledgeNodeへ変換できます。
"J.R.R. Tolkien"
->
sie:person/...
この時点でBookは、ローカルID、外部識別子、表示情報、分類、関係、来歴、信頼度を持つ知識ノードになります。
参照
用語集
- RDF
-
W3C により標準化された、情報を「主語–述語–目的語」の三つ組(トリプル)で表現するための知識記述モデル。
- Semantic Integration Engine (SIE)
-
BoK(Body of Knowledge)から生成された構造化知識(RDF)および文書知識(SmartDox)を統合し、AIが直接利用できる形に変換・検索するための統合エンジン。
- 知識グラフ (knowledge graph)
-
現実の概念・事物・出来事をノードとし、その関係をエッジとして表す意味的グラフ構造の知識ベース。
- 検索強化生成 (RAG, Retrieval-Augmented Generation)
-
生成AIが内部(パラメトリック)知識だけでなく、外部の知識ソースを検索してから応答を生成する技術。 RAGはまずデータベースや知識グラフなどから関連情報を検索し、それを文脈として取り込み、より正確で最新の応答を生成する。
- Cloud Native Component Framework (CNCF)
-
Cloud Native Component Framework(CNCF)は、クラウド・アプリケーションを構成するコンポーネントを、単一かつ一貫した実行モデルで実行するためのフレームワークです。 Component / Service / Operation という構造を中核とし、command、server(REST / OpenAPI)、client、script といった異なる実行形態から、同一の Operation を再利用できることを特徴とします。 ログ、エラー処理、設定、配備といったクラウド・アプリケーションに必要な品質属性をフレームワーク側に集約することで、コンポーネントはドメイン・ロジックの実装に集中できます。 CNCF は、文芸モデル駆動開発および AI 支援開発を前提に、「何を実行するか」と「どのように呼び出すか」を分離するための実行基盤として設計されています。
- 妥当性確認 (validation)
-
Validation(妥当性確認)とは、システムや機能が利用目的や要求仕様に対して妥当であるかを確認する行為である。
- 仕様確認 (verification)
-
Verification(仕様確認)とは、規定された設計仕様や要求仕様に対して、実装が一致しているかを確認する行為である。