from transformers import BertTokenizer, BertForQuestionAnswering
from transformers import BertJapaneseTokenizer, BertForMaskedLM
import torch

#tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
tokenizer = BertJapaneseTokenizer.from_pretrained('bert-base-japanese-whole-word-masking')
#model = BertForQuestionAnswering.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad')
model = BertForQuestionAnswering.from_pretrained('bert-base-japanese-whole-word-masking')

#question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"
question, text = "人間は何でしょう。", "人間は考える葦である。"
encoding = tokenizer.encode_plus(question, text)
input_ids, token_type_ids = encoding["input_ids"], encoding["token_type_ids"]

start_scores, end_scores = model(torch.tensor([input_ids]), token_type_ids=torch.tensor([token_type_ids]))

all_tokens = tokenizer.convert_ids_to_tokens(input_ids)
answer = ' '.join(all_tokens[torch.argmax(start_scores) : torch.argmax(end_scores)+1])
print(answer)
#assert answer == "a nice puppet"

考える 葦 で ある 。 [SEP]

Weblog

日本語BERTをJupyter Notebookで試す