GiNZAを使ってみたのでメモ。
!pip install -U ginza # GiNZAのインストール import pkg_resources, imp # おまじない imp.reload(pkg_resources) # おまじない import spacy # SpaCy nlp = spacy.load('ja_ginza') # GiNZA from spacy import displacy # 構文解析結果の表示
doc = nlp('解析したいテキストをここに入力する。') for sent in doc.sents: for token in sent: print(token.i, token.orth_, token.lemma_, token.pos_, token.tag_, token.dep_, token.head.i)
doc = nlp('小林は7月に新潟の三越で20キロの柴犬に噛まれたらしい。') displacy.render(doc, style="ent", jupyter=True)
doc = nlp('少女の古いアパートが壊されかけた') displacy.render(doc, style='dep', jupyter=True, options={'distance': 100})
tokens = nlp('学校 大学 バナナ') for t1 in tokens: for t2 in tokens: if t1 == t2: break print('{} と {} の類似度:{:.2}'.format(t1, t2, t1.similarity(t2)))
doc1 = nlp('個人事業は昼寝ができるのが最大の特権だ。') doc2 = nlp('少しぐらい寒くても毎日散歩はしたほうがいい。') doc3 = nlp('今年になってから東京に出張していない。') for d1 in (doc1, doc2, doc3): for d2 in (doc1, doc2, doc3): if d1 == d2: break print('「{}」と「{}」の類似度:{:.2}'.format(d1, d2, d1.similarity(d2)))