KoNLTK(Korean Natural Language Toolkit) - KoNLP

KoNLTK: Korean Natural Language ToolKit

KoNLTK는 python 언어를 이용하여 한글 관련 언어처리 작업을 하기 위한 플랫폼입니다. 형태소 분석, 품사 태깅, 구문 분석, 자동 띄어쓰기 등 한글 텍스트 처리, 언어처리 관련 라이브러리들에 대해 사용하기 쉬운 사용자 인터페이스가 제공됩니다. KoNLTK는 포괄적인 API 문서로 언어학자, 엔지니어, 학생, 교육자, 연구원들에게 적합합니다. NLTK는 Linux에서 사용할 수 있습니다.

NLTK는 국내 자연어 처리 연구 분야의 NLP 전문가들이 연구-개발한 결과물을 다양한 응용 분야에서 쉽게 활용할 수 있도록 API를 제공하여 한글 및 한국어 관련 분야의 발전에 기여하고자 합니다.

KoNLP 플랫폼을 통해 제공되는 연구결과물은 연구-개발 및 비영리적인 목적으로 무료로 제공되며 구체적인 사항은 저작권자의 라이선스 정책을 확인하기 바랍니다.

Some simple things you can do with konlp

Morphological analysis:

>>> from konlp.kma.klt import klt
>>> k = klt.KltKma()
>>> simple_txt = "안녕하세요. 국민대학교 자연어처리 연구실입니다."
>>> k.analyze(simple_txt)
[('안녕하세요', [('안녕', 'N'), ('하', 't'), ('세요', 'e')]), ('.', [('.', 'q')]),
('국민대학교', [('국민대학교', 'N')]), ('자연어처리', [('자연어처리', 'N')]),
('연구실입니다', [('연구실', 'N'), ('이', 'c'), ('습니다', 'e')]),
('.', [('.', 'q')])]
>>> k.morphs(simple_txt)
['안녕', '하', '세요', '.', '국민대학교', '자연어처리', '연구실', '이', '습니다', '.']
>>> k.nouns(simple_txt)
['안녕', '국민대학교', '자연어처리', '연구실']

Automatic word spacing:

>>> from konlp.tokenize import KltAsp
>>> k = KltAsp()
>>> k.asp(text="국민대학교자연어처리연구실")
['국민대학교', '자연어처리', '연구실']
>>> k.asp(text="국민대학교자연어처리연구실", split=False)
'국민대학교 자연어처리 연구실'
>>> k.asp(text="국민대학교자연어처리연구실", split=True)
['국민대학교', '자연어처리', '연구실']

Display a parse tree:

Later on, We are preparing…

Indices and tables