内容へ移動
自然言語処理の餅屋
https://www.jnlp.org/
ユーザ用ツール
ユーザー登録
ログイン
サイト用ツール
検索
ツール
ソースの表示
以前のリビジョン
バックリンク
最近の変更
メディアマネージャー
サイトマップ
ユーザー登録
ログイン
>
最近の変更
メディアマネージャー
サイトマップ
現在位置:
自然言語処理の餅屋
»
データ
»
コーパス
サイドバー
(
広告募集
)
データ:コーパス
目次
コーパス
コーパスツール
その他
コーパス
コーパスとは
2021-03-12 |
「コーパス」とは?自然言語を扱うAIのカラクリ
日本語コーパス・言語データ
2022-11-24 |
「地球の歩き方」の利用者投稿旅行記データを学術研究用に無償で提供開始
2022-11-07 |
A Japanese Corpus of Many Specialized Domains (JCMS)
2022-07-02 |
ママ活DMコーパス
– ママ活の勧誘DMを集めてコーパスにしたものです
2022-07-01 |
スマートニュース、国会議案データベースを無償公開 過去20年分をGitHubで
京都大学ウェブリード文書コーパス
2019-12-19 |
KWDLC(京都大学ウェブ文書リードコーパス)を知って、意味関係解析に取り組もう
現代日本語書き言葉均衡コーパス(BCCWJ)
約1億430万語=
約600万文
Wikipedia
,
Wiki-40B
日本語ウェブコーパス 2010
– HTML3.25TB, テキスト396GB, 単語n-gram 75.2GBなど
CC-100: Monolingual Datasets from Web Crawl Data
– 日本語15GB
OSCAR (Open Super-large Crawled ALMAnaCH coRpus)
– huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture
青空文庫
livedoorニュースコーパス
日本語諸方言コーパス (COJADS)
2020-08-17 |
日本語諸方言コーパスをDB化して遊ぶ (3) PHP Laravel で操作する
– Qiita
NMTデータストア
小説家になろう
– コーパスではありませんが100万件近い小説があるので利用できるかも
コーパスツール
#LancsBox: Lancaster University corpus toolbox
その他
The Business Scene Dialogue corpus
- GitHub
ビジネス対話シナリオ(日英)(20,000文程度)文脈を踏まえた口語表現による自然な対話文、シーンは対面会話・雑談・電話・ミーティング・研修・プレゼンの6つを想定しております。
The Abstraction and Reasoning Corpus (ARC)
- GitHub
NASDAQ 100 - Free News Intelligence Dataset Download
2020-10-10 |
The Big Bad NLP Database
(感想・要望・情報提供)
· 最終更新: 2022/12/09 14:58 by
admin
ページ用ツール
ソースの表示
以前のリビジョン
バックリンク
文書の先頭へ
(広告募集)