とある言語サービス記録(´・ω・)ス 1.DB設計する
引き続き、今度は実際に格納するDBも作りながら。
まずは、辞書だから・・だが、主キーなど遅くなるよなと
更にMySQLの仕様を確認
予定は6~10万は格納されるから、
いまからカラムなど考えないと。
まずは
word
word_yomi
後、説明か、
idは必要だろうか。あとから任意で振るか。
DBはさらにtext追加してVARCHARで。
さて、あとは、文字を追加していくか。
まずは、辞書だから・・だが、主キーなど遅くなるよなと
更にMySQLの仕様を確認
予定は6~10万は格納されるから、
いまからカラムなど考えないと。
まずは
word
word_yomi
後、説明か、
idは必要だろうか。あとから任意で振るか。
DBはさらにtext追加してVARCHARで。
さて、あとは、文字を追加していくか。
とある言語サービス記録(´・ω・)ス 1.日本語辞書を探す
ちと日本語辞書をオンラインで探す。
そんな迷走のメモ(´・ω・)ス
参照:http://dir.kotoba.jp/subg.cgi?k=ja_dic&fsz=2
1.EPWINGなるものがあるので、確認
ダウンロードするツールらしいが不明なので、保留。
2.私立PDD図書館
とりあえず早速ダウンロード 感謝
データはDBに格納するのに規則性が微妙。
タブを正規表現で別けるしかないか。
【hoge】をいれてその後にタブなしを文字にかな。
他にないか調べる。
3.エキサイト辞書
これはスクレイピングしないと。
面倒か。
4.コトバンク
ふむ、どちらにしても版権とかありそうで、怖い。
更に検索をすると、古いQ&Aも見つかる。
意外と無いものだな。さらにwikiから引っ張れるといいのだが、
やはりスクレイピングになるな。
更に探す。
http://kujirahand.com/web-tools/EJDictFreeDL.php
読みがないからダメか。
http://gjiten.sourceforge.net/
お、?
http://www.vector.co.jp/vpack/filearea/data/writing/dic/
辞書ファイルで検索して、更に検索
ふむ、一括はむりだな、
それぞれぞれの辞書を整形して格納するしかないか。
では、DBを設計してくか
そんな迷走のメモ(´・ω・)ス
参照:http://dir.kotoba.jp/subg.cgi?k=ja_dic&fsz=2
1.EPWINGなるものがあるので、確認
ダウンロードするツールらしいが不明なので、保留。
2.私立PDD図書館
とりあえず早速ダウンロード 感謝
データはDBに格納するのに規則性が微妙。
タブを正規表現で別けるしかないか。
【hoge】をいれてその後にタブなしを文字にかな。
他にないか調べる。
3.エキサイト辞書
これはスクレイピングしないと。
面倒か。
4.コトバンク
ふむ、どちらにしても版権とかありそうで、怖い。
更に検索をすると、古いQ&Aも見つかる。
私立PDD図書館 百科事典・人名辞典
http://www.cnet-ta.ne.jp/p/pddlib/default.htm
国語辞書ではないですが、
LX英和辞書データ
BTON用辞書ツール「英和辞書」で使用するための英和辞書データ
http://www.vector.co.jp/soft/other/tron/se125537.html
ダウンロード辞書データ リンク集
http://dir.kotoba.jp/ddcat.cgi?k=dls_dics&w=2&mL=&SP...
他、いろいろな辞書(なかには有料のものもありますので、お気をつけください)
http://search.vector.co.jp/search?query=%8E%AB%8F%91%83f%81%5B%8...
やはりスクレイピングになるな。
更に探す。
http://kujirahand.com/web-tools/EJDictFreeDL.php
読みがないからダメか。
http://gjiten.sourceforge.net/
お、?
http://www.vector.co.jp/vpack/filearea/data/writing/dic/
辞書ファイルで検索して、更に検索
ふむ、一括はむりだな、
それぞれぞれの辞書を整形して格納するしかないか。
では、DBを設計してくか
MySQLの上限を再度見直す(´・ω・)ス
ちと趣味で作りたいサービスがあり、日本語の辞書から利用。
で、ふとMySQLの上限を再確認(´・ω・)ス
先に結論から書いておく。
https://dev.mysql.com/doc/refman/5.1/en/table-size-limit.html
https://dev.mysql.com/doc/refman/5.1/en/column-count-limit.html
さて、下記記録(´・ω・)ス
単純にひらがな・カナ・漢字など組み合わせはマルチバイトの日本語は、
英語圏より多いだろうなーとオンラインで利用できる所を探すが、
いったいどれ位の文字数だろうと調べる。
参照:国語辞典
そんなあるのか、MySQLの格納するとして、
テーブルの上限も確認しておく
まぁ、カラムは65,535 バイトでOkだとして、
たしか数年前に画像をぶち込んで
何かテーブル上限に引っかかったという経験があるので、
こここでおさらい。
こちらもMySQL自体には制限はない。InnoDBの場合は、テーブルスペースの最大サイズである64TBが実質の上限となる。それ以前に、64TBのファイルを作成できる必要があるのだが、ext3などのファイルシステムでは、ファイルサイズの上限が2TBなので、それより大きなテーブルを作成したい場合には、テーブルスペースを複数のファイルで構成する必要がある。MyISAMの場合も、.MYIまたは.MYDファイルがOSまたはファイルシステムがサポートしているファイルの最大サイズの制限を受ける。Linuxの場合、ext2/ext3では2TB、ext4では16TB、XFSでは8エクサバイトまでである。SolarisではUFSの場合1TB、ZFSの場合16エクサバイトである。ただし、MyISAMはファイルサイズの他に、内部で利用しているポインタサイズによってもテーブルサイズの制限を受ける。デフォルトでは256TBまで(ただし5.0.6以前は4GBまで)のテーブルが作成可能である。ポインタサイズはCREATE TABLE実行時にMAX_ROWSおよびAVG_ROW_LENGTHオプションで指定可能である。(MAX_ROWS x AVG_ROW_LENGTHが希望するテーブルサイズ程度になるようにする。)
参照:http://nippondanji.blogspot.jp/2009/05/mysql.html
そっか当時は4.6とかだったものね。
CentOS6.6のデフォのMySQLは5.1だから確認
https://dev.mysql.com/doc/refman/5.1/en/table-size-limit.html
https://dev.mysql.com/doc/refman/5.1/en/column-count-limit.html
さて、格納するか
で、ふとMySQLの上限を再確認(´・ω・)ス
先に結論から書いておく。
https://dev.mysql.com/doc/refman/5.1/en/table-size-limit.html
https://dev.mysql.com/doc/refman/5.1/en/column-count-limit.html
さて、下記記録(´・ω・)ス
単純にひらがな・カナ・漢字など組み合わせはマルチバイトの日本語は、
英語圏より多いだろうなーとオンラインで利用できる所を探すが、
いったいどれ位の文字数だろうと調べる。
現在は、約50万語を収める最大規模の『日本国語大辞典』(小学館)を始め、種々の中型辞典(10~20万語規模)や、小型辞典(6万~10万語規模)が編纂され、特色を競っている。また、電子辞書やインターネット辞書も、近年利用者を増やしている。これら電子版の内容は書物版に基くものが大多数だが、「デイリー新語辞典」(三省堂提供)のように、毎月200語程度の言葉を追加収録するものもある。
参照:国語辞典
そんなあるのか、MySQLの格納するとして、
テーブルの上限も確認しておく
まぁ、カラムは65,535 バイトでOkだとして、
たしか数年前に画像をぶち込んで
何かテーブル上限に引っかかったという経験があるので、
こここでおさらい。
こちらもMySQL自体には制限はない。InnoDBの場合は、テーブルスペースの最大サイズである64TBが実質の上限となる。それ以前に、64TBのファイルを作成できる必要があるのだが、ext3などのファイルシステムでは、ファイルサイズの上限が2TBなので、それより大きなテーブルを作成したい場合には、テーブルスペースを複数のファイルで構成する必要がある。MyISAMの場合も、.MYIまたは.MYDファイルがOSまたはファイルシステムがサポートしているファイルの最大サイズの制限を受ける。Linuxの場合、ext2/ext3では2TB、ext4では16TB、XFSでは8エクサバイトまでである。SolarisではUFSの場合1TB、ZFSの場合16エクサバイトである。ただし、MyISAMはファイルサイズの他に、内部で利用しているポインタサイズによってもテーブルサイズの制限を受ける。デフォルトでは256TBまで(ただし5.0.6以前は4GBまで)のテーブルが作成可能である。ポインタサイズはCREATE TABLE実行時にMAX_ROWSおよびAVG_ROW_LENGTHオプションで指定可能である。(MAX_ROWS x AVG_ROW_LENGTHが希望するテーブルサイズ程度になるようにする。)
参照:http://nippondanji.blogspot.jp/2009/05/mysql.html
そっか当時は4.6とかだったものね。
CentOS6.6のデフォのMySQLは5.1だから確認
https://dev.mysql.com/doc/refman/5.1/en/table-size-limit.html
https://dev.mysql.com/doc/refman/5.1/en/column-count-limit.html
さて、格納するか
ざっくり設計で#1118 - Row size too large.
ちとメモ(´・ω・)ス
MySQLデータベース設計なしに、
イケイケ構築する事は独りなら良くあったりする。
テーブルをidをマスタにしてインクリメントしてから、
ADD `hoge` varchar(255)を連打するとかね。
そんな時に
#1118 - Row size too large.
The maximum row size for the used table type,
not counting BLOBs, is 65535.
You have to change some columns to TEXT or BLOBs
とか出る。
行が多すぎてダメだよとは分かるのだが、
仕方なしに値を下げて入れる。
それはいいとして、ふと、最大値越えたらどうすんだこれ?と
気になり試しに、VARCHAR(65532)は成功するが、
VARCHAR(65533)だとERROR
ん?と思って値を上げていくと、
VARCHAR(65536)が成功して、mediumtextに自動で変換される。
なんだ?と調べると仕様らしい。
今のメインサーバーだと65533でも自動で変換されている。
900…1000と値をあげつつ挙動を調べたり。
まぁ、こんなの設計してれば起きないし
こんな事だれもテストしないだろうな?と思って検索すると、
同じようなのテストしてる人がいた。
http://d.hatena.ne.jp/kameid/20091201/1259638882
更に調べると結構いた・・・。
ふむ。
DBでカラム作るのに設計せずにガンガンブチ込むって
そんなケースは業務だと少ないとは思うが、
このあたりは面白いな。
だとすると他の型も自動で変換されるのか?
あとでこの挙動を調べておくか。
そんな記録。
そんな記録です(´・ω・)ス
MySQLデータベース設計なしに、
イケイケ構築する事は独りなら良くあったりする。
テーブルをidをマスタにしてインクリメントしてから、
ADD `hoge` varchar(255)を連打するとかね。
そんな時に
#1118 - Row size too large.
The maximum row size for the used table type,
not counting BLOBs, is 65535.
You have to change some columns to TEXT or BLOBs
とか出る。
行が多すぎてダメだよとは分かるのだが、
仕方なしに値を下げて入れる。
それはいいとして、ふと、最大値越えたらどうすんだこれ?と
気になり試しに、VARCHAR(65532)は成功するが、
VARCHAR(65533)だとERROR
ん?と思って値を上げていくと、
VARCHAR(65536)が成功して、mediumtextに自動で変換される。
なんだ?と調べると仕様らしい。
今のメインサーバーだと65533でも自動で変換されている。
900…1000と値をあげつつ挙動を調べたり。
まぁ、こんなの設計してれば起きないし
こんな事だれもテストしないだろうな?と思って検索すると、
同じようなのテストしてる人がいた。
http://d.hatena.ne.jp/kameid/20091201/1259638882
更に調べると結構いた・・・。
ふむ。
DBでカラム作るのに設計せずにガンガンブチ込むって
そんなケースは業務だと少ないとは思うが、
このあたりは面白いな。
だとすると他の型も自動で変換されるのか?
あとでこの挙動を調べておくか。
そんな記録。
そんな記録です(´・ω・)ス
見積システムを実装で意外と時間が掛かる
法人化する前は見積書をPHP+MySQLで自作して、
効率化していたが、法人化してからは、
エクセルでテンプレートで使いまわし・・
やはり発行から管理まで同じようにしないとまずいと、
数日前から自作してるが、気に入らない部分を修正して、
意外と時間が。
先程、インポートして基礎が完了。
あとは修正と発行
完了したら、そのまま請求書までいきたいところ。
今日中に作り終えたいところ。
そんな朝7時の記録
効率化していたが、法人化してからは、
エクセルでテンプレートで使いまわし・・
やはり発行から管理まで同じようにしないとまずいと、
数日前から自作してるが、気に入らない部分を修正して、
意外と時間が。
先程、インポートして基礎が完了。
あとは修正と発行
完了したら、そのまま請求書までいきたいところ。
今日中に作り終えたいところ。
そんな朝7時の記録
築地 理容サン (´・ω・)ス
縁故に床屋・理容の人が数名要るので、
20年以上も知らない床屋に行った事ないのだが、
あまりにも髪が伸びたので、本日築地にあるサン理容 へ
いや”理容サン ”か
http://tokoya-sun.com/
大正14年から創業なのか…すごいな。
いつも行ってる床屋と違うのは、
始めてのお客だから、剃りも洗いもソフトタッチ
思わず寝てしまった。
…で初回割引で更に安かった。
そんな話し(´・ω・)ス



