このセクションの他の記事
データの形式について
■MatrixFlowで処理できるデータの形式
MatrixFlowでは、以下のデータが処理できます。
データの種類 | 処理できる問題 | ファイル形式 | 備考 |
---|---|---|---|
数値や文字列の表形式データ | 分類 回帰 時系列解析 |
.csv 行と列からなる、カンマ区切りの構造化データ |
文字列は前処理で数値化すれば処理可能(MatrixFlow内で可) |
単語や文章を含む表形式データ (自然言語を含む構造化データ) |
分類 | .csv 行と列からなる、カンマ区切りの構造化データ |
単語や文章を自然言語処理して数値化すれば処理可能(MatrixFlow内で可) |
単語や文章の文書データ (自然言語の非構造化データ) |
分類 ベクトル化 |
.zip (推論時のみ .txt 可) 行列の概念がない非構造化データ |
.zip は .txt, .pdf をまとめたファイル .txt , .pdf は1ファイルを1データと考える 推論時のみ単一の .txtファイルも処理可能(単一のPDFファイルの推論は不可) |
画像データ | 分類 ベクトル化 次元圧縮 |
.zip (推論時のみ .jpg, .png 可) 行列の概念がない非構造化データ |
.zip は .jpg, .png をまとめたファイル 推論時のみ単一の .jpg, .png ファイルも処理可能 |
■データセットのサイズについて
レシピによって処理できるデータセットのサイズ制限が異なります。
(以下は2022年8月現在であり、今後変わる可能性があります。)
データ種類 | レシピ | Max値 |
---|---|---|
数値/文字列データ(csv) | AutoFlow(分類・回帰)* | 200MB 500列×23,000行 |
TrendFlow(時系列解析) | 200MB 500列×25,000行 |
|
MfTransformer(時系列解析) | 50列×5,000行 | |
画像データ(zip) | ディープラーニング | 500MB 50万枚 |
文書データ(csv, zip) | 自然言語処理** | (欄外参照) |
* データセットがMax値に近いサイズの場合、学習に2日程度かかるため、アルゴリズムを絞って実行することを推奨しています。運用方法など、詳しくは担当のAIコンサルタントにお問い合わせください。
** データの内容によって制限値が異なります。運用方法など、詳しくは担当のAIコンサルタントにお問い合わせください。
■MatrixFlowで処理できる日時データの形式
時系列解析で利用できる日時のフォーマットは次の通りです。
時系列解析を行うには、レシピに「TrendFlow」や「MfTransformer」ブロックを組み込みます。
<ハイフン区切り>
・YYYY-MM-DD HH:MM:SS
・YYYY-M-D H:M:S
・YYYY-MM-DD
・YYYY-M-D
<スラッシュ区切り>
・YYYY/MM/DD HH:MM:SS
・YYYY/M/D H:M:S
・YYYY/MM/DD
・YYYY/M/D
<日本語表記>
・YYYY年MM月DD日 HH時MM分SS秒
・YYYY年M月D日 H時M分S秒
・YYYY年MM月DD日
・YYYY年M月D日
<タイムゾーン対応>
・YYYY-MM-DDTHH:MM:SS