initial model card & files

Files changed (9) hide show

.ipynb_checkpoints/README-checkpoint.md +73 -0
.ipynb_checkpoints/config-checkpoint.json +8 -0
.ipynb_checkpoints/predict_ret_next-checkpoint.py +51 -0
.ipynb_checkpoints/requirements-checkpoint.txt +6 -0
README.md +70 -0
config.json +8 -0
model.joblib +3 -0
predict_ret_next.py +51 -0
requirements.txt +6 -0

.ipynb_checkpoints/README-checkpoint.md ADDED Viewed

	@@ -0,0 +1,73 @@

+---
+license: apache-2.0
+tags:
+  - finance
+  - japanese
+  - stock-prediction
+  - sentence-transformers
+  - gradient-boosting
+datasets:
+  - kabu-disclosures-v1
+metrics:
+  - mean_absolute_error
+  - r2
+model-index:
+- name: jfinance-title2return-v1
+  results:
+  - task:
+      type: regression
+      name: Stock Return Regression
+    dataset:
+      name: JP_Disclosure_Titles_2024Q3-2025Q2
+      type: custom
+    metrics:
+      - type: mean_absolute_error
+        value: 2.94
+      - type: r2
+        value: -0.064
+---
+# jfinance-title2return-v1
+日本株 **TDnet／EDINET 開示タイトル** から
+**翌営業日リターン (`ret_next`, %)** を推定する Gradient Boosting Regressor モデルです。
+タイトル文は [`sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2`](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2)
+（384 次元）にエンコードし、±25 % Winsorize 済みリターンを回帰ターゲットに学習しました。
+---
+## Intended Uses & Limitations
+| ✔ 推奨用途 | ✘ 非推奨用途 |
+|-----------|-------------|
+| IR イベントドリブンの速報スクリーニング | 裁量なしの完全自動売買 |
+| 金融 NLP 研究・ベンチマーク | ETF／REIT での厳密な値動き予測 |
+| 個人投資家の材料整理 | 終値 < 1 円の超低位株 |
+> **注意**: 実際の投資判断に用いる際は必ず追加検証を行ってください。
+---
+## Quick inference (one-liner)
+```python
+from joblib import load
+from sentence_transformers import SentenceTransformer
+from huggingface_hub import hf_hub_download
+# download & load model
+reg  = load(hf_hub_download("c299m/jfinance-title2return-v1", "model.joblib"))
+embed = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+title = "AIマッチングサービスβ版リリースのお知らせ"
+pred  = reg.predict(embed.encode([title]))[0]
+print(f"Predicted next-day return: {pred:.2f} %")
+### Run with the helper script
+```bashcd
+python predict_ret_next.py "NVIDIAと提携"
+#▶ loading models …
+#予測翌営業日リターン: 15.04 %

.ipynb_checkpoints/config-checkpoint.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "embed_model": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
+  "feature_dim": 384,
+  "ret_clip_percent": 25,
+  "winsorize": true,
+  "model_type": "sklearn_gradient_boosting_regressor",
+  "created_at": "2025-07-08T00:00:00+09:00"
+}

.ipynb_checkpoints/predict_ret_next-checkpoint.py ADDED Viewed

	@@ -0,0 +1,51 @@

+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+"""
+predict_ret_next.py
+-------------------
+使い方:
+    python predict_ret_next.py "業績予想の上方修正に関するお知らせ"
+オプション:
+    --model  パス (default: model.joblib と同じフォルダ)
+    --embed  Sentence-Transformers 名 (default: paraphrase-multilingual-MiniLM-L12-v2)
+"""
+import argparse, joblib, os
+from sentence_transformers import SentenceTransformer
+def load_model(model_path):
+    if not os.path.exists(model_path):
+        raise FileNotFoundError(f"model not found: {model_path}")
+    return joblib.load(model_path)
+def main():
+    ap = argparse.ArgumentParser()
+    ap.add_argument("title", help="開示タイトル（日本語 or 英語）")
+    ap.add_argument("--model", default="model.joblib",
+                    help="joblib file path (default: ./model.joblib)")
+    ap.add_argument("--embed", default="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
+                    help="embedding model name or path")
+    args = ap.parse_args()
+    print("▶ loading models …")
+    reg = load_model(args.model)
+    embedder = SentenceTransformer(args.embed,
+                                   device="cuda" if embedder_gpu() else "cpu")
+    vec = embedder.encode([args.title])
+    pred = reg.predict(vec)[0]
+    print(f"\n予測翌営業日リターン: {pred:.2f} %")
+def embedder_gpu():
+    try:
+        import torch
+        if torch.cuda.is_available():
+            maj, min = torch.cuda.get_device_capability()
+            return (maj * 10 + min) <= 90   # sm_120 以上は未対応 ⇒ CPU
+    except ImportError:
+        pass
+    return False
+if __name__ == "__main__":
+    main()

.ipynb_checkpoints/requirements-checkpoint.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+sentence-transformers>=2.7.0
+scikit-learn>=1.5
+joblib>=1.4
+numpy>=1.26,<2.0
+torch>=2.2
+tqdm

README.md CHANGED Viewed

@@ -1,3 +1,73 @@
 ---
 license: apache-2.0
 ---

 ---
 license: apache-2.0
+tags:
+  - finance
+  - japanese
+  - stock-prediction
+  - sentence-transformers
+  - gradient-boosting
+datasets:
+  - kabu-disclosures-v1
+metrics:
+  - mean_absolute_error
+  - r2
+model-index:
+- name: jfinance-title2return-v1
+  results:
+  - task:
+      type: regression
+      name: Stock Return Regression
+    dataset:
+      name: JP_Disclosure_Titles_2024Q3-2025Q2
+      type: custom
+    metrics:
+      - type: mean_absolute_error
+        value: 2.94
+      - type: r2
+        value: -0.064
 ---
+# jfinance-title2return-v1
+日本株 **TDnet／EDINET 開示タイトル** から
+**翌営業日リターン (`ret_next`, %)** を推定する Gradient Boosting Regressor モデルです。
+タイトル文は [`sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2`](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2)
+（384 次元）にエンコードし、±25 % Winsorize 済みリターンを回帰ターゲットに学習しました。
+---
+## Intended Uses & Limitations
+| ✔ 推奨用途 | ✘ 非推奨用途 |
+|-----------|-------------|
+| IR イベントドリブンの速報スクリーニング | 裁量なしの完全自動売買 |
+| 金融 NLP 研究・ベンチマーク | ETF／REIT での厳密な値動き予測 |
+| 個人投資家の材料整理 | 終値 < 1 円の超低位株 |
+> **注意**: 実際の投資判断に用いる際は必ず追加検証を行ってください。
+---
+## Quick inference (one-liner)
+```python
+from joblib import load
+from sentence_transformers import SentenceTransformer
+from huggingface_hub import hf_hub_download
+# download & load model
+reg  = load(hf_hub_download("c299m/jfinance-title2return-v1", "model.joblib"))
+embed = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+title = "AIマッチングサービスβ版リリースのお知らせ"
+pred  = reg.predict(embed.encode([title]))[0]
+print(f"Predicted next-day return: {pred:.2f} %")
+### Run with the helper script
+```bashcd
+python predict_ret_next.py "NVIDIAと提携"
+#▶ loading models …
+#予測翌営業日リターン: 15.04 %

config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "embed_model": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
+  "feature_dim": 384,
+  "ret_clip_percent": 25,
+  "winsorize": true,
+  "model_type": "sklearn_gradient_boosting_regressor",
+  "created_at": "2025-07-08T00:00:00+09:00"
+}

model.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6435d4b6e62f63db03daa8b55e43e8493cf7df2f0ad60542dc049594373d8ab
+size 472851

predict_ret_next.py ADDED Viewed

	@@ -0,0 +1,51 @@

+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+"""
+predict_ret_next.py
+-------------------
+使い方:
+    python predict_ret_next.py "業績予想の上方修正に関するお知らせ"
+オプション:
+    --model  パス (default: model.joblib と同じフォルダ)
+    --embed  Sentence-Transformers 名 (default: paraphrase-multilingual-MiniLM-L12-v2)
+"""
+import argparse, joblib, os
+from sentence_transformers import SentenceTransformer
+def load_model(model_path):
+    if not os.path.exists(model_path):
+        raise FileNotFoundError(f"model not found: {model_path}")
+    return joblib.load(model_path)
+def main():
+    ap = argparse.ArgumentParser()
+    ap.add_argument("title", help="開示タイトル（日本語 or 英語）")
+    ap.add_argument("--model", default="model.joblib",
+                    help="joblib file path (default: ./model.joblib)")
+    ap.add_argument("--embed", default="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
+                    help="embedding model name or path")
+    args = ap.parse_args()
+    print("▶ loading models …")
+    reg = load_model(args.model)
+    embedder = SentenceTransformer(args.embed,
+                                   device="cuda" if embedder_gpu() else "cpu")
+    vec = embedder.encode([args.title])
+    pred = reg.predict(vec)[0]
+    print(f"\n予測翌営業日リターン: {pred:.2f} %")
+def embedder_gpu():
+    try:
+        import torch
+        if torch.cuda.is_available():
+            maj, min = torch.cuda.get_device_capability()
+            return (maj * 10 + min) <= 90   # sm_120 以上は未対応 ⇒ CPU
+    except ImportError:
+        pass
+    return False
+if __name__ == "__main__":
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+sentence-transformers>=2.7.0
+scikit-learn>=1.5
+joblib>=1.4
+numpy>=1.26,<2.0
+torch>=2.2
+tqdm