Toru59erのブログ -2ページ目

ユーザの学習活動の取得：
- レッスンごとの解説教材の視聴時間・回数、テストの実施回数
- 各ユーザのテストの正解率
- 各レッスンのユーザの平均正解率
ユーザ間の学習活動の類似度の算出
最も類似度の高いユーザの抽出とそのテストの正解率の計算
既に受験済みのテストの除外
正解率が0.5~0.8のテストの推奨
該当するテストがない場合、未受験のテストの中でIDが最小のものを推奨

アルゴリズムのメリット：

豊富な特徴量：ユーザの活動やテストのパフォーマンスを示す特徴量を組み合わせて、ユーザ間の類似性を高精度に計算。
閾値に基づく推奨：テストの正解率の閾値を設定することで、適切な難易度のテストを推奨。
フォールバックメカニズム：閾値に合致するテストがない場合のための、シンプルで直感的な推奨方法を採用。

全体として、このアルゴリズムは、とてもシンプルで、ユーザの過去の活動と他のユーザとの類似性を基に、高速に適切な次のテストを効果的に推奨することができると考えられます。

以下は、コードサンプルです：

欠損値の補完や、外れ値の除去などのデータ加工を実施します。

特徴量を作成し、ユーザ間の類似度を計算します。

video_lesson_counts = data_dropped.groupby(['user_id', 'lesson'])['video_id'].count().unstack().fillna(0)
test_lesson_counts = data_dropped.groupby(['user_id', 'lesson'])['test_id'].count().unstack().fillna(0)
# Create user-test matrix from the full dataset
user_test_matrix = data_dropped.pivot_table(index='user_id', columns='test_id', values='correct', aggfunc='mean').fillna(0)
user_lesson_correct_matrix = data_dropped.pivot_table(index='user_id', columns='lesson', values='correct', aggfunc='mean').fillna(0)
expanded_user_matrix = pd.concat([user_test_matrix,user_lesson_correct_matrix, video_lesson_counts, test_lesson_counts], axis=1).fillna(0)
# ユーザー間の類似度を計算
user_similarity_expanded = cosine_similarity(expanded_user_matrix)
user_similarity_df_expanded = pd.DataFrame(user_similarity_expanded, index=expanded_user_matrix.index, columns=expanded_user_matrix.index)

def recommend_test_for_user_v6(user_id, data, expanded_user_matrix, user_similarity_df):

# ターゲットユーザの最後のtest_idを取得
last_test_id = data[data['user_id'] == user_id]['test_id'].max()

# ユーザを類似度でソート
similar_users = user_similarity_df[user_id].sort_values(ascending=False).drop(user_id).index.tolist()

# 推奨テストと正解率を初期化
recommended_test_id, correct_rate = None, None

#高類似度のユーザの正解率の高いテストを抽出し閾値を適用し推奨テストを決定
for sim_user in similar_users:
# 高類似度ユーザのテストを正解率でランキング
test_ranking = expanded_user_matrix.loc[sim_user].sort_values(ascending=False)

# 既に実施済テストを除外
user_tests = data[data['user_id'] == user_id]['test_id'].unique()
recommended_tests = test_ranking[~test_ranking.index.isin(user_tests)]

# 推奨すべきテストを選択
for test_id in recommended_tests.index:
if isinstance(test_id, int) and test_id <= last_test_id:
continue
test_data = data[data['test_id'] == test_id].iloc[0]
correct_rate_temp = test_data['correct']

if 0.5 <= correct_rate_temp <= 0.8:
recommended_test_id = test_id
correct_rate = correct_rate_temp
break

if recommended_test_id:
break

# 推奨すべきテストを選択されなかった場合の処理
if not recommended_test_id:
available_tests = data[~data['test_id'].isin(user_tests)]['test_id'].unique()
if available_tests.size > 0:
recommended_test_id = min(available_tests)
correct_rate = data[data['test_id'] == recommended_test_id]['correct'].mean()

return recommended_test_id, correct_rate

全体として、このアルゴリズムはシンプルかつ効果的に、ユーザの学習活動や他のユーザとの類似性に基づいて、適切な次のテストを推奨することができます。

次回は、学習のパーソナライズ化の現状やトレンド、そしてAIを活用した学習における倫理的な課題について調査、考察してみようと思います。

学習のパーソナライズ化：AI家庭教師の可能性その8 推奨コンテンツの正解確率

こんにちは

前回は、コンテンツの類似度を基にした簡易的な推奨アルゴリズムの実装について検討しました。今回は、一歩進めて、推奨されたコンテンツに関連する確認テストの正解率を予測する方法を考えてみます。

次に学習すべき教材やその確認テストを選ぶ際、学習者の習熟度と教材の内容の類似度を計算することで、最も適切な教材を推奨するアルゴリズムを前回は実装しました。しかしながら、類似度が高いからといって、それが最も適切な教材であるとは限りません。あまりにも簡単すぎる、あるいは難しすぎる教材は、学習者にとって最適とは言えないでしょう。

例えば、推奨されたテストの正解率が極端に低い場合、それは学習者にとって難易度が高すぎる可能性があります。逆に、正解率が100%という結果になれば、それは易しすぎるということになります。

そこで、この正解率を計算し、適切な正解率（例: 60%）の範囲でコンテンツを推奨するようなアプローチを取ることが考えられます。

前回のコードで、user_2の受講者へvideo_id 102を推奨するという結果となりました。

この結果を受けて、その教材に関連するテストを受験してどの程度の正解率となるのかを計算するコードを考えてみました。

ダミーデータは以下のように、10章から構成される教材の3章までの確認テスト結果があるという前提です。

data = {
'user_id': [1]*30 + [2]*30 + [3]*30,
'video_id': [101]*10 + [102]*10 + [103]*10 + [101]*10 + [102]*10 + [103]*10 + [101]*10 + [102]*10 + [103]*10,
'question_id': list(range(1, 31)) * 3,
'chapter': [1]*10 + [2]*10 + [3]*10 + [1]*10 + [2]*10 + [3]*10 + [1]*10 + [2]*10 + [3]*10,
'correct': [1, 0, 1, 0, 1, 1, 1, 0, 1, 0, # 受験者1, 章1
1, 1, 1, 1, 1, 1,1, 1, 1, 1, # 受験者1, 章2
1, 0, 1, 0, 1, 1, 1, 0, 1, 0, # 受験者1, 章3
1, 0, 1, 1, 0, 0, 1, 1, 0, 1, # 受験者2, 章1
0, 0, 0, 1, 0, 0, 1, 1, 0, 0, # 受験者2, 章2
1, 0, 0, 0, 1, 0, 1, 1, 0, 1, # 受験者2, 章3
0, 1, 0, 0, 0, 1, 0, 1, 1, 0, # 受験者3, 章1
0, 0, 0, 0, 0, 1, 0, 0, 1, 1, # 受験者3, 章2
1, 0, 1, 1, 1, 0, 1, 0, 1, 0] # 受験者3, 章3
}

df = pd.DataFrame(data)

このデータを元に、以下の手順でモデルを訓練しました：

特徴量としてuser_id, video_id, question_id, chapterを使用します。
目的変数としてcorrectを使用します。
このデータを訓練データとテストデータに分割します。
XGBoostなどの分類モデルを使用してモデルを訓練します。
訓練したモデルを使用して、user_id 2がvideo_id 102の関連テストを受験した際の正解確率を予測します。

モデルは、XGBoostでハイパーパラメータはデフォルトです。

# 特徴量と目的変数を指定
X = df[['user_id', 'video_id', 'question_id', 'chapter']]
y = df['correct']

# データを訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# XGBoostのモデルの初期化
model = xgb.XGBClassifier(objective='binary:logistic', use_label_encoder=False, eval_metric='logloss')

# モデルの訓練
model.fit(X_train, y_train)

# 予測
y_pred = model.predict(X_test)

# 精度の計算
accuracy = accuracy_score(y_test, y_pred)

# user_id 2がvideo_id 102の関連テストを受験した際の正解確率を予測
user_2_video_102 = X[(X['user_id'] == 2) & (X['video_id'] == 102)]
predicted_probabilities = model.predict_proba(user_2_video_102)

# 正解する確率 (クラス 1) の予測値を取得
predicted_accuracy_for_user_2_video_102 = predicted_probabilities[:, 1].mean()

accuracy, predicted_accuracy_for_user_2_video_102

output:

(0.3333333333333333, 0.37165847)

結果として、テストデータに対するモデルの正解率は約33.3%、user_id 2がvideo_id 102の関連テストを受験した場合の予測される正解確率は約37.2%でした。この予測精度はダミーデータを使用しているため低いですが、実際の大量のログデータを使用すれば、モデルの性能は向上することが期待されます。

今回は、推奨されたテストに対する受講者の正解確率を予測するモデルの実装に関して考えてみました。この正解確率の閾値を調整して、類似度による推奨コンテンツと正解確率との組み合わせで最も最適な教材を推奨するという仕組みの実装も可能です。

次回は、このテーマを更に深掘りするか、日本や世界の学習のパーソナライズ化のトレンドや、AIを活用した学習における倫理的課題など、新しいトピックにも触れてみたいと思います。

学習のパーソナライズ化：AI家庭教師の可能性その7 類似度を使った推奨

こんにちは

前回は、AIによる教材推奨（レコメンド）に関してLightFMライブラリーでの実装を試みましたがエラーを解決できませんでした。

Windowsベースのjupyter notebookの開発環境ではエラーへの対応に時間がかかりそうなので、今回は単純な類似度による推奨方法を考えてみます。

前回のおさらい：

目的は、人が家庭教師として行うようなカスタマイズされた学習体験を、AIの力を借りて提供することです。具体的には学習者の過去の学習ログを基に、最適な教材を自動で推薦するシステムを考えています。

・学習ログの加工

・最適な教材の選択

・正解率の予測

・最適な教材の提示

・フィードバックループによるアルゴリズムの更新

上記「最適な教材の選択」を、受講者の学習の状況や能力を示す特徴量と教材の特徴量との間の類似度を計算し、その類似度に基づいて教材を推奨する方法を考えます。

必要なのは以下の３つのライブラリです。

import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import StandardScaler

取り合えず、学習ログとしてサンプルデータを以下のようにしてみます。

# データサンプル
data = {
'user_id': [1, 1, 2, 2],
'video_概要':['python実行環境設定','データの読み込み','python実行環境設定','データの読み込み'],
'question_概要':['仮想環境','read_csv','仮想環境','read_csv'],
'video_id': [101, 102, 101, 103],
'視聴時間': [5, 10, 5, 20],#動画視聴開始時間ー動画視聴終了時間
'question_id': [201, 202, 201, 203],
'ビデオ教材のレベル': [1, 2, 1, 3],#５段階レベル
'各テストのレベル': [1, 2, 1, 3],#５段階レベル
'回答結果': [1, 0, 1, 0],#1: 正解, 0: 不正解
'正解率': [0.8, 0.5, 0.8, 0.4],
'テストのトライアル回数': [1, 2, 1, 3],
'テスト実施時間': [10, 15, 10, 25],#テスト開始日時-テスト終了日時
'学習進捗率': [0.3, 0.35, 0.3, 0.4]
}

# データフレームの作成
all_data = pd.DataFrame(data)

通常、推奨対象となる教材はテキストだったり、動画だったり、あるいは確認テストだったりすると思いますが、ここではビデオ教材（video_id）を想定して考えてみます。

特徴量の準備：
- 受講者の学習の状況や能力を示す特徴量（各テストのレベル, 正解率, 学習進捗率,習熟レベルなど）と教材のテキスト情報（video_概要、question_概要、教材レベル、テストレベル）を用意します。
- 教材のテキスト情報はTF-IDFベクトル化を使用して数値化します。（将来的に考えたい）
特徴量の正規化：
- 特徴量のスケールが異なる場合、類似度の計算に影響を与える可能性があります。そのため、StandardScalerを使用して特徴量を正規化します。
類似度の計算：
- cosine_similarity関数を使用して、受講者のプロファイルと各教材の特徴量との間のコサイン類似度を計算します。この類似度は、受講者の学習の状況や能力と教材の内容やレベルとの間のマッチング度を示します。
教材のランキング：
- 計算された類似度のスコアに基づいて、教材をランキング付けします。類似度のスコアが高い教材が、受講者にとって最も適切な教材と考えられます。
推奨の出力：
- 上記のランキングに基づいて、最も類似度の高い教材（または複数の教材）を推奨として出力します。

考慮すべきこと：類似度計算に当たって、受講者が学習済、修了済の教材は推奨すべきではないため予め排除します。

上記のサンプルデータall_dataに関してこのアルゴリズムを適用したコードは以下の通りです。このコードを実行すると、user_id 2に関して、video_id 102が推奨されるという結果となりました。

# User 2の既視聴・既回答の教材とテストを取得
watched_videos = all_data[all_data['user_id'] == 2]['video_id'].tolist()
answered_questions = all_data[all_data['user_id'] == 2]['question_id'].tolist()

# 既視聴・既回答の教材とテストを排除
filtered_data = all_data[~all_data['video_id'].isin(watched_videos)]
filtered_data = filtered_data[~filtered_data['question_id'].isin(answered_questions)]

# 特徴量の選択
features = ['ビデオ教材のレベル', '各テストのレベル', '正解率', '学習進捗率', '学習者の習熟度']

# データの正規化
scaler = StandardScaler()
filtered_data_scaled = scaler.fit_transform(filtered_data[features])
user_data_scaled = scaler.transform(all_data[all_data['user_id'] == 2][features])

# 類似度の計算
similarity = cosine_similarity(user_data_scaled, filtered_data_scaled)

# 類似度の高い順に教材をランキング付け
recommended_indices = similarity.argsort(axis=1)[:, -3:]

# 推奨される教材のvideo_idを取得
unique_recommended_videos = filtered_data.iloc[recommended_indices.flatten()]['video_id'].unique()

print(f"user_id 2に推奨する教材のvideo_idは: {unique_recommended_videos}")

今回は、類似度を基にした簡単な推奨アルゴリズムの実装までを考えてみました。次回は、推奨された教材がテストである場合、そのテストに対する受講者の正解確率を予測するモデルについて考察します。

学習のパーソナライズ化：AI家庭教師の可能性その6　LightFMの実装

こんにちは

前回までは、AIによる教材推奨（レコメンド）最適化のフローを考えてきました。今回は、このアイディアをPythonで実際に実装してみることにします。

前回のおさらい：

目的は、人の家庭教師が行うような、学習者の習熟度に合わせた教育をAIを利用して実現することです。具体的には、学習者の過去の学習ログを基に、最適な教材を自動で推薦するシステムを考えています。

・学習ログの加工

・最適な教材の選択

・正解率の予測

・最適な教材の提示

・フィードバックループによるアルゴリズムの更新

さて、どのようなライブラリを使用すればこのフローを実現できるでしょうか。調査の結果、SurpriseやImplicit、Fastaiといったライブラリがありました。しかし、今回私が特に注目したのは、協調フィルタリングとコンテンツベースの推薦を組み合わせたハイブリッドな推薦が可能な「LightFM」です。

LightFMとは？

LightFMは、ユーザーとアイテム間のインタラクションを基に、推奨を生成するためのPythonライブラリです。具体的な流れとしては、インタラクション行列の作成、モデルのトレーニング、そして推奨の生成となります。

今回、このLightFMを使って、ダミーデータをもとに実際の実装に挑戦しました。しかし、残念ながら、「Kernel dead」というエラーに遭遇し、問題の解決にはかなりの時間を要しそうです。

なかなか、上手くいかないものですね。

トライしてみた実装：

!pip install lightfm

import numpy as np
from lightfm import LightFM
from lightfm.data import Dataset

#ダミーデータの準備
data = {
'user_id': [1, 1, 2, 2],
'video_id': [101, 102, 101, 103],
'視聴時間': [5, 10, 5, 20],
'test_id': [201, 202, 201, 203],
'各テストのレベル': [1, 2, 1, 3],
'回答結果': [1, 0, 1, 0], # 1: 正解, 0: 不正解
'正解率': [0.8, 0.5, 0.8, 0.4],
'テストのトライアル回数': [1, 2, 1, 3],
'テスト実施時間': [10, 15, 10, 25],
'学習進捗率': [0.3, 0.35, 0.3, 0.4]
}

df1 = pd.DataFrame(data)

# 1. データの前処理

users = list(df1['user_id'].unique())
videos = list(df1['video_id'].unique())
tests = list(df1['test_id'].unique())

# LightFMのデータセットを初期化
dataset = Dataset()
dataset.fit(users, videos + tests) # アイテムのIDとして、ビデオとテストの両方を組み合わせて使用

# 2. インタラクション行列の作成
(interactions, weights) = dataset.build_interactions([(row['user_id'], row['video_id'], row['視聴時間']) for _, row in df1.iterrows()] +
[(row['user_id'], row['test_id'], row['正解率']) for _, row in df1.iterrows()])

# 3. モデルのトレーニング
model = LightFM(loss='warp') # WARP損失関数を使用
model.fit(interactions, epochs=30)

# 4. user_id 1の受講者への推奨
user_id = 1
n_items = len(videos + tests)
scores = model.predict(user_id, np.arange(n_items))
top_items = [videos + tests[i] for i in np.argsort(-scores)] # スコアが高い順にアイテムを並べ替え

print(f"Recommended items for user {user_id}: {top_items}")

とはいえ、この手の実装には失敗はつきものですので、すぐに頭を切り替えて次回は新たなアプローチで、類似度を基にした推奨アルゴリズムの実装に挑戦してみたいと思います。