こんにちは、CANNABIS INSIGHTです。
こんにちは!今回は、大麻(カンナビス)関連の研究論文のタイトルを使って、この分野の研究トレンドを分析してみました。使用したのはPubMedから取得した直近10,000件の論文データです。検索ワードは医療用大麻の英語である「medical cannabis」です。
つまりPubMed上にある医療用大麻関連の論文10,000件のなかから、どのような単語が特徴的に上昇しているかということを調べてみた結果となります。
PubMed:
世界の主要な医学系雑誌に掲載された論文の書誌情報を調べることができるデータベースです。 米国National Library of Medicine (NLM) の National Center for Biotechnology Information (NCBI) が作成し、Web 上で無料公開しています。
出典:京都大学図書館
10,000件の論文タイトルを分析してみた
特に増えているワード

この分析結果をみるに、CancerとOpioidが気になる結果として出ています。「Cancer(癌)」は2017年と比べるとタイトルでの使用頻度が7倍になっており(この数値はグラフ上にはありません)、この7年間を通して増加傾向にあるようでした。
またOpioid(オピオイド)は、増加傾向を示すものの、2019年をピークに使用頻度が減少しています。2019年といえば、新型コロナウイルスの流行の年であり、どのような研究が行われているかを詳しくみていくことで更なる知見が得られるかもしれません。
オピオイドとは:
強力な鎮痛作用を持つ薬物の総称です。
Cancer(癌)の入った論文の例
「(和訳タイトル)カンナビジオールはin vitroおよびin vivoでERストレス誘導を介してゲムシタビン耐性胆管癌に対して強力な抗癌活性を示す。」
Pongking, T., Thongpon, P., Intuyod, K. et al. Cannabidiol exhibits potent anti-cancer activity against gemcitabine-resistant cholangiocarcinoma via ER-stress induction in vitro and in vivo. BMC Complement Med Ther 24, 325 (2024). https://doi.org/10.1186/s12906-024-04610-2
Opioid(オピオイド)の入った論文の例
「(和訳タイトル)米国成人の全国調査におけるオピオイドのマリファナ代替」
Ishida JH, Wong PO, Cohen BE, Vali M, Steigerwald S, Keyhani S. Substitution of marijuana for opioids in a national survey of US adults. PLoS One. 2019 Oct 4;14(10):e0222577. doi: 10.1371/journal.pone.0222577. PMID: 31584957; PMCID: PMC6777788
分析方法についての説明
1. データの前処理
まず、論文のタイトルをクリーンアップする必要がありました。以下の処理を行いました:
-
テキストの小文字化
-
句読点と数字の削除
-
ストップワード(”the”, “a”, “an”などの一般的な単語)の除去
-
単語の語形変化の統一(例:「running」→「run」)
これにより、分析に適したクリーンなテキストデータが得られました。
2. TF-IDF分析
TF-IDF(Term Frequency-Inverse Document Frequency)分析は、単語の頻度とその情報量を数値化する方法です。特定の単語がどれだけ多くのタイトルに登場しているかを示す「TF」と、それがどれだけ他のタイトルで特異的であるかを示す「IDF」の組み合わせによってスコアを算出します。
-
TF: その単語が特定のタイトルに出現する頻度
-
IDF: 他の全てのタイトルに対して、その単語がどれだけユニークかを測る指標
TF-IDFスコアが高いほど、その単語がその文書(この場合は年)に特徴的であることを示します。
3. トレンド指標の計算
TF-IDFの変動を用いて、各単語について以下の指標も計算しました。これは急激に浮かび上がってくる単語をとらえるための操作になります。
-
成長率(growth_rate): 単語の重要性が時間とともにどれだけ変化したか。
-
標準偏差(std_dev): 単語の重要性が一貫しているかどうかを示す変動の指標。
-
総出現回数(total_occurrences): 全期間を通じたその単語の使用頻度や重要度。
成長率は、前年との出現頻度の増減を元に算出され、その成長率(増加・減少率)が総合スコアに加味される形で反映されています。また、標準偏差を使うことで、その単語の出現頻度の変動(変わりやすさ)も考慮されています。これらの要素が総合的にスコアに組み込まれ、最終的に研究トレンドを反映する単語のランキングが決めています。
ランキングを決める際の計算方法は以下になります。

一方で、この分析は初期の分析として提出するものの、欠点がある(かもしれない)ので明記しておきます。次回の分析において留意しようと思っている点になります。もしより良い分析方法がありましたら、ご教示いただけると助かります。
成長率の問題について:
初期値が低かった単語の成長が過大評価されることがあります。例えば、ある単語が極端に低い初期値から始まり、大きな相対的成長を見せた場合、実際にはほとんど使用されていない単語でも高い成長率を示すことがあります。このため、成長率のスコアが非常に高くても、その単語が本当に研究分野の中心的なトピックかどうかを誤解する可能性があります。
4. 視覚化
トップ10の単語について、年ごとのTF-IDFスコアの推移をグラフ化しました。ノイズを減らし、長期的なトレンドを見やすくするために、3年の移動平均を適用しています。
まとめ
この分析を通じて、大麻研究が医療応用、特にがんなどの分野で急速に発展していることが明らかになりました。大麻の利用は、嗜好用はまだまだ発展途上ですが、医療用において特に広まりを見せています。研究動向を掴んでおくだけでも、ニュースの見方などが変わるかもしれません。このCANNABIS INSIGHTでも注目していきます。