aadams149
/
ppol628-final-project
connected to https://github.com/aadams149/ppol628-final-project.git


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
22

	
23

	
24

	
25

	
26

	
27

	
28

	
29

	
30

	
31

	
            #!/usr/bin/env python
# coding: utf-8
# %%


#Use TF-IDF embeddings to train topic model
from bertopic import BERTopic
import numpy as np
import pandas as pd
import re
from sklearn.feature_extraction.text import TfidfVectorizer

#Load in data
df = pd.read_csv('data/tweets.csv')
#Drop tweets not in english
df = df.loc[df['language'] == 'en']
df['tweet'] = df['tweet'].str.replace(r'http\S+', '')
df = df.loc[df['tweet'] != '']
docs = df['tweet'].reset_index(drop=True)

#Create vectorizer
vectorizer = TfidfVectorizer(min_df=5)
embeddings = vectorizer.fit_transform(docs)

#Train our topic model using TF-IDF vectors
topic_model = BERTopic()
topics, probs = topic_model.fit_transform(docs, embeddings)

#Save model
topic_model.save('project_BERTopic')