Ideone.com

fork download

copy

# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://g...content-available-to-author-only...b.com/kaggle/docker-python
# For example, here's several helpful packages to load
 
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
 
# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory
 
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))
 
# You can write up to 5GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session
import pandas as pd # use for data manipulation and analysis
import numpy as np # use for multi-dimensional array and matrix
 
import seaborn as sns # use for high-level interface for drawing attractive and informative statistical graphics 
import matplotlib.pyplot as plt # It provides an object-oriented API for embedding plots into application
# It sets the backend of matplotlib to the 'inline' backend:
import plotly.express as px
import time # calculate time 
 
from sklearn.linear_model import LogisticRegression # algo use to predict good or bad
from sklearn.naive_bayes import MultinomialNB # nlp algo use to predict good or bad
 
from sklearn.model_selection import train_test_split # spliting the data between feature and target
from sklearn.metrics import classification_report # gives whole report about metrics (e.g, recall,precision,f1_score,c_m)
from sklearn.metrics import confusion_matrix # gives info about actual and predict
from nltk.tokenize import RegexpTokenizer # regexp tokenizers use to split words from text  
from nltk.stem.snowball import SnowballStemmer # stemmes words
from sklearn.feature_extraction.text import CountVectorizer # create sparse matrix of words using regexptokenizes  
from sklearn.pipeline import make_pipeline # use for combining all prerocessors techniuqes and algos
 
from PIL import Image # getting images in notebook
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator# creates words colud
 
from bs4 import BeautifulSoup # use for scraping the data from website
from selenium import webdriver # use for automation chrome 
import networkx as nx # for the creation, manipulation, and study of the structure, dynamics, and functions of complex networks.
 
import pickle# use to dump model 
 
import warnings # ignores pink warnings 
warnings.filterwarnings('ignore')
# Loading the dataset
phish_data = pd.read_csv('/kaggle/input/phishing-site-urls/phishing_site_urls.csv')
phish_data.head()
phish_data.tail()
phish_data.info()
phish_data.isnull().sum() # there is no 
#create a dataframe of classes counts
label_counts = pd.DataFrame(phish_data.Label.value_counts())
#visualizing target_col
fig = px.bar(label_counts, x=label_counts.index, y=label_counts.Label)
fig.show()
tokenizer = RegexpTokenizer(r'[A-Za-z]+')#to getting alpha only
phish_data.URL[0]
# this will be pull letter which matches to expression
tokenizer.tokenize(phish_data.URL[0]) # using first row
print('Getting words tokenized ...')
t0= time.perf_counter()
phish_data['text_tokenized'] = phish_data.URL.map(lambda t: tokenizer.tokenize(t)) # doing with all rows
t1 = time.perf_counter() - t0
print('Time taken',t1 ,'sec')
phish_data.sample(5)
stemmer = SnowballStemmer("english") # choose a language
print('Getting words stemmed ...')
t0= time.perf_counter()
phish_data['text_stemmed'] = phish_data['text_tokenized'].map(lambda l: [stemmer.stem(word) for word in l])
t1= time.perf_counter() - t0
print('Time taken',t1 ,'sec')
phish_data.sample(5)
print('Getting joiningwords ...')
t0= time.perf_counter()
phish_data['text_sent'] = phish_data['text_stemmed'].map(lambda l: ' '.join(l))
t1= time.perf_counter() - t0
print('Time taken',t1 ,'sec')
phish_data.sample(5)
#sliceing classes
bad_sites = phish_data[phish_data.Label == 'bad']
good_sites = phish_data[phish_data.Label == 'good']
bad_sites.head()
good_sites.head()
def plot_wordcloud(text, mask=None, max_words=400, max_font_size=120, figure_size=(24.0,16.0), 
                   title = None, title_size=40, image_color=False):
    stopwords = set(STOPWORDS)
    more_stopwords = {'com','http'}
    stopwords = stopwords.union(more_stopwords)
 
    wordcloud = WordCloud(background_color='white',
                    stopwords = stopwords,
                    max_words = max_words,
                    max_font_size = max_font_size, 
                    random_state = 42,
                    mask = mask)
    wordcloud.generate(text)
 
    plt.figure(figsize=figure_size)
    if image_color:
        image_colors = ImageColorGenerator(mask);
        plt.imshow(wordcloud.recolor(color_func=image_colors), interpolation="bilinear");
        plt.title(title, fontdict={'size': title_size,  
                                  'verticalalignment': 'bottom'})
    else:
        plt.imshow(wordcloud);
        plt.title(title, fontdict={'size': title_size, 'color': 'green', 
                                  'verticalalignment': 'bottom'})
    plt.axis('off');
    plt.tight_layout()  
d = '../input/masks/masks-wordclouds/'
data = good_sites.text_sent
data.reset_index(drop=True, inplace=True)
common_text = str(data)
common_mask = np.array(Image.open(d+'star.png'))
plot_wordcloud(common_text, common_mask, max_words=400, max_font_size=120, 
               title = 'Most common words use in good urls', title_size=15)
data = bad_sites.text_sent
data.reset_index(drop=True, inplace=True)
common_text = str(data)
common_mask = np.array(Image.open(d+'comment.png'))
plot_wordcloud(common_text, common_mask, max_words=400, max_font_size=120, 
               title = 'Most common words use in bad urls', title_size=15)
#create cv object
cv = CountVectorizer()
help(CountVectorizer())
feature = cv.fit_transform(phish_data.text_sent) #transform all text which we tokenize and stemed
feature[:5].toarray() # convert sparse matrix into array to print transformed features
trainX, testX, trainY, testY = train_test_split(feature, phish_data.Label)
# create lr object
lr = LogisticRegression()
lr.fit(trainX,trainY)
lr.score(testX,testY)
Scores_ml = {}
Scores_ml['Logistic Regression'] = np.round(lr.score(testX,testY),2)
print('Training Accuracy :',lr.score(trainX,trainY))
print('Training Accuracy :',lr.score(trainX,trainY))
print('Testing Accuracy :',lr.score(testX,testY))
con_mat = pd.DataFrame(confusion_matrix(lr.predict(testX), testY),
            columns = ['Predicted:Bad', 'Predicted:Good'],
            index = ['Actual:Bad', 'Actual:Good'])
 
 
print('\nCLASSIFICATION REPORT\n')
print(classification_report(lr.predict(testX), testY,
                            target_names =['Bad','Good']))
 
print('\nCONFUSION MATRIX')
plt.figure(figsize= (6,4))
sns.heatmap(con_mat, annot = True,fmt='d',cmap="YlGnBu")
print('Training Accuracy :',lr.score(trainX,trainY))
print('Testing Accuracy :',lr.score(testX,testY))
con_mat = pd.DataFrame(confusion_matrix(lr.predict(testX), testY),
            columns = ['Predicted:Bad', 'Predicted:Good'],
            index = ['Actual:Bad', 'Actual:Good'])
 
 
print('\nCLASSIFICATION REPORT\n')
print(classification_report(lr.predict(testX), testY,
                            target_names =['Bad','Good']))
 
print('\nCONFUSION MATRIX')
plt.figure(figsize= (6,4))
sns.heatmap(con_mat, annot = True,fmt='d',cmap="YlGnBu")
# create mnb object
mnb = MultinomialNB()
mnb.fit(trainX,trainY)
Scores_ml['MultinomialNB'] = np.round(mnb.score(testX,testY),2)
print('Training Accuracy :',mnb.score(trainX,trainY))
print('Testing Accuracy :',mnb.score(testX,testY))
con_mat = pd.DataFrame(confusion_matrix(mnb.predict(testX), testY),
            columns = ['Predicted:Bad', 'Predicted:Good'],
            index = ['Actual:Bad', 'Actual:Good'])
 
 
print('\nCLASSIFICATION REPORT\n')
print(classification_report(mnb.predict(testX), testY,
                            target_names =['Bad','Good']))
 
print('\nCONFUSION MATRIX')
plt.figure(figsize= (6,4))
sns.heatmap(con_mat, annot = True,fmt='d',cmap="YlGnBu")
acc = pd.DataFrame.from_dict(Scores_ml,orient = 'index',columns=['Accuracy'])
sns.set_style('darkgrid')
sns.barplot(acc.index,acc.Accuracy)
ipeline_ls = make_pipeline(CountVectorizer(tokenizer = RegexpTokenizer(r'[A-Za-z]+').tokenize,stop_words='english'), LogisticRegression())
##(r'\b(?:http|ftp)s?://\S*\w|\w+|[^\w\s]+') ([a-zA-Z]+)([0-9]+)  -- these tolenizers giving me low accuray 
trainX, testX, trainY, testY = train_test_split(phish_data.URL, phish_data.Label)
pipeline_ls.fit(trainX,trainY)
pipeline_ls.score(testX,testY) 
print('Training Accuracy :',pipeline_ls.score(trainX,trainY))
print('Testing Accuracy :',pipeline_ls.score(testX,testY))
con_mat = pd.DataFrame(confusion_matrix(ipeline_ls.predict(testX), testY),
            columns = ['Predicted:Bad', 'Predicted:Good'],
            index = ['Actual:Bad', 'Actual:Good'])
 
 
print('\nCLASSIFICATION REPORT\n')
print(classification_report(pipeline_ls.predict(testX), testY,
                            target_names =['Bad','Good']))
 
print('\nCONFUSION MATRIX')
plt.figure(figsize= (6,4))
sns.heatmap(con_mat, annot = True,fmt='d',cmap="YlGnBu")
pickle.dump(pipeline_ls,open('phishing.pkl','wb'))
loaded_model = pickle.load(open('phishing.pkl', 'rb'))
result = loaded_model.score(testX,testY)
print(result)
predict_bad = ['yeniik.com.tr/wp-admin/js/login.alibaba.com/login.jsp.php','fazan-pacir.rs/temp/libraries/ipad','tubemoviez.exe','svision-online.de/mgfi/administrator/components/com_babackup/classes/fx29id1.txt']
predict_good = ['youtube.com/','youtube.com/watch?v=qI0TQJI3vdU','retailhellunderground.com/','restorevisioncenters.com/html/technology.html']
loaded_model = pickle.load(open('phishing.pkl', 'rb'))
#predict_bad = vectorizers.transform(predict_bad)
# predict_good = vectorizer.transform(predict_good)
result = loaded_model.predict(predict_bad)
result2 = loaded_model.predict(predict_good)
print(result)
print("*"*30)
print(result2)

IyBUaGlzIFB5dGhvbiAzIGVudmlyb25tZW50IGNvbWVzIHdpdGggbWFueSBoZWxwZnVsIGFuYWx5dGljcyBsaWJyYXJpZXMgaW5zdGFsbGVkCiMgSXQgaXMgZGVmaW5lZCBieSB0aGUga2FnZ2xlL3B5dGhvbiBEb2NrZXIgaW1hZ2U6IGh0dHBzOi8vZy4uLmNvbnRlbnQtYXZhaWxhYmxlLXRvLWF1dGhvci1vbmx5Li4uYi5jb20va2FnZ2xlL2RvY2tlci1weXRob24KIyBGb3IgZXhhbXBsZSwgaGVyZSdzIHNldmVyYWwgaGVscGZ1bCBwYWNrYWdlcyB0byBsb2FkCgppbXBvcnQgbnVtcHkgYXMgbnAgIyBsaW5lYXIgYWxnZWJyYQppbXBvcnQgcGFuZGFzIGFzIHBkICMgZGF0YSBwcm9jZXNzaW5nLCBDU1YgZmlsZSBJL08gKGUuZy4gcGQucmVhZF9jc3YpCgojIElucHV0IGRhdGEgZmlsZXMgYXJlIGF2YWlsYWJsZSBpbiB0aGUgcmVhZC1vbmx5ICIuLi9pbnB1dC8iIGRpcmVjdG9yeQojIEZvciBleGFtcGxlLCBydW5uaW5nIHRoaXMgKGJ5IGNsaWNraW5nIHJ1biBvciBwcmVzc2luZyBTaGlmdCtFbnRlcikgd2lsbCBsaXN0IGFsbCBmaWxlcyB1bmRlciB0aGUgaW5wdXQgZGlyZWN0b3J5CgppbXBvcnQgb3MKZm9yIGRpcm5hbWUsIF8sIGZpbGVuYW1lcyBpbiBvcy53YWxrKCcva2FnZ2xlL2lucHV0Jyk6CiAgICBmb3IgZmlsZW5hbWUgaW4gZmlsZW5hbWVzOgogICAgICAgIHByaW50KG9zLnBhdGguam9pbihkaXJuYW1lLCBmaWxlbmFtZSkpCgojIFlvdSBjYW4gd3JpdGUgdXAgdG8gNUdCIHRvIHRoZSBjdXJyZW50IGRpcmVjdG9yeSAoL2thZ2dsZS93b3JraW5nLykgdGhhdCBnZXRzIHByZXNlcnZlZCBhcyBvdXRwdXQgd2hlbiB5b3UgY3JlYXRlIGEgdmVyc2lvbiB1c2luZyAiU2F2ZSAmIFJ1biBBbGwiIAojIFlvdSBjYW4gYWxzbyB3cml0ZSB0ZW1wb3JhcnkgZmlsZXMgdG8gL2thZ2dsZS90ZW1wLywgYnV0IHRoZXkgd29uJ3QgYmUgc2F2ZWQgb3V0c2lkZSBvZiB0aGUgY3VycmVudCBzZXNzaW9uCmltcG9ydCBwYW5kYXMgYXMgcGQgIyB1c2UgZm9yIGRhdGEgbWFuaXB1bGF0aW9uIGFuZCBhbmFseXNpcwppbXBvcnQgbnVtcHkgYXMgbnAgIyB1c2UgZm9yIG11bHRpLWRpbWVuc2lvbmFsIGFycmF5IGFuZCBtYXRyaXgKCmltcG9ydCBzZWFib3JuIGFzIHNucyAjIHVzZSBmb3IgaGlnaC1sZXZlbCBpbnRlcmZhY2UgZm9yIGRyYXdpbmcgYXR0cmFjdGl2ZSBhbmQgaW5mb3JtYXRpdmUgc3RhdGlzdGljYWwgZ3JhcGhpY3MgCmltcG9ydCBtYXRwbG90bGliLnB5cGxvdCBhcyBwbHQgIyBJdCBwcm92aWRlcyBhbiBvYmplY3Qtb3JpZW50ZWQgQVBJIGZvciBlbWJlZGRpbmcgcGxvdHMgaW50byBhcHBsaWNhdGlvbgojIEl0IHNldHMgdGhlIGJhY2tlbmQgb2YgbWF0cGxvdGxpYiB0byB0aGUgJ2lubGluZScgYmFja2VuZDoKaW1wb3J0IHBsb3RseS5leHByZXNzIGFzIHB4CmltcG9ydCB0aW1lICMgY2FsY3VsYXRlIHRpbWUgCgpmcm9tIHNrbGVhcm4ubGluZWFyX21vZGVsIGltcG9ydCBMb2dpc3RpY1JlZ3Jlc3Npb24gIyBhbGdvIHVzZSB0byBwcmVkaWN0IGdvb2Qgb3IgYmFkCmZyb20gc2tsZWFybi5uYWl2ZV9iYXllcyBpbXBvcnQgTXVsdGlub21pYWxOQiAjIG5scCBhbGdvIHVzZSB0byBwcmVkaWN0IGdvb2Qgb3IgYmFkCgpmcm9tIHNrbGVhcm4ubW9kZWxfc2VsZWN0aW9uIGltcG9ydCB0cmFpbl90ZXN0X3NwbGl0ICMgc3BsaXRpbmcgdGhlIGRhdGEgYmV0d2VlbiBmZWF0dXJlIGFuZCB0YXJnZXQKZnJvbSBza2xlYXJuLm1ldHJpY3MgaW1wb3J0IGNsYXNzaWZpY2F0aW9uX3JlcG9ydCAjIGdpdmVzIHdob2xlIHJlcG9ydCBhYm91dCBtZXRyaWNzIChlLmcsIHJlY2FsbCxwcmVjaXNpb24sZjFfc2NvcmUsY19tKQpmcm9tIHNrbGVhcm4ubWV0cmljcyBpbXBvcnQgY29uZnVzaW9uX21hdHJpeCAjIGdpdmVzIGluZm8gYWJvdXQgYWN0dWFsIGFuZCBwcmVkaWN0CmZyb20gbmx0ay50b2tlbml6ZSBpbXBvcnQgUmVnZXhwVG9rZW5pemVyICMgcmVnZXhwIHRva2VuaXplcnMgdXNlIHRvIHNwbGl0IHdvcmRzIGZyb20gdGV4dCAgCmZyb20gbmx0ay5zdGVtLnNub3diYWxsIGltcG9ydCBTbm93YmFsbFN0ZW1tZXIgIyBzdGVtbWVzIHdvcmRzCmZyb20gc2tsZWFybi5mZWF0dXJlX2V4dHJhY3Rpb24udGV4dCBpbXBvcnQgQ291bnRWZWN0b3JpemVyICMgY3JlYXRlIHNwYXJzZSBtYXRyaXggb2Ygd29yZHMgdXNpbmcgcmVnZXhwdG9rZW5pemVzICAKZnJvbSBza2xlYXJuLnBpcGVsaW5lIGltcG9ydCBtYWtlX3BpcGVsaW5lICMgdXNlIGZvciBjb21iaW5pbmcgYWxsIHByZXJvY2Vzc29ycyB0ZWNobml1cWVzIGFuZCBhbGdvcwoKZnJvbSBQSUwgaW1wb3J0IEltYWdlICMgZ2V0dGluZyBpbWFnZXMgaW4gbm90ZWJvb2sKZnJvbSB3b3JkY2xvdWQgaW1wb3J0IFdvcmRDbG91ZCwgU1RPUFdPUkRTLCBJbWFnZUNvbG9yR2VuZXJhdG9yIyBjcmVhdGVzIHdvcmRzIGNvbHVkCgpmcm9tIGJzNCBpbXBvcnQgQmVhdXRpZnVsU291cCAjIHVzZSBmb3Igc2NyYXBpbmcgdGhlIGRhdGEgZnJvbSB3ZWJzaXRlCmZyb20gc2VsZW5pdW0gaW1wb3J0IHdlYmRyaXZlciAjIHVzZSBmb3IgYXV0b21hdGlvbiBjaHJvbWUgCmltcG9ydCBuZXR3b3JreCBhcyBueCAjIGZvciB0aGUgY3JlYXRpb24sIG1hbmlwdWxhdGlvbiwgYW5kIHN0dWR5IG9mIHRoZSBzdHJ1Y3R1cmUsIGR5bmFtaWNzLCBhbmQgZnVuY3Rpb25zIG9mIGNvbXBsZXggbmV0d29ya3MuCgppbXBvcnQgcGlja2xlIyB1c2UgdG8gZHVtcCBtb2RlbCAKCmltcG9ydCB3YXJuaW5ncyAjIGlnbm9yZXMgcGluayB3YXJuaW5ncyAKd2FybmluZ3MuZmlsdGVyd2FybmluZ3MoJ2lnbm9yZScpCiMgTG9hZGluZyB0aGUgZGF0YXNldApwaGlzaF9kYXRhID0gcGQucmVhZF9jc3YoJy9rYWdnbGUvaW5wdXQvcGhpc2hpbmctc2l0ZS11cmxzL3BoaXNoaW5nX3NpdGVfdXJscy5jc3YnKQpwaGlzaF9kYXRhLmhlYWQoKQpwaGlzaF9kYXRhLnRhaWwoKQpwaGlzaF9kYXRhLmluZm8oKQpwaGlzaF9kYXRhLmlzbnVsbCgpLnN1bSgpICMgdGhlcmUgaXMgbm8gCiNjcmVhdGUgYSBkYXRhZnJhbWUgb2YgY2xhc3NlcyBjb3VudHMKbGFiZWxfY291bnRzID0gcGQuRGF0YUZyYW1lKHBoaXNoX2RhdGEuTGFiZWwudmFsdWVfY291bnRzKCkpCiN2aXN1YWxpemluZyB0YXJnZXRfY29sCmZpZyA9IHB4LmJhcihsYWJlbF9jb3VudHMsIHg9bGFiZWxfY291bnRzLmluZGV4LCB5PWxhYmVsX2NvdW50cy5MYWJlbCkKZmlnLnNob3coKQp0b2tlbml6ZXIgPSBSZWdleHBUb2tlbml6ZXIocidbQS1aYS16XSsnKSN0byBnZXR0aW5nIGFscGhhIG9ubHkKcGhpc2hfZGF0YS5VUkxbMF0KIyB0aGlzIHdpbGwgYmUgcHVsbCBsZXR0ZXIgd2hpY2ggbWF0Y2hlcyB0byBleHByZXNzaW9uCnRva2VuaXplci50b2tlbml6ZShwaGlzaF9kYXRhLlVSTFswXSkgIyB1c2luZyBmaXJzdCByb3cKcHJpbnQoJ0dldHRpbmcgd29yZHMgdG9rZW5pemVkIC4uLicpCnQwPSB0aW1lLnBlcmZfY291bnRlcigpCnBoaXNoX2RhdGFbJ3RleHRfdG9rZW5pemVkJ10gPSBwaGlzaF9kYXRhLlVSTC5tYXAobGFtYmRhIHQ6IHRva2VuaXplci50b2tlbml6ZSh0KSkgIyBkb2luZyB3aXRoIGFsbCByb3dzCnQxID0gdGltZS5wZXJmX2NvdW50ZXIoKSAtIHQwCnByaW50KCdUaW1lIHRha2VuJyx0MSAsJ3NlYycpCnBoaXNoX2RhdGEuc2FtcGxlKDUpCnN0ZW1tZXIgPSBTbm93YmFsbFN0ZW1tZXIoImVuZ2xpc2giKSAjIGNob29zZSBhIGxhbmd1YWdlCnByaW50KCdHZXR0aW5nIHdvcmRzIHN0ZW1tZWQgLi4uJykKdDA9IHRpbWUucGVyZl9jb3VudGVyKCkKcGhpc2hfZGF0YVsndGV4dF9zdGVtbWVkJ10gPSBwaGlzaF9kYXRhWyd0ZXh0X3Rva2VuaXplZCddLm1hcChsYW1iZGEgbDogW3N0ZW1tZXIuc3RlbSh3b3JkKSBmb3Igd29yZCBpbiBsXSkKdDE9IHRpbWUucGVyZl9jb3VudGVyKCkgLSB0MApwcmludCgnVGltZSB0YWtlbicsdDEgLCdzZWMnKQpwaGlzaF9kYXRhLnNhbXBsZSg1KQpwcmludCgnR2V0dGluZyBqb2luaW5nd29yZHMgLi4uJykKdDA9IHRpbWUucGVyZl9jb3VudGVyKCkKcGhpc2hfZGF0YVsndGV4dF9zZW50J10gPSBwaGlzaF9kYXRhWyd0ZXh0X3N0ZW1tZWQnXS5tYXAobGFtYmRhIGw6ICcgJy5qb2luKGwpKQp0MT0gdGltZS5wZXJmX2NvdW50ZXIoKSAtIHQwCnByaW50KCdUaW1lIHRha2VuJyx0MSAsJ3NlYycpCnBoaXNoX2RhdGEuc2FtcGxlKDUpCiNzbGljZWluZyBjbGFzc2VzCmJhZF9zaXRlcyA9IHBoaXNoX2RhdGFbcGhpc2hfZGF0YS5MYWJlbCA9PSAnYmFkJ10KZ29vZF9zaXRlcyA9IHBoaXNoX2RhdGFbcGhpc2hfZGF0YS5MYWJlbCA9PSAnZ29vZCddCmJhZF9zaXRlcy5oZWFkKCkKZ29vZF9zaXRlcy5oZWFkKCkKZGVmIHBsb3Rfd29yZGNsb3VkKHRleHQsIG1hc2s9Tm9uZSwgbWF4X3dvcmRzPTQwMCwgbWF4X2ZvbnRfc2l6ZT0xMjAsIGZpZ3VyZV9zaXplPSgyNC4wLDE2LjApLCAKICAgICAgICAgICAgICAgICAgIHRpdGxlID0gTm9uZSwgdGl0bGVfc2l6ZT00MCwgaW1hZ2VfY29sb3I9RmFsc2UpOgogICAgc3RvcHdvcmRzID0gc2V0KFNUT1BXT1JEUykKICAgIG1vcmVfc3RvcHdvcmRzID0geydjb20nLCdodHRwJ30KICAgIHN0b3B3b3JkcyA9IHN0b3B3b3Jkcy51bmlvbihtb3JlX3N0b3B3b3JkcykKCiAgICB3b3JkY2xvdWQgPSBXb3JkQ2xvdWQoYmFja2dyb3VuZF9jb2xvcj0nd2hpdGUnLAogICAgICAgICAgICAgICAgICAgIHN0b3B3b3JkcyA9IHN0b3B3b3JkcywKICAgICAgICAgICAgICAgICAgICBtYXhfd29yZHMgPSBtYXhfd29yZHMsCiAgICAgICAgICAgICAgICAgICAgbWF4X2ZvbnRfc2l6ZSA9IG1heF9mb250X3NpemUsIAogICAgICAgICAgICAgICAgICAgIHJhbmRvbV9zdGF0ZSA9IDQyLAogICAgICAgICAgICAgICAgICAgIG1hc2sgPSBtYXNrKQogICAgd29yZGNsb3VkLmdlbmVyYXRlKHRleHQpCiAgICAKICAgIHBsdC5maWd1cmUoZmlnc2l6ZT1maWd1cmVfc2l6ZSkKICAgIGlmIGltYWdlX2NvbG9yOgogICAgICAgIGltYWdlX2NvbG9ycyA9IEltYWdlQ29sb3JHZW5lcmF0b3IobWFzayk7CiAgICAgICAgcGx0Lmltc2hvdyh3b3JkY2xvdWQucmVjb2xvcihjb2xvcl9mdW5jPWltYWdlX2NvbG9ycyksIGludGVycG9sYXRpb249ImJpbGluZWFyIik7CiAgICAgICAgcGx0LnRpdGxlKHRpdGxlLCBmb250ZGljdD17J3NpemUnOiB0aXRsZV9zaXplLCAgCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAndmVydGljYWxhbGlnbm1lbnQnOiAnYm90dG9tJ30pCiAgICBlbHNlOgogICAgICAgIHBsdC5pbXNob3cod29yZGNsb3VkKTsKICAgICAgICBwbHQudGl0bGUodGl0bGUsIGZvbnRkaWN0PXsnc2l6ZSc6IHRpdGxlX3NpemUsICdjb2xvcic6ICdncmVlbicsIAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgJ3ZlcnRpY2FsYWxpZ25tZW50JzogJ2JvdHRvbSd9KQogICAgcGx0LmF4aXMoJ29mZicpOwogICAgcGx0LnRpZ2h0X2xheW91dCgpICAKZCA9ICcuLi9pbnB1dC9tYXNrcy9tYXNrcy13b3JkY2xvdWRzLycKZGF0YSA9IGdvb2Rfc2l0ZXMudGV4dF9zZW50CmRhdGEucmVzZXRfaW5kZXgoZHJvcD1UcnVlLCBpbnBsYWNlPVRydWUpCmNvbW1vbl90ZXh0ID0gc3RyKGRhdGEpCmNvbW1vbl9tYXNrID0gbnAuYXJyYXkoSW1hZ2Uub3BlbihkKydzdGFyLnBuZycpKQpwbG90X3dvcmRjbG91ZChjb21tb25fdGV4dCwgY29tbW9uX21hc2ssIG1heF93b3Jkcz00MDAsIG1heF9mb250X3NpemU9MTIwLCAKICAgICAgICAgICAgICAgdGl0bGUgPSAnTW9zdCBjb21tb24gd29yZHMgdXNlIGluIGdvb2QgdXJscycsIHRpdGxlX3NpemU9MTUpCmRhdGEgPSBiYWRfc2l0ZXMudGV4dF9zZW50CmRhdGEucmVzZXRfaW5kZXgoZHJvcD1UcnVlLCBpbnBsYWNlPVRydWUpCmNvbW1vbl90ZXh0ID0gc3RyKGRhdGEpCmNvbW1vbl9tYXNrID0gbnAuYXJyYXkoSW1hZ2Uub3BlbihkKydjb21tZW50LnBuZycpKQpwbG90X3dvcmRjbG91ZChjb21tb25fdGV4dCwgY29tbW9uX21hc2ssIG1heF93b3Jkcz00MDAsIG1heF9mb250X3NpemU9MTIwLCAKICAgICAgICAgICAgICAgdGl0bGUgPSAnTW9zdCBjb21tb24gd29yZHMgdXNlIGluIGJhZCB1cmxzJywgdGl0bGVfc2l6ZT0xNSkKI2NyZWF0ZSBjdiBvYmplY3QKY3YgPSBDb3VudFZlY3Rvcml6ZXIoKQpoZWxwKENvdW50VmVjdG9yaXplcigpKQpmZWF0dXJlID0gY3YuZml0X3RyYW5zZm9ybShwaGlzaF9kYXRhLnRleHRfc2VudCkgI3RyYW5zZm9ybSBhbGwgdGV4dCB3aGljaCB3ZSB0b2tlbml6ZSBhbmQgc3RlbWVkCmZlYXR1cmVbOjVdLnRvYXJyYXkoKSAjIGNvbnZlcnQgc3BhcnNlIG1hdHJpeCBpbnRvIGFycmF5IHRvIHByaW50IHRyYW5zZm9ybWVkIGZlYXR1cmVzCnRyYWluWCwgdGVzdFgsIHRyYWluWSwgdGVzdFkgPSB0cmFpbl90ZXN0X3NwbGl0KGZlYXR1cmUsIHBoaXNoX2RhdGEuTGFiZWwpCiMgY3JlYXRlIGxyIG9iamVjdApsciA9IExvZ2lzdGljUmVncmVzc2lvbigpCmxyLmZpdCh0cmFpblgsdHJhaW5ZKQpsci5zY29yZSh0ZXN0WCx0ZXN0WSkKU2NvcmVzX21sID0ge30KU2NvcmVzX21sWydMb2dpc3RpYyBSZWdyZXNzaW9uJ10gPSBucC5yb3VuZChsci5zY29yZSh0ZXN0WCx0ZXN0WSksMikKcHJpbnQoJ1RyYWluaW5nIEFjY3VyYWN5IDonLGxyLnNjb3JlKHRyYWluWCx0cmFpblkpKQpwcmludCgnVHJhaW5pbmcgQWNjdXJhY3kgOicsbHIuc2NvcmUodHJhaW5YLHRyYWluWSkpCnByaW50KCdUZXN0aW5nIEFjY3VyYWN5IDonLGxyLnNjb3JlKHRlc3RYLHRlc3RZKSkKY29uX21hdCA9IHBkLkRhdGFGcmFtZShjb25mdXNpb25fbWF0cml4KGxyLnByZWRpY3QodGVzdFgpLCB0ZXN0WSksCiAgICAgICAgICAgIGNvbHVtbnMgPSBbJ1ByZWRpY3RlZDpCYWQnLCAnUHJlZGljdGVkOkdvb2QnXSwKICAgICAgICAgICAgaW5kZXggPSBbJ0FjdHVhbDpCYWQnLCAnQWN0dWFsOkdvb2QnXSkKCgpwcmludCgnXG5DTEFTU0lGSUNBVElPTiBSRVBPUlRcbicpCnByaW50KGNsYXNzaWZpY2F0aW9uX3JlcG9ydChsci5wcmVkaWN0KHRlc3RYKSwgdGVzdFksCiAgICAgICAgICAgICAgICAgICAgICAgICAgICB0YXJnZXRfbmFtZXMgPVsnQmFkJywnR29vZCddKSkKCnByaW50KCdcbkNPTkZVU0lPTiBNQVRSSVgnKQpwbHQuZmlndXJlKGZpZ3NpemU9ICg2LDQpKQpzbnMuaGVhdG1hcChjb25fbWF0LCBhbm5vdCA9IFRydWUsZm10PSdkJyxjbWFwPSJZbEduQnUiKQpwcmludCgnVHJhaW5pbmcgQWNjdXJhY3kgOicsbHIuc2NvcmUodHJhaW5YLHRyYWluWSkpCnByaW50KCdUZXN0aW5nIEFjY3VyYWN5IDonLGxyLnNjb3JlKHRlc3RYLHRlc3RZKSkKY29uX21hdCA9IHBkLkRhdGFGcmFtZShjb25mdXNpb25fbWF0cml4KGxyLnByZWRpY3QodGVzdFgpLCB0ZXN0WSksCiAgICAgICAgICAgIGNvbHVtbnMgPSBbJ1ByZWRpY3RlZDpCYWQnLCAnUHJlZGljdGVkOkdvb2QnXSwKICAgICAgICAgICAgaW5kZXggPSBbJ0FjdHVhbDpCYWQnLCAnQWN0dWFsOkdvb2QnXSkKCgpwcmludCgnXG5DTEFTU0lGSUNBVElPTiBSRVBPUlRcbicpCnByaW50KGNsYXNzaWZpY2F0aW9uX3JlcG9ydChsci5wcmVkaWN0KHRlc3RYKSwgdGVzdFksCiAgICAgICAgICAgICAgICAgICAgICAgICAgICB0YXJnZXRfbmFtZXMgPVsnQmFkJywnR29vZCddKSkKCnByaW50KCdcbkNPTkZVU0lPTiBNQVRSSVgnKQpwbHQuZmlndXJlKGZpZ3NpemU9ICg2LDQpKQpzbnMuaGVhdG1hcChjb25fbWF0LCBhbm5vdCA9IFRydWUsZm10PSdkJyxjbWFwPSJZbEduQnUiKQojIGNyZWF0ZSBtbmIgb2JqZWN0Cm1uYiA9IE11bHRpbm9taWFsTkIoKQptbmIuZml0KHRyYWluWCx0cmFpblkpClNjb3Jlc19tbFsnTXVsdGlub21pYWxOQiddID0gbnAucm91bmQobW5iLnNjb3JlKHRlc3RYLHRlc3RZKSwyKQpwcmludCgnVHJhaW5pbmcgQWNjdXJhY3kgOicsbW5iLnNjb3JlKHRyYWluWCx0cmFpblkpKQpwcmludCgnVGVzdGluZyBBY2N1cmFjeSA6JyxtbmIuc2NvcmUodGVzdFgsdGVzdFkpKQpjb25fbWF0ID0gcGQuRGF0YUZyYW1lKGNvbmZ1c2lvbl9tYXRyaXgobW5iLnByZWRpY3QodGVzdFgpLCB0ZXN0WSksCiAgICAgICAgICAgIGNvbHVtbnMgPSBbJ1ByZWRpY3RlZDpCYWQnLCAnUHJlZGljdGVkOkdvb2QnXSwKICAgICAgICAgICAgaW5kZXggPSBbJ0FjdHVhbDpCYWQnLCAnQWN0dWFsOkdvb2QnXSkKCgpwcmludCgnXG5DTEFTU0lGSUNBVElPTiBSRVBPUlRcbicpCnByaW50KGNsYXNzaWZpY2F0aW9uX3JlcG9ydChtbmIucHJlZGljdCh0ZXN0WCksIHRlc3RZLAogICAgICAgICAgICAgICAgICAgICAgICAgICAgdGFyZ2V0X25hbWVzID1bJ0JhZCcsJ0dvb2QnXSkpCgpwcmludCgnXG5DT05GVVNJT04gTUFUUklYJykKcGx0LmZpZ3VyZShmaWdzaXplPSAoNiw0KSkKc25zLmhlYXRtYXAoY29uX21hdCwgYW5ub3QgPSBUcnVlLGZtdD0nZCcsY21hcD0iWWxHbkJ1IikKYWNjID0gcGQuRGF0YUZyYW1lLmZyb21fZGljdChTY29yZXNfbWwsb3JpZW50ID0gJ2luZGV4Jyxjb2x1bW5zPVsnQWNjdXJhY3knXSkKc25zLnNldF9zdHlsZSgnZGFya2dyaWQnKQpzbnMuYmFycGxvdChhY2MuaW5kZXgsYWNjLkFjY3VyYWN5KQppcGVsaW5lX2xzID0gbWFrZV9waXBlbGluZShDb3VudFZlY3Rvcml6ZXIodG9rZW5pemVyID0gUmVnZXhwVG9rZW5pemVyKHInW0EtWmEtel0rJykudG9rZW5pemUsc3RvcF93b3Jkcz0nZW5nbGlzaCcpLCBMb2dpc3RpY1JlZ3Jlc3Npb24oKSkKIyMocidcYig/Omh0dHB8ZnRwKXM/Oi8vXFMqXHd8XHcrfFteXHdcc10rJykgKFthLXpBLVpdKykoWzAtOV0rKSAgLS0gdGhlc2UgdG9sZW5pemVycyBnaXZpbmcgbWUgbG93IGFjY3VyYXkgCnRyYWluWCwgdGVzdFgsIHRyYWluWSwgdGVzdFkgPSB0cmFpbl90ZXN0X3NwbGl0KHBoaXNoX2RhdGEuVVJMLCBwaGlzaF9kYXRhLkxhYmVsKQpwaXBlbGluZV9scy5maXQodHJhaW5YLHRyYWluWSkKcGlwZWxpbmVfbHMuc2NvcmUodGVzdFgsdGVzdFkpIApwcmludCgnVHJhaW5pbmcgQWNjdXJhY3kgOicscGlwZWxpbmVfbHMuc2NvcmUodHJhaW5YLHRyYWluWSkpCnByaW50KCdUZXN0aW5nIEFjY3VyYWN5IDonLHBpcGVsaW5lX2xzLnNjb3JlKHRlc3RYLHRlc3RZKSkKY29uX21hdCA9IHBkLkRhdGFGcmFtZShjb25mdXNpb25fbWF0cml4KGlwZWxpbmVfbHMucHJlZGljdCh0ZXN0WCksIHRlc3RZKSwKICAgICAgICAgICAgY29sdW1ucyA9IFsnUHJlZGljdGVkOkJhZCcsICdQcmVkaWN0ZWQ6R29vZCddLAogICAgICAgICAgICBpbmRleCA9IFsnQWN0dWFsOkJhZCcsICdBY3R1YWw6R29vZCddKQoKCnByaW50KCdcbkNMQVNTSUZJQ0FUSU9OIFJFUE9SVFxuJykKcHJpbnQoY2xhc3NpZmljYXRpb25fcmVwb3J0KHBpcGVsaW5lX2xzLnByZWRpY3QodGVzdFgpLCB0ZXN0WSwKICAgICAgICAgICAgICAgICAgICAgICAgICAgIHRhcmdldF9uYW1lcyA9WydCYWQnLCdHb29kJ10pKQoKcHJpbnQoJ1xuQ09ORlVTSU9OIE1BVFJJWCcpCnBsdC5maWd1cmUoZmlnc2l6ZT0gKDYsNCkpCnNucy5oZWF0bWFwKGNvbl9tYXQsIGFubm90ID0gVHJ1ZSxmbXQ9J2QnLGNtYXA9IllsR25CdSIpCnBpY2tsZS5kdW1wKHBpcGVsaW5lX2xzLG9wZW4oJ3BoaXNoaW5nLnBrbCcsJ3diJykpCmxvYWRlZF9tb2RlbCA9IHBpY2tsZS5sb2FkKG9wZW4oJ3BoaXNoaW5nLnBrbCcsICdyYicpKQpyZXN1bHQgPSBsb2FkZWRfbW9kZWwuc2NvcmUodGVzdFgsdGVzdFkpCnByaW50KHJlc3VsdCkKcHJlZGljdF9iYWQgPSBbJ3llbmlpay5jb20udHIvd3AtYWRtaW4vanMvbG9naW4uYWxpYmFiYS5jb20vbG9naW4uanNwLnBocCcsJ2ZhemFuLXBhY2lyLnJzL3RlbXAvbGlicmFyaWVzL2lwYWQnLCd0dWJlbW92aWV6LmV4ZScsJ3N2aXNpb24tb25saW5lLmRlL21nZmkvYWRtaW5pc3RyYXRvci9jb21wb25lbnRzL2NvbV9iYWJhY2t1cC9jbGFzc2VzL2Z4MjlpZDEudHh0J10KcHJlZGljdF9nb29kID0gWyd5b3V0dWJlLmNvbS8nLCd5b3V0dWJlLmNvbS93YXRjaD92PXFJMFRRSkkzdmRVJywncmV0YWlsaGVsbHVuZGVyZ3JvdW5kLmNvbS8nLCdyZXN0b3JldmlzaW9uY2VudGVycy5jb20vaHRtbC90ZWNobm9sb2d5Lmh0bWwnXQpsb2FkZWRfbW9kZWwgPSBwaWNrbGUubG9hZChvcGVuKCdwaGlzaGluZy5wa2wnLCAncmInKSkKI3ByZWRpY3RfYmFkID0gdmVjdG9yaXplcnMudHJhbnNmb3JtKHByZWRpY3RfYmFkKQojIHByZWRpY3RfZ29vZCA9IHZlY3Rvcml6ZXIudHJhbnNmb3JtKHByZWRpY3RfZ29vZCkKcmVzdWx0ID0gbG9hZGVkX21vZGVsLnByZWRpY3QocHJlZGljdF9iYWQpCnJlc3VsdDIgPSBsb2FkZWRfbW9kZWwucHJlZGljdChwcmVkaWN0X2dvb2QpCnByaW50KHJlc3VsdCkKcHJpbnQoIioiKjMwKQpwcmludChyZXN1bHQyKQ==

Success #stdin #stdout 0.03s 25624KB

stdin

copy

Standard input is empty

stdout

copy

# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://g...content-available-to-author-only...b.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 5GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session
import pandas as pd # use for data manipulation and analysis
import numpy as np # use for multi-dimensional array and matrix

import seaborn as sns # use for high-level interface for drawing attractive and informative statistical graphics 
import matplotlib.pyplot as plt # It provides an object-oriented API for embedding plots into application
# It sets the backend of matplotlib to the 'inline' backend:
import plotly.express as px
import time # calculate time 

from sklearn.linear_model import LogisticRegression # algo use to predict good or bad
from sklearn.naive_bayes import MultinomialNB # nlp algo use to predict good or bad

from sklearn.model_selection import train_test_split # spliting the data between feature and target
from sklearn.metrics import classification_report # gives whole report about metrics (e.g, recall,precision,f1_score,c_m)
from sklearn.metrics import confusion_matrix # gives info about actual and predict
from nltk.tokenize import RegexpTokenizer # regexp tokenizers use to split words from text  
from nltk.stem.snowball import SnowballStemmer # stemmes words
from sklearn.feature_extraction.text import CountVectorizer # create sparse matrix of words using regexptokenizes  
from sklearn.pipeline import make_pipeline # use for combining all prerocessors techniuqes and algos

from PIL import Image # getting images in notebook
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator# creates words colud

from bs4 import BeautifulSoup # use for scraping the data from website
from selenium import webdriver # use for automation chrome 
import networkx as nx # for the creation, manipulation, and study of the structure, dynamics, and functions of complex networks.

import pickle# use to dump model 

import warnings # ignores pink warnings 
warnings.filterwarnings('ignore')
# Loading the dataset
phish_data = pd.read_csv('/kaggle/input/phishing-site-urls/phishing_site_urls.csv')
phish_data.head()
phish_data.tail()
phish_data.info()
phish_data.isnull().sum() # there is no 
#create a dataframe of classes counts
label_counts = pd.DataFrame(phish_data.Label.value_counts())
#visualizing target_col
fig = px.bar(label_counts, x=label_counts.index, y=label_counts.Label)
fig.show()
tokenizer = RegexpTokenizer(r'[A-Za-z]+')#to getting alpha only
phish_data.URL[0]
# this will be pull letter which matches to expression
tokenizer.tokenize(phish_data.URL[0]) # using first row
print('Getting words tokenized ...')
t0= time.perf_counter()
phish_data['text_tokenized'] = phish_data.URL.map(lambda t: tokenizer.tokenize(t)) # doing with all rows
t1 = time.perf_counter() - t0
print('Time taken',t1 ,'sec')
phish_data.sample(5)
stemmer = SnowballStemmer("english") # choose a language
print('Getting words stemmed ...')
t0= time.perf_counter()
phish_data['text_stemmed'] = phish_data['text_tokenized'].map(lambda l: [stemmer.stem(word) for word in l])
t1= time.perf_counter() - t0
print('Time taken',t1 ,'sec')
phish_data.sample(5)
print('Getting joiningwords ...')
t0= time.perf_counter()
phish_data['text_sent'] = phish_data['text_stemmed'].map(lambda l: ' '.join(l))
t1= time.perf_counter() - t0
print('Time taken',t1 ,'sec')
phish_data.sample(5)
#sliceing classes
bad_sites = phish_data[phish_data.Label == 'bad']
good_sites = phish_data[phish_data.Label == 'good']
bad_sites.head()
good_sites.head()
def plot_wordcloud(text, mask=None, max_words=400, max_font_size=120, figure_size=(24.0,16.0), 
                   title = None, title_size=40, image_color=False):
    stopwords = set(STOPWORDS)
    more_stopwords = {'com','http'}
    stopwords = stopwords.union(more_stopwords)

    wordcloud = WordCloud(background_color='white',
                    stopwords = stopwords,
                    max_words = max_words,
                    max_font_size = max_font_size, 
                    random_state = 42,
                    mask = mask)
    wordcloud.generate(text)
    
    plt.figure(figsize=figure_size)
    if image_color:
        image_colors = ImageColorGenerator(mask);
        plt.imshow(wordcloud.recolor(color_func=image_colors), interpolation="bilinear");
        plt.title(title, fontdict={'size': title_size,  
                                  'verticalalignment': 'bottom'})
    else:
        plt.imshow(wordcloud);
        plt.title(title, fontdict={'size': title_size, 'color': 'green', 
                                  'verticalalignment': 'bottom'})
    plt.axis('off');
    plt.tight_layout()  
d = '../input/masks/masks-wordclouds/'
data = good_sites.text_sent
data.reset_index(drop=True, inplace=True)
common_text = str(data)
common_mask = np.array(Image.open(d+'star.png'))
plot_wordcloud(common_text, common_mask, max_words=400, max_font_size=120, 
               title = 'Most common words use in good urls', title_size=15)
data = bad_sites.text_sent
data.reset_index(drop=True, inplace=True)
common_text = str(data)
common_mask = np.array(Image.open(d+'comment.png'))
plot_wordcloud(common_text, common_mask, max_words=400, max_font_size=120, 
               title = 'Most common words use in bad urls', title_size=15)
#create cv object
cv = CountVectorizer()
help(CountVectorizer())
feature = cv.fit_transform(phish_data.text_sent) #transform all text which we tokenize and stemed
feature[:5].toarray() # convert sparse matrix into array to print transformed features
trainX, testX, trainY, testY = train_test_split(feature, phish_data.Label)
# create lr object
lr = LogisticRegression()
lr.fit(trainX,trainY)
lr.score(testX,testY)
Scores_ml = {}
Scores_ml['Logistic Regression'] = np.round(lr.score(testX,testY),2)
print('Training Accuracy :',lr.score(trainX,trainY))
print('Training Accuracy :',lr.score(trainX,trainY))
print('Testing Accuracy :',lr.score(testX,testY))
con_mat = pd.DataFrame(confusion_matrix(lr.predict(testX), testY),
            columns = ['Predicted:Bad', 'Predicted:Good'],
            index = ['Actual:Bad', 'Actual:Good'])


print('\nCLASSIFICATION REPORT\n')
print(classification_report(lr.predict(testX), testY,
                            target_names =['Bad','Good']))

print('\nCONFUSION MATRIX')
plt.figure(figsize= (6,4))
sns.heatmap(con_mat, annot = True,fmt='d',cmap="YlGnBu")
print('Training Accuracy :',lr.score(trainX,trainY))
print('Testing Accuracy :',lr.score(testX,testY))
con_mat = pd.DataFrame(confusion_matrix(lr.predict(testX), testY),
            columns = ['Predicted:Bad', 'Predicted:Good'],
            index = ['Actual:Bad', 'Actual:Good'])


print('\nCLASSIFICATION REPORT\n')
print(classification_report(lr.predict(testX), testY,
                            target_names =['Bad','Good']))

print('\nCONFUSION MATRIX')
plt.figure(figsize= (6,4))
sns.heatmap(con_mat, annot = True,fmt='d',cmap="YlGnBu")
# create mnb object
mnb = MultinomialNB()
mnb.fit(trainX,trainY)
Scores_ml['MultinomialNB'] = np.round(mnb.score(testX,testY),2)
print('Training Accuracy :',mnb.score(trainX,trainY))
print('Testing Accuracy :',mnb.score(testX,testY))
con_mat = pd.DataFrame(confusion_matrix(mnb.predict(testX), testY),
            columns = ['Predicted:Bad', 'Predicted:Good'],
            index = ['Actual:Bad', 'Actual:Good'])


print('\nCLASSIFICATION REPORT\n')
print(classification_report(mnb.predict(testX), testY,
                            target_names =['Bad','Good']))

print('\nCONFUSION MATRIX')
plt.figure(figsize= (6,4))
sns.heatmap(con_mat, annot = True,fmt='d',cmap="YlGnBu")
acc = pd.DataFrame.from_dict(Scores_ml,orient = 'index',columns=['Accuracy'])
sns.set_style('darkgrid')
sns.barplot(acc.index,acc.Accuracy)
ipeline_ls = make_pipeline(CountVectorizer(tokenizer = RegexpTokenizer(r'[A-Za-z]+').tokenize,stop_words='english'), LogisticRegression())
##(r'\b(?:http|ftp)s?://\S*\w|\w+|[^\w\s]+') ([a-zA-Z]+)([0-9]+)  -- these tolenizers giving me low accuray 
trainX, testX, trainY, testY = train_test_split(phish_data.URL, phish_data.Label)
pipeline_ls.fit(trainX,trainY)
pipeline_ls.score(testX,testY) 
print('Training Accuracy :',pipeline_ls.score(trainX,trainY))
print('Testing Accuracy :',pipeline_ls.score(testX,testY))
con_mat = pd.DataFrame(confusion_matrix(ipeline_ls.predict(testX), testY),
            columns = ['Predicted:Bad', 'Predicted:Good'],
            index = ['Actual:Bad', 'Actual:Good'])


print('\nCLASSIFICATION REPORT\n')
print(classification_report(pipeline_ls.predict(testX), testY,
                            target_names =['Bad','Good']))

print('\nCONFUSION MATRIX')
plt.figure(figsize= (6,4))
sns.heatmap(con_mat, annot = True,fmt='d',cmap="YlGnBu")
pickle.dump(pipeline_ls,open('phishing.pkl','wb'))
loaded_model = pickle.load(open('phishing.pkl', 'rb'))
result = loaded_model.score(testX,testY)
print(result)
predict_bad = ['yeniik.com.tr/wp-admin/js/login.alibaba.com/login.jsp.php','fazan-pacir.rs/temp/libraries/ipad','tubemoviez.exe','svision-online.de/mgfi/administrator/components/com_babackup/classes/fx29id1.txt']
predict_good = ['youtube.com/','youtube.com/watch?v=qI0TQJI3vdU','retailhellunderground.com/','restorevisioncenters.com/html/technology.html']
loaded_model = pickle.load(open('phishing.pkl', 'rb'))
#predict_bad = vectorizers.transform(predict_bad)
# predict_good = vectorizer.transform(predict_good)
result = loaded_model.predict(predict_bad)
result2 = loaded_model.predict(predict_good)
print(result)
print("*"*30)
print(result2)

https://ideone.com/wNaJsL

language:

PHP (php 7.3.5)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language