资源简介

本资源为天津大学社会信息检索的一项大作业,基于爬取的语料库,总体实现了三个功能:TFIDF计算,两句子相似度计算,基于语料库的搜索引擎。 具体任务如下: 1) TFIDF: 给定用自己名字命名的文件夹,请自己爬取一定数量的网页、微博形成语料集合,存入该文件夹;在线状态下,对其中的词语进行TFIDF统计。 2) SIM: 在线状态下,从网页页面输入任意两个句子,求其相似度,包括:内积,余弦及Jaccard三种度量方式;同时,可实现对导入的文件夹语料的tfidf统计。 3)SJet:实现基于向量空间模型(VSM)的搜索引擎。

资源截图

代码片段和文件信息

#-*- coding=utf-8 -*-
from flask import Flaskrender_templaterequestredirecturl_forjsonifysend_from_directoryabort
from werkzeug.utils import secure_filename
import os
import sys
reload(sys) 
sys.setdefaultencoding(‘utf-8‘)

app = Flask(__name__)

@app.route(‘/‘)
def home():
return render_template(‘index.html‘)

@app.route(‘/TFIDF‘ methods=[‘GET‘ ‘POST‘])
def upload_file():
if request.method==‘GET‘:  
return render_template(‘TFIDF.html‘)
else: 
f = request.files[‘data‘]
tempdir = ‘uploads/‘ + secure_filename(f.filename)
f.save(tempdir)
#os.system(“activate python2.7“)
os.system(“python Get_TFIDF.py “ + tempdir)
return render_template(‘TFIDF.html‘)+‘
提交成功!‘

@app.route(‘/TFIDF_Result‘ methods=[‘GET‘])
def download_file():
if request.method==‘GET‘:
dfilename=“allresults.zip“
if os.path.isfile(dfilename):
return send_from_directory(‘‘dfilenameas_attachment=True)
abort(404)

@app.route(‘/SIM‘ methods=[‘GET‘ ‘POST‘])
def input_sentence():
if request.method==‘GET‘:
return render_template(‘SIM.html‘)
else:
s1 = request.form.get(“sentence1“).encode(‘gbk‘)
s2 = request.form.get(“sentence2“).encode(‘gbk‘)
#os.system(“activate python2.7“)
#os.system(‘python Similarity_Compare.py ‘ + s1 + ‘ ‘ + s2)
simcmd = os.popen(‘python Similarity_Compare.py ‘ + s1 + ‘ ‘ + s2)
simres = simcmd.read()
return render_template(‘SIM.html‘)+‘

计算结果

‘+simres+‘



@app.route(‘/SJet‘ methods=[‘GET‘ ‘POST‘])
def mySJet():
if request.method==‘GET‘:
return render_template(‘SJet.html‘)
else:
myinput = request.form.get(“userinput“).encode(‘gbk‘)
#os.system(“activate python2.7“)
#os.system(‘python Similarity_Compare.py ‘ + s1 + ‘ ‘ + s2)
simcmd1 = os.popen(“python SJet.py ‘“ + myinput + “‘“)
simres1 = simcmd1.read()
return render_template(‘SJet.html‘)+‘

搜索结果



‘+simres1

@app.route(‘/SJetRes/‘ methods=[‘GET‘])
def show_res(post_id):
if request.method==‘GET‘:
dfilename1=“database/articles/article“+str(post_id)+“.txt“
if os.path.isfile(dfilename1):
return send_from_directory(‘‘dfilename1as_attachment=True)
abort(404)

if __name__ == ‘__main__‘:
    app.run(host=‘0.0.0.0‘port=‘6789‘)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-06-12 02:03  SIRC\
     文件        2440  2018-06-12 01:01  SIRC\Get_TFIDF.py
     文件          55  2018-05-21 13:07  SIRC\SIMresult.txt
     文件        2447  2018-06-12 01:40  SIRC\SJet.py
     文件        2143  2018-05-21 01:34  SIRC\Similarity_Compare.py
     文件      238095  2018-05-21 09:59  SIRC\allresults.zip
     文件        2302  2018-06-12 01:28  SIRC\app.py
     文件        2027  2018-05-20 23:58  SIRC\app.pyc
     目录           0  2018-05-08 14:18  SIRC\database\
     目录           0  2018-05-08 21:17  SIRC\database\articles\
     文件          12  2018-05-08 14:15  SIRC\database\articles\article0.txt
     文件         160  2018-05-08 14:15  SIRC\database\articles\article1.txt
     文件         106  2018-05-08 14:15  SIRC\database\articles\article10.txt
     文件         104  2018-05-08 14:15  SIRC\database\articles\article100.txt
     文件         365  2018-05-08 14:15  SIRC\database\articles\article101.txt
     文件         417  2018-05-08 14:15  SIRC\database\articles\article102.txt
     文件         148  2018-05-08 14:15  SIRC\database\articles\article103.txt
     文件          84  2018-05-08 14:15  SIRC\database\articles\article104.txt
     文件         284  2018-05-08 14:15  SIRC\database\articles\article105.txt
     文件         403  2018-05-08 14:15  SIRC\database\articles\article106.txt
     文件          83  2018-05-08 14:15  SIRC\database\articles\article107.txt
     文件         130  2018-05-08 14:15  SIRC\database\articles\article108.txt
     文件         189  2018-05-08 14:15  SIRC\database\articles\article109.txt
     文件          86  2018-05-08 14:15  SIRC\database\articles\article11.txt
     文件          91  2018-05-08 14:15  SIRC\database\articles\article110.txt
     文件         431  2018-05-08 14:15  SIRC\database\articles\article111.txt
     文件         119  2018-05-08 14:15  SIRC\database\articles\article112.txt
     文件         439  2018-05-08 14:15  SIRC\database\articles\article113.txt
     文件         383  2018-05-08 14:15  SIRC\database\articles\article114.txt
     文件         162  2018-05-08 14:15  SIRC\database\articles\article115.txt
     文件         415  2018-05-08 14:15  SIRC\database\articles\article116.txt
............此处省略2257个文件信息

评论

共有 条评论