资源简介

本文主要增加了一个搜索功能,通过该搜索框能展示搜索节点的相关内容,同时在张老师的基础上增加搜索节点相关联的边及节点。前面作者讲解了很多知识图谱原理知识,包括知识图谱相关技术、Neo4j绘制关系图谱等,但仍缺少一个系统全面的实例。为了加深自己对知识图谱构建的认识,为后续创建贵州旅游知识图谱打下基础,作者深入学习了张宏伦老师的网易云课程(星球系列电影),并结合自己的理解和技术分享了该系列专栏,从数据采集、数据展示、数据分析到知识图谱构建,文章后续还会讲解中文数据的实体识别、关系抽取、知识计算等。 --------------------- 作者:Eastmount 来源:CSDN 原文:https://blog.csdn.net/Eastmount/article/details/87270150 版权声明:本文为博主原创文章,转载请附上博文链接!

资源截图

代码片段和文件信息

# coding: utf-8
import urllib.request as urllib2
import json

#设置headers
headers = {}
headers[“User-Agent“] = “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/70.0.3538.102 Safari/537.36“

#读取文件-读取json信息并将json格式数据转换为字典
f = open(‘films.csv‘ ‘r‘ encoding=‘utf-8‘)
films = []
for line in f.readlines():
    #print(line)
    print(line.strip(‘\n‘))
    line = json.loads(line.strip(‘\n‘))
    films.append(line)
f.close()

#遍历每部电影films的实体并获取其他实体
#获取 characters人物 planets星球 starships飞船 vehicles装备 species种族
targets = [‘characters‘ ‘planets‘ ‘starships‘ ‘vehicles‘ ‘species‘]

for target in targets:
    print(target)
    #循环获取五类数据并存储至文件
    fw = open(‘film_‘ + target + ‘.csv‘ ‘w‘)
    data = []
    #获取7部电影信息的实体名称
    for item in films:  
        tmp = item[target]  #实体对应的链接
        print(tmp)
        for t in tmp:
            if t in data: #如果实体已经存在则跳过 比如某部电影人物另一部也出现了
                continue
            else:
                data.append(t)
            
            #循环请求直到成功 防止网络延迟
            while 1:
                try:
                    print(t)
                    request = urllib2.Request(url=t headers=headers)
                    response = urllib2.urlopen(request)
                    result = response.read().decode(‘utf-8‘)
                except Exception as e:
                    continue #请求失败循环继续
                else:
                    fw.write(result+“\n“)
                    break #请求成功跳出循环
                finally:
                    pass
                
    #查看七部电影含这种实体多少个
    print(str(len(data)) target)
    fw.close()

print(“success“)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件      19712  2019-01-31 15:32  (best)完整代码\(1) 爬虫 Spider_KG\films.csv

     文件      42166  2019-01-31 15:35  (best)完整代码\(1) 爬虫 Spider_KG\film_characters.csv

     文件       9894  2019-01-31 15:35  (best)完整代码\(1) 爬虫 Spider_KG\film_planets.csv

     文件      20519  2019-01-31 15:37  (best)完整代码\(1) 爬虫 Spider_KG\film_species.csv

     文件      20993  2019-01-31 15:36  (best)完整代码\(1) 爬虫 Spider_KG\film_starships.csv

     文件      18780  2019-01-31 15:37  (best)完整代码\(1) 爬虫 Spider_KG\film_vehicles.csv

     文件       1986  2019-01-31 15:33  (best)完整代码\(1) 爬虫 Spider_KG\get_details.py

     文件        805  2019-01-31 15:32  (best)完整代码\(1) 爬虫 Spider_KG\get_films.py

     文件      19712  2019-01-31 15:32  (best)完整代码\(2) 可视化 ShowPic_KG\films.csv

     文件      42166  2019-01-31 15:35  (best)完整代码\(2) 可视化 ShowPic_KG\film_characters.csv

     文件       9894  2019-01-31 15:35  (best)完整代码\(2) 可视化 ShowPic_KG\film_planets.csv

     文件      20519  2019-01-31 15:37  (best)完整代码\(2) 可视化 ShowPic_KG\film_species.csv

     文件      20993  2019-01-31 15:36  (best)完整代码\(2) 可视化 ShowPic_KG\film_starships.csv

     文件      18780  2019-01-31 15:37  (best)完整代码\(2) 可视化 ShowPic_KG\film_vehicles.csv

     文件       1986  2019-01-31 15:33  (best)完整代码\(2) 可视化 ShowPic_KG\get_details.py

     文件        805  2019-01-31 15:32  (best)完整代码\(2) 可视化 ShowPic_KG\get_films.py

     文件        732  2019-02-01 14:18  (best)完整代码\(2) 可视化 ShowPic_KG\get_jsondetails.py

     文件        756  2019-01-31 17:12  (best)完整代码\(2) 可视化 ShowPic_KG\get_jsonfils.py

     文件       1804  2019-02-01 15:10  (best)完整代码\(2) 可视化 ShowPic_KG\show_height_mass.py

     文件        896  2019-02-01 15:16  (best)完整代码\(2) 可视化 ShowPic_KG\show_height_mass2.py

     文件        582  2019-02-01 14:04  (best)完整代码\(2) 可视化 ShowPic_KG\show_hist.py

     文件        831  2019-02-01 14:22  (best)完整代码\(2) 可视化 ShowPic_KG\show_scatter.py

     文件       1119  2019-02-01 13:48  (best)完整代码\(2) 可视化 ShowPic_KG\stat_basic.csv

     文件       5041  2019-02-01 14:18  (best)完整代码\(2) 可视化 ShowPic_KG\stat_character.csv

     文件      19712  2019-01-31 15:32  (best)完整代码\(3-1) 获取json数据 neo4j_data\films.csv

     文件      42166  2019-01-31 15:35  (best)完整代码\(3-1) 获取json数据 neo4j_data\film_characters.csv

     文件       9894  2019-01-31 15:35  (best)完整代码\(3-1) 获取json数据 neo4j_data\film_planets.csv

     文件      20519  2019-01-31 15:37  (best)完整代码\(3-1) 获取json数据 neo4j_data\film_species.csv

     文件      20993  2019-01-31 15:36  (best)完整代码\(3-1) 获取json数据 neo4j_data\film_starships.csv

     文件      18780  2019-01-31 15:37  (best)完整代码\(3-1) 获取json数据 neo4j_data\film_vehicles.csv

............此处省略45个文件信息

评论

共有 条评论