1124. Sredin seminar
Omrežja sodelovanj

Viri

Načrt pretvorbe: Osnovni podatki: ostali zanimivi podatki - morda jih velja določiti le za tolmačenje rezultatov: Program v Pythonu za BibTeX Bib2pajek. GeomBib.net, intbib.bib >>> import sys >>> sys.path.append(r'D:\vlado\docs\Papers\2006\SS05apr06') >>> import bib2pajek >>> bib2pajek.run('D:\\vlado\\docs\\Papers\\2006\\SS05apr06\\','intbib.bib') Problemi: čiščenje, popolnost bibliografije, manjkajoči podatki v zapisih, ...

Analize

Dvovrstna omrežja: (dela, avtorji, vrsta dela)
Postopki Izpeljana enovrstna omrežja: (Avtorji, pogostost)

1125. Sredin seminar
Izgradnja omrežij sodelovanj

Velika podatkovja: CiteSeer, IMDB, Hep.

BibTeX v Pajek

Za primer sem izbral intbib.bib. Zgradba datotek BibTeX.

01 Osnovna zanka po zapisih

ponavljaj:
   iz vrstic datoteke sestavi zapis
   obdelaj zapis
zapisov še ne obdelamo - le izpišemo.

bib2paj01.py

02 Razčlenitev zapisa na pare

bib2paj02.py

03 Izlušči zanimive podatke

bib2paj03.py

04 'Izpis' omrežja

bib2paj04.py

Končna različica

bib2pajek.py

Problem imen intbib.bib, intbibeqv.clu, intbibNew.bib.

DBLP v Pajek

DBLP ima dobro poskrbljeno za problem imen. Glej:

Michael Ley: Maintaining an Online Bibliographical Database: The Problem of Data Quality

Zgradba dblpT.xml. Problem znakov Unicode (ENTITY).

XML, DOM (drevo), SAX (zaporedje dogodkov). Za velika podatkovja SAX.

DblpSaxDH

Po shemi iz Python XML FAQ and How-to pripravil program DblpSaxDH.py

na *.out izpiše standardizirano datoteko izbranih sestavin.

[
I
]
[
K www/org/w3/TR/NOTE-xml-ql
Y 2001
T Xml-ql: A Query Language for XML
W 8
A Alin Deutsch
A Mary F. Fernandez
A Daniela Florescu
A Alon Y. Levy
A Dan Suciu
]

01 Zanka po popolnih zapisih

dblp2paj01.py

Končna različica

dblp2pajek.py

Omrežje DBLP: DBLP.zip (43M)

GML v Pajek

Končna različica

gml2pajek.py

Omrežje IMDB: IMDB06.zip (40M)

Zanimivo