Wikipedie:Stáhnutí databáze – Wikipedie
Přeskočit na obsah
Z Wikipedie, otevřené encyklopedie
Wikipedie nabízí kopie veškerého dostupného obsahu uživatelům, kteří ji potřebují. Tyto kopie databází můžou být využity pro
mirrorování
Wikipedie, osobní užití, zálohy informací, použití offline anebo pro dotazy na databázi. Veškerý textový obsah je licencován pod licencí Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) a většina zároveň i pod licencí GNU Free Documentation License (GFDL). Pro další informace o autorském právu na Wikipedii vizte
WP:Autorské právo
Offline čtečky Wikipedie
editovat
editovat zdroj
Některé z mnoha cest, jak číst Wikipedii offline.
XOWA (
#XOWA
WikiTaxi
#WikiTaxi
WikiReader
Wikipedia on rockbox
#Wikiviewer for Rockbox
Wikipedia Featured Articles as a Printed Book
WikiFilter
#WikiFilter
Wiki as E-Book
#E-book
Selected Wikipedia articles as a PDF, OpenDocument, etc.
Nápověda:Knihy
Selected Wikipedia articles as a printed book
Help:Books/Printed books
Okawix
offline-wikipedia
#Offline wikipedia reader
offline-wiki
Kiwix
iPodLinux
BzReader
#BzReader and MzReader (for Windows)
aarddict
#Aard Dictionary
Kde získám...
editovat
editovat zdroj
Českojazyčnou Wikipedii
editovat
editovat zdroj
Dumpy kteréhokoliv projektu Nadace Wikimedia:
Internet Archive
Dumpy českojazyčné Wikipedie v SQL a XML:
pages-articles.xml.bz2 - pouze aktuální verze článků, žádné diskusní a uživatelské stránky, toto je pravděpodobně to, co chcete (okolo 550 MB v komprimované variantě)
pages-meta-current.xml.bz2 - pouze aktuální verze všech stránek (včetně diskusí), okolo 670 MB v komprimované verzi
abstract.xml.gz - úvody článků
all-titles-in-ns0.gz - pouze názvy článků (s přesměrováními)
SQL zálohy pro většinu tabulek MediaWiki jsou také dostupné
pages-meta-history.xml.bz2 - Obsahuje všechny revize všech stránek, rozbalí se na přes 300 GB velký textový soubor, stahujte pouze, pokud víte, že tento soubor užijete
Pro stažení pouze části databáze v XML formátu, třeba jedné kategorie nebo seznamu článků, využijte
Special:Export
Frontend Wikipedie:
MediaWiki
Databázový backend:
MySQL
Nakládání s komprimovanými soubory
editovat
editovat zdroj
Komprimované dumpy jsou značně zmenšené, po rozbalení zaberou velké množství prostoru. K dekomprimaci souborů .bz2 a .7z mohou být využity následující programy:
Windows
bzip2 (příkazová řádka)
, dostupný pod licencí BSD
7-Zip
je dostupný pod
LGPL
licencí
WinRAR
WinZip
MacOS
OS X
přichází se zabudovaným nástrojem na příkazové řádce pro dekomprimaci bzip2 souborů
GNU/Linux
GNU/Linux přichází se zabudovaným nástrojem na příkazové řádce pro dekomprimaci bzip2 souborů
BSD
Některé BSD systémy přicházejí se zabudovaným nástrojem na příkazové řádce. U ostatních, jako
OpenBSD
je nutné tento nástroj napřed nainstalovat z balíčku
Proč si data nestáhnout sám při běhu?
editovat
editovat zdroj
Představme si, že vyvíjíte software, který na některých místech zobrazují informace z Wikipedie. Pokud chcete, aby váš program zobrazil informace jinak, než jsou na Wikipedii, budete pravděpodobně potřebovat wikikód, ve kterém byl text napsán namísto hotového
HTML
Pokud chcete získat všechna data, pravděpodobně je chcete přenést tou nejefektivnější možnou cestou. Servery wikipedia.org musí provést dost práce, než převedou wikikód do HTML. To spotřebovává čas jak váš, tak serverům wikipedia.org, takže stahování všech stránek není správnou cestou.
Prosím uvědomte si, že živé mirrory Wikipedie, které se dynamicky načítají ze serverů Nadace Wikimedia jsou zakázané.
Prosím nevyužívejte web crawler
editovat
editovat zdroj
Prosím, nevyužívejte
web crawler
(robot stahující obsah internetu) pro stažení velkého množství článků. Agresivní využívání těchto robotů mohou vyústit v dramatické zpomalení běhu Wikipedie.
Příklad mailu zaslanému zablokovanému majiteli robota
editovat
editovat zdroj
Orientační překlad z originální anglické verze
IP adresa nnn.nnn.nnn.nnn stahovala až 50 stránek za sekundu ze serverů wikipedia.org. Soubor robots.txt má v tuto chvíli nastaven limit na jednu stránku za sekundu použitím nastavení Crawl-delay. Prosím, respektujte toto nastavení. Za nic nestojí stahování veškerého obsahu Wikipedie pomocí jednoho stáhnutí za sekundu, protože to zabere několik týdnů. Zmíněná IP adresa je nyní zablokována nebo k tomu dojde během krátké doby. Prosím, kontaktujte nás, pokud si přejete být odblokován. Prosím, nesnažte se zablokování obejít - prostě zablokujeme celý rozsah.
Pokud chcete možnosti, jak obsah stáhnout více efektivně, nabízíme spoustu možností, zahrnující týdenní
.pozn 1
dumpy databáze, které můžete načíst do MySQL databáze a pracovat s daty lokálně, využitím rychlosti, které chcete.
Namísto odpovědi na tento e-mail můžete preferovat navštívení kanálu #mediawiki na irc.freenode.net kvůli diskusi vašich názorů s naším týmem.
Provádění SQL dotazů na aktuální verzi databáze
editovat
editovat zdroj
Namísto stahování dumpu databáze můžete využít živé databázové konzole na
Schéma databáze
editovat
editovat zdroj
Viz také:
mw:Manual:Database layout
SQL soubor použitý k inicializaci databáze MediaWiki můžete nalézt
zde
. XML schéma je definované na začátku každého souboru.
Poznámky
editovat
editovat zdroj
Nyní měsíční
Reference
editovat
editovat zdroj
V tomto článku byl použit
překlad
textu z článku
Wikipedia:Database download
na anglické Wikipedii.
Citováno z „
Kategorie
Wikipedie:Nástroje
Wikipedie
Stáhnutí databáze
Přidat téma
US