Benchmark-Zeit für grosse Artikelmengen?

BayWotch 3.x wird nicht mehr unterstützt. Dieser Bereich dient als Archiv.
Benutzeravatar
ThoBo
Beiträge: 36
Registriert: 04.08.2004, 11:06

Benchmark-Zeit für grosse Artikelmengen?

Beitrag von ThoBo »

Hallo Zusammen,

ich habe eine umfangreiche Artikelsuche geplant, in der ich mehre komplette Oberkategorien über einen längeren Zeitraum einlesen will.
Das sind dann ca. eine Million Artikel pro Tag.

Problem:
Zur Zeit schaffe ich nur ca. 500 Tsd. pro Tag trotz DSL.

Auch komme ich mit unterschiedlichen Rechnern und Internetverbindungen zu sehr unterschiedlichen Downloadgeschwindigkeiten.

Meine Fragen:
Wodurch wird die Geschwindigkeit mit der ich 1 Mio. Artikel runterlade beeinflusst? Prozessor / RAM / Betriebssystem / etc.?
Wie kann ich das runterladen beschleunigen?

Wie schnell ladet ihr große Datenmengen runter (mit welcher Konstellation)?

Vielen Dank im voraus!

Thorsten

_______________________________________________
"Alltag ist nur durch Wunder erträglich."

(Max Frisch)
Borkumer
Beiträge: 1443
Registriert: 03.01.2004, 17:27
Wohnort: Borkum
Kontaktdaten:

Beitrag von Borkumer »

Hallo Thorsten!

Deine Frage ist eigentlich leicht beantwortet.

Die Internetanbindung und die Prozessorleistung sind die Kernstücke des Gesamtergebnisses. Beide müssen aufeinander abgestimmt sein. Bei einer geringen Transferleistung der Internetanbindung dreht ein schneller Prozessor "Däumchen", anderseits geht es nicht vorran, wenn die Daten gezipt schnell ankommen, aber der Prozessor zu lahm ist. Bei jedem System gibt es ein Optimum, welches aber schnell durch eigene Versuche gefunden werden kann.
Zunächst sollte im Menü unter ->Optionen->Internet das Kästchen "Datenkomprimierung" aktiviert werden. Falls ein "Norton Internet Security" vorhanden ist, diesen für die Dauer des Datentransfers deaktivieren. Damit ist die schnellste Übertragungsmöglichkeit der Internetanbindung erreicht.
Jetzt muß das Optimum der Rechnerleistung ermittelt werden. Kommen zu viel Daten an, muss der Prozessor neben den Datenbankfunktionen auch noch einen zusätzlichen Zwischenspeicher mit verwalten, was Rechenpower kostet. Kommen zu wenig Daten ist der Rechner nicht ausgelastet. Dies kannst Du über die Anzahl der Kanäle steuern.

Einfache Tests mit der Stoppuhr bringen dort schnell Klarheit. Wähle immer die gleichen Datensätze aus (etwa 500) und lasse diese abgleichen. Stelle bei jedem Test eine andere Anzahl von Kanälen ein ( am besten die Anzahl von Test zu Test verdoppeln) und stoppe die Zeit. Irgendwo gibt es auf Deinem System ein Maximum. Zu beachten ist, dass beim ersten Abgleich die Artikelbilder mit gespeichert werden, bei einem weiterem Durchlauf mit den gleichen Artikeln aber nicht Dies könnte die Messwerte verfälschen, so das nach jedem Test alle Artikel aus der Artikelliste gelöscht werden sollten. Damit man aber jedes Mal die gleichen Artikel bekommt, solltest Du Dir einen Favoriten einrichten, der nach jedem Löschvorgang diese wieder von eBay einlädt.

Als Anhalt: Ich habe mit einer T-DSL-Anbindung, einem 2,8 GHz-Prozessor und 99 Kanälen etwa 22.000 Datensätze/Std. erreicht. Ohne Bilder und ohne Beschreibung dürfte der Datendurchsatz mindestens Faktor 10 größer sein, so dass man auf theoretische 220.000 Datensätze je Std. kommen würde. Hier dürfte aber eine andere Bremse zum Tragen kommen: die Antwortzeit der angesprochenen Server. Dies kann bei eBay, je nach Wochentag- und Stunde und der aktuellen Auslastung, eine nicht unwichtige Bremsgröße sein.

Auch sind bei Deinen Artikelmengen die Limits der .db3 betroffen. Dazu gibt es aber hier im Forum bereits ausführliche Threads. Ganz aktuell ist dieser:
http://baywotch.de/phpbb/viewtopic.php?t=584

aber auch hier:
http://baywotch.de/phpbb/viewtopic.php?t=432

Falls Du noch Fragen hast, bitte noch mal melden. Ein Erfahrungsbericht ist auch gerne gesehen, da andere User auch was davon haben!
Gruß

Tim
__________________________
XP Pro; SP3 (werde ohne Not auch nicht wechseln !!)
Gast

Re:

Beitrag von Gast »

Hallo Borkumer,

vielen Dank für Deine detaillierte Antwort.

Bzgl. des Artikelmengen-Limits in der Access-Datenbank habe ich die entsprechenden Beiträge gelesen und werde bei Bedarf einfach mehrere Datenbanken verwenden.

Ich habe alle Einstellungen wie von Dir beschrieben übernommen und werde die Geschwindigkeit in den nächsten Tagen testen können.

Ich interessiere mich nur für die reinen Artikeldaten (also ohne Bild und ohne Artikelbeschreibung) und bin mal gespannt, ob ich auf einen ähnlichen Wert, wie die ca 220.000 pro Stunde komme.

Sobald ich die Tests abegschlossen habe, werde ich einen Erfahrungsbericht ins Forum stellen.

Mich würde sehr interessieren, ob andere User einen höheren Durchsatz erzielt haben als 220.000 Artikel pro Stunde (ohne Bilder und Beschreibung), denn dann könnte ich meine Konfiguration noch weiter optimieren. Also, wer Erfahrungswerte hat, diese bitte reinstellen.

Vielen Dank,
Thorsten
Borkumer
Beiträge: 1443
Registriert: 03.01.2004, 17:27
Wohnort: Borkum
Kontaktdaten:

Beitrag von Borkumer »

Hallo Thorsten!

Da bin ich auch mal gespannt. Ich habe diese Datenmengen in meinen div. Tests noch nicht ausprobiert.

Da die Antwortzeit der eBay-Server wahrscheinlich das langsamste Element in dieser Konstellation ist, wären Tests auch zu unterschiedlichen Tages- und Nachtzeiten interessant.
Gruß

Tim
__________________________
XP Pro; SP3 (werde ohne Not auch nicht wechseln !!)
Borkumer
Beiträge: 1443
Registriert: 03.01.2004, 17:27
Wohnort: Borkum
Kontaktdaten:

Beitrag von Borkumer »

Hallo Thorsten!


Asche auf mein Haupt!! 8-)

Hatte in meinem Posting weiter oben falsche Zahlen-Angaben gemacht.

Ich habe den Test mal mit meinem System durchgespielt und erreiche bei 15 Kanälen ein Optimum mit etwa 470 Datensätzen je Minute (Abgleich ohne Bild; entsp. 28.200 Datensätze je Std.). Im DSL-Monitor ist die Auslastung relativ konstant, ohne Übertragungspausen.
Bei 99 Kanälen etwa 370 Datensätze/Min. mit größeren Übertragungspausen im DSL-Monitor sichtbar.

Auch hatte ich vergessen, dass, obwohl die Artikelbeschreibungen nicht gespeichert werden, BW diese komplett mit herunterlädt, um die relevanten Daten auszulesen. Deshalb ergibt sich kein Geschwindigkeitsvorteil, wenn in den Optionen eingestellt wird, dass die Artikelbeschreibung nicht gespeichert werden soll. Es wird dadurch nur Datenplatzspeicher eingespart.

Siehe auch hier:
http://baywotch.de/phpbb/viewtopic.php?t=473

Deshalb dürfte das derzeit erreichbare Maximum mit T-DSL und einem 2,8GHz-Rechner wie oben angegeben sein. Die Begrenzung wird durch den Prozessor bzw. die Rechner-Ausstattung realisiert. Mit einem schnellerem Rechner und gleicher T-DSL-Anbindung ist der Datendurchsatz entsprechend höher.
Gruß

Tim
__________________________
XP Pro; SP3 (werde ohne Not auch nicht wechseln !!)
Chris
Beiträge: 37
Registriert: 22.10.2004, 21:19
Wohnort: Köln

Hardware / Festplatte ist ein großer Faktor

Beitrag von Chris »

Hallo zusammen,
zunächst sorry, dass ich den alten Artikel wieder hoch hole, aber ich habe auch meine Erfahrungen gemacht mit großen Datenmengen.
Ein neues System wurde angeschafft (P4/3.0GHz, 1GB RAM, 250 GB SATA Festplatte und WXP Pro SP1 drauf). Im Internet bin ich mit T-DSL (128KB / 1.024KB down). In den System-Monitoren habe ich recht bald gesehen, dass der Flaschenhals die Festplatte war: Das Ding hat die Daten gar nicht so schnell weg bekommen wie mein Prozessor sie geliefert hat. Das führte zu Produktivitätspausen.
Nun habe ich mir für die Baywotch-Files eine sehr schnelle Festplatte gekauft (WD Raptor 37GB, auch SATA Anschluss). Die Festplatte hat ne Zugriffszeit von 5ms, was sich bei Access-Anwendungen auszahlt, da diese sehr viele Zugriffe auf die Dateien haben.
Aber die andere Festplatte war im Monitor immer noch sehr stark beschäftigt. Der Grund hierfür lag in der Auslagerungsdatei, die immer noch auf der "alten" langsamen Festplatte rumlag. Da sich mein Baywotch auch schon mal gerne 750MB Hauptspeicher nimmt war klar, dass bei mehreren parallel laufenden Instanzen "geswappt" wurde.
Nun habe ich noch die Auslagerungsdatei auf die WD Raptor gelegt und habe einen Geschwindigkeitsvorteil von ca. 30% im Vergleich zu vorher.
Als nächsten Schritt werde ich meiner Kiste noch etwas mehr RAM spendieren und außerdem ne zweite Raptor noch reinbauen. Dann sollte ich einen prima Datenbankserver haben :-)
Ich hoffe, die eine oder andere Anregung gegeben zu haben.

Grüße aus Köln

Chris
Benutzeravatar
ThoBo
Beiträge: 36
Registriert: 04.08.2004, 11:06

Beitrag von ThoBo »

Hallo Chris,

danke für die Antwort.
Wieviel Artikel schaffst Du mit Deinem System in der Stunde?

Ich bin auch immer noch am Experimentieren. Zuhause habe ich auch ein neues System (P4/3.0GHz, 512 MB RAM, 200 GB IDE Festplatte und WXP Home SP2), doch leider hat sich der DSL-Anschluss bei Hansenet verzögert (Anmeldung im Mai (!) Umstellung Mitte November).

In der Zwischenzeit versuche ich mit einem Freund täglich alle Auktionen bei eBay Deutschland mit baywotch (also ca. 5 Mio. pro Tag) zu sammeln. Dort haben wir an einem T-DSL-Router inzwischen drei ältere Rechner, die parallel den ganzen Tag die Daten ziehen. Dafür haben wir die Kategorien nach Artikelanzahl in drei Teile gesplittet und per Access automatisch für die jeweiligen Unterkategorien Favoriten für baywotch generiert (da einige Kategorien zu Fehlermeldungen führen, da die Artikelanzahl zu groß ist).
Leider klappt dieses Vorhaben noch nicht zu 100%.
Unsere bisherigen Erkenntnisse ergaben, ähnlich wie bei Dir:
- DSL ist kein Engpaß
- sowohl CPU, RAM und Festplattengeschwindigkeit können die
Verarbeitung der Daten ausbremsen.

Ich melde mich, wenn es mir gelungen ist alle Daten pro Tag auszulesen, um dann zu beschreiben mit welcher Konfiguration das möglich ist.

Liebe Grüße aus Hamburg,
Thorsten
Borkumer
Beiträge: 1443
Registriert: 03.01.2004, 17:27
Wohnort: Borkum
Kontaktdaten:

Beitrag von Borkumer »

Hallo Chris und Thorsten!

Leider macht Ihr in Euren Beiträgen keine Zahlenangaben.

Wie viele Artikel je Std. sind bei Euch möglich?
Gruß

Tim
__________________________
XP Pro; SP3 (werde ohne Not auch nicht wechseln !!)
Chris
Beiträge: 37
Registriert: 22.10.2004, 21:19
Wohnort: Köln

Zwischenstand

Beitrag von Chris »

Hallo Tim,
leider kann ich noch keine verlässlichen quantitativen Angaben machen, ich beobachte das System noch.
Es hängt wohl wesentlich mit der Größe der .db3 zusammen. Auf meinem neuen System (nun mit Stripeset und 2GB RAM) braucht alleine das Selektieren der abzugleichenden Artikel (also Klick auf "Suche" und dann keine Einschränkungen treffen mit Ausnahme von "Abgleich offen") ca. 30 Minuten. Dabei ist mir derzeit nicht ganz klar, was oder wo der Flaschenhals ist: Festplatte, CPU oder Speicher. Das untersuche ich noch, dann melde ich mich aber.
Heute hatte ich auch ein "nicht genügend Arbeitsspeicher" beim Auswählen von vielen abzugleichenden Auktionen (ca. > 300.000). Und das obwohl der Systemmonitor noch richtig viel freien Platz anzeigt. Naja, die Jet-Engine von Access, das war schon eine ganz schöne Gemeinheit von Microsoft.
Hoffentlich wird die nächste Version auf einer SQL-Datenbank oder der MSDE arbeiten, dann ist das Ding auch optimierbar für Performance.

Grüße aus Köln

Chris
Chris
Beiträge: 37
Registriert: 22.10.2004, 21:19
Wohnort: Köln

empirische Daten

Beitrag von Chris »

Hallo Experten,
hier meine Testreihe ohne Anspruch auf Vollständigkeit oder gar Richtigkeit (ich bin Kaufmann und kein Informatiker :mrgreen: ):

Szenario: Riesige .db3 Datenbank (900.000 Artikel), davon 260.000 nicht abgeglichen. Aus dieser Selektion habe ich immer 517 Artikel ausgewählt (krumme Zahl, entspricht aber genau 25 * "Bild runter" bei der Selektion). Das Ergebnis:

10 Kanäle:
1 Minute : 167
2 Minuten: 332
3 Minuten: 493
insgesamt 3:13

20 Kanäle
1 Minute : 238
2 Minuten: 482
insgesamt: 2:09

25 Kanäle
1 Minute : 230
2 Minuten: 464
insgesamt: 2:14

30 Kanäle
1 Minute : 232
2 Minuten: 483
insgesamt: 2:09

35 Kanäle
17:13:45
1 Minute : 218
2 Minuten: 465
insgesamt: 2:14

40 Kanäle
17:10:05
1 Minute : 228
2 Minuten: 471
insgesamt: 2:21

Ergebnis für mich: Ich fahre mit 20 Kanälen. Wobei ich gemerkt habe, dass (außer bei 10 Kanälen) zwischendurch der Datenstrom immer mal wieder abreißt - T-DSL liefert also mehr gepackte Daten als BW verarbeiten kann.

Noch kurz was zu meiner Connectivity: Bin mit normalem T-DSL flat angebunden, werde aber zum November hin meinen Provider wechseln, habe dann ne statische IP und mehr Durchsatz (offentlich), was aber bei dieser Art von Anwendung egal sein sollte.

Ich merke nur, dass mein Festplatten-RAID gute Dienste leistet im Vergleich zur letzten Woche. Ich habe nun 2 sehr schnelle Festplatten mit je 37 GB an einem RAID-Controller zu einem "Stripeset" verbunden (ein logisches Laufwerk (Laufwerksbuchstabe) mit der Kapazität von 2 Festplatten- damit können Schreibvorgänge auf diesem "Laufwerk" doppelt so schnell ablaufen, da 2 Schreib-/Leseeinheiten vorhanden sind). Das bringt auch noch einmal viel Geschwindigkeitsgewinn beim Wegschaffen der Daten (und Access liest ja sehr viel auf den Festplatten rum).

Sollten weitere Fragen hierzu bestehen, so kontaktiert mich bitte. Ich werde probieren die Fragen so schnell und so gut wie es mir möglich ist zu beantworten. Aber vergesst nicht die eingangs geschriebenen Worte: Ich bin Kaufmann und brauche eigentlich nur die aus Baywotch rausfallenden Analysen. Aber dafür wird man auch gerne zum Hardware-Bastler...

Viele Grüße aus Köln

Chris
Borkumer
Beiträge: 1443
Registriert: 03.01.2004, 17:27
Wohnort: Borkum
Kontaktdaten:

Beitrag von Borkumer »

Hallo Chris!

Hatte im letzten Jahr (Sommer 2003) mal div. Tests gemacht mit dem ACCESS-"Union"-Befehl und bis zu 10 volle .DB3s miteinander verkettet.
Damit ist zwar nur ein Lesezugriff möglich aber immerhin waren bis zu 1.2 Mio (!) Datensätze in der Artikelliste aufgelistet. Der entscheidende Nachteil dieser Abfragen war die Geschwindigkeit. Bis zu 30 min. Wartezeit um ein Baywotch-Datenbankabfrage auszuführen sind nicht zumutbar. Damit war diese Möglichkeit die Limits der Access-DB zu umgehen kein Thema mehr.

Bleibt zu hoffen, dass in der V3 mehrere Alternativen von Datenbanken zum Einsatz kommen, um den verschiedenen User-Typen jeweils das richtige anzubieten. Ein Power-User kommt mit der Access-2000 nicht aus, ein normal-User braucht keine SQL-DB/Server.
Gruß

Tim
__________________________
XP Pro; SP3 (werde ohne Not auch nicht wechseln !!)
Chris
Beiträge: 37
Registriert: 22.10.2004, 21:19
Wohnort: Köln

Fragmentierungsgrad der Festplatte

Beitrag von Chris »

Und noch ein Nachtrag aus meinen empirischen Forschungen: Der Fragmentierungsgrad der Festplatte ist auch ein entscheidender Faktor. Ich bin leider berufsbedingt viel unterwegs und teilweise auch mehrere Tage. Auf meinen schnellen Festplatten liegen insgesamt 4 BW-Datenbanken. Wenn dann während meiner Abwesenheit ein /scanjobs läuft und die Datenbanken dann voll sind - dann ist auch die Festplatte reif für eine Defragmentierung. Danach habe ich ca. 40% Geschwindigkeitsgewinn beim Abgleichen von Auktionen.
Ich habe auf meinen schnellen Festplatten ein Unterverzeichnis "Baywotch" gemacht; das kopiere ich auf eine andere Festplatte, lösche anschließend die Verzeichnisse auf der schnellen Festplatte und kopiere das Verzeichnis da wieder hin. Geht schneller als jedes Defrag-Tool - jedoch nur, wenn ihr nur BW-Datenbanken da liegen habt und sonst keine anderen Verzeichnisse :mrgreen: .

Grüße

Chris
Benutzeravatar
ThoBo
Beiträge: 36
Registriert: 04.08.2004, 11:06

Beitrag von ThoBo »

Hallo nochmal,

auch ich habe jetzt einen Test fertig:

Konfiguration: P4 (HT) mit 3 GHZ, 1GB RAM und 200GB IDE-Platte sowie Hansenet DSL mit 1.024KB down.

Testergebnisse:
Ich habe ebenfalls - wie Chris - immer 517 Artikel ausgewählt - das Ergebnis:

30 Kanäle:
Dauer insgesamt für 517 Artikel 1:35

40 Kanäle:
Dauer insgesamt für 517 Artikel 1:31

45 Kanäle:
Dauer insgesamt für 517 Artikel 1:37

Anmerkung: Ich speichere weder die Bilder noch die Artikelbeschreibung, da ich inzwischen rd. 16 Mio Artikel abgleichen muss.

Nächste Woche wird ein neues Mainboard mit SATA-RAID on board sowie zwei WD Raptor à 74 GB als RAID 0 eingebaut dann sollte es noch ne Ecke schneller gehen.

Viele Grüße aus Hamburg,
Thorsten
Chris
Beiträge: 37
Registriert: 22.10.2004, 21:19
Wohnort: Köln

RAID0 = schneller?

Beitrag von Chris »

Nächste Woche wird ein neues Mainboard mit SATA-RAID on board sowie zwei WD Raptor à 74 GB als RAID 0 eingebaut dann sollte es noch ne Ecke schneller gehen.
Hallo,
ich habe gemerkt, dass die Hauptarbeit doch das HTMP-parsing ist und nicht die Festplatten sind. Verspreche dir vom SATA-RAID keine Wunder. Ich habe es auch (aber mit den 36er Raptors) - auch wegen SQL Server Datenbanken, die da noch laufen. Bei MS Access macht das nicht sooo viel aus.

Gruß aus Köln

Chris
methyst
Beiträge: 14
Registriert: 20.03.2004, 12:38

Beitrag von methyst »

ThoBo hat geschrieben:auch ich habe jetzt einen Test fertig:
Konfiguration: P4 (HT) mit 3 GHZ, 1GB RAM und 200GB IDE-Platte sowie Hansenet DSL mit 1.024KB down.

40 Kanäle:
Dauer insgesamt für 517 Artikel 1:31

Hmmm, auf den ersten Blick ist mein System vergleichbar (ebenfalls P4 3GHZ, 1GB RAM, aber zweimal S-ATA 120 GB im Raid 0 Verbund und Kabelinternetanschluss mit 2,1 Mbit down), trotzdem komme ich beim Abgleich gespeicherter Auktionen auf max. 230 Artikel pro Minute.

Getestet habe ich mit versch. Kanaleinstellungen und zu unterschiedlichen Uhrzeiten (Artikelbeschreibung und Bilder werden nicht gespeichert). Betriebssystem ist w2k Pro.

Hat jemand eine Idee wie ich den Datendurchsatz optimieren kann?
Antworten