<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>NVIDIA on SecretMine.de</title><link>https://secretmine.de/tags/nvidia/</link><description>Recent content in NVIDIA on SecretMine.de</description><generator>Hugo -- gohugo.io</generator><language>de-DE</language><lastBuildDate>Sun, 14 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://secretmine.de/tags/nvidia/index.xml" rel="self" type="application/rss+xml"/><item><title>Mehr VRAM bei NVIDIA-GPUs (Workstation/Server) nutzbar machen</title><link>https://secretmine.de/blog/2026/2026-06-14-nvidia-gpus-mehr-vram/</link><pubDate>Sun, 14 Jun 2026 00:00:00 +0000</pubDate><guid>https://secretmine.de/blog/2026/2026-06-14-nvidia-gpus-mehr-vram/</guid><description>&lt;p&gt;Ich habe nun seit einiger Zeit eine &lt;a class="link" href="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/" &gt;Nvidia Tesla P4&lt;/a&gt;. Diese hat 8 GB VRAM.&lt;/p&gt;
&lt;p&gt;Mir war schon mehrfach aufgefallen, dass ich nur ca 7,5 GB davon nutzen konnte, habe das ganze aber einfach auf die üblichen Umrechnungsfaktoren geschoben.&lt;/p&gt;
&lt;p&gt;Gestern habe ich dann einmal genauer hingesehen.&lt;/p&gt;
&lt;h2 id="ecc-bei-gpus"&gt;ECC bei GPUs
&lt;/h2&gt;&lt;p&gt;Nicht nur für den normalen Systemspeicher, sondern auch bei GPUs gibt es ECC (Fehlererkennung und -korrektur für Speicher). Das ist bei den Teslas standardmäßig aktiv, da diese Karten ja für professionelle Nutzung gedacht sind. Dadurch wird allerdings ein Teil des GPU-Speichers für die dafür notwendigen Informationen reserviert, auch die GPU-Leistung sinkt dadurch minimal (das Internet redet von grob 10 %, getestet habe ich es selbst nicht).&lt;/p&gt;
&lt;p&gt;Das ist für maximale Verfügbarkeit und Verhinderung von Fehlern natürlich sinnvoll, für Zuhause und generell unkritische Anwendungen aber nicht notwendig.&lt;/p&gt;
&lt;h2 id="ecc-deaktivieren"&gt;ECC deaktivieren
&lt;/h2&gt;&lt;p&gt;Nach Installation des Treibers steht das Tool &lt;code&gt;nvidia-smi&lt;/code&gt; für Monitoring und Konfiguration der GPU zur Verfügung. Darüber lässt sich auch ECC konfigurieren.&lt;/p&gt;
&lt;p&gt;Status auslesen:&lt;/p&gt;
&lt;p&gt;&lt;code&gt;nvidia-smi -q&lt;/code&gt;&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;span class="lnt"&gt;4
&lt;/span&gt;&lt;span class="lnt"&gt;5
&lt;/span&gt;&lt;span class="lnt"&gt;6
&lt;/span&gt;&lt;span class="lnt"&gt;7
&lt;/span&gt;&lt;span class="lnt"&gt;8
&lt;/span&gt;&lt;span class="lnt"&gt;9
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Attached GPUs : 1
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;GPU 00000000:01:00.0
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Product Name : Tesla P4
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Product Brand : Tesla
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Product Architecture : Pascal
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[...]
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ECC Mode
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Current : Enabled
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Pending : Enabled
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Der ECC-Modus lässt sich nun einfach mittels &lt;code&gt;nvidia-smi --ecc-config=0&lt;/code&gt; deaktivieren.&lt;/p&gt;
&lt;p&gt;Nach einem Reboot waren bei mir damit statt vorher 7680 MiB die vollen 8192 MiB verfügbar. Das ist kein riesiger Unterschied, aber reduziert bei größeren Modellen den Anteil, der auf der CPU laufen muss.&lt;/p&gt;</description></item><item><title>Nvidia Tesla P4</title><link>https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/</link><pubDate>Fri, 10 Apr 2026 00:00:00 +0000</pubDate><guid>https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/</guid><description>&lt;p&gt;Ich experimentiere schon lange mit Ollama als Hosting-Plattform für LLMs. Bisher hatte ich dafür eine alte Nvidia GTX 1050 Ti mit 4GB, das reicht aber nur für kleine Modelle.&lt;/p&gt;
&lt;h2 id="auswahl-einer-gpu"&gt;Auswahl einer GPU
&lt;/h2&gt;&lt;p&gt;Mein Ziel war wie üblich eine gute Kombination aus Preis, Leistung und Stromverbrauch. Gebrauchte Datacenter-GPUs aus der Pascal-Reihe waren hierbei am interessantesten, da diese alt genug sind um im Preis deutlich gefallen zu sein und trotzdem CUDA-Versionen unterstützen, die aktuell genug sind, um eine gute Softwareunterstützung zu haben. 8GB VRAM waren mein Minimum, da sich damit schon viele der kleineren Modelle vollständig auf der GPU und viele mittlere Modelle zumindest zu einem guten Teil auf der GPU ausführen.&lt;/p&gt;
&lt;p&gt;Die Tesla P4 und die Tesla P40 fand ich hierbei am interessantesten. Die P40 hat 24GB VRAM, die P4 hat 8GB. Auch in der Rechenleistung unterscheiden sich die beiden Karten nennenswert. Da ich großen Wert auf einen niedrigen Energieverbrauch lege, habe ich mich für die Tesla P4 entschieden.&lt;/p&gt;
&lt;p&gt;Bestellt habe ich eine gebrauchte Datacenter-Karte, diese kam dann auch nach kurzer Zeit an.&lt;/p&gt;
&lt;p&gt;&lt;img alt="Die Nvidia Tesla P4" class="gallery-image" data-flex-basis="326px" data-flex-grow="136" height="1468" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/packaging.jpg" srcset="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/packaging_hu_fdef91378079bf43.jpg 800w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/packaging_hu_2c7ed1ad1c4da30e.jpg 1600w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/packaging.jpg 2000w" width="2000"&gt; &lt;img alt="Vorderseite" class="gallery-image" data-flex-basis="367px" data-flex-grow="153" height="1305" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/front.jpg" srcset="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/front_hu_23c4a55254de7390.jpg 800w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/front_hu_7c07f2867ac2c954.jpg 1600w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/front.jpg 2000w" width="2000"&gt; &lt;img alt="Rückseite" class="gallery-image" data-flex-basis="359px" data-flex-grow="149" height="1336" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/back.jpg" srcset="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/back_hu_b8613961d5f71614.jpg 800w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/back_hu_bd28667b075d4d5.jpg 1600w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/back.jpg 2000w" width="2000"&gt;&lt;/p&gt;
&lt;h2 id="kühlung"&gt;Kühlung
&lt;/h2&gt;&lt;p&gt;Es handelt sich bei der Tesla P4 um eine Karte, die für den Einsatz in Servern gebaut ist. Daher hat diese keine eigenen Lüfter, sondern ist auf Airflow vom Gehäuse angewiesen.&lt;/p&gt;
&lt;p&gt;Da ich die GPU allerdings nicht in einem klassischen Server, sondern in einem Desktop-Case verwenden möchte, musste ich hier etwas kreativ werden. Es gibt Adapter als 3D-Modell, mit denen man einen 40mm- bzw. 80mm-Lüfter für den Luftstrom durch die GPU nutzen kann. Das habe ich ausprobiert, allerdings habe ich keine passenden Lüfter, die mit dem Luftwiderstand vernünftig zurecht kommen.&lt;/p&gt;
&lt;p&gt;Daher wurde es eine etwas andere Lösung. Ich habe einfach zwei 40mm-Lüfter mit Kabelbindern auf der GPU platziert, vorher habe ich die Abdeckung entfernt und damit die Kühlrippen offengelegt. Das funktioniert tatsächlich brauchbar.&lt;/p&gt;
&lt;p&gt;&lt;img alt="Meine Kühllösung" class="gallery-image" data-flex-basis="327px" data-flex-grow="136" height="1465" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/cooling.jpg" srcset="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/cooling_hu_98d1eab2173248ba.jpg 800w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/cooling_hu_fc74624d34845ee4.jpg 1600w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/cooling.jpg 2000w" width="2000"&gt;&lt;/p&gt;
&lt;p&gt;Ich hatte temporär einen 120mm-Lüfter ausprobiert, der hatte noch eine bessere Kühlleistung, passte aber natürlich nicht ins Gehäuse.&lt;/p&gt;
&lt;p&gt;Von daher bleibt es bis auf Weiteres bei 2x 40mm-Lüftern für die GPU.&lt;/p&gt;
&lt;h2 id="performance"&gt;Performance
&lt;/h2&gt;&lt;p&gt;&lt;img alt="Tesla P4 neben GTX 1050 Ti" class="gallery-image" data-flex-basis="255px" data-flex-grow="106" height="1876" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/p4-vs-1050ti.jpg" srcset="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/p4-vs-1050ti_hu_98fe836fc8d34a30.jpg 800w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/p4-vs-1050ti_hu_72492fc3d3f54a50.jpg 1600w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/p4-vs-1050ti.jpg 2000w" width="2000"&gt;&lt;/p&gt;
&lt;p&gt;Im Vergleich zur GTX 1050 Ti merkt man den doppelten VRAM schon deutlich.&lt;/p&gt;
&lt;p&gt;Die Performance gefällt mir soweit, auch wenn die Geschwindigkeit natürlich deutlich abfällt, sobald das Modell nicht mehr vollständig in den VRAM der GPU passt. Ich benutze weiterhin Ollama als Runtime, da ich nach Tests mit anderen Runtimes wie llama.cpp die Benutzerfreundlichkeit von Ollama bevorzuge.&lt;/p&gt;
&lt;h2 id="weitere-anwendungsfälle"&gt;Weitere Anwendungsfälle
&lt;/h2&gt;&lt;p&gt;Die P4 hat auch einen Hardware-Encoder für H.264 und H.265, damit kann ich auch gut altes Videomaterial (z.B. Aufnahmen von Spielen) gut komprimieren. Das geht aber mit der GTX 1050 Ti genauso gut, da der Hardware-Encoder am Ende der selbe ist.&lt;/p&gt;
&lt;h2 id="fazit"&gt;Fazit
&lt;/h2&gt;&lt;p&gt;Für die Nutzung mit Ollama ist die P4 brauchbar, die 8GB VRAM schränken allerdings spürbar ein. Trotzdem bereue ich den Kauf nicht und bin zufrieden, ich war mir dieser Einschränkungen von vornherein bewusst.&lt;/p&gt;</description></item></channel></rss>