<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LLM on SecretMine.de</title><link>https://secretmine.de/tags/llm/</link><description>Recent content in LLM on SecretMine.de</description><generator>Hugo -- gohugo.io</generator><language>de-DE</language><lastBuildDate>Fri, 10 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://secretmine.de/tags/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>Nvidia Tesla P4</title><link>https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/</link><pubDate>Fri, 10 Apr 2026 00:00:00 +0000</pubDate><guid>https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/</guid><description>&lt;p&gt;Ich experimentiere schon lange mit Ollama als Hosting-Plattform für LLMs. Bisher hatte ich dafür eine alte Nvidia GTX 1050 Ti mit 4GB, das reicht aber nur für kleine Modelle.&lt;/p&gt;
&lt;h2 id="auswahl-einer-gpu"&gt;Auswahl einer GPU
&lt;/h2&gt;&lt;p&gt;Mein Ziel war wie üblich eine gute Kombination aus Preis, Leistung und Stromverbrauch. Gebrauchte Datacenter-GPUs aus der Pascal-Reihe waren hierbei am interessantesten, da diese alt genug sind um im Preis deutlich gefallen zu sein und trotzdem CUDA-Versionen unterstützen, die aktuell genug sind, um eine gute Softwareunterstützung zu haben. 8GB VRAM waren mein Minimum, da sich damit schon viele der kleineren Modelle vollständig auf der GPU und viele mittlere Modelle zumindest zu einem guten Teil auf der GPU ausführen.&lt;/p&gt;
&lt;p&gt;Die Tesla P4 und die Tesla P40 fand ich hierbei am interessantesten. Die P40 hat 24GB VRAM, die P4 hat 8GB. Auch in der Rechenleistung unterscheiden sich die beiden Karten nennenswert. Da ich großen Wert auf einen niedrigen Energieverbrauch lege, habe ich mich für die Tesla P4 entschieden.&lt;/p&gt;
&lt;p&gt;Bestellt habe ich eine gebrauchte Datacenter-Karte, diese kam dann auch nach kurzer Zeit an.&lt;/p&gt;
&lt;p&gt;&lt;img src="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/packaging.jpg"
width="2000"
height="1468"
srcset="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/packaging_hu_1901f876d01df85b.jpg 480w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/packaging_hu_885924f247799c16.jpg 1024w"
loading="lazy"
alt="Die Nvidia Tesla P4"
class="gallery-image"
data-flex-grow="136"
data-flex-basis="326px"
&gt; &lt;img src="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/front.jpg"
width="2000"
height="1305"
srcset="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/front_hu_74f52cbac34ce9d1.jpg 480w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/front_hu_3b9980f8110617f4.jpg 1024w"
loading="lazy"
alt="Vorderseite"
class="gallery-image"
data-flex-grow="153"
data-flex-basis="367px"
&gt; &lt;img src="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/back.jpg"
width="2000"
height="1336"
srcset="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/back_hu_6abdaf5b7a0c0b0a.jpg 480w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/back_hu_fd94bfc51508ecf3.jpg 1024w"
loading="lazy"
alt="Rückseite"
class="gallery-image"
data-flex-grow="149"
data-flex-basis="359px"
&gt;&lt;/p&gt;
&lt;h2 id="kühlung"&gt;Kühlung
&lt;/h2&gt;&lt;p&gt;Es handelt sich bei der Tesla P4 um eine Karte, die für den Einsatz in Servern gebaut ist. Daher hat diese keine eigenen Lüfter, sondern ist auf Airflow vom Gehäuse angewiesen.&lt;/p&gt;
&lt;p&gt;Da ich die GPU allerdings nicht in einem klassischen Server, sondern in einem Desktop-Case verwenden möchte, musste ich hier etwas kreativ werden. Es gibt Adapter als 3D-Modell, mit denen man einen 40mm- bzw. 80mm-Lüfter für den Luftstrom durch die GPU nutzen kann. Das habe ich ausprobiert, allerdings habe ich keine passenden Lüfter, die mit dem Luftwiderstand vernünftig zurecht kommen.&lt;/p&gt;
&lt;p&gt;Daher wurde es eine etwas andere Lösung. Ich habe einfach zwei 40mm-Lüfter mit Kabelbindern auf der GPU platziert, vorher habe ich die Abdeckung entfernt und damit die Kühlrippen offengelegt. Das funktioniert tatsächlich brauchbar.&lt;/p&gt;
&lt;p&gt;&lt;img src="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/cooling.jpg"
width="2000"
height="1465"
srcset="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/cooling_hu_8cd464946cc6e2f3.jpg 480w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/cooling_hu_b823250b1b8088de.jpg 1024w"
loading="lazy"
alt="Meine Kühllösung"
class="gallery-image"
data-flex-grow="136"
data-flex-basis="327px"
&gt;&lt;/p&gt;
&lt;p&gt;Ich hatte temporär einen 120mm-Lüfter ausprobiert, der hatte noch eine bessere Kühlleistung, passte aber natürlich nicht ins Gehäuse.&lt;/p&gt;
&lt;p&gt;Von daher bleibt es bis auf Weiteres bei 2x 40mm-Lüftern für die GPU.&lt;/p&gt;
&lt;h2 id="performance"&gt;Performance
&lt;/h2&gt;&lt;p&gt;&lt;img src="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/p4-vs-1050ti.jpg"
width="2000"
height="1876"
srcset="https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/p4-vs-1050ti_hu_5830127b6b867fa0.jpg 480w, https://secretmine.de/blog/2026/2026-04-10-nvidia-tesla-p4/images/p4-vs-1050ti_hu_9c263c95b1f90aa9.jpg 1024w"
loading="lazy"
alt="Tesla P4 neben GTX 1050 Ti"
class="gallery-image"
data-flex-grow="106"
data-flex-basis="255px"
&gt;&lt;/p&gt;
&lt;p&gt;Im Vergleich zur GTX 1050 Ti merkt man den doppelten VRAM schon deutlich.&lt;/p&gt;
&lt;p&gt;Die Performance gefällt mir soweit, auch wenn die Geschwindigkeit natürlich deutlich abfällt, sobald das Modell nicht mehr vollständig in den VRAM der GPU passt. Ich benutze weiterhin Ollama als Runtime, da ich nach Tests mit anderen Runtimes wie llama.cpp die Benutzerfreundlichkeit von Ollama bevorzuge.&lt;/p&gt;
&lt;h2 id="weitere-anwendungsfälle"&gt;Weitere Anwendungsfälle
&lt;/h2&gt;&lt;p&gt;Die P4 hat auch einen Hardware-Encoder für H.264 und H.265, damit kann ich auch gut altes Videomaterial (z.B. Aufnahmen von Spielen) gut komprimieren. Das geht aber mit der GTX 1050 Ti genauso gut, da der Hardware-Encoder am Ende der selbe ist.&lt;/p&gt;
&lt;h2 id="fazit"&gt;Fazit
&lt;/h2&gt;&lt;p&gt;Für die Nutzung mit Ollama ist die P4 brauchbar, die 8GB VRAM schränken allerdings spürbar ein. Trotzdem bereue ich den Kauf nicht und bin zufrieden, ich war mir dieser Einschränkungen von vornherein bewusst.&lt;/p&gt;</description></item></channel></rss>